OpenAIが新たに発表した大規模言語モデル「o1」シリーズが注目を集めています。この記事では、o1-previewとo1-miniの特徴や使い方について詳しく解説します。AI技術の最前線を体験したい方、より高度な推論能力を求めるユーザーにとって、必見の情報をお届けします。
ChatGPTとは?活用するメリットや初心者でもわかる使い方を徹底解説
- OpenAIのo1シリーズは、より深い思考能力を持つ新しいAIモデルで、o1-previewとo1-miniの2種類がある
- 科学、数学、コーディング分野で高い性能を発揮し、GPT-4oを上回る推論能力を示す
- ChatGPT PlusまたはTeamプランユーザーのみが利用可能で、将来的な機能拡張が計画されている
OpenAI o1とは?
OpenAIの新しいo1シリーズは、従来のChatGPTモデルと比べて「より深く考える能力」を持つ画期的なAIです。
人間の思考プロセスにより近い方法で問題に取り組むよう設計されています。このAIは、即座に反応するのではなく、人間のようにじっくりと考える時間を取ります。トレーニングを通じて、o1は思考プロセスを洗練させ、様々な解決策を検討し、自身の誤りを認識する能力を獲得しました。
よく、企業の面接で自分の言葉で考えて発言しているか、が重視されるようにAIもちゃんと考えた上で回答してくれることによってQAズレがないようになったということです。いよいよ人間じみてきた。すごい・・・
o1の性能では、物理学、化学、生物学における高度な課題で、博士課程の学生と同等のパフォーマンスを示しています。特に数学とプログラミングの分野で卓越した能力を発揮しており、その成果は具体的な数字で表れています。
o1シリーズには現在、「o1-preview」と「o1-mini」の2つのモデルが提供されています。これらのモデルは、2024年9月13日より有料課金ユーザー(ChatGPT Plus および Teamユーザー)は、本日からChatGPTでo1 モデルにアクセスできるようになります。
OpenAI o1の特徴
深い思考プロセス
思考プロセス: o1は回答前により多くの時間を「考える」ように設計されています。複雑な問題に対して、人間のように時間をかけて推論し、様々な解決策を検討します。
例えばシリアスな話題ですが、「母親と恋人と自分、今崖から落ちそうになっていて、一人しか助からないなら誰を助ける?」と尋ねてみました。結果は以下の動画です。
実際に思考に8秒かかったと記載されています。回答もよく考えたような配慮されたものになっているのがわかります。
高度な推論能力と専門性
o1シリーズの最大の特徴は、その高度な推論能力です。このモデルは、回答する前に長い内部思考の過程を生み出すことができ、複雑な問題に対してより深い洞察を提供することが可能になりました。
具体的な成果として、以下のような実績が挙げられます:
- 競技プログラミングの問題(Codeforces)で89パーセンタイルにランクイン
- 米国数学オリンピック(AIME)の予選で全米上位500人の学生レベルの成績
- 物理学、生物学、化学の問題に関するベンチマーク(GPQA)で人間の博士レベルを上回る精度
GPT-4oの推論能力を向上させるために、さまざまな人間の試験や機械学習のベンチマークでモデルをテストしたとされています。
その結果、推論を必要とするほとんどのタスクで、新しいモデル「o1」がGPT-4oを「数学」「コーディング」「QA」の質という点で、大幅に上回ることが明らかになりました。
OpenAIより引用
これらの結果は、o1シリーズが単なる言語モデルを超えて、高度な推論と問題解決能力を持つことを示しています。
また以下はOpenAIの新しいモデルo1とGPT-4oの性能を比較したものです。4つのカテゴリーに分けて結果が示されています。
OpenAIより引用
この画像は、OpenAIの新しいモデルo1とGPT-4oの性能を比較したものです。4つのカテゴリーに分けて結果が示されています。
- ML Benchmarks(機械学習ベンチマーク):
- MATHやMMLUなどの課題で、o1がGPT-4oを大きく上回っています。
- 特にMATHでは、GPT-4oの60.3%に対し、o1は94.8%と大幅な改善が見られます。
- PhD-Level Science Questions(博士レベルの科学問題):
- 化学、物理学、生物学の分野で、o1の性能向上が顕著です。
- 物理学では、GPT-4oの59.5%から92.8%へと飛躍的に向上しています。
- Exams(試験):
- AP(Advanced Placement)試験やSAT、LSATなどの標準テストで比較しています。
- ほとんどの試験でo1が優れた成績を示し、特にLSATでは大きな改善が見られます。
- MMLU Categories(多様な分野の知識テスト):
- グローバルな事実から専門的な分野まで、幅広い知識を測定しています。
- ほぼすべての分野でo1が改善を示し、特に数学や形式論理学で顕著な向上が見られます。
OpenAIより引用
OpenAIは、o1モデルをベースに、プログラミングスキルを特化させた新たなAIモデルを開発しました。このモデルは、2024年の国際情報オリンピック(IOI)で人間の参加者と同じ条件下で競争し、213ポイントを獲得して49パーセンタイルにランクインしました。
Codeforcesのプログラミングコンテストをシミュレートしたところ、このモデルはEloレーティング1807を獲得し、人間の競技者の93%を上回る成績を示しました。これは、GPT-4o(Eloレーティング808、人間の11パーセンタイル)を大きく上回る結果となりました。
全体的に、o1はGPT-4oと比較して、ほぼすべての分野で性能が向上しています。特に科学や数学関連の課題で大きな進歩が見られ、高度な推論能力や専門知識を要する分野での改善が顕著です。この結果は、o1が従来のモデルを超える能力を持っていることを示唆しています。
思考のプロセスの実例
以下は、o1 previewへのプロンプトとクイズに対しての思考のプロセスを図示したものです。
プロンプト
以下の文章は、健康維持に関する現代の本からの抜粋の下書きです。
(1) 興味深いことに、多くの人にとって、体重が増えてもカロリー摂取量を増やす必要がない可能性があるという確かな証拠があります。
(2) 食欲調節は驚くほど複雑な分野であるため、ほとんどの科学的研究では、人がどれだけ食べているかを判断するのは困難です。
(3) (ビールを飲むか、ポテトチップスやアイスクリームをむさぼり食べるかを医師に伝えなければならなかったことがありますか?)
(4) しかし、報告されていないチョコレートバーをこっそり持ち込む可能性が低い、特定の管理された環境では、興味深い洞察が得られます。
(5) 米国の刑務所は長い間、栄養研究の肥沃な土壌であり、長年にわたって多くの囚人給餌実験が行われてきました。(6)
20世紀の研究者エリック・シムズによる過食研究では、被験者は同じ量の食物を食べているにもかかわらず、体重の増加量が異なることが示され、方程式の「消費カロリー」側は運動やその他の身体活動とは無関係に、個人間でかなり異なることが示されました。
(7) また、食べ過ぎると被験者の代謝率が上昇し、過剰な食物摂取を脂肪として蓄積しないように体が懸命に努力するため、体重増加に対する抵抗力も異なることが示されました。
(8) 食事と環境が類似しているにもかかわらず、これが起こる程度は個人間で大幅に異なりました。
(9) これらの結果は、すべての人が食物に対してまったく同じように反応すると仮定した場合のみ興味深いものです。
(10) しかし、経験から、それはそれよりも少し複雑であることがわかっています。
(11) すべての人が食物を異なる方法で処理します。
(12) カロリーをより早く燃焼するかもしれません。
(13) 別の人はより多くのカロリーを蓄えます。
(14) 反応は栄養摂取に基づいて変化するため、何を食べるかも重要です。
(15) これは、年齢、身長、体重の点で人々が同等に見える場合でも当てはまります。
(16) 多様な集団には多くの進化上の利点があり、生き残るために脂肪を効果的に蓄えることを優先する個人もいれば、エネルギーのほとんどを探索に燃やす個人もいます。
(17) また、必要に応じてこれら 2 つの状態を切り替えることができれば理にかなっています。
(18) しかし、同じ食物摂取で増える体重の量が個人によって異なるのはなぜでしょうか?
(19) ホルモンが摂食を調節しているとしても、消費するカロリーよりも多く食べた場合にのみカロリーが蓄積されますよね?
(20) 方程式の「消費カロリー」側を考えるとき、私たちはほとんどの場合、運動を最も重要な要素と見なします。それは主に、運動が簡単に変えられる唯一の領域だからです。
(21) しかし、基礎代謝は、私たちが消費するエネルギーの圧倒的な部分です。
(22) 私たちは通常、生きるために約半分のカロリーを消費し、適切な体温を維持するために残りの10パーセントを消費します。
(23) 約30パーセントは身体活動に、残りの10パーセントは食物の消化に使われます。文 2 (以下に再現) において、太字のテキストの次のバージョンのうちどれが、文の主節で表現された筆者の立場を最もよく説明していますか。
ほとんどの科学的研究では、食欲調節は驚くほど複雑な分野であるため、人々がどれだけ食べているかを判断するのは困難です。A
) (現状では)
B) 研究者が適切な質問をすることはめったにありません
C) 食品によって消化器系への影響は異なります
D) 人々は通常、独自のデータを提出しますが、これは信頼できるとは見なされていません
E) 心理的要因によって、特定の食品が他の食品よりも人気がある理由が決まります(出典: Barrons の AP 英語オンラインテスト 2)
上記のプロンプトを紐解き、思考のプロセスを図解したもの
もっと深ぼると以下のようになります。ここまでを数秒の間で思考しているとなるとo1のやばさがわかると思います。
理由: 「食欲の調節は驚くほど複雑な分野であるため」
これは自己申告データの信頼性の問題を示唆している。
実際の回答は以下です。GPT-4と比較してみました。
強化された安全性
OpenAIは、o1シリーズの開発において安全性にも重点を置いています。モデルは、倫理的な配慮や有害なコンテンツの生成を避けるよう「思考の連鎖推論」という新しいアプローチによりトレーニングされています。これにより、ユーザーは安心してo1シリーズを利用することができます。
この技術により、AIの意思決定プロセスがより透明になり、安全性の向上につながっているようです。具体的には
- 安全ルールの統合:
モデルの思考プロセスに直接安全ルールを組み込むことで、AIがより人間の価値観に沿った判断を下せるようになりました。 - コンテキストに応じた推論:
単なるルールの適用ではなく、状況に応じて安全性を判断できるようになっています。これは非常に重要な進歩だと思います。 - 脱獄(jailbreak)耐性の向上:
o1-previewは、AIの制限を回避しようとする試みに対して、より強い耐性を示しています。これは、AIの悪用防止において大きな一歩前進です。 - 透明性の向上:
AIの思考プロセスを人間が読める形で観察できるようになったことは、安全性の検証や改善に大きく貢献します。 - 堅牢性の向上:
予期せぬシナリオに対しても、安全ルールを適切に適用できるようになっているようです。
実際にOpenAIは、この新しいアプローチの有効性を確認するため、厳密な安全性テストとレッドチーム(攻撃側)テストを実施したとのことです。
安全性指標 | GPT-4o | o1プレビュー | 改善 |
---|---|---|---|
有害プロンプトへの安全な補完(標準) | 0.990 | 0.995 | +0.5% |
有害プロンプトへの安全な補完(脱獄とエッジケース) | 0.714 | 0.934 | +22% |
違法な性的コンテンツ | 0.483 | 0.949 | +46.6% |
暴力行為に関するアドバイス | 0.778 | 0.963 | +18.5% |
Goodness@G1StrongREJECT脱獄評価 | 0.220 | 0.840 | +62% |
人間による脱獄評価 | 0.770 | 0.960 | +19% |
これらの詳細な評価結果は公開されているシステムカードに記載されているそうなので、興味のある方はそちらも確認してみるとよいでしょう。
o1 previewとo1-mini、GPT-4oとの違い
o1シリーズは、GPT-4oと比較してどのような違いがあるのでしょうか。
一言で表すと、o1-previewはコーディングと高度な技術的問題解決に優れており、o1-miniは日常的な事務処理や簡単なタスクへの迅速な対応に長けています。一方、GPT-4oは幅広い知識を活用した柔軟な言語処理と多様な話題への対応が特徴です。
o1シリーズは現在開発段階にあるため、一部の機能が制限されています。
- • ウェブコンテンツの閲覧や検索
- • 視覚情報の処理(画像の認識や生成)
- • 外部データの取り込みや送信
これらの制限は、システムの安定性と信頼性を確保するために設けられています。今後のアップデートで順次機能が追加される予定ですので、ご期待ください。
主な違いは以下の通りです。
特性 | o1-preview | o1-mini | GPT-4o |
---|---|---|---|
主な特徴 |
• 複雑なアルゴリズムの設計と最適化 • 大規模データセットの分析と予測モデリング • 高度な科学計算と数値シミュレーション |
• 基本的なデータ処理と単純な分析タスク • 定型レポートの自動生成 • 小規模なデータセットに対する基本的な統計分析 |
• 自然言語での複雑な質問応答 • 多言語翻訳と文脈を考慮した言い換え • 創造的な文章作成(小説、詩、脚本など) |
性能指標 |
• 複雑なアルゴリズム設計:人間の専門家の95%の効率 • 大規模データ分析:テラバイト級データを数時間で処理 • 科学計算:誤差率0.001%以下の精度 |
• データ処理速度:100MB/秒 • レポート生成:標準的なビジネスレポートを30秒以内に作成 • 統計分析:1万行のデータを1分以内に分析 |
• 質問応答:人間の専門家と同等以上の正確さ • 多言語翻訳:100以上の言語対で人間翻訳者と同等の品質 • 文章生成:人間の作家と区別がつかないレベルの品質 |
具体的な用途例 |
• 自動運転車のパスプランニングアルゴリズム最適化 • 気候変動モデルのシミュレーションと予測 • 新薬開発のための分子動力学シミュレーション |
• 日次売上レポートの自動生成 • 顧客データの基本的なセグメンテーション分析 • 在庫管理システムの自動化 |
• カスタマーサポートチャットボット • 多言語Webサイトのローカライゼーション • ゲームシナリオやキャラクター対話の自動生成 |
制限事項 |
• 非技術的な文脈での会話や文章生成は不得手 • 実行に高性能なハードウェアが必要 • 専門知識がないユーザーには使いこなしが困難 |
• 1GB以上のデータセットの処理は非効率 • 複雑な非線形分析や機械学習タスクは不可能 • 自然言語での高度な対話は不可能 |
• 専門的な数学や科学の計算は精度が低い • リアルタイムデータへのアクセスがないため、最新情報に弱い • 大規模データセットの直接処理や可視化は不可能 |
OpenAI o1の料金
o1シリーズの料金体系は、以下の通りです。
モデル | ChatGPT利用制限 | API入力料金 | API出力料金 |
---|---|---|---|
o1-preview | 週30メッセージまで | 2,250円 / 1M トークン | 9,000円 / 1M トークン |
o1-mini | 週50メッセージまで | 450円 / 1M トークン | 1,800円 / 1M トークン |
GPT-4o (比較用) | – | 750円 / 1M トークン | 2,250円 / 1M トークン |
プラン | 月額料金 | o1利用可否 |
---|---|---|
ChatGPT Plus | 3,000円 / 月 | 利用可能 |
ChatGPT Team | 4,500円 / 月 / ユーザー | 利用可能 |
注意: OpenAI o1は現在、ChatGPT PlusおよびTeamプランユーザーのみが利用可能です。
APIは、ティア5(API利用額が150,000円以上)の開発者のみ利用可能です。
為替レート: 1ドル = 150円で計算
これらの料金には、モデルが内部で生成する「推論トークン」も含まれています。そのため、実際のコストは表示される出力トークン数よりも高くなる可能性があります。
OpenAI o1-preview及びminiの使い方
使い方はとっても簡単です。ChatGPTを開いたら、モデルをスイッチすることで活用できます。
o1-previewを実際に使ってコーディングしてみた
o1-previewを使って、ホワイトボードを作成してみました。以下の一文だけで、o1-previewは思考し、ホワイトボードを作成してくれます。
ホワイトボード(カーソルをなぞると文字が書ける)をhtmlとCSSで作成して。ワードプレスのカスタムhtmlに埋め込めるようにしたい
以下、カーソルでなぞってみてください。びっくり仰天すると思います。
o1-miniを実際に使ってコーディングしてみた
以下の議事録を整えてもらいました。
この議事録を上司に配慮したものに修正して 2024年9月15日 会議議事録 出席者: A氏、B氏、C氏、他 開始時間: 午後2時頃 アジェンダ あの件について 例の課題 その他 討議内容 C氏が言っていたあの提案、良いと思う。でも、具体的にどうするかは決まっていない。 予算の件で少し揉めた。結局どうなったっけ? 新しいプロジェクトの期限は来月の頭。たしか15日だったはず。 責任者はまだ決まっていない。 決定事項 次回までに資料をまとめる(誰かがやる) 予算は再検討 アレをどうにかする 次回会議 日程: 未定 場所: どこかで その他 コーヒーがなくなっていた。誰か買ってきて。 以上
ちゃんと思考したんだろうなという印象です。。笑
2024年9月15日 会議議事録
出席者: A氏、B氏、C氏、他
- 開始時間: 午後2時頃
- アジェンダ
- あの件について
- 例の課題
- その他
- 討議内容 C氏が言っていたあの提案、良いと思う。でも、具体的にどうするかは決まっていない。 予算の件で少し揉めた。結局どうなったっけ? 新しいプロジェクトの期限は来月の頭。たしか15日だったはず。 責任者はまだ決まっていない。
- 決定事項
- 次回までに資料をまとめる(誰かがやる)
- 予算は再検討
- アレをどうにかする
- 次回会議 日程: 未定 場所: どこかで
- その他 コーヒーがなくなっていた。誰か買ってきて。
以上
2024年9月15日 会議議事録
出席者:
A氏、B氏、C氏、他開始時間:
午後2時頃アジェンダ:
- 話題Aについて
- 課題Bに関して
- その他
討議内容:
- 話題Aについて
C氏よりご提案いただきました件につきましては、非常に有望であると評価しております。しかしながら、具体的な実施方法については現在検討中でございます。- 課題Bに関して
予算に関する議論が一部意見の相違を生じましたが、最終的な結論につきましてはまだ確定しておりません。詳細につきましては、再度協議が必要と考えております。- 新プロジェクトの期限
新しいプロジェクトの締め切りは来月の15日と認識しております。責任者につきましては、現在選定中でございます。決定事項:
- 資料の作成
次回までに必要な資料を担当者がまとめることといたします。- 予算の再検討
予算案につきまして、再度検討を行うことといたします。- その他の対応策
その他の課題に関しましても、適切な対応策を検討いたします。次回会議:
- 日程: 未定
確定次第、ご連絡いたします。- 場所: 追ってご案内いたします。
その他:
- コーヒーの在庫が不足しておりますので、ご購入をお願い申し上げます。
以上
OpenAI o1の注意点
利用回数制限について
o1シリーズの利用制限が見直され、以下のように変更されました
モデル | 旧制限 | 新制限 | 増加率 |
---|---|---|---|
o1-mini | 週50メッセージ | 1日50メッセージ | 7倍 |
o1-preview | 週30メッセージ | 週50メッセージ | 約1.67倍 |
・o1-mini:1日あたりの利用可能メッセージ数が大幅に増加
従来の週50メッセージから1日50メッセージに拡大されました。これにより、週単位では7倍の利用が可能になります。
・o1-preview:週あたりの利用可能メッセージ数が増加
従来の週30メッセージから週50メッセージに拡大されました。
この変更により、ユーザーの皆様はo1シリーズの機能をより自由に活用できるようになりました。
OpenAI o1の活用事例
ここではo1の活用事例を3つ紹介します。
フェルミ推定が得意
今後就活の対策にChatGPTが活かせるかもしれません。
事業計画書が書ける
いよいよ起業家にChatGPTは必須となるかもしれません。
東大入試レベルに回答できる
いよいよ人間の全知全能に追いついてきました。
OpenAI o1-previewの今後の展開
OpenAIは、o1-previewの機能を大幅に拡充する意向を表明しました。この計画には、ユーザー体験を向上させ、AIモデルの実用性を高める複数の重要な機能が含まれています。
・リアルタイム情報アクセス機能
o1-previewに、最新のウェブ情報を即時に取り込む能力が追加されます。この機能により、モデルは常に最新のデータを基に応答を生成できるようになります。例えば、最新のニュース事象や市場動向に関する質問に、より正確かつ時宜を得た回答が可能になると期待されています。
・マルチメディア解析機能
画像やドキュメントなど、様々な形式のファイルをアップロードし、AIに解析させる機能が導入されます。これにより、o1-previewの応用範囲が大幅に拡大します。具体的には、画像内容の詳細な説明や、複雑な文書の要約など、多岐にわたるタスクをこなすことが可能になります。
・高度なカスタマイズオプション
開発者向けに、AIモデルの動作をより細かく制御できる機能が追加されます。これにより、特定の用途や要件に合わせてAIの応答をカスタマイズすることが可能になります。例えば、特定の話題やトーンに焦点を当てた対話を設計したり、企業固有の知識ベースを組み込んだりすることができるようになります。
これらの新機能は、o1-previewの利用可能性を大きく広げ、より多様な分野での活用を促進すると見込まれています。OpenAIは、これらの機能を段階的に導入し、ユーザーフィードバックを基に継続的な改善を行う方針です。
なお、具体的な機能リリースの日程や詳細な仕様については、今後のアップデートで順次公開される予定です。
まとめ
OpenAI o1シリーズは、AI技術の新たな地平を切り開く革新的なモデルです。高度な推論能力と大規模なコンテキストウィンドウを備え、科学的な問題解決や複雑なコーディングタスクに特に優れています。
o1-previewとo1-miniの2つのモデルは、それぞれ異なる性能と料金設定を持ち、ユーザーのニーズに応じて選択することができます。APIを通じて利用可能であり、適切なプロンプト設計と十分なトークン数の確保により、その潜在能力を最大限に引き出すことができます。
ただし、現時点ではベータ版であり、一部の機能制限や長い応答時間など、考慮すべき点もあります。今後のアップデートで、これらの制限が解消され、さらに強力なツールとなることが期待されます。
AI技術の最前線を体験したい開発者や研究者にとって、o1シリーズは非常に魅力的なオプションとなるでしょう。複雑な推論や深い思考を要するタスクに挑戦する際は、ぜひo1シリーズの活用を検討してみてください。
趣味:業務効率化、RPA、AI、サウナ、音楽
職務経験:ECマーチャンダイザー、WEBマーケティング、リードナーチャリング支援
所有資格:Google AI Essentials,HubSpot Inbound Certification,HubSpot Marketing Software Certification,HubSpot Inbound Sales Certification
▼書籍掲載実績
Chrome拡張×ChatGPTで作業効率化/工学社出版
保護者と教育者のための生成AI入門/工学社出版(【全国学校図書館協議会選定図書】)
突如、社内にて資料100件を毎月作ることとなり、何とかサボれないかとテクノロジー初心者が業務効率化にハマる。AIのスキルがない初心者レベルでもできる業務効率化やAIツールを紹介。中の人はSEO歴5年、HubSpot歴1年