• Newsletter from Mavericks
  • Posts
  • OpenAIがついに博士レベルの新モデル「o1」を発表。要点を徹底解説!Runwayがこれまでとは一線を画すクオリティのVideo to Video機能をリリースなど

OpenAIがついに博士レベルの新モデル「o1」を発表。要点を徹底解説!Runwayがこれまでとは一線を画すクオリティのVideo to Video機能をリリースなど

Newsletter from Mavericksをご覧いただきありがとうございます!

今回は、注目のAIツール紹介に加えて、先週OpenAIが公開した新モデル「o1」について重点的に解説します。来週以降は再び、最終セクションにてNoLangについての特集を行う予定です!

1. 直近のビッグニュースTop 3

① OpenAIがついに新しいLLMシリーズ「o1」を発表!要点を網羅的に徹底解説

OpenAIが9月12日、GPT-4のリリースから一年半の時を経て、ついに新しいLLM「o1」を発表しました。要点をまとめると以下のようになります:

回答前にじっくり思考することで、博士レベルの極めて複雑な問題も解ける新シリーズのLLM「o1」を発表。GPTシリーズとは別の系譜

・残念ながら「o1」の恩恵を直接受けられる分野は、コーディング・数学・研究などごく一部に限られる。短期的に、日常・ビジネス用途で性能向上を感じることはほぼないと思われる

・それでも「推論時間に比例して性能が向上していく」という新たなスケーリング則が示された点が革新的。中長期的には想像を超えるブレイクスルーが起きる可能性

以下3つのパートに分けて、発表内容と今後の展望について詳しく説明していきます。o1の使い方・使いこなすためのコツについては、本記事の最後のセクションで紹介していますので、併せてご覧ください。

(1) OpenAIがついに発表した、新シリーズのLLM「o1」とは?

o1は、複雑な論理的思考を必要とするタスク、とりわけ理系の問題を得意とするLLMです。以下の図に示されているように、数学・競技プログラミング・科学の問題において、o1 (橙) はGPT-4o (黄緑) を遥かに上回るスコアを達成しています。米国数学オリンピックの予選にて上位500位に入るスコアを出したほか、物理学・生物学・化学の問題では、人間の博士レベルのスコアを超えています

GPT-4o, o1 preview (後述), o1 のベンチマーク性能比較
影の領域は、64回のモデル出力の多数決を取ることによる性能向上を表している点に注意。
OpenAI公式ブログ

o1の最大の特徴は、確率的にもっともらしい単語を瞬発的に出力するのではなく、よくよく思考してから回答できるようになった点にあります。「8cmの綿菓子の上に7cmのレンガを置いたらどうなるか?」という質問に対して、「レンガが綿菓子を圧縮して、高さが変わるだろうか?」と自問した後に正しい回答に辿り着いているほか、クロスワードパズルでは、111秒間も思考してから回答しています。

(左)「8cmの綿菓子の上に7cmのレンガを置いたらどうなるか?」に対するo1-previewの回答
(右)クロスワードパズルに対するo1-previewの回答
o1シリーズでは、思考過程の要約(英文)を確認できる点が特徴

OpenAIはo1のことを、「内部で長いChain of Thoughtを生成してから回答するモデル」と称しています。Chain of Thoughtとは、いわゆる「step by stepで考えて」というプロンプトによって引き起こされている推論方法で、問題を複数のステップに分割し、順を追って推論を進めていくことで、最終的な答えを得ます。

ではプロンプトテクニックによってo1の推論を再現できるかというと、全くそうではありません。o1はこれまでのLLMと異なり、この推論方法を事前学習時に強化学習によって習得しています。これにより推論能力は大幅に引き上げられ、引っ掛け問題で誤答する可能性が激減し、何分間にも渡る推論も遂行できます。

現在は、ブラウザやAPIを通して「o1-mini」「o1-preview」という2つのモデルが公開されています。o1-miniは、o1を小型化したモデルとされており、o1に性能や知識量で劣りますが、遥かに高速であり、特に数学やコーディングなどSTEM分野に特化しています。o1-previewは、o1の古いバージョンのモデル(つまりo1-miniよりも古いと考えられる)だと明らかにされており、o1-miniよりも必ずしも性能が高いわけではありませんが、GPT-4oと比べて飛躍的に高い推論能力を発揮します。

米国数学オリンピックの予選におけるOpenAIモデルのベンチマーク性能比較。
STEM分野では、このようにo1-miniがo1-previewを性能で上回ることもある。点線は、モデルが同一でも推論コストをかけることで性能が向上することを示している。(OpenAI公式ブログ

② o1の発表はどう捉えたらいいのか?革新的な点、現時点での限界について知る

(2) 数学・プログラミングに強いが、日常・ビジネス用途だと短期的には恩恵なし

新モデル「o1」の発表は大きな注目を集めましたが、残念ながら、恩恵を受ける人はごく一部に限られそうです。OpenAIによるGPT-4oとo1の人手比較では、「数学計算」「データ分析」「プログラミング」でo1がGPT-4oに勝っているものの、「ライティング」「テキスト編集」ではGPT-4oに負ける結果となっています。

主要なタスクにおけるo1-previwとGPT-4oの性能比較(OpenAI公式ブログ

o1-previewを試してみての世間及び自分の体感を踏まえると、o1-previewがGPT-4oを地頭や知識量で大きく上回っているような印象はなく、順序立った論理的思考が生きるようなタスクでないと、o1-preview登場による性能向上は感じられません

また、長時間の推論はメリットばかりではありません。o1シリーズのモデルは必要以上に塾考してしまうこともためか、余分な情報に振り回されやすく、RAG使用時は注意深く文献を選ぶことが推奨されているほか、webブラウジング機能への対応も目処が立っていないようです。

正解及び途中の道筋が明確に決まっている「数学」「プログラミング」、論理を緻密に積み上げていく必要のある「研究」といった一部の分野においては有用である一方、公式発表でも認められている通り、日常・ビジネス活用をはじめとした多くのユースケースでは、短期的なインパクトはほとんどないと言えるでしょう。

(3) 新たなパラダイムは始まったばかりであり中長期的なインパクトは計り知れない

ただし、最高性能を達成している「o1」は未公開であり、o1シリーズは世間から過小評価されている可能性があります。また中長期的な影響まで考えると、発表内容は非常に興味深く、特に「推論に関するスケーリング則」が示された点が革新的でした。

従来より、学習データ・計算資源を増やしていくと、それに比例する形でAIモデルの性能が向上していく「学習に関するスケーリング則」は知られていましたが、データ・計算資源が近い将来枯渇し、性能進化のボトルネックになる点が指摘されていました。一方で今回示されたのは、推論時間に比例して、テストスコアが向上するという法則です。

(左)学習に関するスケーリング則(右)推論に関するスケーリング則
OpenAI公式ブログ

OpenAI研究者のNoam Brown氏は「この先、数時間、数日、あるいは数週間に渡って思考できるモデルの開発を目指している」と述べており、将来的には、トップレベルの研究者さえ苦戦するような難しい問題を解けるようになる可能性が十分あります。

また推論能力が向上することで、LLMが自身の出力を学習データとして用いて性能を向上させていく「自己改善」のアプローチが有効になる可能性があります。今年2月時点では、自己改善は3回が限界であることを示唆した研究が出ていましたが、今回のスケーリング則の解明によって、この上限が大幅に引き上げられると期待されます。自己改善は、囲碁でプロチャンピオンを打ち破ったAlphaGoやAlphaZeroにも取り入られている仕組みであり、今後LLMの性能を飛躍的に向上させる可能性を秘めています。

OpenAIは、「o1はGPT-4oの後継モデルではない」と明言しており、OpenAI共同創業者のGreg氏が述べている通り、o1は、「全く新しいパラダイム」の始まりに過ぎません。ここ数ヶ月でGoogleの研究者らによっても、推論時間を延ばすことによる性能向上を謳った論文が何本か出てきており、OpenAIに限らず、今後LLM業界全体が「推論に関するスケーリング則」を起点に、大きな転換期を迎える可能性が高まっています。

③ Runwayがこれまでとは一線を画すクオリティのVideo to Video機能をリリース!

Runwayが、動画のスタイルを変換するVideo to Video機能を有料ユーザー向けに公開しました。人物を猿や彫刻に変えてみたり、天候や四季を自然に変化させるなど、これまでの技術では成し得なかった非常に多彩なスタイル変換が可能になっています。リアル動画間を非常に一貫性高く変換できている点も画期的です。是非以下のデモ動画より、生成された動画を確認してみてください!

SNSには、この機能を使って作られた動画が続々とアップロードされています。人物を若返らせる、おもちゃの鉄砲を本物の銃に変えるといった基本的な使い方から、3Dソフトで作った素朴な動画を臨場感溢れる実写風動画に変換したり、手で動かした布から荒れ狂う海の映像を生み出したりと、様々な使い方がなされています。

また、「踊る炎、ろうそくの炎、火」といった簡単なプロンプトを打つだけで、ブレイクダンスの動画に炎のエフェクトを付与することもできます。手軽にクリエイティブな動画を作成できることもこの機能の大きな魅力でしょう。

AIを使った動画スタイルの変換は元々、主にダンス動画などをアニメ風に変換するのに使われていました。これまではStable Diffusionを拡張して作られたモデルが主流であり、こちらの動画のように、背景の動きが小さければ自然かつ一貫性の高い動画を生成できる一方、背景が急激に変わると破綻が生じてしまう傾向にありました

Runwayが今回提供しているモデルは従来モデルとは一線を画しておりダイナミックなカメラロールでも破綻が少なく、極めて高い表現力を有します。現在はテキスト入力のみがサポートされていますが、今後画像を入力してスタイルを指定できるようになれば、一層利便性が増していくでしょう。

2. SNSで話題のAIツールをピックアップ!

  • 今年6月に新しく登場した今話題のAI検索エンジン。質問をするとwebページのリアルタイム情報をもとに回答してくれる

  • 現在は無料で使用できるのにも関わらず、回答精度は極めて高く、Perplexityの有料版より優れた回答をすることも多い

  • ただしPerplexityと比べて回答生成までの時間が長いことに注意

  • 「o1のAPIの利用条件と料金体系を教えて」といった明確な答えがあるような質問の際に、Perplexityと並列で使用するのがおすすめ

  • 感情豊かなAIと音声対話できるサービス。ユーザーおよびAIの感情が可視化される点がユニーク

  • 先週、基盤AIモデルがアップデートされ、会話速度を上げるよう音声で直接指示したり、ラップを歌ってもらうことが可能に

  • ただし、日本語には未対応であることに注意

  • サインアップのみで無料で使用可能iOSアプリでも提供されている

3. o1の使い方・使いこなすためのコツについて詳しく解説!

OpenAIが公開しているo1-previewのリリース記事o1-miniのリリース記事o1に関するテクニカルレポートo1に関するAPIドキュメントcookbookに記載されているAPI使用例をもとに、o1の使い方・使いこなすためのコツについて詳しく解説していきます。

(1) o1を使う方法

OpenAIは現在、o1シリーズのモデルのうち、o1を小型化した「o1-mini」、o1の古いバージョンとされる「o1-preview」の2つを提供しています。

これらは、ブラウザ版のChatGPTあるいはAPI経由で使用できますが、APIは1,000ドル以上課金したTier 5のユーザーのみに解放されています。APIは今後、他のユーザーにも順次解放されていくようですが、現時点では多くの方がChatGPT経由で使用することになるでしょう

(2) 料金体系・利用制限

ChatGPT経由では、有料のPlusユーザーのみ「o1-mini」を一週間に50回、「o1-preview」を一週間に30回使用できます。使用制限が非常に厳しいことに注意が必要です。

なお、無料でo1を試してみたい方に向けて、ChatGPT研究所が「o1を無料で使えるLINEボット」を期間限定で公開しています(リンクはこちら)。

API経由でのo1-preview, o1-mini, GPT-4oの料金を比較すると以下のようになります。

モデル

入力トークン料金

出力トークン料金

o1-preview

$15.00 / 1M

$60.00 / 1M

o1-mini

$3.00 / 1M

$12.00 / 1M

GPT-4o

$5.00 / 1M

$15.00 / 1M

ただし、o1シリーズのモデルは、思考(Reasoning)を行う際に出力されたトークンも「出力トークン」として扱われます。それゆえ、上記の表で算出されるよりも多くの費用がかかることに注意が必要です。

o1シリーズのモデルのトークンの取り扱いの図解。「Reasoning」が思考にかかったトークンを表す
OpenAI公式APIドキュメント

なおChatGPT, API共に、現在はテキストの入出力のみがサポートされている上、APIではシステムプロンプト・ストリーミング出力が使用できないなど、大きな制限がかかっています。APIは、今後数週間にかけて機能が追加されていき、画像入力機能も搭載されるとのことです。

(3) プロンプトエンジニアリングが大きく変わる

o1は新しいパラダイムのモデルであり、GPT使用時とは異なるプロンプトテクニックを活用する必要があります。OpenAIからは、以下の4つのアドバイスが提供されています:

プロンプトはシンプルで直接的に:モデルは、大掛かりなガイダンスを必要とせず、簡潔で明確な指示を理解し、それに応えることに長けています。

思考の連鎖を促すプロンプトは避ける: これらのモデルは内部で推論を行うので、「ステップバイステップで考えなさい」とか「推論を説明しなさい」というプロンプトは不要です。

明確にするために区切り記号を使う: トリプルクォーテーション、XMLタグ、セクションタイトルなどの区切り記号を使用して、入力の異なる部分を明確に示し、モデルが異なるセクションを適切に解釈できるようにします。

検索機能付き生成(RAG)では、追加のコンテキストを制限する: 追加のコンテキストやドキュメントを提供する場合は、最も関連性の高い情報のみを含めるようにして、モデルの応答が複雑になりすぎないようにします。

つまりは、

  • 余分な情報や思わぬ誤解に振り回されないように、思考にあたって必要な情報だけを分かりやすく記述する

  • 明示的に順序立った思考を明示的に促す必要はない

の2点が大事だと考えられます。なお、冒頭にてプロンプトは「シンプルに」と書かれていますが、公式のo1使用例を見てみると、非常に詳細かつ長いプロンプトが記述されています。短いプロンプトが推奨されているのではなく、あくまでも的確かつ簡潔な表現を心がけることが推奨されていると捉えるべきでしょう。

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!