• Mavericks AI ニュース
  • Posts
  • AI業界に激震。あのo1レベルのオープンソースLLM「DeepSeek-R1」が登場!OpenAI初のエージェント「Operator」が発表など

AI業界に激震。あのo1レベルのオープンソースLLM「DeepSeek-R1」が登場!OpenAI初のエージェント「Operator」が発表など

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールを紹介します。特に、OpenAIが発表したAIエージェント「Operator」及び、o1水準のオープンソースLLM「DeepSeek-R1」はキャッチアップ必須です!(今週はNoLangに関する特集はお休みさせていただきます)

1. 直近のビッグニュースTop 3

① OpenAIがついにAIエージェント「Operator」を発表。人間との協働を本気で目指した設計に

OpenAIがついに、同社初となるAIエージェント「Operator」をアメリカのProユーザー向けにリリースしました。Anthropic社の「Computer Use」同様、ブラウザを操作してタスクを遂行してくれますが、仮想環境ではなく実際のブラウザで動作します。さらに性能も大きく向上していることから、Uber Eatsでの注文やGmailでのメール送信など、Computer Useより遥かに実用的なタスクを実行できます。非常にワクワクする発表でしたので、是非以下よりユーザーによる投稿のまとめをご覧ください。

以下で説明するように、Operatorの発表内容や実装機能からは、OpenAIが単なるPC操作機能のプロトタイプ開発に留まらず、「人間との協働」を実現するAIエージェントの開発を本気で目指していることが伺えます。

Operatorの動作プロセスは、「(1)スクリーンショットを撮影して状況把握」「(2)次のアクションを計画して決定」「(3)マウス・キーボードでPCを操作」という3ステップで構成されています。特筆すべきは、ユーザーとの協働を重視した以下のようなUI設計です。

・「スクリーンショット」「計画したアクション」「PC操作」の一まとまりがログとして出力されるため、タスク実行中、あるいは実行後にAIの挙動を透明性高く確認できる(Xや下記画像参照)

・ログイン・決済処理が必要だったり、追加の意思決定が必要(例:19:00からレストランを予約するように指示されたが、19:30からしか空いておらずどうするか?)だとAIが判断した場合は、自動的にユーザーに操作権限が移管される(X

・ユーザーはいつでもAIから操作権限を取り戻して「助けてあげる」ことが可能。必要な操作が終了したら、その要約を伝えることで、AIがスムーズにタスクを再開可能(X

食料品即時配達サービス「instacart」での注文タスクにおける、Operatorの操作ログ。画面左側で、「卵を追加する」というプランを、右側で実際の実行の様子を確認できる(OpenAIがXで公開したデモ

Operatorでは、PC操作に特化して訓練された「Computer-Using Agent (CUA)」と呼ばれるモデルが使用されています。ClaudeのComputer Use同様、画面情報のみを使用し、HTMLなどの人間に見えない情報は使用しません。ここでも、人間との協働のしやすさが重視されていると考えられます。

もちろん現状では課題が山積しています。ユーザーの投稿動画は基本的に3〜6倍速で再生されており、実際の処理時間は実用的な水準とは言えません。また安全面においても、既にかなりの配慮がなされているものの、まだまだ改善が必要な点が多くあります。OpenAIは主要なリスクとして「人間による悪用」「モデルの誤作動」「悪意あるWebサイトによる攻撃」の3つを指摘しており、特に個人情報や決済情報を扱うタスクについては、完全自動化までにはまだ相当な時間を要すると考えられます。

そして、Operatorで採用されている特化モデル「CUA」は、PC操作・ブラウザ操作のベンチマークで最高性能を叩き出しているものの、まだ人間には遠く及ばない水準です。今後数年でこのギャップがどれだけ埋まっていくのか、注目したいところです。

PC操作、ブラウザ操作のベンチマークにおけるCUA, これまでのSOTAモデル、人間のスコア比較
OpenAI

OpenAIは今後の目標として「人間向けのあらゆるソフトウェアを操作できるエージェントの実現」を掲げており、さらには人間の代わりにタスクを行うAIエージェントを複数開発中であることを示唆しています。このような野心な展開は興味深いものの、まずは一刻も早く日本での利用が可能になることを願いたいところです。

💡 Operatorは、VPNを使用することで日本からでも利用可能です。今後はPlus, Team, Enterpriseプランのユーザーに向けてアクセスを拡大予定であると発表されています。

② 中国発スタートアップがなんとo1レベルのLLM「DeepSeek-R1」をオープンソースで公開!

DeepSeek社が1月20日、なんとOpenAIのo1に匹敵するLLM「DeepSeek-R1 (671B)」 をオープンソースで公開しました。同社は昨年末、GPT-4oに匹敵する性能を持つ「DeepSeek-V3」をMetaの1/10のコストで開発したことで大きく注目を集めましたが、今回はそれを上回る衝撃をLLM業界に与えています。

DeepSeek社が発表したDeepSeekモデルとo1シリーズのモデルの性能比較
DeepSeek

実際にo1のような推論時間の長いモデルが得意とするコンサルのケース面接を試してみたところ、以下のようにo1と同水準の回答が得られました。個人的な所感として、ハルシネーションがやや多いものの、論理的分解・説明能力は少なくともo1-miniを上回り、o1に迫る水準です。

「ラーメン屋の売上推計と売上を+50%にする方法を考えてください」というお題に対するDeepSeek-R1の回答の抜粋。論理的に売上増加に必要な要素を分解し、それぞれに対して増加幅の推定を行う、というタスクを完璧にこなしている。

また、発想力の豊かさに関しても他のモデルとは一線を画しており、以下のように「LLMっぽくない出力」を容易に引き出すことができます:

・「人類の滅亡まであと1日」という設定での5ちゃんねるスレを再現(X

・AITuberについての見解を述べてもらう(X

今回の発表で注目すべきは性能面だけではありません。このモデルはオープンソースモデルの中でも極めて自由度の高いMITライセンスを採用しており、商用利用から改変、再配布、他のAIモデルの学習まで幅広く許可されています。これは利用にあたって多数の制約を課しているMetaのLlamaとは対照的です。さらにAPI提供も開始されており、OpenAI o1の1/30という破格の料金で利用できます。

ただしローカル・リモートに限らず、天安門事件に関する質問を頑なに拒むなど思想的な偏りが見られます(X)。また、利用規約ではwebアプリやAPIを介して入力したデータが、DeepSeek社のサービス改善に使用され得ることが明記されており、利用時には注意が必要です。

次のセクションでは、この発表の更なるインパクトについて技術的な解説を交えて説明していきます。

💡 「DeepSeek-R1」は、DeepSeek社が提供しているwebアプリから誰でも無料で試すことができます(次のセクション参照)

③ さらには中国発のo1レベルAIがもう一つ登場。「LLMの自己進化」への道筋が見えてきた

DeepSeek社は今回、モデルだけでなく、その学習方法に関するテクニカルレポートを公開しました。特に注目すべきは、LLMの「自己進化」の可能性を示唆する結果です。

具体的には以下のように、教師ありファインチューニングを用いず(つまり人手で作成した正解データを使わず)、「強化学習のみ」を用いて推論能力を大幅に向上させ、o1に匹敵する性能を達成できることが示されました。これは高品質なテキストデータが限られていても、LLMが「自己進化」によって性能向上できることを意味しています。

強化学習のみが適用された「DeepSeek-R1-Zero」(DeepSeek-R1とは異なる)が、アメリカ数学オリンピック(AIME)においてo1を上回るスコアを達成できたことを示す図
DeepSeek-R1 テクニカルレポート

ただし、強化学習のみが適用されたモデル(DeepSeek-R1-Zero)には出力に複数言語が混じるなどの問題があったため、今回リリースされた「DeepSeek-R1」では別途教師あり学習が適用されています。そのため、囲碁などのボードゲームで人間と対局せず自己対戦を繰り返すことにより人知を超えた強さを獲得した、Googleの「AlphaZero」のようにLLMが進化できるかは未知数ですが、その可能性を示唆する結果となりました。

時を同じくして先週、別の中国スタートアップから同じく「o1レベル」を謳うマルチモーダルAIモデル「Kimi k1.5」のテクニカルレポートが発表され、webアプリで利用可能となっています。ここでも、「強化学習のスケーリング」の有効性が示されており、新たなパラダイムとして期待が高まります。

短期的にはo1レベルのモデルがMITライセンスで公開されたことで、中長期的にはさらに、膨大なデータを必要としない新たな学習フレームワークの有効性が示されたことで、OpenAIを始めとするAIモデル開発をリードしてきた企業の優位性が一層弱まった形となりました。しかし多くの中国発のLLMは上述のように扱いづらいこともあり、世界レベルの国産LLMが開発されることを期待したいところです。

💡 「Kimi k1.5」は、公式提供されているwebアプリから誰でも無料で試すことができます(次のセクション参照)

2. SNSで話題のAIツールをピックアップ!

  • o1レベルのLLM「DeepSeek-R1」を無料で利用できる公式サービス

  • さらに、DeepSeek-R1と検索機能を組み合わせて使うこともでき、ChatGPTにはない強みがある

  • iPhone, Android向けにスマホアプリもリリースされている(URL

  • メールアドレスまたはGoogle認証により無料で利用可能。ただし、利用規約にかなり強い条件が記されていることに注意

  • 同じくo1に匹敵するマルチモーダルAI「Kimi k1.5」を無料で試せる公式サービス

  • モデルのコンテキスト長が128kトークンであることから、膨大な量のwebサイトをクローリングしてまとめたり、長文資料を要約したりすることができる

  • ログインなしで何回か試せる点も魅力的。ただし、現状ではマルチモーダル機能は提供されていない

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!