• Mavericks AI ニュース
  • Posts
  • OpenAIが新モデルo3, o4-miniをリリース!LLMというよりもはやAIエージェント

OpenAIが新モデルo3, o4-miniをリリース!LLMというよりもはやAIエージェント

Googleが「コスパ最強」の新モデルGemini 2.5 Flashを公開

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① LLMというよりもはやAIエージェント。OpenAIが新モデル「o3」「o4-mini」を公開

OpenAIがoシリーズの最新モデル「o3」「o4-mini」を新たに発表しました。今までのLLM, VLMでは成し得なかった革新的な体験が提供されており、業界に大きな衝撃を与えています。

以下の投稿にて新モデルが解けるタスク一覧がよくまとめられているほか、OpenAI公式発表に掲載されている例も非常に参考になります。

特に注目すべきは「o3」モデルであり、OpenAI公式発表の冒頭でも強調されているように、以下の3点において革新的です:

(1) web検索、Python実行、画像解析、画像生成といった外部ツールを「深い思考」と組み合わせて使用でき、それぞれの機能の使いどころを正確に判断できる

(2) 回答生成が「通常1分以内」と高速でありながら、問題の難易度に応じて柔軟に推論時間を調整できる

(3) それでいて、正解のある問題への回答精度はo1を大きく上回っている(ベンチマークスコア、私の使用感双方において)

o3の「凄さ」が最も分かりやすく表れているユースケースが「写真からの撮影場所特定」です。

o3にタイの「カオサン通り」の画像を与えて場所を特定させた結果。推論過程を見ると、
画像内から特定の手掛かりとなる施設名を抽出すべく、画像を切り抜いてからテキスト抽出し、さらに別途web検索で情報を補強していることがわかる。

このタスクでo3は以下のような複雑な処理を自動的に実行できています。

・施設名を特定するためにpythonで画像の該当箇所を切り抜き、テキスト抽出を行う

・抽出された施設名をweb検索し、追加情報を取得する

これまでも画像解析ツールやweb検索ツールをLLMやVLMに連携させることは可能でしたが、それらを「いつ、どのように」呼び出すかを正確に判断させることは困難でした。一方o3は強力な推論能力を活かして、適切なタイミングで適切なツールを呼び出せることから、遂行可能なタスクの幅が飛躍的に広がっています

私も業務でo3を使用していますが、強力かつ使いやすいモデルだと感じています。簡単な問題に対しては数秒で回答する一方、難しい問題では5分以上熟考してから回答するため、ストレスが少ないです。

さらにプログラミング用途での性能は目を見張るものがあり、o1 proに30分以上考えさせて初めて解けたタスクを、わずか数10秒で解決できたこともありました。また検索に関しても、GPT-4oと比較して大幅に性能向上していながら、十分高速であり軽量版DeepResearchとも言えます。

次節では、o3が抱える問題と今後のLLM・AIエージェントの進化の方向性について解説します。

💡 Plus, Pro, TeamプランのユーザーがChatGPTにてo3, o4-miniを利用可能なほか、Freeプランのユーザーもo4-miniを試すことができます。詳しくはOpenAI公式発表をご覧ください。

② o3はなぜこれほど賢いのか?そしてo3が抱える特有の問題とは?

o3はなぜこれほどまでに高い性能を実現できているのでしょうか?

OpenAIも述べている通り、o1からo3への性能向上は「more compute = better performance」の原則に基づいています。強化学習における計算量を増加させることで、飛躍的な進化が達成されました。

GPT-4.5が「Chain-of-Thoughtを使用しないOpenAI最後のモデル」と明言されている通り、「事前学習におけるスケーリング」は限界に近づきつつあると考えられています。一方でoシリーズで採用されている「強化学習におけるスケーリング」にはまだ改善の余地があり、これが今回の目覚ましい性能向上につながったのです。

さらにo3はツール実行に最適化されたモデルでもあり、いつどのようにツールを使用するかを的確に推論できるよう強化学習されています。ツールへの汎化性能がどの程度かは不明ですが、少なくともOpenAIが用意したツールのみが呼び出せるChatGPTの環境下では、そのツール実行能力は極めて高いと言えるでしょう。

一方で、o3が抱える問題点も早速露呈しています。OpenAIのシステムカードによれば、特定のデータセットにおけるo3のハルシネーション率はo1の2倍にも達しています。さらにユーザーからは、o3がツールを使用していないにもかかわらず「ChatGPTの外部でコードを実行し、その結果をコピペした」と主張するといった、これまでのモデルでは見られなかったハルシネーション事例が複数報告されています。

このような現象が起きている原因の一つとして、oシリーズの成長を支えている強化学習特有の問題「報酬ハッキング」が挙げられます。平たく言えば、「正解」を与えるのではなく「結果」のみを評価する強化学習において、AIモデルが意図しない抜け穴を利用して高評価を狙うという現象です。OpenAIは先月、すでにこの問題を検知する手法を発表しており、今後改善される可能性は十分にありますが、AIが賢くなるにつれて検出はますます困難になることから、引き続き重要な課題として議論されていくでしょう。

元OpenAI最高研究責任者のBob McGrew氏が「o3のスポットライトはツール活用に当てられている。なぜなら、知能はもはや主要な制約ではないからだ」と述べている通り、今後はAIそのものの能力ではなく、AIエージェントとしてツール活用能力を含めた「総合力」の高さに注目が集まっていくと考えられます。

これはOpenAIの現在の方針とも一致しており、サム・アルトマン氏が数ヵ月以内にリリース予定と明言しているGPT-5は「o3を含む複数技術が統合された一つのシステム」とされています。GPT-5というただ一つのAIに聞くだけで残りはAIが全てやってくれるといったユーザー体験の提供を目指しているのです。

サム・アルトマン氏が2月13日に示したOpenAIの今後のロードマップ。
こちらの投稿画像を筆者が修正)

o3は推論時間やツール実行タイミングを柔軟に調整できる点で、GPT-5が目指す姿に大きく近づいたと言えます。一方で、EQが高く高速なGPT-4oを使いたい場面がまだまだ多いのも事実であり、次なるOpenAIの発表に期待したいところです。

③ Googleが「コスパ最強」の新モデルGemini 2.5 Flashを公開、Googleサービスもより便利に

先週はo3やo4-miniの他にも、OpenAIやGoogleから画期的なAIモデルがいくつも発表された一週間となりました。

まずOpenAIがGPT-4.1シリーズをAPIでリリースしました。公式発表によれば、GPT-4.1は「コーディング(特にフロントエンド)」「指示追従性」「長文コンテキスト処理」に優れており、弊チームでもコーディング用途で高い評価を得ています。押さえておきたいのは、GPT-4.1は独自のプロンプトガイドが公開されるなどこれまでとは趣向の異なるモデルであり、良くも悪くも「指示にそのまま従う」点です。

フラッシュカードのwebアプリをGPT-4o, GPT-4.1に構築させた比較結果。GPT-4.の方が断然デザイン・機能面で優れている(OpenAI
(左)GPT-4o(右)GPT-4.1

GPT-4.1は、EQが高いゆえ「ユーザーの意図を汲み取ってくれる」GPT-4.5に対して補完的な役割を持つモデルと考えられます。GPT-4.5の劣化版でも進化版でもなく、あくまでGPT-4oからGPT-4.5とは別ベクトルの進化を遂げたモデルと捉えると良いのではないでしょうか。

一方、GoogleからはGemini 2.5 Flashがリリースされました。Geminiシリーズで特に注目したいのが「コスパの高さ」です。Gemini 2.0 Flash、2.5 Flash、2.5 Pro全てが、同等の性能を持つAIモデルの中で、最もAPI料金が低く設定されており、開発者にとっては、多くのケースで有力な選択肢になるでしょう。

Geminiが性能に対する料金面でトップレベルであることを示す図。横軸は料金、縦軸はGPQA Diamondというベンチマークにおけるスコアを表しており、Geminiモデルらは高スコア・低価格の「左上」に位置して、パレート境界を形成している(ソース)。

さらにGeminiはGoogleのあらゆるアプリケーションに統合されており、Googleサービスの中でシームレスにAIの恩恵を受けられる環境が整いつつあります。

特に先日発表された「Workspace Flows」は、ノーコードでGoogleアプリを連携させたワークフローを簡単に構築できる画期的な機能です。「Formからの問い合わせを検知→別途用意したDoc文書を参考に要約して優先順位付け→Space(チャット)に自動投稿」といった複雑なフローをGUIで組めるほか、Gmailに下書きを自動作成・保存することも可能になっています。

ChatGPTと比べるとGeminiのwebアプリ・スマホアプリにおける利用者はまだまだ少ないですが、Googleサービスにシームレスに統合されることで、特にビジネスシーンでの利用が拡大していくことが予想されます。そして今後、GoogleがAIエージェントの体験をどのように各サービスに実装していくのか注目したいところです。

💡 GPT-4.1はAPIでのみ提供されています。
Gemini 2.5 FlashはGoogle AI Studioなどで利用可能であり、Workspace Flowsはこちらからアーリーアクセスに申し込むことができます。

2. SNSで話題のAIツールをピックアップ!

  • Googleが開発した最先端の動画生成AIモデル「Veo 2」をGoogle AI Studioで試せるように

  • text-to-video, image-to-videoの双方に対応

  • 5-8秒間の動画を無料で数回生成可能。待ち時間は30秒-1分程度

  • 有料のGemini Advancedでは、さらに多くの動画を生成可能

CoeFont イケボメーカー (https://coefont.cloud/maker/ikebo)

  • 「ひろゆき」「成田悠輔」などの有名人ボイスをはじめとして、10000種類以上のAI音声を利用できるCoeFontが、新モデル「CoeFont v3 Fuji」を試せるプレイグラウンドを公開

  • 今までのCoeFontの音声よりも、人間らしく感情豊かな「イケボ」を10秒程度で生成できる

  • ログインなしで無料で利用可能。さらに近日中に「おしゃべりひろゆきメーカー2」をリリース予定

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!