• Mavericks AI ニュース
  • Posts
  • OpenAI史上最大の新LLM「GPT-4.5」が登場!さらにAnthropicも実タスクに強いハイブリッド推論モデルClaude 3.7 Sonnetをリリースなど

OpenAI史上最大の新LLM「GPT-4.5」が登場!さらにAnthropicも実タスクに強いハイブリッド推論モデルClaude 3.7 Sonnetをリリースなど

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

先週は、Anthropic社から「Claude 3.7 Sonnet」が、さらにOpenAI社から「GPT-4.5」がリリースされ、生成AI業界が大きな盛り上がりを見せた一週間となりました。それぞれ詳しく見ていきましょう。

1. 直近のビッグニュースTop 3

① ついにGPT-4.5がリリース!しかし事前学習によるスケーリング則の限界が明らかに

GPT-4の登場から2年。2月27日にGPT-4.5のリサーチプレビューがリリースされましたが、そこにOpenAI CEOサム・アルトマン氏の姿はありませんでした。GPT-4.5は市場の期待を越えられなかったのでしょうか。

OpenAIはGPT-4.5の強みとして、ハルシネーションの少なさと感情知能(EQ)の高さを挙げています。EQは自分や他者の感情を理解し適切に対応する能力のことで、GPT-4.5は共感性やコミュニケーション能力が高いモデルと言えるでしょう。

実際、「提供されるサービスが契約内容と異なるのは詐欺ではありませんか?」と激昂しているユーザーに対するお詫びのメール文を書かせてみましたが、GPT-4.5はGPT-4oと比べてユーザーの意図をより深く汲み取った、誠実さの伝わる文章を生成できています。

使用したプロンプト:「以下に対する、返信メール文を考えて
本文: お世話になっておりません。 ChatGPTの有料プラン(ChatGPT Plus)を契約しているにもかかわらず、GPT-4が使用できません。何度も問い合わせをしていますが、「確認中」と言われるだけで、まったく解決しません。 こちらは毎月料金を支払っているのに、提供されるサービスが契約内容と異なるのは詐欺ではありませんか? ふざけるのもいい加減にしてください。 至急、問題を解決してください。対応が遅れる場合、返金を求めます。」

上記と同一プロンプトでGPT-4.5に回答を求めた結果。

GPT-4.5の技術的特徴を理解する上で重要なのが、OpenAIが述べているAIの性能向上における2つの補完的なパラダイムです。1つ目の「リーズニング」では、oシリーズに見られるように推論能力が強化され、数学・プログラミングといったSTEM分野における性能が向上します。2つ目の「事前学習」では、GPTシリーズに見られるように知識が強化されます。GPT-4.5は事前学習パラダイムにおけるOpenAI最後のモデルと発表されており、大きな注目を集めていました。

しかし、サム・アルトマン氏も認めているように、多くのベンチマークにおけるスコア向上は限定的でした。私個人の感想としても、GPT-4o、o1、o3-miniといった既存モデルと比較して優れていると感じられる場面は非常に限られていました

GPT-4.5, GPT-4o, o3-miniのベンチマークスコアの比較。GPT-4.5は、科学、数学、一部のコーディングのベンチマークでo3-miniに大きく劣る結果となっている。(OpenAI配信

一方で、OpenAIのシステムカードによれば、GPT-4.5は「OpenAI最大のLLM」とされており、リーク情報やOpenAI元メンバーのKarpathy氏の発言から、事前学習の計算量がGPT-4の約10倍に達すると見られます。これを裏付けるように、入力トークンあたりのAPI費用はo1の30倍に設定されています。†

これらの事実が示唆するのは、「事前学習によるスケーリング則の終焉」です。GPT-1からGPT-4まで続いてきた従来の方法論では、もはやGPT-4のベンチマーク性能を飛躍的に向上させることが困難になってきています。今後、飛躍的な性能向上を実現するためには、リーズニング(推論によるスケーリング則)との組み合わせか、全く新しいブレイクスルーが必要になると考えられます。

数ヶ月以内にリリース予定とされているGPT-5は、GPTシリーズとoシリーズが統合されたシステムとされており、サム・アルトマン氏⁨⁩率いるOpenAIがどんな発表を行うのか注目したいところです。

†出力トークンあたりのAPI費用はo1の15倍です。またoシリーズでは、推論過程でもトークンを消費するため、実質的な価格差はより抑えられると考えられます。

💡 GPT-4.5は現在、Proプランのユーザーのみに向けて提供されており、「GPT-4.5の特長を、将来のモデルを通じてすべてのユーザーに提供できるよう取り組んでいます」としています。

② Anthropicが実タスクに強いハイブリッド推論モデル「Claude 3.7 Sonnet」をリリース!

GPT-4.5の発表に先立つ形で、2月25日にAnthropicが新たなAIモデル「Claude 3.7 Sonnet」をリリースしました。

OpenAIのoシリーズやxAIのgrok3 beta resoningといった推論モデルが数学やコンピュータサイエンスの競技問題でのスコアの高さを前面に打ち出しているのに対し、Claude 3.7 Sonnetの発表では「ビジネス現場での実運用タスクによりフォーカス」していると謳われています。実際、実世界におけるエンジニアリング能力やエージェント能力を測るベンチマークで、o1やo3-miniといった競合モデルを上回るスコアを達成しています。

Claude 3.7 Sonnet (「拡張思考」しない通常モード) は、SWE-bench, TAU-benchでo1などの競合モデルを上回るスコアを達成。特にSWE-benchは、実在するGithubのイシューを元に作成された、人間のエンジニアが業務で対処するような複雑な問題から構成されている(Anthropic

Anthropic社によれば、Claude 3.7 Sonnetは「市場初のハイブリッド推論モデル」です。OpenAI、DeepSeek、xAIなどが推論モデルと通常のLLMを別々にリリースしているのに対し、Claude 3.7 Sonnetは両方の役割を一つのモデルで担っています。現時点では自動切り替え機能こそないものの、ユーザーがプロンプトを特別に変更する必要がないなど、よりシームレスな体験を提供しようという意図が伺えます。

私も開発用途でこのモデルを試用していますが、コーディング能力は前バージョンのClaude 3.5から着実に向上しており、解決時間の短さが優先される場面では、現時点でコーディング支援に最適なモデルと言えるでしょう。また、Claude独自の「Artifacts」機能も一層有用となっており、すでにWebページやアプリケーションデザインの叩き台作成に活用しています。

また興味深いことに、Claudeのエージェント能力向上が、ゲーム「ポケットモンスター 赤」を通じても実証されています。Claudeに簡易的なメモリと画面ピクセル入力を与え、ボタン操作を行える関数を呼び出す能力を付与したところ、旧モデルのClaude 3.0 Sonnetは最初の町「マサラタウン」の家から出ることすら困難だったのに対し、Claude 3.7 Sonnetはゲーム内のジムリーダーを3人も倒してバッジを獲得しています。まだゲームの進行速度は極めてゆっくりであるものの、未来を感じさせます(Twitchでの公式配信)。

Anthropic社は今後のビジョンとして、2025年中にAIが「アシスタント」から「コラボレーター」へと進化し、専門家レベルの品質で独立的に何時間ものタスクをこなせるようになると予測しています。さらに2027年には、本来何年もかかるような問題を解くためのブレイクスルーを見つけられるだろうとしており、新モデルの発表を中心に、同社の今後の動向に注目したいところです。

Anthropic社が示した今後のAIの進化のロードマップ(Anthropic

💡 Claude 3.7 Sonnetは無料プランでも回数制限ありで試すことができます。推論してから回答する「拡張思考」モードは、有料プランでのみ利用可能です。

③ ByteDanceが画像内の人物を極めてリアルに歌わせられる新技術OmniHuman-1を発表

AI技術によって生成できるディープフェイク動画の品質向上はとどまることを知りません。先日ByteDance社が画像内の人物を喋らせたり歌わせたりできる新技術「OmniHuman-1」を発表しました。用意する画像は1枚だけでよく、発話音声や音楽を用意するだけで極めてリアルにリップシンクさせることができます。是非以下の生成動画をご覧ください。

顔写真、上半身写真、全身写真などどんな構図でも、またどんなアスペクト比でも高品質な動画を生成できることが強みとされており、汎用性の高さが際立っています。1年前にAlibaba社より発表された、当時頭1つ抜けて高品質とされていたEMO(下記参照)と比較しても、一段とリアリティが増していることが分かります。

このように画像内の人物を喋らせられるAI技術を体験できるサービスとしてHedraが挙げられ、1分0.4ドル程度という手頃な価格で動画生成が可能です。しかし実際に自分の画像でやってみると、普段の仕草と大きな乖離があり、「不気味の谷」を強く感じました。

しかしこれは原理的に解決が難しい問題であり、オリジナリティ・一貫性を出すには、HeyGenのような動画から抽出した特徴をもとに、3Dアバター動画を生成するしかないのが現状ではないでしょうか。HeyGenもアバター作成・管理こそ別途料金がかかるものの、一本5分以下の動画であれば、月29ドルで無制限に生成できるようになっています。このような技術の発展と価格面でのさらなる改善に期待したいところです。

💡 OmniHuman-1は現在、プロジェクトページと論文のみが公開されています。

2. SNSで話題のAIツールをピックアップ!

  • AIに自然言語で指示して、フルスタックwebアプリを作成できるツール

  • 先日新たにReact Nativeでモバイルアプリを作れる機能が追加

  • 単一のファイルを生成するのではなく、ディレクトリ設計からファイル分割まで自動で遂行してくれることもあり、ページ遷移や認証機能もかなり正確に実装してくれる

  • 無料でも試すことが可能。ただしトークン制限が厳しいため、数回のやり取りで制限にかかってしまうことに注意

  • 従来のLLMとは全く異なる「拡散大規模言語モデル」を試すことができるプレイグラウンド

  • 頭から文章を生成するのではなく、ノイズから画像生成を行う拡散モデルのように、意味の通っていない「粗いテキスト」から「細かいテキスト」へと近づけていく

  • その結果、GPT-4o miniやClaude 3.5 Haikuと同性能を誇りながら、10倍程度の高速化を達成

  • 無料で試すことが可能。右上の「Diffusion Effect」をONにすることで、逆拡散の様子を確認できる

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!