• Mavericks AI ニュース
  • Posts
  • 世界最強AIモデルがイーロンマスク率いるxAI社よりリリース!Grok 4がベンチマークで衝撃スコア達成

世界最強AIモデルがイーロンマスク率いるxAI社よりリリース!Grok 4がベンチマークで衝撃スコア達成

他にも...OpenAIではなくまさかのGoogleがWindsurfを実質買収

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① イーロン率いるxAI社が「ベンチマークにて最も優れたモデル」Grok 4をリリース!

イーロン・マスク氏率いるxAI社が新たなAIモデル「Grok 4」をリリースしました。以下の4点をおさえておきましょう:

「ベンチマークにおいて最も優れたモデル」となり、多くの指標でo3やGemini 2.5 Proといった最先端モデルを上回る性能を達成

・強化学習によるスケーリングが終焉しておらず、AIモデルに依然として性能向上の余地があることを示唆

・しかし実際の使用感で、他モデルを明確に上回るようなユースケースは限定的

・さらに安全性に関する懸念が浮き彫りになっており、健全な普及に向けては解決すべき問題が山積

Grok 4のベンチマークにおける成果には華々しいものがあります。GPQA、AIMEといった科学・数学分野におけるベンチマークに加えて、人間には簡単だがAIにとって解くのが困難なパズル問題ARC-AGIや「AGI到達判定の最後の学術試験」と称されるHumanity's Last Examでも過去最高のスコアを記録しており、「ベンチマークスコアで最も優れたモデル」と評価して差し支えないでしょう。

人間には簡単だがAIにとって解くのが困難なパズル問題ARC-AGIにおけるGrok 4と他モデルの性能比較。他モデルの正答率はどれも一桁にとどまる中、Grok 4は15%を超える正答率を達成
xAI

この結果は、今後のAIモデルの進化に関する重要な知見を与えています。現在大規模AIモデルの進化は第2フェーズに突入しており、GPTシリーズに代表される「事前学習によるスケーリング」の時代がGPT-4.5の失敗により終わりを告げたものの、新たに発見されたoシリーズに代表される「強化学習によるスケーリング」を活用して各社がAIモデルの性能向上に取り組んでいます。

Grok 4では強化学習による計算量がGrok 3の10倍にまで増やされたと発表されており、第2のスケーリング手法がまだ飽和状態に至っておらず、今後も継続的な性能向上が見込めることが示唆されています。

Grok2 → Grok 3では事前学習の計算量が10倍になり、さらにGrok 3 → Grok 4では強化学習の計算量が10倍になった。なお、y軸に数値はないことから、事前学習・強化学習の計算量の比は分からないことに注意。
xAI

一方で残念ながら、Grok 4が革新的なユースケースを生み出せているとは言い難い状況です。私もAPIやCursor経由で使用してみたところ、もちろんo3、Gemini 2.5 Proといった最先端モデルより優れた回答をするケースも確認できますが、総じて他モデルを差し置いてあえて利用したいと思わせるほどの明確な優位性は感じられませんでした。xAI社が独占的にアクセス可能なX内の検索機能についても、特別な強みを発揮できていないようです。

💡 Grok 4を利用するためには、XのPremium+プラン(月額40ドル)またはGrokの有料プランSuperGrok(月額30ドル)に加入する必要があります。ただしAPI版であれば、LMArena等で試すことが可能です(詳しくは次のセクションをご覧ください)

② xAI社の今後のロードマップは?そしてGrok 4を手放しでは評価できない理由

Grok 4の登場は、AIモデル業界が重要な転換期を迎えていることを改めて示しています。ChatGPTが登場して以来、私たちは長らく「どのモデルが最高性能か」という観点でAIの進化を追ってきました。しかし徐々に性能差が縮まり始め、さらに今年に入ってエージェントとしての活用が本格化したことで、「このユースケースにおいてベストなモデルはどれか」という評価軸が重要となってきています。

実際、現在の主要なモデルを見渡すと、それぞれが明確な強みを持っていると強く感じます:

OpenAI o3
「DeepResearch軽量版」として web検索能力に秀でており、特にChatGPT経由で利用した際に、知りたい答えに最も確度高く辿り着ける。また単発だが高難易度のコーディングタスクにも抜群の強さを発揮

Gemini 2.5
高い推論能力を有し動画を理解できる上、o3と異なり回答形式が柔軟で説明も分かりやすいことが特徴。それでいて無料で無制限に利用できる上、Google製品への組み込みによって付加価値が一層高まっている

Claude 4.0 Sonnet (Thinking)
エージェント開発が「娯楽」だった時代から「実用的」になりつつある現在、コーディングエージェントとしての使用感がずば抜けて優れている点が強み。Claude搭載のコーディングツール「Claude Code」はユーザー数が11万人以上に成長するほどに人気を集めているほか、私自身もCursorでは常にこのモデルを使用

Grok 4はo3に近いweb検索を多用するモデルのようですが、残念ながら独自のユースケースを見出せているとは言い難い状況です。イーロン・マスク氏は、XにてTeslaでGrokが来週までに利用可能になると述べていますが、両者のシナジーが高いとは言えません。

むしろGrok 4が現状最も特異的なのは、安全面・倫理面に対する対策がおろそかになっている点です。検閲が弱く広範な質問に答えられてしまうほか、イスラエルとパレスチナの紛争についての考えを尋ねると、イーロン・マスク氏がどう考えているかをX検索して意見をまとめるといった挙動も確認されており、懸念の声が多く上がっています。

Grok 4にイスラエルとパレスチナの紛争についての考えを尋ねると、イーロン・マスク氏の意見を明示的にクエリに入れて検索を開始してしまうことが確認された
ThursdAI

それでも、同社が設立されたのはChatGPTリリースから8ヶ月も経った2023年7月であり、それにも関わらず、ベンチマーク性能において他の最先端LLMに追いついたこと自体は高く評価されるべきでしょう。xAI社は今後3ヶ月で、「コーディング特化モデル」「マルチモーダルエージェント」「動画生成モデル」を立て続けに発表予定だと明かしており、今後どのような独自ユースケースを編み出し、どのように安全性の問題と向き合っていくのか注目が集まります。

xAI社が明かした今後のロードマップ。今後3ヶ月で、「コーディング特化モデル」「マルチモーダルエージェント」「動画生成モデル」を立て続けに発表する予定である
xAI

③ まさかのOpenAIではなくGoogleがWindsurf社を実質買収。CEO含む人材を引き抜き

コーディング支援AIツールを開発するWindsurf社が約24億ドル(約3500億円)でGoogleに実質買収されたと、CNBCThe Vergeなどの海外メディアが報じました。Windsurf社も公式ブログにて、Googleと契約を締結したことを正式に認めています。元々OpenAIが約30億ドルで買収合意に至ったと報じられていただけに、衝撃的な発表となりました。

Windsurf社は、昨年11月にAIエージェント開発に特化したIDE「Windsurf」をリリースした新興企業であり、Cursor開発元で時価総額1兆円越えのAnysphere社の競合として注目を集めていました。

WindSurfの操作画面。右側のチャットにてAIエージェントとやり取りが行え、自然言語で指示をしながらコーディングを進めることができる。

OpenAIとの買収契約が破談に至った背景には、OpenAIとMicrosoftの軋轢があったと報じられています。Microsoftは現在OpenAIの全知的財産にアクセスできる立場にありますが、OpenAIはMicrosoftがWindsurfのAIコーディング技術まで手に入れることを望んでいなかったとされています

対してGoogleは今回の契約によって、理想的なアクハイヤに成功したようです。株式取得は行わないものの、Windsurfの技術の一部に対する非独占的ライセンスを取得し、さらにWindSurf CEOのVarun Mohan氏、共同創業者のDouglas Chen氏を含む一部の研究開発メンバーはGoogle DeepMindに移籍し、主にGeminiの開発に携わることになると報じられています。

このようなアクハイヤはAIモデル開発企業の間で横行しており、これまでにMicrosoftがInflection社、AmazonがAdept社、GoogleがCharacter.AI社の人材を同様の手法で引き抜いています。また先月は、MetaがScale AI社を約2兆円で実質買収しCEOを引き抜いたと報じられたばかりです。

そしてこのように買収されたAIスタートアップは、その後ほぼ例外なく成長速度を鈍化させています。Windsurf社の従業員約250名は同社に残るとされているものの、Cursorに加えてClaude Code、Gemini CLIといった競合が次々に勢いを増しており、同社も同様の道を辿る可能性が高いでしょう。

2. SNSで話題のAIツールをピックアップ!

  • かつて「Chatbot Arena」として知られたAIモデルの回答を比較できる無料webアプリ。先日リニューアルが行われ、一気に使いやすくなった

  • 同じ指示に対する2つのAIモデルの回答を分かりやすく比較できる

  • 新モデルへの対応も早く、API版ではあるが、本来月額30ドル払わないと利用できないGrok 4もすでに無料で利用でき、非常におすすめ

  • 最先端画像生成AIモデル「FLUX」や画像編集AIモデル「Flux Kontext」を試せる公式プレイグラウンド

  • 新たに画像編集の機能がアップデートされ、画像をアップロードするだけで「場所・スタイル・カメラアングルの変更」「リライト」といった編集を行えるように

  • プロンプトなしでも実行できる上無料であり、手軽に試せるのが魅力的

  • 他にも機能が豊富で、キャラクターを指定した画像生成や物体の置き換えなどではChatGPTやGeminiを凌ぐ性能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

なお、先週は配信をお休みさせていただきました。配信予定については公式Xアカウントにて随時お知らせしていますのでご確認ください。今後ともMavericks AIニュースをよろしくお願いいたします。

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在13万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は40社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちrまお是非チェックしてみてください!