• Mavericks AI ニュース
  • Posts
  • イーロンマスクの逆襲。X情報を網羅的に調査できるGrok 3がリリース!Figureが2体で共同作業可能な人型家庭用ロボットを発表など

イーロンマスクの逆襲。X情報を網羅的に調査できるGrok 3がリリース!Figureが2体で共同作業可能な人型家庭用ロボットを発表など

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

xAI社がこれまで提供してきたGrok 2では、回答時にX情報を参照こそしてくれるものの、投稿の取得精度が低かったため使用する場面はほとんどありませんでした。一方で今回発表されたGrok 3では大きく改善されており、かなり実用性が増してきたと感じます。

1. 直近のビッグニュースTop 3

① xAI社がGrok 3をリリース、独自のDeepSearch機能でX投稿を網羅的に調査して回答

イーロン・マスク氏率いるxAI社が、Grok 3シリーズをリリースし、X上で利用可能になりました。Grok 3 Betaは数学、科学、コーディングなどのベンチマークでGPT-4oやClaude 3.5 Sonnetを上回るスコアを達成しており、さらにGrok 3 Reasoning Betaは同様のベンチマークでo1と同等、あるいはそれを超えるスコアを達成したと報告されています。

Grok 3と他社LLMの数学、科学、コーディングのベンチマークにおけるスコア比較
Grok 3の発表配信

特に注目すべきは、Grok 3を使ってweb情報およびX投稿を調査して回答してくれるエージェント「DeepSearch」が利用可能となったことでしょう。これまでのGrokは、X投稿を参照して回答してくれる機能こそあったものの、検索精度が低く実用的とは言えませんでした。一方DeepSearchは、数十件に及ぶX投稿を参照して、「Xでしか拾えないユーザーの声」を元に回答してくれます。

Animate Anyone 2 (後の節で紹介)について、DeepSearchモードを使ってGrokに質問した結果。 回答の品質自体はOpenAI Deep Researchより数段階劣る印象だが、10を超えるX投稿にアクセスできるのは明確な強みである。

LLM、エージェント開発におけるxAI社の最大の強みは、XというSNSプラットフォームを管理しているだけでなく、X内のデータを独占しており、他社がX情報を元に回答するAIを開発することが実質不可能である点にあるでしょう

イーロン・マスク氏がTwitter社のCEOに就任して以降、2023年2月に公式APIの利用条件が大幅に変更され、AI検索サービスのような用途で公式API経由でXデータを取得することは現実的でなくなりました。

さらにスクレイピングやクローリングといった他の手段による情報取得も困難になっています。2023年7月にはユーザーあたりの投稿閲覧回数に制限を設けたほか、同年10月にはBingのクローラーによるアクセスをブロックしており、現在もBing検索ではXの情報をほとんど入手できない状況です。

これはGoogleがYouTubeを運営しながらも、Runwayなどの競合に無断で動画生成AIの学習に流用されていると報じられている状況とは対照的と言えるでしょう。

xAI社は、Grokの学習にあたって独自のデータセンターを構築し、H100 GPUの台数を92日間で10万台から20万台に増強したと発表しています。このように大規模な計算資源の確保こそ必要であるものの、改めて最先端のLLM開発がコモディティ化しつつあることを示す発表となりました。

xAI社はアメリカのテネシー州メンフィスにAIインフラ「Colossus(コロッサス)」を設置した
Grok 3の発表配信

また、Grok 2にはジョークを交えて回答してくれる「ユーモアモード」がありましたが、Grok 3に関しても音声会話でNSFWモードが実装されるなど、やはり独自色の強い機能が公開されています。今後の展開を注視したいところです。

💡 Grok 3は「サーバーが落ちるまで」無料ユーザーを含むXの全アカウントにて使用可能と発表されています。ボイスモードは、Premium+プランで利用可能です。詳しい使い方については次のセクションをご覧ください。

② Figure社が小型VLMを搭載した2体で共同作業可能な人型家庭用ロボットを発表

ChatGPT搭載の人型汎用ロボット「Figure 01」で知られる、2019年設立のFigure AI社が、新たにAIモデル「Helix」を搭載した人型ロボットを発表しました。

以下のデモ動画にて、このロボットの実力を確認できます。2体のロボットに対して「食料品を置いておくので、何をどこにしまうべきかよく考え、協力して片付けてほしい」と口頭で指示すると、ロボット同士が協力し合い、見事にタスクを完遂する様子が確認できます。

Helixは家庭環境用に設計されており、胴体、手首、指といったヒューマノイドの上半身全体を高周波数で滑らかに動かすことができます。家庭には壊れやすいガラス製品やしわくちゃの衣服など、形状・サイズ・色が不規則な物体が無数に存在しますが、未知・既知を問わず、あらゆる物体をピックアップできるとされています。

さらに特筆すべきは、2体での共同作業が可能である点です。事前に各々の役割を指定しなくても協力して効率的にタスクを遂行できる、言わば「マルチエージェント」が実現されています。

Helixはなぜこのように汎用的なタスクをこなせるのでしょうか?中心的な役割を果たしているのが、パラメータ数7Bの小型VLM(視覚言語モデル)です

従来は、ロボットに「1つの個別タスク」を学習させるだけでも、博士レベルの専門家を雇って長時間プログラムを書かせたり、数千回にも及ぶデモンストレーションのデータを用意したりする必要がありました。一方でVLMを活用することで、タスクごとの切り分けが不要となり「一連の動作」を記録したデータセットを直接学習可能になりました。さらに未知のオブジェクトに対応できるなど汎化性能が大きく向上しています。

Figure AI社が提唱するロボットのタスク習得における「新しいスケーリング則」。
従来、個別タスクを習得するだけでもPhDレベルの専門家が必要だったのが、データ駆動型のアプローチの登場により、タスクごとのデモデータを並列学習させるだけで良くなり、さらにVLMの登場によって、一連の動作を記録したデータから汎用的なロボットを開発できるようになってきている。(Figure AI

さらに、VLMが「人間とロボットとの架け橋」となることで、曖昧な自然言語による指示にも対応できるようになりました。これらの進化は私たちがChatGPTの登場以後、開発者、ユーザーとして感じてきた進化そのものと言えるでしょう。

「砂漠のアイテムをピックアップして」という曖昧な指示に対しても、Helix搭載のロボットは正しく応えることができる(Figure AI

ただし、Helixの学習には依然として500時間のテレオペデータが使用されており、動作もかなり遅いです。今後数年の間に、ハードウェア、ソフトウェア双方で新たなブレイクスルーが起きることで、実用レベルのロボットが開発できるようになることが期待されます。

③ アリババが世界に衝撃を与えた「Animate Anyone」の後継モデル「Animate Anyone 2」を発表

2023年12月、アリババ社が画像内のキャラクターを踊らせる「Animate Anyone」を公開し、X(旧Twitter)のトレンド入りを果たすなど世界中の注目を集めました。そして今回、同社はその後継となるAnimate Anyone 2」を発表しました。

Animate Anyoneが動画を見本に「画像内の人物を動かす」技術だったのに対し、Animate Anyone 2は動画内の人物そのものを「別の人物に置き換える」手法となっています。百聞か一見に如かずということで、是非以下の動画をご覧ください。

「ブレイクダンス」や「ダンクシュート」といった激しい動きを伴うシーンでも、人物の置き換えが極めて正確に行われており、破綻がほとんどない点が印象的です。

同様の技術を提供するサービスとしては、昨年8月にa16zをリードとして1900万ドル(約28億円)の資金調達に成功した「Viggle」が知られており、こちらも昨年末のv3へのアップデート以降、生成動画の品質が大きく向上しました(生成動画例1例2)。

両モデルとも、現状では照明効果の反映や色調の馴染ませ方が不十分であり、置換された人物が浮いて見えてしまうという限界こそありますが、この点が改善されれば、合成感のない、現実と見分けがつかないレベルに高品質な動画生成が可能になるでしょう。

💡 アリババ社は開発したAI技術を基本的にオープンにしないことで知られており、Animate Anyone, Animate Anyone 2はともに論文のみの公開となっています。

2. SNSで話題のAIツールをピックアップ!

  • Googleが開発した、複数の画像を組み合わせて画像生成できるプラットフォーム

  • 「モデル」「背景」「スタイル」の3つを指定して直感的に画像を生成できる(「イルカ」の「ステッカー」、「クマ」の「3D画像」など)

  • 種となる画像をテキストから生成できたり、生成画像に自然言語で変更を加えられるなど機能が充実。生成画像のアスペクト比も変更可能

  • 内部では、Googleの最先端モデルImagen 3が使用されており、画像のクオリティが非常に高い。現時点では無料で使用可能

  • イーロン・マスク氏が率いるxAI社がリリースしたGrok 3が、期間限定で無料で使用可能に(「サーバーが落ちるまで」とされている)

  • web情報、X情報を元に回答してくれる「DeepSearch」やOpenAI o1のようにじっくり考えてから回答してくれる「Think」モードがある

  • Xの情報を調査してほしいときは、基本的に「X投稿を元に回答して」などと明示的に指示する必要あり

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!