• Mavericks AI ニュース
  • Posts
  • Googleが世界を生成するAIモデル「Genie 3」を正式リリース!ロボット・自動運転からAGI実現に向け大きな一歩!

Googleが世界を生成するAIモデル「Genie 3」を正式リリース!ロボット・自動運転からAGI実現に向け大きな一歩!

他にも...エージェントの力でGeminiの画像解析能力が大幅向上。「Agentic Vision」が公開!

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① Google DeepMindが世界モデル「Genie」を米国にてついにリリース!その応用先は?

Google DeepMind社が、かねてより発表されていた世界モデル「Genie 3」を試せる実験的プロジェクト「Project Genie」を米国ユーザー向けに公開しました。

「世界モデル」とは、映画マトリックスで描かれたようなシミュレーション空間を生成できるAIのことを指します。生成された3D空間内では、PCのキーボードを使って自由に移動することが可能です。

公式デモ動画にて、Project Genieの機能が分かりやすくまとめられていますので、是非ご覧ください。

非常にワクワクする技術ですが、実際に何がどこまでできるのでしょうか?Project Genieの主な仕様は以下の通りです。

テキストや画像を入力して世界を生成可能

ユーザーによれば生成待ち時間は10〜30秒で、それ以降は一貫性のある世界がリアルタイムに1分間生成され続ける(基盤モデルであるGenie 3自体は数分間の生成に対応)

解像度720p、フレームレート24fps。モバイルで視聴する動画としては十分な品質

・キーボードで移動・ジャンプ・カメラ視点変更をリアルタイムに行い、世界を探索可能

得意不得意こそあるものの、キャラクターに限らず、車・鳥・タバコの箱といった多種多様な物体を、ゲーム風の空間でも実写風の空間でも操作でき、表現の幅広さには目を見張るものがあります。さらに画像アップロード機能を活用すれば、愛犬やぬいぐるみが自分の部屋を冒険する様子を眺めるといったユニークな遊び方も楽しめます。

世界モデルはまだ研究段階にありますが、将来どのような活用先が考えられるのでしょうか

Google DeepMind社の発表を参考にすると、まず短期的には、ゲーム開発におけるアイデアの素早い検証や、歴史の授業で生徒が過去の時代を疑似体験するといった用途が考えられます。中期的には、ロボットや自動運転など現実世界で稼働するAIエージェントの訓練・評価環境としての活用が見込まれており、究極的にはAGI実現に向けた重要なマイルストーンになると期待されているようです。

一方で、こうした応用シナリオを念頭に置くと、現状のGenieが抱える課題も浮かび上がってきます。数分間の連続生成が可能になったとはいえ、そのような短時間で実施できる検証には限りがあります。加えて、ロボット同士の協調動作を想定すると、複数の主体が同じの世界を共有する必要がありますが、今のところ操作できるのは単一の主体に限られています。

それでも、2024年12月に登場したGenie 2では操作可能時間が10〜20秒、出力解像度も360pに留まっていたことを考えると、性能は着実に向上しており、今後のさらなる発展に期待が高まります。

② エージェントの力でGeminiの画像解析能力が大幅向上。「Agentic Vision」が公開!

Google社がGemini 3 Flashにて、画像解析の精度を向上させる新機能「Agentic Vision」をリリースしました。これは画像を解析する際に、適切なコードを実行することで、より正確な回答を導き出せるというものです。

例えば以下のデモでは、基板の写真からチップ上の型番を読み取る様子が実演されています。チップ部分を切り取り、拡大・回転させることで、従来では困難だった細かな文字も正確に特定できています。

公式デモサイトでは他にも、従来のVLM(視覚言語モデル)が苦手としてきたタスクを正確にこなす様子を確認できます。

・画像内に映る手の指の本数をカウント

・Gemini 3.0 Proと既存モデルの比較データから、従来最高スコアに対する伸び率が直感的に分かるグラフを作成

Agentic Visionがこなせるタスクの具体例2つ

Agentic Visionの仕組みはシンプルで、画像を見て「思考(Think)」し、詳細な解析が必要と判断すれば「コード実行(Act)」して新たな情報を「観測(Observe)」するというサイクルを繰り返します。ここで言うコード実行とは、画像の拡大・回転、物体検出といった操作を指します。このサイクルにより、タスクの難易度に応じて解析の深さ、ひいては処理時間を柔軟に調整できるのです。

Agentic Visionの仕組みを説明した図
Google

実はこうしたエージェンティックな画像解析自体は以前から可能でした。昨年4月にリリースされたo3では、街並みの写真から、まるで特定班のごとく撮影場所を極めて高い精度で特定できました。しかし1つのタスクに数分〜10分程度を要することから、実用的な使用場面は限られていたのが実情です。

一方Agentic Visionでは、上述したようなタスクがわずか20〜30秒で完了します

2023年9月にリリースされたGPT-4V以降、VLMの画像認識能力は着実に向上し続けてきました。それでも依然として文字の誤認識をはじめとしてハルシネーションが多く、「AIは盲目」という状況は根本的には変わっていません

今回紹介したような仕組みが、この課題を解決する有効なアプローチの一つであることは間違いありません。しかしAgentic Visionも、回転や物体検出など、拡大以外の画像操作はプロンプトで明示的に指示する必要があるなど、まだ制約が残っています。AIが私たちと同等の視覚能力を獲得するには、まだ時間がかかりそうです。

💡 Agentic VisionのデモはGoogle AI Studioでサンプル付きで公開されており、どなたでも試すことができます。詳しくは次のセクションをご覧ください。

③ MCP初の拡張「MCP Apps」が公開。Claude内でアプリを直接操作可能に!

Anthropic社が、Figma、Slack、Boxといった外部アプリの機能を、Claudeのチャット画面上で直接利用可能になったと発表しました

以下の公式投稿にユースケースがまとまっています。Figmaで作成したフローチャートをその場で確認したり、Claudeが考えたメッセージをSlackのドラフトとして表示し、その場で編集・送信したりする様子が紹介されていますので、ぜひご覧ください。

この機能は、昨年10月にOpenAI社が発表した「Apps in ChatGPT」のClaude版と言えるものです。連携先のアプリにわざわざ移動せずとも、AIチャットサービス内で全ての操作を完結させられる点が画期的です。

Claudeと連携可能なアプリの例。すでに100以上のアプリとの連携に対応している

そしてこのような仕組みは、ChatGPTやClaudeに採用されただけでなく、標準化も着々と進んでおり、今後、業界のデファクトスタンダードになっていくことはほぼ確実と思われます。

実際、米国時間1月26日には、MCPの運営団体がMCP Apps」と呼ばれるMCP拡張をリリースしました。これはAIチャットサービス(あるいはより広くホスト)において、会話の中に「ミニアプリ」を埋め込むための標準規格であり、今回のAnthropic社によるリリースもこの技術によって実現されています†。

個人的には、この連携機能には実用的なケースと、興味深いがあまり役には立たないケースがあると考えています。例えば、Google DriveやBoxとの連携によって、Claudeが参照したファイルをビューワーで直接確認できるのは非常に便利です。一方で、Slackへのメッセージ送信については、ClaudeではなくSlack側で完結してほしいというのが正直なところです。

ClaudeからBox内のファイルプレビューを確認する様子。わざわざアプリを切り替えなくて良く、非常に便利である
Anthropic

今回の機能が今後どれだけの実用性を持つかは、AIのエージェント性能はもちろんのこと、私たちが普段の業務でどれくらいChatGPTやCoworkから離れたくないか、言い換えれば、どれだけ滞在するかに大きく依存します。まずは上述したBoxなどのシンプルなケースで使われ始め、徐々により高度なミニアプリの利用が浸透していくのではないでしょうか。

† ちなみにMCP Appsの設計にあたっては、OpenAIの「Apps in ChatGPT」にて開発者が使用する「OpenAI Apps SDK」が土台になったと述べられています

💡 Claudeと外部アプリとの連携機能は、Claudeの有料ユーザーに向けて公開されています。こちらの発表に従ってセットアップ可能です。

2. SNSで話題のAIツールをピックアップ!

  • Gemini 3 Flashを利用した画像解析機能「Agentic Vision」を試せるプレイグラウンド

  • 入力画像に対してコードを実行して解析することで、小さい文字の読み取りや複雑なグラフ作成といった高難易度のタスクを正確にこなす様子を確認できる

  • 実行例が用意されており、自分で画像やプロンプトを用意しなくても、事例について簡単に学べる

  • Google AI Studioで公開されており、無料で利用可能

  • 人間禁制で、AIエージェントのみが参加できるSNS。米国のRedditに似せた作りになっており、数百万のAIが参加

  • AIエージェントたちの会話を楽しむことができるほか、自らAIエージェントを送り込むこともできる

  • ただし、APIを使うことで人間も投稿できてしまうため、人間の思惑が強く入ったスレッドがある点に注意(詳しくはこちら

  • 無料で利用可能だが、エージェント作成に関しては、慎重に利用しないとセキュリティ上のリスクがあるため、閲覧のみをおすすめ

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在15万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は60社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちらも是非チェックしてみてください!