• Mavericks AI ニュース
  • Posts
  • Googleが年に一度の怒涛の発表!AI検索が大幅進化、音声付き動画生成Veo 3など

Googleが年に一度の怒涛の発表!AI検索が大幅進化、音声付き動画生成Veo 3など

他にも...Geminiによるリアルな日本語音声合成、Gmail自動返信

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

先週はAI業界が熱狂した一週間となり、特にGoogleが5月21日に開催した年次開発者会議「Google I/O」では、生成AI技術や自社製品に関する画期的な発表が目白押しでした。今回は3つのパートに分けて、発表間の繋がりが読み解けるように解説していきます!

1. 直近のビッグニュースTop 3

① 基盤モデルの進化 - Gemini音声合成、動画生成Veo 3、新LLM Gemini Diffusion

Google I/Oにおける数ある発表の中で、まず注目したいのがGemini 2.5における音声合成機能の大幅な強化です。特に日本語の音声合成品質が飛躍的に向上し、自然な抑揚を持つ感情のこもった音声を生成できるようになりました。総合的な品質で評価すると、OpenAIの音声機能と同等か、上回る水準に達していると言えるでしょう。

この音声合成機能の強化は単なる品質向上にとどまりません。2人の人物が対話する形式の音声生成が可能になったほか、特定の話者に対して「どのように喋るか」をプロンプトで細かく制御できる機能も新たに搭載されています。

OpenAIも今年3月に喋り方を指定できるOpenAI.fmを提供していましたが、毎回声のトーンが極端に変わってしまうという問題が知られていました。対してGeminiでは、そのようなブレが少ない上、抑揚が極めて自然であることから、多くのユースケースでより好まれる選択肢となるでしょう。

そしてSNSで特に大きな話題を呼んだのが、音声付きの動画を生成できるAI「Veo 3」のリリースです。生成動画の品質はもはや感動的な水準であり、是非以下の投稿を音声ONでご覧ください。

このようにVeo 3は、話し声、効果音、BGMなど、あらゆる音声・音楽を含んだ動画を生成でき、動画の品質自体もさらに向上しています。現実と識別不可能なクオリティに達していると言って良いでしょう。

また技術的な観点から研究者を中心に大きな注目を集めたのが、これまでの最先端モデルと異なるアーキテクチャを持った新しいLLM「Gemini Diffusion」の発表です。性能面ではGemini 2.0 Flash-Liteに及ぶかどうかといった水準にとどまっているものの、出力速度は1500トークン/秒と約5倍の高速化を実現しており、今後新たなブレイクスルーを起こす可能性を持っています。

振り返ってみると、2023年12月にGeminiが初めてリリースされた時点では、GoogleはAIモデル開発においてOpenAIをはじめとする競合企業に大きく遅れをとっており、この分野は明らかに苦手領域でした。しかしそれからわずか1年半足らずの間に、Gemini 2.5 ProがLMArenaの全カテゴリで1位を獲得するまでに成長し、これまで見てきたように革新的な技術発表も相次いでいます。すでにGoogleはAIモデル開発で競合企業に追いついており、場合によっては引き離す可能性すら感じさせる発表となっています。

💡Geminiの音声合成機能は、Google AI Studioでお試し可能です(次のセクションを参照)。Veo 3は月額$250の有料プラン「Google AI Ultra」で利用することができます。

② 検索体験をAIで再構築 - UI一新、個別最適化、AIエージェント、マルチモーダル

今回Googleは、同社が20年以上にわたって築き上げてきた従来の検索体験とは根本的に異なる、新しい検索のあり方を「再構築」していく方針も明らかにしています。その中核を担うのが、Gemini 2.5を軸とする検索機能「AI mode」の大幅アップデートです。現在米国にて一部機能が提供開始されており、詳しく解説していきます。

「AI mode」の表面的なユーザー体験はChatGPT Searchと同様で、質問を投げかけるとAIがweb上の情報を収集して回答してくれるというものです。しかしこの機能には、「Personal Context」と呼ばれる画期的な仕組みが導入される予定です。これはユーザーがGoogle検索履歴や、GmailをはじめとしたGoogle製品を使用することで蓄積される情報をもとに、回答を個人最適化するものです。

例えばAIに対して旅行先で何ができそうか尋ねた際には、以下のように気を利かせてくれます:

・レストランを探す際に、最近の予約・検索履歴から屋外の席が好みと判断して積極的に推薦

・フライト・ホテル予約のメールに基づいて、滞在場所・期間を考慮してイベントを提案

さらに詳細な調査が必要な場合には、「Deep Search」機能を有効にすることも可能です。時に数百件もの検索を自動実行した上で、数分後に網羅的な回答を提供してくれます。

またGoogleがかねてより推進してきた2つの研究プロジェクトが実を結び、プロダクトに反映され始めている点も注目です。AIにPC操作を委ねることを目指すProject Mariner」と、画像・音声を理解してリアルタイムに会話できるAIアシスタントを構築するProject Astra」が相当し、それぞれ「AIエージェント」「マルチモーダル」に対応します。

実際、AI modeには今後AIエージェント機能が統合される予定で、イベントチケット購入やレストラン予約を、料金等の詳細情報を事前に比較検討した上で、ワンクリックで代行指示できるようになります。またGoogle Lensを拡張した「Search Live」では、カメラを通した映像を見ながら音声対話で質問を行うことができ、AIが回答時にweb情報を参照した際は、ワンクリックでソースにアクセスできる仕組みも用意されています。

AI modeに統合されたAIエージェント機能を使えば、スポーツ観戦チケットの購入先候補が複数リストアップされた上で、その購入をワンクリックで完了できるとされている(元動画はこちら

このようにGoogleは、OpenAIが手掛けてきたDeepResearch、Operator、リアルタイムビデオAI対話といったサービスと同様の機能をカバーしつつ†、同社だけが取得可能なユーザーデータを活用して「個人最適化」を行うことで、唯一無二の価値を提供することを目論んでいるようです。

もちろん、これらがどこまで実用的かは未知数です。「AIエージェント」「マルチモーダル」は直近のAIトレンドの中心となっているものの、o3のような最先端モデルでさえ、実用レベルでは性能が不十分なケースが多いのが事実です。「個人最適化」に関しても、ChatGPTのパーソナライゼーション機能は現状全く使いものになりません。

それでも、世界トップレベルのAIモデルに上り詰めたGeminiが今後、これら3つの観点においてどのように進化し、どのように革新的な検索体験を生み出してくれるのか、その動向から目が離せないでしょう。

† さらに言うならば、OpenAIはこれまでにOperator, DeepResearch, Codexという3つのAIエージェントを発表していますが、Googleはそれらに対応する形でProject Mariner, Deep Search, Julesを発表しており、上述のようにProject Marinerを検索体験に融合することにも一定成功していると思われます。

③ GeminiがGoogle製品へ深く統合 - Gmail自動返信、Meetリアルタイム翻訳

今回のGoogle I/Oでは、Google検索に留まらず、他のGoogle製品にGeminiが統合されることで、どのように私たちの生活が変わっていくかについてもビジョンが語られました。

例えば、今年後半よりGmailで提供予定の「Personalized smart replies」では、過去のメールやGoogle ドライブから情報を取得した上で返信内容を考え、さらに各ユーザーの普段の書き方に合わせてトーンまで調整してくれます。

またGoogle Meetにはリアルタイム翻訳機能が導入されました。現時点では英語・スペイン語のみの対応ですが、今後わずかな遅延で「翻訳こんにゃく」のような形で多言語話者と会話できるようになっていく未来が確実となっています。

Googleによれば、Googleの全製品で集計されたGeminiの処理トークン数は今年2月を境に一月あたり1.5倍超のペースで急激に増加しており、4月時点で月当たり480兆トークンに達しています。これはAzureの消費トークン数の約10倍に相当し、OpenAIの消費トークン数には及ばない数値のようですが、今後もGeminiがインフラとしてあらゆるGoogle製品で使用され、付加価値を増大させていくことは確実です。

Geminiの(他製品での使用も含めた)全消費トークン量の時系列推移。1年間で約50倍増加し、特に今年2月以降を境に急激に増加していることが読み取れる。
Pichai氏によるX投稿

最後に、今回のGoogle I/Oで押さえておくべきポイントをまとめます:

・【現在〜】Geminiをはじめとする基盤モデルがさらに強力に進化(Powerful)

・【主に今夏〜】Gemini搭載の「AI mode」が米国にて正式提供開始。既存の検索体験を壊し、新しいあり方を「再構築」していく。そして、他のGoogle製品にも進化したGeminiが深く統合され、より便利に
← Geminiがマルチモーダル・エージェント性能を発揮しつつ、ユーザー情報を元にした個別最適化された提案を行う(Personal)

・そして将来的には、ユーザー理解を元に指示待ちではなく先回りして行動Proactive)してくれることも期待される

2. SNSで話題のAIツールをピックアップ!

Google AI Studio Generate Speech (https://aistudio.google.com/generate-speech)

  • Geminiによる音声合成機能が大幅アップデートされ、Google AI Studioにて無料で試せるように

  • 日本語性能が極めて高く、特に抑揚の自然さに関しては、OpenAIの音声機能を上回って世界最高レベル

  • さらにインタビュー・漫才など、対話形式の音声を生成できるほか、各話者が「どのように喋るか」も指定できるように

  • 対話モードにおける喋り方の指定は、「スポーツ選手は感情豊かに、アナウンサーは冷静沈着に」といったように自然言語で意味が通るように指定すれば良い

  • Googleが新たに発表した画像生成AIモデル「Imagen 4」を試せるサービス

  • 単発の画像生成に加えて、複数の画像を組み合わせて新しい画像を生成することもできる

  • 他にも機能が充実しており、生成画像に自然言語で変更を加えたり、画像のアスペクト比を変更したりできる

  • 現在は実験版につき、無料で利用可能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!