• Mavericks AI ニュース
  • Posts
  • 音声対話AIの進化が止まらない!OpenAI, Googleがリアルタイム音声対話機能を大幅アップデート

音声対話AIの進化が止まらない!OpenAI, Googleがリアルタイム音声対話機能を大幅アップデート

他にも...LINEがAIキャラクターとやり取りできる新サービス「AI Friends」を提供開始

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① Google, OpenAIのリアルタイム音声対話機能が共にアップデート!

Googleが提供するリアルタイム音声対話機能「Gemini Live」がアップデートされ、カメラ共有時にAIが物体を視覚的にハイライトできるようになったと発表されました。

公開されたデモ動画では、散らばった工具をカメラで撮影しながら「説明書では0.5インチのレンチを使うように書かれていたのですが見当たりません。どれなら代用できますか?」などと尋ねると、Geminiが該当する工具を画面上で指し示しながら回答する様子が確認できます。

Googleが7月に発表した通り、Geminiの物体認識能力は非常に高い水準に達しており、映り込んでいる物体が一般的なもので、かつ数が10個程度であれば、完璧に近い精度で画像内の物体の位置と内容を特定することができます。

さらに単純な物体認識にとどまらず「帽子をかぶっていない人」といったように対象の状態把握が必要だったり、「掃除すべきエリア」などと指示が抽象的な場合にも対応できます。このような技術の進歩により、AIにも指図しながら説明してもらえる環境が整いつつあると言えるでしょう。

(上)Geminiに「帽子をかぶっていない人」を検出させた結果(Google
(下)Geminiに寿司の写真を与えて、全物体を検出させた結果

また、昨年9月にChatGPTのリアルタイム音声対話機能がリリースされてから約一年が経過しましたが、この音声対話機能も直近数ヶ月で大幅にアップデートされ、実用性が向上しています。

具体的には、抑揚や間の取り方がより自然になり、人間と通話しているのではないかと思わせる水準に到達しているほか、Web検索の判断能力も極めて高く、商品価格の問い合わせなど必要な場面でのみ高速に検索をした上で回答してくれます。

スマートフォンアプリでは、カメラや画面の共有も可能です。「以前購入した商品の価格を確認」「観光地で建造物について聞く」「記事中の不明な単語について尋ねる」といったように、多彩な用途で活用することができます。さらに、無料ユーザーでも1日数時間の利用が可能になるなど、アクセシビリティの面で大きな改善が見られます。

(左)ChatGPT Voiceに共有した画面。GPT-5リリース時のニュースレター記事
(右)ChatGPT Voiceとのやり取りのログ

一方で音声対話機能に限らず、現在のLLMは依然として一問一答以外の「連続的な長いやり取り」を苦手としており、こうした場面では回答の正確性が大幅に低下する傾向にあります。日常生活をサポートする「AIアシスタント」が本格的に普及していくためには、この根本的な課題の解決が重要なマイルストーンとなるでしょう。

💡 Gemini Liveでのビジュアルハイライト機能は、8月28日以降Pixel 10シリーズで利用可能となり、その週に他のAndroidデバイス、さらにその後数週間以内にiOSデバイスへと展開される予定です。

② LINEがAIキャラクターとやり取りできる新サービス「AI Friends」を提供開始

メッセージングアプリLINEが、AIキャラクターとメッセージのやり取りを楽しめる新サービス「AI Friends」の提供を開始しました。

架空のアイドル、歴史上の人物、動物など多様なキャラクターとの会話を楽しめるほか、トーク内容によってはボイス付きで返答がなされます。さらに、GrokのAIコンパニオンモードで見られたような「親密度」システムも導入されており、やり取りを通じて関係性も変化していくようです。

LINE AI Friendsの使い方の説明
LINEヤフー

画像をアップロードしてオリジナルのキャラクターを生成することも可能で、年齢や背景、職業、口癖といった設定を自由にカスタマイズできます。現時点では主にテキストベースでのやり取りが中心となっており、機能面ではGoogleに実質的に買収されたCharacter.AIに近いサービスと言えます。

AI Friends内のキャラクター「綾小路 空」のキャラ説明とチャット画面

一方で、安全性への配慮も見て取れます。オリジナルキャラクターの公開には事前審査による承認が必要で、著作権・肖像権を侵害する恐れがあったり、社会的に不適切または有害な可能性のあるキャラクターは公開できない仕組みが整備されています。

AIコンパニオンサービスの特徴として、ユーザーのエンゲージメントが極めて高いこと挙げられます。昨年のa16zの報告によれば、Character.AIにおけるユーザーの平均滞在時間は1日あたり2時間に達するほか、AIコンパニオンアプリの平均セッション数は他カテゴリのAIアプリと比べて突出しています。

2024年のAIモバイルアプリTop 50に選ばれたアプリのカテゴリ別に、ユーザーの一月あたりの平均セッション数を集計したグラフ。Companionカテゴリが突出していることが分かる
(a16z)

もっとも、このような高いエンゲージメントは、同時にAI費用の負担増加をもたらします。AIコンパニオンの普及に向けては、より深みのある会話を実現するためのLLMの性能向上はもちろん、LLM、音声合成AI、動画生成AIといった各技術要素のコストダウンが不可欠と言えるでしょう。

💡 LINEのAI Friendsは無料で利用可能です。詳しくは次のセクションをご覧ください。

③ MetaとMidjourneyが提携を発表。AIモデル開発競争はまだまだ激化していく

日本時間8月23日、Metaが画像・動画生成AIの開発で知られるMidjourneyとの提携を発表しました。Metaの最高AI責任者を務めるAlexandr Wang氏によれば、この提携は「研究チーム間の技術的な協力」を含むものであり、単なるツール利用に留まらない深い協力関係になる模様です。

Meta社は世界に先駆けてオープンモデルLlamaをリリースし、AIモデル開発において存在感を示してきました。しかし最新のLlama 4の性能は、中国発のDeepSeekやAlibaba社のQwenといった競合モデルに後塵を拝す結果となっています。

この状況を受けて同社は、超知能の実現を目指す「Meta Superintelligence Labs」を新たに設立し、組織改革を急速に進めています。具体的には、史上2番目の大型取引となる143億ドル(約2兆円)でScale AI社を実質買収したほか(当時Scale AIのCEOだったAlexandr氏はMetaの最高AI責任者に抜擢)、OpenAIをはじめとする競合他社から50人以上のAI研究者・エンジニアを引き抜くなど、積極的な人材獲得を展開しています。

左からMeta CEOの MarkZuckerberg氏、最高AI責任者のAlexandr Wang氏、Meta Superintelligence Labs最高科学責任者のShengjia Zhao氏
X

一方のMidjourney社は今年6月、著作権で保護されたキャラクターと酷似したキャラクターが生成できることなどを指摘され、DisneyおよびUniversal社から著作権侵害で提訴されたばかりでした。

Midjourneyは「アナ雪」「モンスターズ・インク」などに登場する著作権保護されたキャラクターとほぼ同一のキャラクターを生成できてしまう。
The Vergeに掲載された訴状より)

近年はクローズドモデルはもちろん、オープンモデルの開発競争も激化しています。ベンチマークスコア上では、RTX 5090(2500ドル未満)のようなコンシューマー向けGPUを1台使用するだけで、6~12か月前の最先端LLMに匹敵するモデルを実行できるようになっており、その期間差は縮まりつつあります。モデル開発技術がコモディティ化しつつある中、人材獲得に向けた競争が今まで以上に激しくなることが予想されます。

GPQA-Diamondと呼ばれるベンチマークにおける、フロンティアモデル(実質クローズドモデル)と消費者向けGPUで動作するオープンモデルのスコアの遷移。2025年2月ごろを境に、必要なGPUスペックが上がっていること、小型モデルはベンチマーク性能より使用感が悪くなりやすいことに注意。
Epoch AI

2. SNSで話題のAIツールをピックアップ!

  • メッセージアプリLINEにて、AIキャラクターとやり取りができるように

  • 架空のアイドル、歴史上の人物、動物など多様なキャラクターが搭載されており、オリジナルキャラクターの作成も可能

  • 「トーク」から右上にある似顔絵のアイコンをクリックすることで利用できる

  • 現在は、無料で一日100回以上やり取りすることが可能

  • ChatGPTのリアルタイム音声対話機能がここ3ヶ月で大きくアップデートされてより使いやすく

  • 抑揚や間の取り方がさらに自然になり、人間との会話体験に一層近づいた

  • 利用可能な時間も大幅に増え、Freeユーザーは1日数時間、Plusユーザーは無制限に近い利用が可能とされている

  • スマートフォンアプリでは、カメラや画面の共有も可能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在13万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は40社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちrまお是非チェックしてみてください!