• Mavericks AI ニュース
  • Posts
  • OpenAIがあの「ほんやくコンニャク」を実現した!過去最高のリアルタイム音声AIモデル3種を一挙公開

OpenAIがあの「ほんやくコンニャク」を実現した!過去最高のリアルタイム音声AIモデル3種を一挙公開

他にも...ついに日本でもGemini in Chromeが利用可能に!他のAIブラウザにはない革新的機能とは

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① まるでオリンピックの同時通訳。OpenAIがリアルタイム音声AIモデル3種を一挙公開

米国時間5月7日、OpenAI社が3種類のリアルタイム音声モデルをAPIで一挙に提供開始しました。「翻訳」「文字起こし」「音声対話」の3タスクそれぞれに特化したモデルが公開されましたが、まず注目したいのは、ドラえもんの「ほんやくコンニャク」を思わせる音声翻訳機能です。

概要を掴むには、以下のOpenAI社員によるデモ動画をご覧いただくのが手っ取り早いでしょう。

私も実際に試してみましたが、わずか2〜3秒程度の遅延で通訳音声が走り出します。一文が長い時は発話者がまだ喋っている最中から訳が重なり始め、オリンピック中継のリアルタイム通訳を思わせる遅延の短さです。それでいて訳の正確性も高く、ビジネス会議への導入に耐えうる水準と言って良いでしょう。

リアルタイム音声通訳自体は目新しい機能ではなく、世界的にはGoogle Meet、国内ではCoeFontがすでに同種のサービスを提供しています。とはいえ遅延と正確性の両軸で見れば、今回の新モデルは間違いなく過去最高水準と言えるでしょう。

さらにAPIで提供されていることから、誰でも翻訳機能を組み込んだアプリやシステムを手軽に組み立てられるようになった点も画期的です。

もうひとつおさえておきたいのが、音声対話モデルが「エージェント」と呼ぶに相応しい能力を獲得したことです。OpenAIがこれまで提供してきた「GPT-Realtime-1.5」はGPT-4oを土台としており、いわばエージェント時代到来以前の知性しか持っていませんでした。一方で今回公開された「GPT-Realtime-2」は、GPT-5クラスの推論能力を備えている上、以下のように「音声AIエージェント」の構築に必要な要素が一通り揃っています

ここまで見てきた通り、今回のアップデートは、音声AIをアプリやシステムに組み込みたい開発者にとっては、間違いなく有意義なものでした。

一方で個人的に残念だったのは、「対話の心地よさ」自体には劇的な改善が感じられなかった点です。「過剰に情報を詰め込みがち」というAI特有の癖は、テキスト対話ではそこまで気にならないものの、音声対話では途端に鬱陶しく響きます。今回のアップデートでも、この問題はほぼ手付かずのまま残されていました。

OpenAI社が今年後半に披露予定とされる新音声AIデバイスでは、既存の音声AIとは一線を画す性能のモデルが必要となるはずです。そこに至るまでの道のりは、まだ見えきってないように思えます。

💡 OpenAIのリアルタイム音声モデルは、API Playgroundにて利用できるほか、より手軽には公式ブログからも試すことができます。詳しくは次のセクションをご覧ください。

② ついに日本でもGemini in Chromeが利用可能に!他のAIブラウザにはない革新的機能とは?

Google社が日本国内で、ChromeのサイドパネルからGeminiを呼び出せる新機能「Gemini in Chrome」の提供を開始しました。発表のあった先月時点ではほとんどのユーザーが利用できない状態でしたが、現在は無事にロールアウトされたようです。

これまでも、OpenAI社の「Atlas」やThe Browser Company社の「Dia」といったAIブラウザが登場していたとはいえ、Chromeからブラウザを変えることなく同等の体験が手に入るというのは、画期的と言うほかありません。

私個人としても、予想以上に機能が充実していたため、Chromeブラウザへの出戻りを決意したほどです。果たしてどんなことができるのでしょうか。

まず嬉しいことに、以前紹介したAIブラウザ「Dia」に搭載されていた便利機能が一通り揃っています。中でも私のお気に入りが、「skill」と呼ばれるショートカット機能です。よく使うプロンプトを事前に登録しておくだけで、長文記事やYouTube動画の要約、海外記事の翻訳といったタスクを、スラッシュコマンドで呼び出せます。また、@メンションでページを指定すれば、複数のタブをまたいだ商品比較なども手軽にこなせます。

Gemini in Chromeにて、skillを呼び出して、記事を要約する様子

さらにGemini in Chromeならではの強みも見逃せません。搭載されたGeminiはマルチモーダル対応のため、開いている記事をもとにした画像生成までその場で実行できます。加えて通常のGeminiアプリと会話履歴が共有されており、AIとのやりとりを一元管理できる点も、Geminiユーザーには嬉しい配慮でしょう。

Gemini in Chromeにて、記事に合った画像を生成する様子

なお通常のGeminiも日々強化が進んでおり、先月末にはPDF、Googleスプレッドシート、Microsoft Wordといった各種ファイルを直接生成できる機能が追加されました。Geminiを軸としたGoogleサービス間の連携は、今後一層便利になっていくことでしょう。

💡 Gemini in Chromeは無料でも利用可能です。詳しくは次のセクションをご覧ください。

③ AnthropicがSpaceXと計算インフラで提携!深刻な計算資源不足の解消へ

Claude CodeをはじめとするAIツールを使っていて、ふとした瞬間に「性能が落ちた気がする」「使用回数の制限が厳しくなった」と感じた経験のある方は多いのではないでしょうか。

その背景にある大きな要因のひとつが「計算資源の不足」です。各AIモデル企業を苦しめる、業界共通の頭痛の種となっています。

そんな中、米国時間5月6日に、Anthropic社とSpaceX社が計算インフラに関する提携を発表しました。SpaceX社と合併されたxAIのデータセンター「Colossus 1」の全計算能力をAnthropic社が利用する契約です。

これによりAnthropic社は、300メガワット、NVIDIA GPUに換算すれば22万台分以上の計算能力を手中に収めました。サービスへもすぐさま反映されており、Claude Code有料プランにおける5時間あたりのレート制限が一気に2倍へと引き上げられています。

この提携の背景には、Anthropic社やClaude Codeが、同社の想定をも超えるスピードで成長し続けているという事実があります。

Claude Codeのランレート収益は今年2月半ば時点で25億ドル以上に達しており、年初からわずか1ヶ月半で2倍以上の伸びを見せています。同社は元々年10倍の成長を計画していたものの、Q1時点での収益・利用量は年率換算80倍のペースに到達しており、CEOのアモデイ氏も「クレイジー」「対処しきれないほど」と率直に語っています

Anthropic社のランレート収益の時系列推移
VentureBeat

ところが、このような需要増を前にしても、計算インフラの拡大にはいくつかの決定的なボトルネックが立ちはだかります。

米シンクタンクCNASによれば、2024〜25年にかけてのAIスケーリングを縛っていた制約は「データセンターの電力」でした。そして2026年以降の少なくとも一年間は、「AIチップ自体の生産」が新たなボトルネックとなる可能性が高いと指摘されており、当然ながら一朝一夕の劇的な改善は見込めません。

先月にはCursor社がSpaceX社との大型提携を発表したのも記憶に新しいところです。今後しばらくは、いかにして必要な計算資源を確保するかが、AIモデルの開発・提供における最重要課題となるでしょう。

2. SNSで話題のAIツールをピックアップ!

  • OpenAIの新しいリアルタイム音声AIモデル。GPT-5をベースとしており、推論能力が高く、複雑な質問や長い会話にも対応

  • 無料で公式ブログから90秒間の会話を楽しめる。より長く会話したい、あるいはリアルタイム翻訳を体験したい場合は、API Playgroundから試せるが、モデル名を指定する必要があることに注意

  • また5月10日時点で、ChatGPTの音声モードにはまだ新モデルは搭載されていない点にも注意

  • GeminiがChromeのサイドパネルに搭載。開いているwebページが自動的に文脈に組み込まれ、要約・翻訳といったタスクを瞬時に実行可能

  • 繰り返し使いたいプロンプトを「skill」として登録したり、他のタブを同時にメンションして参照させたりすることが可能

  • さらに搭載されているGeminiはマルチモーダルで、開いているページを元に画像生成することもできる

  • Chromeを最新版にアップデートすることで、無料でも利用可能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在15万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は60社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちらも是非チェックしてみてください!