• Mavericks AI ニュース
  • Posts
  • Googleがコスパ最強の新モデルGemini 3 Flashをリリース!得意領域では上位のProモデル越えも

Googleがコスパ最強の新モデルGemini 3 Flashをリリース!得意領域では上位のProモデル越えも

他にも...Metaが音声や動画から目的の音だけを分離できる「SAM Audio」をリリース!

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

Mavericks AIニュースは本日をもちまして、年内最後の配信とさせていただきます。来年は1月5日(月)より再開予定ですので、変わらぬご愛読のほど、よろしくお願いいたします!🐬

1. 直近のビッグニュースTop 3

① Googleが新モデルGemini 3 Flashをリリース!一方、Geminiが依然抱える課題とは?

米国時間12月17日、Google社が小型AIモデル「Gemini 3 Flash」をリリースしました。

速度とコストパフォーマンスを重視した設計となっており、ベンチマークではGemini 3 Proに匹敵、場合によっては上回るスコアを達成しつつも、速度はGemini 2.5 Proの3倍、実質コストは約10分の1†に抑えられています。すでにGeminiアプリやGoogle検索における「AIモード」など、あらゆるGoogleサービスに組み込まれているとのことです。

Gemini 3 Proと比較すると、画像生成ではProの方が優れている一方、文章執筆をはじめとしたそれ以外のタスクでは、Gemini 3 Flashで十分なケースが多いのではないでしょうか。

一方で、かねてより指摘されている「Geminiの実用上の弱点」は、Gemini 3シリーズでもなお解消されていないと感じます。例えばGeminiは検索機能を使いこなすのが得意ではなく、AIブラウザとして有名なCometの開発元(Perplexity社)を間違えるなど、初歩的な情報検索にすら失敗することが多々あります。この点では、ChatGPTに軍配が上がるでしょう。

Google検索機能をONにしたGemini 3 FlashにAIブラウザ「Comet」の開発元について尋ねた結果。見切れている下部でも、Perplexityに関する言及は一切なかった。

またコーディング分野においても、GeminiはOpenAI社、Anthropic社のモデルと比べて使い勝手が大きく劣っており、結果としてOpenAI社のCodexやAnthropic社のClaude Codeと比べると、Google社のコーディング支援ツールの人気は伸び悩んでいる印象です。

とはいえ、文章執筆やデザインといったそれ以外のタスクでは、Geminiがベストな選択肢となるケースが多いのも事実です。Geminiが今後これらの弱点を克服し、「死角なし」のモデルへと進化を遂げられるのか、引き続き動向を注視していきたいところです。

†トークンあたりの価格と、「Gemini 2.5 Pro よりも平均 30% 少ないトークン消費量」というGoogleの発表をもとに実質コストを算出。

💡 Gemini 3 FlashはGoogle AI StudioやGeminiアプリで無料で試すことが可能です。詳しくは次のセクションをご覧ください。

② Metaが音声や動画から目的の音だけを分離できる「SAM Audio」を公開!

Meta社が、音声や動画から特定の音だけを抽出できるAIモデル「SAM Audio」を公開しました。音楽を楽器ごとに分離したり、雑音を含むインタビュー動画からクリアな話し声だけを取り出したりすることができます。

そして特に画期的なのは、分離したい音声を、自然言語やビジュアルで誰でも直感的に指定できる点です。是非以下のデモ動画をご覧ください。

従来の音声分離モデルでは、決められたルールに則ってでしか分離できないことが多く、分離の仕方をユーザーが細かく指定することは困難でした。

一方でSAM Audioでは、テキストで「女性の話し声」と指示したり、動画内のフレームで物体をクリックしたりすることで、分離対象を指定できます。このように柔軟に振る舞いを制御できるのは、生成AIならではの体験と言えるでしょう。

SAM Audioの「SAM」は、「Segment Anything Model」の略です。このモデルは元々、画像や動画内の物体を検出し領域分離する「セグメンテーション」タスクにおいて、世界最高峰のAIモデルとして知られていました。しかし現在では、他のモダリティにも裾野を広げています。

例えば、先月20日には画像内の物体を3D化する「SAM 3D」がリリースされました。定量評価でも、世間的な定性評価でも、世界最高水準の精度を達成していると言って良いでしょう。

このように、テキスト、画像、動画、音声、3Dといったモダリティを横断した処理を行えるAIモデルは、来年以降確実に増えていくはずです。先日大きな話題を呼んだNano Banana Proのように、従来の枠組みを超えた機能を持つAIが登場し、絶えず私たちに衝撃を与え続けてくれるでしょう。

💡 SAM AudioやSAM 3Dの一部機能は、Meta社が提供するプレイグラウンドで試せます。詳しくは次のセクションをご覧ください。

③ ChatGPTのアプリ機能がアップデート。PhotoshopもAcrobatも呼び出せる!

OpenAIはChatGPTを単なるチャットAIから、「あらゆる作業が完結するプラットフォーム」へと進化させようとしています。果たしてこの試みは成功するのでしょうか。

先日、ChatGPTのアプリ機能がアップデートされ、ChatGPT上で直接利用できるアプリケーションが大きく増えました。例えばAdobe製品との連携によって、Photoshopによる画像編集やAcrobatによるPDF編集を、ChatGPTから画面遷移することなく完結させられるようになりました。

しかし、このアプリ連携の真価は、単に画面遷移が少なくて便利だという点に留まりません。

例えば自然言語でアプリを作成できるツール「Lovable」との連携では、作りたいアプリの要件を大雑把に伝えるだけで、ChatGPTがLovableに入力すべき最適なプロンプトを考案して、実行してくれます。このように、ツールの詳しい利用方法やテクニックが分からなくても、私たちのイメージ通りの成果物が得られる可能性が大きく高まるわけです。

Lovableの連携機能によるChatGPT上でのアプリ作成の様子

さらに今回、OpenAIの提携先に留まらず、誰でもアプリをChatGPTに提出できるようになったことが発表されました。開発者は「Apps SDK」と呼ばれるツールキットを用いることで、ChatGPT上で提供するUIや機能をカスタマイズできます。OpenAIは今後、このシステムを「ChatGPT版 App Store」として成長させていくことで、消費者向けAIプラットフォームの覇権を握っていきたいようです。

ChatGPTから利用できるようになったアプリ一覧(一部)。ChatGPT版 App Storeとして大化けすることになるのか、注目が集まる

もっとも、飛躍的な性能向上を遂げた今日のAIモデルをもってしても、私たちが意図したタイミングでアプリを呼び出してもらうことは決して容易ではありません。実際現在のChatGPTでは、明示的なメンションがないと、そのツールを利用してくれません。

それでも、ChatGPTの登場によってGoogle検索を使わなくて済む場面が増えたように、私たちがAIを通じてWebアプリを操作する場面は、来年以降徐々に増えていくでしょう。

💡 ChatGPTのアプリ機能は、全てのユーザーに対して公開されています。

2. SNSで話題のAIツールをピックアップ!

  • 先週Googleがリリースした、Gemini 3 Flashを無料で試すことが可能

  • 右のサイドバーからGemini 3 ProやGemini 3 Flashなど、Googleのモデルを自由に選択できる

  • Geminiでアプリを作ってみたい場合は、左のサイドバーから「Build」を選択して、作りたいアプリの内容を入力するのがおすすめ

  • 画像生成AI「Nano Banana Pro」を試したい場合は、Geminiアプリからの利用がおすすめ

  • Metaが先日リリースした、音声・動画から好きな音声を取り出せる「SAM Audio」を試すことができるプレイグラウンド

  • 他にも動画内の物体追跡や、画像内の物体の3D化など、Metaが提供する最新AIモデルを利用した様々なAI機能を試せる

  • どの機能も無料で試すことが可能

さいごに

最後までお読みいただきありがとうございました!

Googleが初代Geminiをリリースした2023年12月に配信を開始して以来、今回で98回目の配信となります。

配信を継続できているのは、いつもご愛読いただいている皆様の声があってこそです。今後も一切品質に妥協せず、純度の高い情報をお届けしてまいりますので、どうか来年もよろしくお願いいたします!

サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在15万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は60社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちらも是非チェックしてみてください!