• Mavericks AI ニュース
  • Posts
  • Googleが画像編集の常識を覆した!過去最高性能の画像編集AI「Nano Banana」をリリース

Googleが画像編集の常識を覆した!過去最高性能の画像編集AI「Nano Banana」をリリース

他にも...人間と同じブラウザ環境で動作するAIエージェント「Claude for Chrome」リリース

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① Googleが画像編集の常識を覆す新AIモデル「Nano Banana」をリリース!

米国時間8月26日、Googleが新たな画像生成・編集AIモデル「Nano Banana (別名 Gemini 2.5 Flash Image)」をリリースしました。特に画像編集タスクにおいて既存のAIモデルと比べてずば抜けて高い性能を達成しており、久々に生成AI業界に激震が走る発表となりました。

これまでの画像編集AIでは、元の画像に「よく似ている」人物や物体こそ生成できるものの、編集前後での一貫性を完全には確保できなかったり、複雑なタスクになると指示を一部無視してしまうといった問題を抱えていました。

Nano Bananaではこれらの問題が大きく改善されており、従来モデルで頻発していたミスの発生確率がずば抜けて低く抑えられています。

2枚の画像とテキスト指示を与えて、男性に7つの身の回り品を試着させた結果の比較。
Nano Banana:目立ったミスを全くしていない。
ChatGPT: 「ChatGPTらしい画風」に寄せてしまう傾向にあり、ここでも顔や服の模様を勝手に変えてしまっている。
FluxKontext: 単純なタスクであれば、基本的にNano Bananaに迫る高水準で画像を編集できる一方、このような複雑なタスクだと、指示を無視してしまうことがある。

また、以下の投稿でまとめられている通り、こなせるタスクの幅も多岐に渡ります

Nano Bananaがこなせるタスクは、大別すると以下の3つのカテゴリに分けることができます。

(1) 指定
キャラクターや構図を、画像やラフ画を用いて制御可能

(2) 変更
カメラアングルの調整、物体の置換、画像スタイルの変更といった編集が可能

(3) 合成
複数の物体(時には10個以上)を自然に組み合わせることが可能

これらの機能を組み合わせることで、AIタレントによる商品の宣伝画像作成漫画アニメのコマ制作、建造物への説明文追加など、様々なユースケースがすでに発掘されています。

さらに処理速度やコストパフォーマンスも申し分ありません。画像生成は15秒前後で完了し、1枚あたりの生成費用は$0.039とリーズナブルな価格設定となっています。

💡 Nano BananaはGoogle AI Studioにて、現在無料で試すことができます。詳しくは次のセクションをご覧ください。

② Nano Bananaの登場が動画生成AIにもたらす恩恵とは。そして思わぬ弱点とは?

さらにNano Bananaは、動画生成AIが長らく抱えてきた「制御性の低さ」という根本的課題の解決にも大きく貢献する可能性を秘めています。

現在主要な動画生成AIの多くには「キーフレーム」機能が搭載されており、動画の始点・終点の画像を指定することで、それらを自然に繋げる形で動画生成が可能となっています。しかしこれまでは、思い通りのキーフレーム画像を用意すること自体が困難でした。

Nano Bananaの登場により、この状況は変わりつつあります。キャラクターや構図の指定、カメラアングルの調整といった操作を従来よりも遥かに高精度かつ高速に実行できる環境が整ったのです。

それゆえ、Nano Bananaの生成画像を各カットの始点・終点に設定することで、思い通りのカット動画を高確率で生成できるようになり、これまで必要だった試行錯誤が大幅に削減されるでしょう(Nano Bananaによる作品例)。

このような制御が半自動で実現できるということは、遠くない将来に完全自動化される可能性が高いことを示唆しています。Google DeepMind社が先日発表したテキストから3Dシミュレーション空間を生成できる世界モデル「Genie 3」の生成品質の高さを鑑みても、動画生成AIモデル自体の制御性はまだまだ飛躍を遂げるでしょう。

一方で、Nano Bananaにも弱点は存在します。日本語テキストの生成を苦手にしており†、この点ではChatGPTの画像生成や、先日中国Alibaba社からリリースされたオープンソースモデル「Qwen Image Edit」の方が優れています。

LLMと比較すると、画像生成AI分野では依然として日英間での性能差が顕著に現れるのが現状です。この言語間格差がどのようなペースで解消されていくのか、引き続き注視していく必要があります。

日本語テキストを含んだ画像を事前に用意して入力することで、描画崩れを防ぐようなテクニックが存在し、これによりうまくいくケースもあります。

③ 人間と同じブラウザ環境で動作するAIエージェント「Claude for Chrome」がリリース

Anthropic社が、Claudeにブラウザを直接操作させることができるChrome拡張機能「Claude for Chrome」を限定プレビュー版として公開しました。

これまでにもChatGPT Agent、Manus、Gensparkなど、ブラウザ操作が可能なAIエージェントはいくつか登場していましたが、これらは専用のブラウザ環境を使用しており、ログインが必要なサービスを利用する際には、毎回ログイン情報を設定する必要がありました。

一方、Claude for Chromeは私たちが日頃使用しているブラウザに直接拡張機能として組み込まれ既存のブラウザ状態をそのまま引き継いでタスクを実行できる点が大きな特徴です。

しかし、こうした強力な権限には当然リスクも伴います。実際、Anthropic社による内部テストでは、対策が不十分な場合に攻撃が成功してしまうケースが確認されています。例えば、悪意のある攻撃者が雇用主を装い、「メールボックスの衛生管理のためにメールを削除する必要がある」「追加の確認は不要」といった内容のメールを送信した際、Claudeがその指示を鵜呑みにしてメールを削除してしまう事例が報告されています。

メール削除を促す悪意あるメールに対して、Claude for Chromeが対処する様子。ここではメールの内容を読み取る様子が撮影されており、この後実際に受信ボックスから該当メールを削除してしまう。

こうした安全上の懸念に対処するため、Anthropic社は例えば以下のような対策を講じています。これにより、攻撃成功率が大幅な減少することを確認しています。

・ユーザーにより、Claudeがアクセス可能なサイトを制限できる機構を実装

・公開、購入、個人情報の共有といったリスクの高い操作を行う前に、ユーザーに確認を求めるように設定

・金融サービス、アダルトコンテンツ、海賊版コンテンツなど、リスクの高いカテゴリのウェブサイトへのアクセスをブロック

安全性の問題を差し置いても、現状ではClaude for Chromeはまだテスト段階にあり、実用レベルには達していませんぬこぬこ氏の検証結果を確認すると、「スクショ撮影による状況把握→思考して次のアクション決定→クリック実行」という一連の流れに10秒以上を要することがあり長時間の待機が必要な上、noteでの記事執筆も操作難易度が高く失敗しています。

それでも、AIエージェントの能力は「AIエージェントに関するムーアの法則」に従って指数関数的に向上していることから、こうした課題も段階的に解決されていくのではないでしょうか。

💡 8月31日現在、Claude for Chromeは1000人のMaxプランのユーザーに向けてリリースされており、徐々に対象ユーザーを広げていくとされています。早期アクセスの申請は、ウェイトリストから行えます。

2. SNSで話題のAIツールをピックアップ!

Google AI Studio Nano Banana (https://aistudio.google.com/prompts/new_chat)

  • 過去最高性能との呼び声高いGoogleの画像編集AI「Nano Banana」がGoogle AI Studioで利用できるように

  • 画像をアップロードしてテキスト指示を入力することで、15秒前後で画像編集結果が出力される

  • 現状日本語指示を与えても画像が生成されず、英語指示を与える必要があることに注意

  • ホーム画面から「Try Nano Banana」というタイルをクリックして始められる。現在は無料で利用可能

Kimi Slides (https://kimi.com)

  • DeepSeek, Alibabaと並んでオープンLLM開発で有名な中国企業「Kimi」によるスライド生成AI

  • デザインはテンプレートから選択できるほか、PPTX形式でレイアウト崩れなしで出力可能

  • web検索結果を元にスライドの構成を考えてくれ、内容・デザイン共に高品質なスライドが生成される

  • Googleログインで無料で試すことが可能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在13万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は40社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちらも是非チェックしてみてください!