• Newsletter from Mavericks
  • Posts
  • Googleの画像生成AIサービスが大幅進化!日本らしい画像を一番キレイに生成、NoLangの画像生成AIにおける「スタイル指定」機能の活用例を5つ紹介など

Googleの画像生成AIサービスが大幅進化!日本らしい画像を一番キレイに生成、NoLangの画像生成AIにおける「スタイル指定」機能の活用例を5つ紹介など

Newsletter from Mavericksをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangの画像生成AIにおける「スタイル指定」機能の活用例を5つ紹介します!

1. 直近のビッグニュースTop 3

① Googleの画像生成AIサービスが大幅進化!日本らしい画像を一番キレイに生成

Googleの画像生成AIサービス「ImageFX」が先日アップデートされ、新たな画像生成AIモデル「Imagen 3」が導入されたことにより、生成品質が大幅に向上しました。特に「日本らしい写真」の画像を生成することに長けているとSNSで大きく話題になっており、バラエティ番組で芸能人が笑う様子も驚くほどリアルに再現できています。

他にも「通勤電車の中」「日本人・日本の背景からなるデジタル広告」「神社祭り」「漫画本」「アニメキャラの立て看板」「高台の階段から一望される地方都市」を生成した画像がユーザーによって投稿されていますが、どれも日本の日常的な風景・映像を極めて正確に描写しています。

以下のように、グリーンバック画面を含む画像を生成して、後に宣材用写真と合成できるようにするというアプローチも非常に面白いです。

直近話題になっていたFlux, Midjourney, Ideogramといった画像生成AIは、生成画像の品質こそ極めて高いものの、「日本らしい画像」を生成しようとすると、知識不足により、的外れな画像が生成されてしまうケースが少なくありませんでした。

ImageFXの学習データの中身は明らかにされていませんが、バラエティ番組の画像まで生成できることを踏まえると、無料で提供されている「Googleフォト」が学習元の候補として思い浮かびます(少なくとも利用規約には矛盾していないという指摘もあります)。いずれにせよ、日本の画像が学習データに多く含まれていることが、他の画像生成AIよりも「日本らしい画像」を生成することが得意な主要因であることは間違いないでしょう。

一方で、ImageFXには強い自主規制がかけられており、人物の画像(特に女性)やホラー系の画像などを出力しようとすると、公序良俗に反していないようなプロンプトを使ったとしても、低くない確率で生成を拒否されてしまうという問題点があります。これは以前、GoogleのGeminiが白人の画像生成を拒否する等の不具合が発生したことにより、機能公開停止に追い込まれたことを受けての対応だと考えられます。

また、画像のアスペクト比を指定できないなど、実利用するにあたって必要な機能はまだまだ不足しています。ImageFXは実験的なサービスであり、今後の正式版のリリースやGeminiへの統合に期待したいところです。

なお、ImageFXはGoogleアカウントを持っていれば誰でも無料で使用できます。詳しい使い方については次のセクションをご覧ください。

② GoogleがFPSゲームをリアルタイムに生成できるAI「GameNGen」を発表

Googleの研究者らが、「Diffusion Models Are Real-Time Game Engines(拡散モデルはリアルタイムのゲームエンジン)」という野心的なタイトルで研究論文を発表しましました。以下のデモ動画では、AIによってほぼ完璧に再現されたFPSゲーム「DOOM」を人間がプレイしている様子を確認できます。10秒視聴するだけでその凄さが伝わるかと思いますので、是非ご覧ください。

この論文で発表された「GameNGen」と呼ばれるAIモデルは、過去のフレームとユーザーからのゲーム操作(キーボード・マウス)を入力として受け取って、次のフレームを出力することができ、まさしくゲームエンジンを模したAIと言えます。

しかしこれだけで、「AIはゲームエンジンとして機能できるようになった」と評するのは時期尚早です。NVIDIA社でAIエージェントチームをリードする研究者のJim Fan氏によるX投稿やElon Mask氏によるコメントを参考に、この研究が示唆する未来と現時点での限界について解説します。

◻️ 既存ゲームを丸暗記しているに過ぎない可能性が高い

提案AIモデルの訓練には、なんと9億もの(フレーム、ゲーム操作)のデータセットが使用されており、これはStable Diffusion v1の訓練に使用されたデータセットの約40%に相当します。Fan氏は、提案AIモデルは恐らく、DOOMの全てのシナリオにおける全ての画角から見た景色を完全に暗記していると述べています。

これは、提案AIモデルが新しいシーンを創出する能力がないことを意味しており、操作コマンドを新たに追加したり、新しくゲームを制作したりするのには使用できないと考えられます。3D生成AIで使われる「NeRF」という技術に近いものだと捉えると良いでしょう。

なお訓練データは、強化学習によって事前に訓練されたAIエージェントを用いてDOOMをプレイすることで収集しています。大変興味深いアプローチと言えるでしょう。

◻️ それでも、「丸暗記」は大きな可能性を秘めている

提案AIモデルが既存ゲームを丸暗記していたとしても、Elon Mask氏がXにて「Teslaは実世界のビデオで同様のことができる」と述べた通り、この研究のインパクトは決して小さいものではありません。

今回の研究で最も難易度が高かったのはAIモデルの設計ではなくデータ収集だと考えられ、良質なデータが収集できれば、他のドメインへも応用できます。

そして、Fan氏によれば、Tesla社は何兆もの(カメラ画像、運転操作)のデータセットを保有している可能性が高く、これによりコーナーケースを隅々までカバーした運転シミュレーターを作成できる可能性があります。

また、提案AIモデルは単一のプロセッサ(TPU)でリアルタイム推論が可能であり、莫大な計算リソースを必要としていないことも注目に値するでしょう。

OpenAIの動画生成AI「Sora」が、AIが現実世界をシミュレートできる可能性があることを示したとするならば、今回の研究は、ある場面においてあるアクションが取られた時に、次に場面がどう変化するのか、AIが人間さながらの精度で予測できる可能性があることを示しています。

③ NVIDIA GPUより20倍高速!新AIチップ搭載のチャットサービスが公開

AIチップを開発するスタートアップ「Cerebras」が、NVIDIA GPUより20倍高速なLLM推論サービスを公開しました(Llama 3.1 70B使用時)。同社が開発した独自AIチップが使用されており、同じく高速推論サービスとして有名なGroqと比べても2倍近くの推論速度を達成しています。

Cerebrasと他のプラットフォームにおけるLlama 3.1 70B推論速度の比較(Cerebras公式
LLM比較プラットフォームとして有名な第三者のArtificial Analysisによる計測結果。

さらに、より軽量なLlama 3.1 8Bによる推論時は、1800トークン(≒1800文字)毎秒という驚異的な速さで出力がなされます。以下のデモ動画にてその速さを体感できます。

続いて気になるのはコストですが、Llama 3.1 70BのAPI料金では、クラウドサービス大手のAWSより安く、Groqと同程度の料金設定になっています。

では、Cerebras社の提供するAIチップは、どうしてこれほどまでに高速な推論速度を達成できたのでしょうか?

AIモデルの推論速度は、ハードウェアの演算速度とメモリへの読み書き速度(メモリ帯域幅)に影響を受けますが、多くの場合、後者のメモリ帯域幅が律速となります。Cerebras社はこの問題を解決するため、GPUチップを遥かに上回る大きさのAIチップを開発しました。チップ内メモリ(SRAM)の容量はなんとNVIDIA H100 GPUの880倍です。

CerebrasのWSE-3チップとNVIDIAのH100チップのサイズ比較
Cerebras公式

GPUはAIモデルの学習・推論双方に使用できる一方、CerebrasやGroqの開発するAIチップはいずれも推論に特化しており、学習に用いることはできません。一見大きな制限に思えますが、ごく一部のAIモデル開発企業を除き、ほとんどの企業・ユーザーはAIモデルの推論のみを実行します。

またNVIDIA CEOのJensen Huang氏は過去に「NVIDIAにおける推論パートの成長は凄まじく、既に収益の約40%が推論経由と推定される」と述べていることからも、推論の重要さが伺えます(過去のニュースレター)。

現在GPT-4oやClaude 3.5 Sonnetといった最高水準のモデルも十分に高速であるため、通常のチャットボット用途では不便を感じていないユーザーがほとんどかと思いますが、複数のAIモデルを組み合わせたエージェントアプリを構築したり、LLMに複数のステップを踏んで回答を洗練させたい場合には、まだまだ速度が不十分と言えます。

例えば、SNSで話題になった「Genspark」というPerplexityライクなAI検索エンジンでは、マルチAIエージェントを採用しており、回答生成までにいくつものLLM処理が実行されます。これにより、深みのある回答してくれる点が強みである反面、Google検索やPerplexityと比べやや速度で劣ります。LLMの高速化は、モデル・ハードウェアの双方のアプローチから今後も着実に進んでいくでしょう。

2. SNSで話題のAIツールをピックアップ!

  • Googleが提供する画像生成AIツール。「日本らしい画像」の生成が得意

  • 画像編集機能を搭載しているほか、画像生成後にプロンプトを解析し、各要素について他の候補案を提示してくれるユニークな機能もある

  • ただし、生成拒否が多いこと、プロンプトは英語でないといけないことに注意

  • 現在は、Googleアカウントがあれば無料で使用可能

cerebras inference (https://inference.cerebras.ai/)

  • Cerebras社製のAIチップを搭載したNVIDIA GPUより20倍高速なチャットサービス

  • モデルをLlama 3.1 8Bに設定すれば、1800トークン毎秒という驚異的なスピードで文章が生成されていく様子を確認できる

  • Googleアカウントがあれば、無料で使用可能

3. 🐬NoLangの画像生成AIにおける「スタイル指定」
機能の活用例を5つ紹介!

NoLangでは、動画の生成・編集時に画像生成AI機能を使うことができますが、この際、「水彩画」「ネオンパンク」など、画像のスタイルをあらかじめ指定することができます。

今回は、画像生成AI機能で使用できるおすすめのスタイルを5つ紹介し、さらにそれぞれについて活用例をご紹介します。ユースケースに合った画像スタイルを使用することで、動画のクオリティがグッと高まりますので、是非参考にしてみてください!

①ネオンパンク

暗闇の中で光る青・ピンク・オレンジなどのネオンカラーが織りなす、未来的でありながらどこか不気味な雰囲気を持つスタイルです。「恐ろしさ」が際立つので、「サイバー攻撃」「未知の病」といった恐怖感をそそるような話題によく合います

②ゆるキャラ

NoLangのスタイルの中でもひときわユニークなものです。子供や動物を可愛く描写するのが得意で、視聴者に親しみやすさと安心感を与えてくれます。子供・動物を題材とした動画のほか、子供向けの教育動画・物語の生成時にもおすすめです。

③フィルムカメラ

光の柔らかな表現や色味の温かみが特徴で、ノスタルジックな雰囲気を持つ画像を生成できます。歴史の解説動画や過去の体験談について語る際におすすめです。

④デジタルアート

光と影のコントラストが強調され、息をのむような幻想的なビジュアルを作り出します。以下のような近未来都市の描写にピッタリなほか、ダークファンタジーの世界観を創り出したり、ホラー画像を作りたい時にも使用できます。

⑤水彩画

水彩画特有の滲みや淡い色調が、優雅で穏やかな雰囲気を醸し出し、視聴者にリラックスした気分を与えてくれます。風景との相性が抜群なのはもちろん、植物を題材にしたシーンでも大活躍です。

上記5つのスタイルを活用して作成した動画を以下のX投稿でまとめています。各画像スタイルについてより詳しく知りたい方は、是非ご覧ください!

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!