• Newsletter from Mavericks
  • Posts
  • ついに不気味の谷を超えた…!?オープン画像生成AI「Flux.1」が登場、NoLangで動画の展開を指定するために知っておくべき2つのことなど

ついに不気味の谷を超えた…!?オープン画像生成AI「Flux.1」が登場、NoLangで動画の展開を指定するために知っておくべき2つのことなど

Newsletter from Mavericksをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで「動画の展開を指定するために知っておくべき2つのこと」について解説します!

1. 直近のビッグニュースTop 3

① ついに不気味の谷を超えた…!?オープン画像生成AI「Flux.1」が登場

Stable Diffusionの開発元であるStability AI社の勢いが落ちて以降、オープンな画像生成AIモデルの進展は鈍化していました。そんな中、画像生成AIモデル「Flux.1」が公開され、生成画像の質が極めて高いと大きな話題を呼びました。

特に、下記の画像は女性の表情、肌や髪の質感、ぶら下げられたカードに書かれた「Google」の文字など、どれをとってもリアルであり、瞬時にAI生成だと見分けることは不可能に近いです。

Flux dev + Loraによって生成された画像
Redditのスレッドより引用)

Flux.1は以下のように、3種類のモデルで展開されています。

  • schnell: コスト低。Apache 2.0のオープンソースで公開

  • dev: コスト中。重みが公開されており、非商用目的で使用可

  • pro: コスト大、性能高。APIのみで提供

Flux.1の3つのモデルの関係性の図解。コスト・性能がトレードオフとなる中、schnellが最も低コスト、proが最も高性能で、devは中間的な立ち位置を取る。(公式リリース記事

特に、dev及びproは、Midjourney v6.0やDALLE-3 (HD) といったクローズドモデルを画像の品質・プロンプトへの忠実度等の指標で上回っています

もちろん用途によってはMidjourneyやDALLE-3を使った方が良い場面もあり、下記の比較投稿では、広告で使用されるようなストック写真やシンプルなロゴの生成では、Midjourneyに軍配が上がると結論づけられています。それでもFlux.1は、何気ない日常を切り取ったような美化されていない画像を生成することを得意としており、この点で右に出るモデルはないと言えるでしょう(Flux.1で生成された自撮り写真3枚)。

ただし、特に注目を集めているFlux.1 dev, proはこれまでポピュラーだったオープン画像生成AIモデルと比べて、サイズが格段に大きいことに注意が必要です。実際、冒頭の女性の画像を生成するのに使用された中型のFlux.1 [dev]を動かすためには、少なくとも24GBのVRAM(GPUメモリ)が必要と言われており、これまで最高水準のオープン画像生成AIモデルだったSDXLの3倍近くのVRAMを使用します。

これだけ大規模なモデルを直接ローカル環境で動かせるようなユーザーは限られていますが、直近でモデルサイズを小さくする量子化技術が普及しており、今後広く使われるモデルになる可能性を十分に秘めています。

Flux.1を開発したBlack Forest Labs社は、Stable Diffusionの共同開発者によって設立された新興企業であり、a16zをリードに3100万ドルの資金を調達しています。さらに今後最高水準の動画生成AIをリリース予定だと明らかにしており、業界の期待が高まっています。

② Character AIの共同創業者がGoogleへと移籍。事実上の買収か

8月2日にCharacter.AI社が声明を発表し、共同創業者のNoam Shazeer氏とDaniel De Freitas氏がGoogleへと移籍し、さらに自社のLLM技術についての非独占的なライセンスをGoogleに供与する契約を締結したと発表しました。The Information紙の報道から、事実上の買収であると捉えることができます。

Character.AIイーロンマスクやマリオなどのキャラクターを模したAIチャットボットと会話したり、そのようなチャットボットを簡単に作成できるツールです。世界的に大きな人気を博している上、今も伸び続けているプロダクトであり、Similarweb社のレポートによると、今年6月時点で月間アクセス数3億を突破してGoogleのGeminiに迫っている上、モバイルアプリのアクティブユーザー数(DAU)はChatGPTの60%に及ぶとされています。

Gemini, Character.AI, Perplexity, ClaudeのDesktop, Mobile経由での総アクセス数の比較
Similarweb社のレポートより引用)

さらに、Character.AI社は極めて高い技術力を有するLLM企業でもあります。共同創業者のShazeer氏は有名論文「Attention Is All You Need」論文の著者であり、他社LLMを使用するのではなく、モデルアーキテクチャから推論スタック、プロダクトに至るまで一から全て設計しています。その結果、Google検索の1/5に相当する、1秒あたり20,000回の推論を実現するに至っています(Character.AI公式ブログ)。

そして、Character.AIのような擬人化されたAIと触れ合う機会を提供する「AI Companion」と呼ばれる領域は大きな注目を浴びており、a16zによるC向け生成AI webアプリTop50のうち8つがAI Companion領域のプロダクトです。

高い技術力による優位性を有しながら、良い市場で素晴らしい位置取りをしていたはずのCharacter.AI社は、なぜ今回このような決断をしたのでしょうか?同社の声明では「以前より遥かに多くのLLMが使用可能になったこと」を主な理由として挙げられています。

実際、先月にMetaがGPT-4レベルのLLM「Llama 3.1 405B」の重みを全世界に向けて公開しています(前々回のニュースレター)。さらにはOpenAIやAnthropicが、大規模なモデルだけでなく、高速な小型モデルの開発にも注力して成功を収めている現状で、独自のLLM技術を有することによる優位性は低くなってきています。

このような現状を踏まえ、CharacterAI社は今後、LLMの事後学習に注力していき、この際、外部で事前学習されたLLMの使用も厭わないと明らかにしています。

なお、Character.AI共同創業者の2人はGoogle Deepmind出身であり、古巣に出戻る形となります。今回のように、ビッグテックがLLM企業の幹部を引き抜く動きが直近目立っており、AIエージェント「ACT-1」の開発で知られるAdept社(「Attention Is All You Need」論文の著者らが共同創業)のCEOらがAmazonに移籍したほか、AIチャットボット「Pi」を提供していたInflection社の共同創業者らもMicrosoftに移籍しています。膨大な資金力と優秀な人材の確保が不可欠なLLM開発市場は、寡占化の一途を辿るばかりです。

③ OpenAIがChatGPTの書いた文章を高い精度で検出できる技術を開発中

米Wall Street Journal紙が、「OpenAIがChatGPTの書いた文章を99.9%の精度で検知できる手法を有しているが未だ公開していない」と報じ、OpenAIもこれを認める形で公式ブログを更新しました。

OpenAIは今年5月時点で、DALL-E 3で生成した画像、Soraで生成した動画、Voice Engineで生成した音声を検知可能な仕組みを開発していると発表していました。そこでは、2つのアプローチが紹介されています。

1つ目のアプローチでは画像・動画コンテンツの出所、権利者情報、編集履歴等を確認できるC2PAと呼ばれる仕組みに従って、メタデータを付与します。C2PAはAdobe, Microsoftといった大手企業が中心となって2021年に設立した標準化団体によって策定されており、全世界で広く使用されています。実際、TikTokがC2PAを導入してAI生成ラベルの付与を開始したり、SONYが C2PA対応のカメラを発表したりしています。

DALL-E 3の生成画像に付与されたC2PAメタデータの例(OpenAI公式発表

C2PAは、容易に書き換えられないという点で一定の有効性を発揮するものの、削除が簡単であるという問題点を有します

2つ目のアプローチでは、OpenAIが独自に開発した手法によってデジタルコンテンツに電子透かしを入れます。ここでは人間が感知できないような僅かな変化が導入され、別途用意した識別器によって電子透かしの有無を判別します。削除は困難な上、画像圧縮、切り取り、彩度変更といった操作がなされても、影響を最小限に留めることができます

C2PAと異なり精度100%とはならないものの、約98%の確率でDALLE-3で生成された画像を正しく識別でき、AI生成でない画像を99.5%以上の確率で、DALLE-3によって生成されていないと識別できます。

電子透かしの導入により、DALL-E 3の生成画像や彩度を調整した画像を正しく識別できている
AUCは0~1の値を取り、識別成功率が高いと大きくなる(OpenAI公式発表

一方で、AI生成画像に関しては、5-10%の確率でDALLE-3によって生成されたと誤識別してしまうほか、色相を変えたり、ノイズを加えたりといった操作に対しては脆弱です。実用化に向けては、画像操作に対するロバスト性の向上が必至でしょう。

DALL-E 3の生成画像の色相を変更すると、識別成功率が大きく低下してしまう
OpenAI公式発表

そして、今回新たに発表されたChatGPTの書いた文章を検出する機構においても、電子透かしを入れるアプローチとメタデータを付与するアプローチの2つが紹介されています。

電子透かしは、非常に高い精度を達成している上、部分的な言い換えなどの局所的な改変には対応できるものの、翻訳、他のAIモデルによる言い換えといった簡単かつ大域的な改変に対応できない点が問題とされています。メタデータに関しても、前途有望ながらも、まだ開発の初期段階であると述べられています。

また、ChatGPTの書いた文章を検出できるツールの公開にあたって、OpenAIは様々な問題点を慎重に検討せざるを得ない状況にあります。OpenAIは、非ネイティブスピーカーがAIを利用して執筆をする際に、不当に批判されることになりかねないと懸念を表明しています。また米メディアThe Vergeは、調査対象のChatGPTユーザーの約30パーセントが、この仕組みが導入された場合に使用を減らすだろうとOpenAIに伝えており、OpenAIはユーザーが離れることを懸念しているのではないかと指摘しています。

このように、特に文章に関しては、AI生成を証明するラベル付けを普及させるにあたって、解決されるべき問題が山積しているのが現状です。

2. SNSで話題のAIツールをピックアップ!

  • 大きな話題を呼んでいる画像生成AI「Flux.1」をログイン不要かつ無料で試せる

  • 小型のFlux.1 [schnell]、中型のFlux.1 [dev]を利用可能

  • テキスト入りの画像や美化されていない「普通」の画像の生成が得意なため、「 The word "FLUX" is painted …」「 an ordinary photo of …」といったプロンプトで試してみるのがおすすめ

  • 他にも、Fal.aiReplicateにて提供されており、有料だが大型のFlux.1 [pro]のAPIも存在する

twitter.wordware.ai (https://twitter.wordware.ai/)

  • Xのアカウント名を入力するとそのアカウントについてユーモア溢れる形で罵倒してくれるツール

  • プロフィールやポスト内容だけでなく、リポスト頻度やエンゲージメントも加味して、驚くほど質の高い罵倒文を生成してくれる

  • 一時期アクセスが集中しており機能が制限されていたが、8/12現在、罵倒をしてくれる「Roast」機能は無料で使用できる

  • Wordwareと呼ばれるノーコードツールによって作成

3. 🐬NoLangで動画の展開を指定するために知っておくべき2つのこと

「最初の一文で視聴者の注意を惹き、続く10秒で動画の趣旨を説明し、本題ではテンポ良く話を進めた上で、最後はちょっとしたユーモアを交えて締める」といったように、NoLangで動画の展開を指定したいと思ったことがある方は多いのではないでしょうか?

これは、生成動画の内容についてAIに追加指示を与えられる「プロンプト機能」を用いることで再現性高く実現可能です。その際に知っておくべき2つのTipsを紹介します。

(0) はじめに:プロンプト機能の使い方

ヘッダーにある「動画設定」より「プロンプト」タブを選択します。オリジナルのプロンプトを作る際は、「マイプロンプト」を選択して「+追加」ボタンをクリックして作成できます。

(1) 「ルールを逐一指定」するのではなく「真似させる」のが吉

実はNoLangでは、冒頭に記したような

「最初の一文で視聴者の注意を惹き、続く10秒で動画の趣旨を説明し、本題ではテンポ良く話を進めた上で、最後はちょっとしたユーモアを交えて締める」

といったルールベースで動画の展開を指定しようとすると、失敗することが多いです。

もう少し噛み砕くと、NoLangのプロンプト機能では、各パートの長さを厳密に指定することが困難な上、抽象度の高い指示を複数盛り込むと、全体的に蔑ろにされてしまう傾向にあります。

一方で、「お手本を用意して真似させる」形であれば、再現性高く動画の展開を指定でき、NoLang公式プロンプトでも、このテクニックが使用されています。お手本を一から作成する必要がある時は、ChatGPTやClaudeといったLLMに草案を考えてもらうのがおすすめです。

NoLang公式プロンプト「動物ランキング」より抜粋

(2) 真似できなかったら、追加でルールを指定する

それでも不十分な場合は、NoLangが模倣に失敗している要素を言語化し、それらをプロンプトに追加することで、改善されることが多いです。上記の公式プロンプトでも、「常体を使用すること」「各順位につき日本語80文字とする」といった追加ルールを与えています。

また、前回のニュースレターで紹介した「指示を完璧に聞いてもらうためのコツ」を実践することで、ルールを守ってくれる可能性高まります。是非これらを駆使して、動画の展開をコントロールしてみてください。

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!