- Mavericks AI ニュース
- Posts
- 動画生成AIがついにハリウッドへ!Runwayが大手ハリウッドスタジオとの提携を発表、NoLangの対話モードで、予め用意した台本を元にそのまま動画生成する方法を解説など
動画生成AIがついにハリウッドへ!Runwayが大手ハリウッドスタジオとの提携を発表、NoLangの対話モードで、予め用意した台本を元にそのまま動画生成する方法を解説など
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangの対話モードで、予め用意した台本からそのまま動画を生成する方法について解説します!
📚 目次
1. 直近のビッグニュースTop 3
① 動画生成AIがついにハリウッドへ!Runwayが大手ハリウッドスタジオとの提携を発表
② Googleがハルシネーションを防ぐ機構を組み込んだLLM「DataGemma」を公開
③ Viduがたった一枚の画像からキャラクターを指定して画像生成できる機能を発表
1. 直近のビッグニュースTop 3
① 動画生成AIがついにハリウッドへ!Runwayが大手ハリウッドスタジオとの提携を発表
動画生成AIサービスを提供しているRunway社が、「ジョン・ウィック」などの作品で知られるハリウッドスタジオLionsgate社と提携を締結したことを発表しました。TechCrunchによれば、生成AIスタートアップが大手ハリウッドスタジオとの提携を公に発表したのは今回が初めてです。
Runway公式発表より抜粋
Lionsgateは20,000を超える映画やTVタイトルからなるライブラリを保有しており、RunwayはLionsgateのカタログを活用し、カスタムAIモデルの訓練を行っていくとしています。Runwayは現在、原則10秒までの動画しか生成できないなどまだまだ発展途上です。それでも、Lionsgate副会長のMichael Burns氏が「AIを現在の業務を補強、強化、補完するための優れたツールと見なしています」と述べている通り、訓練されたAIモデルは、映像作品の制作支援に活用されていくと考えられます。
またRunway社は9月16日、動画生成AI Gen-3 AlphaのAPI提供を開始すると発表し、その翌日にはLuma社が、同じく動画生成AIのDream MachineのAPIを公開しました。特にDream MachineのAPIは、ウェイトリスト登録なしにすぐに使用を開始できます。最先端の動画生成AIモデルを誰もがAPIで利用できるようになったのは今回が初めてです。
気になるのは料金ですが、5秒の動画を生成するのに約0.4ドルかかり、これは最先端の画像生成AIを使用した場合の1枚あたりの生成料金の10倍に相当します。動画生成AIはまだまだプロンプトへの追従性が低く、しばしば「ガチャ」に陥ることも踏まえれば、多くの開発者にとってAPIを使用するハードルは高いでしょう。それでもRunwayが小型モデルを発表するなど、動画生成AI分野でも生成コストを下げる試みが始まりつつあることを踏まえると(以前のニュースレター)、このハードルは徐々に下がっていくはずです。
モデル | 1回あたりの生成料金 |
---|---|
FLUX.1 [dev] | $0.025 |
DALL-E | $0.04 |
Ideogram (v2 Turbo) | $0.05 |
Dream Machine | $0.384 / 5s |
また、現在の動画生成AIは原則、高々10秒程度の長さの動画しか生成できない一方、YouTubeやTikTokに投稿されるショート動画とは相性が良く多用されています。先日はGoogleにより、今年後半よりYouTubeショートに動画生成AIモデルVeoが統合され、6秒の動画を生成可能になることも発表されました。今後さらに生成コストが下がれば、動画生成AI APIを組み込んだ画期的なサービスが次々と登場していくことが期待されます。
② Googleがハルシネーションを防ぐ機構を組み込んだLLM「DataGemma」を公開
Googleが統計情報を活用して、ハルシネーションを抑制する工夫を凝らしたLLM「DataGemma」をオープンソースで公開しました。このLLMは、国連やWHOといった信頼できる機関から取得された情報を参照して回答し、「米国で所得と糖尿病はどのような相関関係にある?」といった質問に正確に答えることができます。DataGemmaには、ハルシネーションを抑制するために、RAGとRIGと呼ばれる2つの機構が組み込まれています。
RIGとRAGの仕組みの違い。RIGは最初にLLMに回答案を生成させ、後から修正しているのに対し、RAGは、LLMの回答前にプロンプトに参照情報を追加している(Googleの研究論文)
RAGは、現在LLM開発に広く用いられている手法であり、ユーザーからの質問に関連する情報を外部の情報源から取得し、プロンプトに組み込みます。これにより、LLMが情報源を参照して回答をできるようになります。RAGはLLMの「回答前」に参照情報を与えていることが特徴です。
一方でRIGという手法では、LLMに一度回答案を生成させた後、「ファクトチェック」の形で、情報源を参照して回答を更新します。このファクトチェックは、回答案に含まれる数値情報に対し適用されます。これにより、回答精度はLLMに直接回答させた時と比較して40%以上向上し、58%となっています。
RIGによる回答例。LLMの初期回答案では、「再生可能エネルギーの占める割合は12%で、2000年時点と比較して6%向上した」とされているが、その後情報源を参照し、割合の数値を正しい値に上書きしている。(Googleの研究論文)
RIGがRAGと異なる点として、回答の組み立て方が参照情報源に依存しないことが挙げられますが、これには一長一短あります。RIGでは、参照情報を元に強引なロジックを組み、誤った回答をしてしまうリスクが減る一方で、回答の骨格を設計する際に参照情報について一切知らないことから、参照情報源から質問に関連する情報を抽出できない可能性が高まると考えられます。
このように参照情報をもとに回答する生成AIモデルの中でも、特にGoogleのメモ作成アプリ「NotebookLM(以前のニュースレター)」に搭載されているLLMは、ハルシネーションが少ないことで知られます。このサービスでは、参照文書に含まれていない情報が必要な質問に対しては一切回答しないよう設計されています。
しかしNotebookLMでさえも、私の体感では数%の割合で関係のない数値情報を引用するなどして、誤った回答をしてしまうことがあります。Wikipediaに匹敵する、あるいはそれ以上の正確さでLLMが回答できるようになるには、まだ技術的なブレイクスルーが必要でしょう。
③ Viduがたった一枚の画像からキャラクターを指定して画像生成できる機能を発表
Runway社のGen-3 AlphaやLuma社のDream Machineと並んで、高性能な動画生成AIと呼び声高い「Vidu」が、新たに生成動画に映るキャラクターや物体を画像で指定できる「Reference to Video」機能を公開しました。人物、動物、靴、ソファーなど、様々な対象の画像を用意し、さらにテキストプロンプトを入力すると、その対象を含む動画を生成できます。百聞は一見に如かずということで、是非以下のデモ動画をご覧ください。
🥳Object Consistency is here!🚀
With the new "Reference to Video" feature, you can now apply consistency to anything—whether real or fictional. Seamlessly bring the reference to any scene you choose. The creativity is limitless!
➡️Explore now on Vidu: vidu.studio
— Vidu AI (@Viduforhuman)
2:34 AM • Sep 11, 2024
これまでも、最初や最後のフレームを画像で指定して動画生成する「Image to Video」機能は多くの動画生成AIサービスで提供されていましたが、動画に映る「物体」を指定する機能が実装されたのは大手サービスの中で初めてであり、非常に画期的です。また、対象の指定に必要な画像が一枚で良い点も興味深いです。
このReference to Video機能は、動画の品質こそやや落ちてしまうものの、無料で試すことができます(詳しくは次のセクションで紹介)。
現状の動画生成AIの大きな欠点である「操作性の低さ」を解消すべく、他にも様々なサービスに新機能が追加されています。例えばKLINGには、「画像内のどの対象がどのように動いて欲しいか」を簡単に指定できる「Motion Brush」機能が追加されました。動かしたい対象をブラシで塗りつぶして指定した後、その物体の動きを矢印で自在に指定できます(こちらも無料で試すことが可能)。
Official example from #kling_ai showcasing the use of the motion brush. 😱🎥 INSANE !! x.com/i/web/status/1…
— Pierrick Chevallier | IA (@CharaspowerAI)
9:08 PM • Sep 18, 2024
Runway Gen-2にも既に同様の機能が実装されていますが、矢印を用いて動きを指定できるため直線的な動きだけでなく方向転換もある程度実現できること、さらには動かしたくない領域・物体を指定できることがユニークな点として挙げられます。
画像分野と比べると、思い通りの動画を生成できる割合はまだまだ低いのが現状ですが、動画生成における制御性を高める機能はここ数ヶ月で次々と登場しており、着実に進歩していることは間違いないでしょう。
2. SNSで話題のAIツールをピックアップ!
Vidu (https://www.vidu.studio/)
Gen-3 AlphaやDream Machineと並んで有名な動画生成AIツール
キャラクターをたった一枚の画像で指定して動画生成できる「Reference to Video」機能が新たに追加
Speedモードでは4秒の動画が僅か30秒で生成。待ち時間を含めても1〜3分程度で生成される
無料でも20回の動画を生成でき、Reference to Video機能も使用可能
KLING (https://klingai.com/)
同じくGen-3 AlphaやDream Machineと並んで有名な動画生成AIツール
新たにMotion Brush機能が追加され、物体の動きを矢印で指定して動画生成できるように
ただし、Motion Brush機能単体で使用しても失敗することが多く、テキストプロンプトと併用することが必須
無料でも5秒の動画を1日あたり6回生成できる
3. 🐬NoLangの対話モードで、予め用意した台本を元にそのまま動画生成する方法を解説!
今回は、NoLangの対話モードでプロンプト機能を使用し、予め用意した台本からそのまま動画を生成する方法について解説します。なお、非対話モードに関しても別途プロンプトを用意しており、同様の手順で台本通りの動画を作成できます。
(1) 台本を用意する
まずはじめにNoLangに入力する台本を用意します。入力文は以下のように、話し手を「語り手: 」「助手: 」などと指定した上で、各発言を改行で区切っておく必要があります。
語り手: ...
助手: ...
語り手: ...
助手: ...
対話内容を上記のフォーマットに変換したいときは、例えば以下のようなプロンプトをChatGPTやClaudeに与えることで、簡単に済ませることができます。
## 命令書
「## データ」に2人の会話が改行区切りで与えられています。「## 出力例」のような形で、誰が喋っているかを加えた文章のみをpythonのコードブロックとして出力してください。
## データ
先生、「NoLang」というのがさっぱり分からないのですが、これは一体何なのでしょうか?
NoLangは、AIを使って簡単に動画を作れるツールだよ。 質問を入力するだけで、解説動画が自動で作られるんだ。
へぇ、すごいですね。 どんな種類の動画が作れるのですか?
## 出力例
```python
語り手: ...
助手: ...
語り手: ...
助手: ...
```
(2) 動画設定を行う
ヘッダーにある「動画設定」より「プロンプト」タブを選択します。対話モードがONになっていることを確認した上で、「入力した台本をそのまま出力」という公式対話プロンプトを設定します。
続いて、台本の文量に合わせて、動画の長さを適切に設定します。1分あたり350〜400文字を目安に設定すると良いでしょう。
(3) 動画を生成する
あとは、(1) で用意した文章を入力すれば、台本通りの動画が生成されるはずです。ただし、稀に台本通りでない動画が生成されることがあるので、念のため生成動画の内容を確認し、必要に応じて動画編集機能で修正するようにしてください。
解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、
どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」
といったプロダクトをリリースしてまいりました。
またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。
特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!
🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます!
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了!
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です!
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024
AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024
、