- Mavericks AI ニュース
- Posts
- Metaが革新的な動画生成AIを発表!SoraやRunwayをも凌駕する性能を達成、NoLangで図解付きの動画を簡単に作成する方法など
Metaが革新的な動画生成AIを発表!SoraやRunwayをも凌駕する性能を達成、NoLangで図解付きの動画を簡単に作成する方法など
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで図解付きの動画を簡単に作成する方法について解説します!
📚 目次
1. 直近のビッグニュースTop 3
① Metaが革新的な動画生成AIを発表!SoraやRunwayをも凌駕する性能を達成
② OpenAI Dev Dayが開催。「高度な音声機能」を誰でも組み込み可能に
③ ChatGPTに、AIと円滑に共同作業するための新ツール「Canvas」が搭載
2. SNSで話題のAIツールをピックアップ!
① ChatGPT Advanced Mode
② fal.ai
1. 直近のビッグニュースTop 3
① Metaが革新的な動画生成AIを発表!SoraやRunwayをも凌駕する性能を達成
Metaが最新の研究成果として、動画生成、動画編集、さらには動画を元にした音楽生成まで行える基盤モデル群「Meta Movie Gen」を発表しました。Metaの生成AIチームを率いるAhmad Al-Dahle氏による下記投稿では、SoraやRunwayといったフロンティアモデルと比べて望ましい動画を生成できることが示されています。是非ご覧ください。
I couldn’t be more excited to share our latest AI research breakthrough. We call it Meta Movie Gen and it’s a collection of state-of-the-art models that combine to deliver the most advanced video generation capability ever created.
Check it out: ai.meta.com/research/movie…
— Ahmad Al-Dahle (@Ahmad_Al_Dahle)
1:01 PM • Oct 4, 2024
同時公開された92ページに渡るテクニカルレポートによれば、基盤モデル群のうち、動画生成を行えるMovie Gen Videoは30Bのパラメータをもち、テキストを入力できます。生成動画の長さは最大16秒間で、解像度はHDです。
音楽生成を行えるMovie Gen Audioは13Bのパラメータをもち、テキスト・動画から音楽を生成可能です。「鳥のさえずり、風の音」といった環境音から、「歩く音、洋服が擦れる音」といった動作に付随する効果音、さらには「映画で流れる管弦楽曲」のような背景音楽まで生成できます。
そして特に大きな話題を呼んだのが、動画に映る人物を顔写真で指定できる機能です(動画例)。中国発の動画生成AI Viduに実装されていた同様の機能(前々回のニュースレター)と比べても品質が格段に高く、もはやAI生成と識別するのが困難なレベルに達しつつあります。Meta Movie Genのリリース時期は明らかにされていませんが、続報が待たれます。
先週は、他にも新たな動画生成AIに関する注目すべき発表がいくつもありました。昨年Runway社と共に2大動画生成AIスタートアップの一角をなしていたPika社はPika 1.5をリリースし、その生成品質は他の最高水準の動画生成AIサービスに匹敵しています。また、「膨らませる」「溶かす」「爆発させる」「絞る」「潰す」「ケーキのように切る」といった特殊効果をあらゆる物体に適用できる革新的な機能も公開され、奇想天外な変化を伴う動画を生成できます。
Sry, we forgot our password.
PIKA 1.5 IS HERE.With more realistic movement, big screen shots, and mind-blowing Pikaffects that break the laws of physics, there’s more to love about Pika than ever before.
Try it.
— Pika (@pika_labs)
3:49 PM • Oct 1, 2024
また、TikTokの運営元であるByteDance社からはSeaweedという動画生成AIモデルが発表されました。「カメラの焦点を手前の女性から奥の背景へとずらす」「死神を見て後退りする女性の後ろ姿のカットから、彼女が絶叫する顔のアップショットへと切り替わる」といったように、高い一貫性を保ちつつ、巧みな演出技法を駆使したかのような印象的な動画シーンを生成できる能力は、他に類を見ない特筆すべき点です。
A new State of the Art AI Video Model called Seaweed has recently dropped and it is fairly mind blowing, doing at least 2 things I have not seen any other AI Video Generator do as of yet.
— Theoretically Media (@TheoMediaAI)
7:20 PM • Sep 30, 2024
最先端の動画生成AIの品質は、本物の映像と一見見分けがつかないレベルにまで到達しつつありますが、思い通りの動画を生成することは極めて難しく、費用も高価です。このような問題の解決に向けて、今後さらに激しい競争が繰り広げられていくと考えられます。
② OpenAI Dev Dayが開催。「高度な音声機能」を誰でも組み込み可能に
昨年に引き続き、10月1日にOpenAIの開発者向け会議「Dev Day」が開催されました。その中でも特に話題になったのが、先日公開されたばかりの「高度な音声機能」(無料ユーザーにも公開。詳しくは次のセクションにて)のAPI版にあたるRealtime APIの公開です。これにより、感情豊かで応答が早く、自然に音声会話できるボイスエージェントを世界中の開発者が制作できるようになりました。
このような音声対話技術がさらに進化していったとき、どのような作業がAIに置き換えられていくのでしょうか?a16zのOlive Moore氏は下図の受容曲線において、現在はInnovatorsからEarly Adoptersへと移行する段階にあると述べています。
AIボイスエージェントの受容曲線。「SMB」は中小企業を指す(引用元)
Innovatorsに含まれるのは、「コールセンターサービス」「レストランの注文」など、件数が多く、会話のパターンが非常に限定的で、かつ失敗が命取りにならないユースケースです。そしてこれから開拓が始まるであろうEarly Adoptersには、面接官から求職者への一方向の質問だけで成立する「採用活動」や、同じく原則講師が会話の主導権を握ることができ、特定のトピック・教材のみを扱えば良い「研修」が名を連ねています。
AIボイスエージェントのユースケース別の特徴。「SMB」は中小企業、AOVは平均注文額を指す(引用元)
これらは、Innovatorsに含まれるユースケースと比べると会話のパターンが飛躍的に増えるためLLMの導入が必須になると思われます。それでも、これは決して遠い未来の話ではなく、例えばAIを面接官に据えるグローバル人材プラットフォームMercorでは既に、30万の候補者が在籍しており、総面接数は10万に上っているようです。
なお、音声対話型AIの最高峰であるOpenAIの「高度な音声機能」やRealtime APIをもってしても、実用化に向けた課題はいくつも考えられます。例えば、同音異義語の多い日本語ではどうしても聞き取りミスが多いです。そして、一度誤認識した内容を書き換えるのが現状のLLMの仕組み上難しく、どうしてもユーザー体験を損なってしまいます。
また、Realtime APIを使ってAIVtuber配信を行ったyukiさんは、一時間の配信に5,000円かかったと述べており、このAPIを使用したAIの時給が大雑把には5,000円だと言えます†。これだけ料金が嵩んでしまう要因として、発話の度に会話履歴(の要約)をAIモデルに入力する必要があることが挙げられます。音声モデルに関しても小型化が進み、より廉価に利用できるようになることが、普及のための必要条件でしょう。
なおDev Dayでは他にも、GPT-4oのビジョン機能をファインチューニングする機能や、小型のLLMを強化するために大規模なLLMの出力を学習させる「蒸留」機能も発表されています。蒸留機能については後ほど触れていきます。
†[補足] 厳密には、yukiさんはRealtime APIをTTS用途で使用し、会話は別のLLMで生成しているとのことなので、音声対話をAPIでそのまま実装した時の費用ではありません。ただし上述の通り、通常の実装を行った際、費用の大半は会話履歴が占めるトークン費用であり、これはyukiさんの配信手法でも同様にかかります。また、yukiさんはRealtime APIに音声でなくテキストを入力していますが、音声入力の方がコストが高いため、音声対話をそのまま実装すると、5,000円/h以上の費用がかかる可能性があります。
③ ChatGPTに、AIと円滑に共同作業するための新ツール「Canvas」が搭載
Dev Dayから僅か2日後、OpenAIはさらに、ChatGPTへ「Canvas」を追加したこと発表しました。Canvasは文章執筆やコーディングをAIと共同作業で進めていくために開発されたツールです。テキストで説明するよりも実際に使用している様子をお見せした方が概要を素早く掴めるかと思いますので、まずは是非、以下のデモ動画をご覧ください。
Canvas opens in a separate window, allowing you and ChatGPT to work on ideas side by side.
In canvas, ChatGPT can suggest edits, adjust length, change reading levels, and offer inline feedback. You can also write and edit directly in canvas.
— OpenAI (@OpenAI)
5:07 PM • Oct 3, 2024
上記のデモに補足を加えながら、文章執筆におけるCanvasの機能について詳しく説明します:
まずは、いつものChatGPTの画面で「アップロードしたメモをもとにブログの下書きを書いて」と送信すると、文章執筆用のキャンバスが開きます。ここでもし「アップロードしたメモを要約して」と送信したとしても、通常通り回答が返されるだけです。つまり、「キャンバスを開くべきか」をAIが自動判断しています。
キャンバスを開くと、右下のボタンから「編集の提案」「長さの調整」「読者レベルの調整」「最後のブラッシュアップ」「絵文字の追加」を行うことができます。
文章の一部をドラッグし「もっとクリエイティブに」などと指示して修正も可能です。
もちろんキャンバス内の文章は直接編集できます。また左のチャット欄で指示を出すと、文章全体を修正すべきか、あるいは文章の一部のみを修正すべきかをAIが判断して実行に移します。
これらを踏まえてCanvasとは何かをまとめると、以下のようになります。
文章執筆やコーディングにおいて、簡単に編集・修正が行えるツール。ワンクリックでよく使われる修正を実行することができる
そもそもキャンバスを開くかどうか、編集対象を全体・一部のどちらにすべきか等をAIが自動判断してくれる
普段ChatGPTを使って記事の下書きを作ったり、メール文を作成したりしている人にとって、Canvasは嬉しい機能である一方、生成AIを使って簡単に文章生成・編集が行えるツールは他にも無数にあり、決して目新しいものではありません。また、コーディングにおいては、開発環境から直接呼び出せるCursorの方が遥かに便利です。
一方で技術的には、o1-previewで自動生成されたデータをGPT-4oに事後学習させることで、AIによる自動判断の精度を向上させたり、コメントの品質を向上させたりしている点が興味深いです。
GPT-4o(桃)とGPT-4o with canvas(橙)のコメント性能の人で評価
GPT-4o with canvasの方が、30%正確にコメントをトリガーできているほか、提案コメントの質も16%高い(OpenAI公式ブログ)
先日リリースされたo1-previewやo1-miniは、コーディングにおいてはGPT-4oよりも優れた回答をすることが多く、弊チームでの評判も高い一方、それ以外のほとんどの用途ではGPT-4oの方が適しているのが現状です(前々回のニュースレター)。
それでも、推論時間が長くなれば性能も向上するという新たなスケーリング則によって示された通り、論理的思考が求められるタスクにおけるo1シリーズの出力は極めて高品質です。このo1シリーズの推論能力と、Dev Dayで公開された蒸留機能を組み合わせることで、人手によるデータ収集なしに「プロダクトのAI機能強化」までも行える可能性があることが示された点は画期的だと言えるでしょう。
なおCanvasは現在ベータ版で、Plus, Teamプランのユーザー向けに提供されています。ベータ版が終了次第、Freeユーザー向けにも提供が開始される予定とのことです。
2. SNSで話題のAIツールをピックアップ!
ChatGPT Advanced Voice Mode (https://openai.com/chatgpt/download/)
極めて自然な会話体験を楽しめると話題のChatGPTの「高度な音声モード」がついに無料ユーザーにも解放
早く / 遅く喋ってもらう、感情豊かに喋ってもらう、特定の役になりきってもらうなどを試してみるのがおすすめ(ただし有名人など特定の人物になりきることは不可)
一ヶ月につき15分間会話をすることができる
iOSまたはAndroidで、アプリのバージョンを最新にする事で使用可。真ん中の円が空になっていれば、「高度な音声モード」になっている
fal.ai (https://fal.ai/)
Runway, Dream Machine, Klingといった有名動画生成AIツールを一挙に試すことができ、APIで商用使用することも可能
ただし、各ツールの提供している最上位モデルが使えるわけではないことに注意
Gen-3 Alpha Turbo: $0.25/枚, Kling 1.0: $0.125/枚 (pro), $0.03/枚 (standard), Dream Machine: $0.5/枚
他にも、先週出たばかりのFlux 1.1 [pro]といった最新の画像生成AIモデルも試すことができる
3. 🐬NoLangで図解付きの動画を簡単に作成する方法
NoLangでは画像生成AIモードをONにすることで、テーマに合った質の高い画像を生成・挿入することができますが、図解画像を入れてプレゼンのように仕上げたい場合は、自ら用意した画像を用いる必要があります。
今回は、NoLangとNapkinというAIツールを組み合わせて、図解付きの動画を簡単に作成する方法について紹介します!
(1) NoLangの生成動画のスクリプトをコピー
まずはNoLangで作成した動画の閲覧画面にて、下部にある「スクリプト」トグルを開き、内容をコピーします。
(2) Napkinにスクリプトを貼り付け
次に、Napkin (https://www.napkin.ai/) にアクセス・サインアップし、「New Napkin」ボタンから「Blank Napkin」を選択してまっさらなノートを作成します。
ノートが作成できたら、先ほどコピーしたスクリプトを貼り付けましょう。
(3) Napkinで図解生成・ダウンロード
次に、テキスト範囲を指定して水色の稲妻ボタンを押せば、図解がいくつも生成されるので、お気に入りのものを選んでノートに挿入しましょう。生成された図解のテキスト・色やオブジェクトの位置は後から自由に変更できます。特にデフォルトだと文字が小さくなってしまうため、文字サイズはXLに変更しておくのがおすすめです。
生成された図解は、背景を指定してダウンロードすることができます。
(4) NoLangの動画編集機能で画像差し替え
あとは、Napkinで作成した画像をNoLangの動画編集機能にて挿入すれば、動画の完成です!動画最後のパートで、視聴者に結論を要約して伝える際に使用するのがおすすめです。是非試してみてください!
解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、
どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」
といったプロダクトをリリースしてまいりました。
またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。
特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!
🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます!
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了!
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です!
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024
AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024