- Mavericks AI ニュース
- Posts
- OpenAIが史上最強の動画生成AI「Sora」を発表!GoogleがGPT-4の10倍の文章を入力できる「Gemini 1.5」を発表など
OpenAIが史上最強の動画生成AI「Sora」を発表!GoogleがGPT-4の10倍の文章を入力できる「Gemini 1.5」を発表など
sayhi2.ai Newsletterをご覧いただきありがとうございます!
今回も、インパクトの大きかったニュースや注目ツールを紹介していきます。特に、圧倒的な性能の高さを誇り、世界に衝撃を与えた動画生成モデル「Sora」について重点的な解説を行います!
📚 目次
1. 直近のビッグニュースTop 3
① OpenAIが史上最強の動画生成AI「Sora」を発表
② GoogleがGPT4より10倍長い文章を入力できるGemini 1.5を発表
③ ボックスや矢印で直感的に動画をコントロールできる技術が登場
2. SNSで話題のAIツールをピックアップ!
① BRIA RMBG-1.4
② CAMB.AI
1. 直近のビッグニュースTop 3
① OpenAIが史上最強の動画生成AI「Sora」を発表
2月15日、OpenAIが新たな動画生成AIモデル「Sora」を発表しました。今までの動画生成AIとはあらゆる面で一線を画しており、世界に衝撃を与えました。今年に入って最大の生成AIニュースといっても過言ではありません。
デモ動画をまだ観ていないという方は、是非こちらよりご覧ください。
OpenAIが動画生成モデルSoraのデモ動画を公開。間違いなく史上最強です
高品質なのはもちろん「電車の窓に映る反射」といった細かい描写まで行える上「コーヒーカップの中を漂う海賊船」といった非現実的な動画まで生成可能
Technical paperも公開。読んでみようと思います
— マーベリック|生成[email protected] (@sayhi2ai_jp)
2:07 AM • Feb 16, 2024
Soraの革新的な点、こなせるタスクについて見ていきましょう。
【Soraの革新的な点】
1分に渡る動画を生成できるように
従来の動画生成AIでは、4秒程度が限界
一見すると実写動画と見分けがつかないレベルに高品質
ダイナミックさと破綻のなさを両立
プロンプトへの忠実性が非常に高い
こちらのX投稿にて、Runway, Pikaといった従来の動画生成AIとの比較がなされており、参考になります。
【Soraがこなせるタスク】
テキスト・画像からの動画生成
テキストからの画像生成
2つの同じ長さの動画を融合 (ある動画から別の動画へ段々と遷移する動画を生成)
これらの結果は、全てOpenAIの公式HPに記載されています。網羅的に内容を確認したい方は、是非以下のリンク先をご覧ください。
なおニューヨークタイムズ社によると、「Sora」という名前は、創造できるアイデアが無限であることから、日本語の「空」にちなんで名付けられたそうです。また、ChatGPTの公式Xアカウントが「空色デイズ」と日本語でポストしたことから、中川翔子さんの「空色デイズ」という楽曲にも触発されていると考えられます。
Soraはこのように素晴らしい品質の動画を生成できる一方、いくつかの限界を抱えています。後ほど別のセクションにて、詳しく解説します。
② GoogleがGPT4より10倍長い文章を入力できるGemini 1.5を発表
Googleは先週、GPT-4レベルのAIモデル「Gemini 1.0 Ultra」を公開していました。これに畳み掛ける形で、今週新たに「Gemini 1.5 Pro」を発表しました。
Gemini 1.5 Proの最大の特徴は、非常に長い文章を入力できることです。100万トークン (日本語で約100万文字) を一度に入力することができ、これは動画1時間、あるいは音声11時間に相当し、GPT-4の約10倍です。
主要なLLMの入力トークン長の比較。Gemini 1.5 Proのトークン長は、GPT-4の約10倍。
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15
これにより、どんな問題を新たに解決できるようになったのでしょうか?Googleが様々なデモ動画を公開しており、使用例について学ぶことができます。
例えば以下の動画では、44分の映画をアップロードし、ポケットから紙片が取り出される場面について聞くと、そのタイムスタンプやシーンの詳細について完璧に回答してくれています。
性能に関して、Gemini 1.5 Proは、Gemini 1.0 Ultraと同等のクオリティであると発表されています。ただし、入力トークン数が長くなるにつれて、回答生成時間が長くなる点には注意が必要です。
Gemini 1.5 Proは既に、AI Studio, Vertex AIというGoogleサービスにて一部ユーザーに向けて試験公開されており、準備が完了次第、一般にも公開予定です。Gemini 1.5 Proでは12.8万トークンのモデルが標準で提供され、モデルの改善を経た後、最大100万トークンのモデルがより高い価格帯で導入される予定とのことです。(詳しくはこちら)
ちなみに、先週公開されたGPT-4レベルのAIモデル「Gemini 1.0 Ultra」は、まだ日本語には対応しておらず、続報が待たれます。
③ ボックスや矢印で直感的に動画をコントロールできる技術が登場
Soraの登場によって、テキストや画像から実用レベルに高品質な動画を生成できるようになっていくでしょう。一方で「自分の思った通りの動画」を生成できるかどうかは、別軸の問題です。
Tiktokを運営するByteDance社が発表した「Boximator」では、「どの物体をどう動かすか」を直感的に指定できます。例えば画像に対して以下のようにボックスや矢印を書き込むと、女性が顔の位置を固定したまま、ガイコツを上に持ち上げる動画が生成されます。下記のX投稿にて、具体例が10個紹介されているので是非ご覧ください。
TikTok presents Boximator!
This method can generate rich and controllable motions for image-to-video generations by drawing box constraints and motion paths onto an image and combining it with a prompt:
"A girl in red is covering her face with a skull."
10 crazy examples:
— Dreaming Tulpa 🥓👑 (@dreamingtulpa)
8:57 AM • Feb 12, 2024
似たような技術として、動画生成AIサービスRunwayが提供するMotion Brushがありますが、Boximatorの方がより直感に沿った設計になっていると感じます。
Boximatorのデモが誰でも試せる形で公開されるのは、2-3ヶ月後とのことです。Soraの登場によって、動画の品質そのものを上げる研究よりも、作り手の意図に沿うような動画生成を目指した研究が活発になっていくと予想されます。今後の展開に目が離せません。
2. SNSで話題のAIツールをピックアップ!
BRIA社が手がける背景除去ツール
12000以上の高品質データセットで訓練された、2月に発表されたばかりの最新モデルを搭載
高精度かつ高速で、一枚あたり数秒〜10秒で完了
Hugging Faceで公開されており、誰でも無料で試すことが可能
BRIA社はウェブアプリも展開しており、今後さらに使いやすい形で提供される可能性あり
CAMB.AI (https://sayhi2.ai/ja/product/camb_ai)
動画の文字起こしや字幕付きの吹き替えを作成できるツール
日本語を含む100言語に対応し、高精度
クリップごとに動画を区切った上で、翻訳元・翻訳先のそれぞれの言語で字幕を表示してくれるため、非常に見やすい
登録から14日の間であれば、無料で最大15分の動画を翻訳可能
3. 動画生成モデルSoraが抱える3つの限界
Soraは動画生成AIの新たな可能性を切り拓いてくれましたが、まだ解決できていない問題も多くあります。ここでは、Soraが抱える3つの限界について解説します。
① 物理法則を理解していない
物理法則を考慮しなければ、正確な動画生成を行うことはできません。これは、時間軸が存在しない画像生成では生じ得ない困難です。
残念ながら、Soraはしばしば物理法則を無視した動画を生成します。例えば、以下の生成動画では、机に置いてあるコップが突然ジャンプしている上、コップの中身の液体がガラスを貫通してこぼれ落ちています。
I see some vocal objections: "Sora is not learning physics, it's just manipulating pixels in 2D".
I respectfully disagree with this reductionist view. It's similar to saying "GPT-4 doesn't learn coding, it's just sampling strings". Well, what transformers do is just manipulating… twitter.com/i/web/status/1…
— Jim Fan (@DrJimFan)
5:50 PM • Feb 16, 2024
この問題は、開発元のOpenAI自身が公式ページにて自認しています。他にも、3匹いたはずの子犬がいつの間にか4, 5匹になってしまう例などが掲載されています。
OpenAIの開示情報から、Soraは明示的には物理法則を学習していないと見られています。現実と見分けがつかない動画生成を実現するためには、物理法則をシミュレートできるようになることが必須であり、その実現に向けた研究が、今後活発になされていくでしょう。
② 生成動画の直感的なコントロールが困難
動画生成AI分野においては、生成動画を直感的にコントロールできるようになることを目指して様々な手法の研究開発が進んでいます。上で取り上げたBoximatorがその代表例です。
Soraはこれまで使用されてきた主要な動画生成AIモデルとは異なるアーキテクチャを持つため、このような手法を直接適用することができません。それゆえ現時点では、生成動画のコントロールに限界があると考えられます。
ただし、アーキテクチャの変更度合いはそこまで大きくないため、1年も経たないうちに新たな手法が確立される可能性は十分にあり、注視が必要です。
③ 生成できる動画の幅が限定的
Soraに関して、既に100近くのデモ動画が公開されていますが、その中に「鬼滅の刃」のような、2次元のアニメ動画は一切ありません (PIXAR風のアニメ動画、マインクラフト風の動画などは生成されています) 。これは、Soraが2次元アニメの動画生成を苦手としているからだと考えられます。
また画像・動画生成の分野では、類似の学習データセットが使い回されており、モデルが異なっても、生成結果が似通ってしまうことがよくあります。
Soraも例外ではなく、画像生成AIのMidjourneyが生成する画像と、Soraの生成する動画のフレームが酷似しているケースがいくつもあると報告されています。こちらは短期的な解決が難しく、根深い問題と言えるでしょう。
Soraに関する非常に面白い指摘です
15のSoraのデモ動画に関して、同じプロンプトを用いてMidjourneyで画像生成したところ、多くのケースで生成結果が酷似
text-to-image, videoで使用されているデータセットがいかに多様性に欠けているか、訓練データセットがいかに大事かを改めて痛感させられます
— マーベリック|生成[email protected] (@sayhi2ai_jp)
5:02 AM • Feb 17, 2024
最後に、今後動画生成AI分野はどのようなペースで発展していくのでしょうか?
NvidiaでAIエージェントチームをリードする研究者のJim Fan氏は「SoraはGPT-3レベルにある」と述べています。先週の時点では「動画生成AIはGPT-2レベルにある」とお伝えしていました。
GPT-2, GPT-3, GPT-3.5はそれぞれ2019年2月、2020年7月、2022年11月に発表されています。Soraは、動画生成AI史を1年半進めるほどの大きなブレイクスルーであり、今後2年でさらに飛躍的に性能が向上していくことが予想されます。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています!
さらに、本年より18000以上のGPTsの掲載を開始しました。ぜひご覧ください!
またXでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、日々情報発信しています。是非チェックしてみてください!
a16zの@venturetwins による2023年に発表された動画生成AIのまとめが本質的です
時系列まとめはもちろん、各AIツールの機能まとめ (入力モーダル、生成される動画の時間、制御機能の有無)、注目論文一覧、Xのインプレッション分析まであります
特に注目すべき5選↓
— マーベリック|生成[email protected] (@sayhi2ai_jp)
10:01 AM • Jan 3, 2024