- Mavericks AI ニュース
- Posts
- Soraに迫る性能を持ちダンス動画も生成できるAI「Kling」が発表、この一年で新たにユニコーンとなったAI企業8社を総まとめなど
Soraに迫る性能を持ちダンス動画も生成できるAI「Kling」が発表、この一年で新たにユニコーンとなったAI企業8社を総まとめなど
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、この一年で新たにユニコーン企業となったAI企業8社について解説します!
📚 目次
1. 直近のビッグニュースTop 3
① Soraに迫る性能を持ち、ダンス動画も生成できるAI「Kling」が発表
② NVIDIAがシステム設定まで管理してくれるゲームアシスタントAIを発表
③ 2枚のアニメ絵の中割りを生成する画期的AI技術「ToonCrafter」が公開
2. SNSで話題のAIツールをピックアップ!
① NotebookLM
② AIverse
1. 直近のビッグニュースTop 3
① Soraに迫る性能を持ちダンス動画も生成できるAI「Kling」が発表
中国のショート動画共有プラットフォーム「快手(Kuaishou)」が、OpenAIのSoraに迫る性能を持つ動画生成AI「Kling」を自社アプリに組み込む形で発表しました。最大2分間、30fpsのフルHD動画を生成できます。特に以下の男性が箸でヌードルを食べる動画は、AI生成だと区別できない程にリアルであり、是非観ていただきたいです。
Sora by OpenAI is insane.
But KWAI just dropped a Sora-like model called KLING, and people are going crazy over it.
Here are 10 wild examples you don't want to miss:
1. A Chinese man sits at a table and eats noodles with chopsticks
— Angry Tom (@AngryTomtweets)
6:03 PM • Jun 6, 2024
さらにKlingは、一枚の人物画像とボーン動画からダンス動画を作成することも可能なようです。前回のニュースレターにて紹介したどのオープンモデルよりも高品質で、アリババが発表したAnimate Anyoneと同レベルの一貫性を誇っています。
Soraに匹敵するクオリティと言われる動画生成AI「Kling」を中国の大手SNS企業Kuaishouが発表。
デモで出ている動画のクオリティも凄いし、公式ページよく見るとControlNet的な感じで元画像+ボーンで狙った動きの動画を作れる機能もある。
2次元キャラも動かせてるからVTuberとか相性良さそう
— KAJI | 梶谷健人 / 新刊「生成AI時代を勝ち抜く事業・組織のつくり方」発売! (@kajikent)
4:59 AM • Jun 7, 2024
研究、応用を問わず、画像・動画生成分野では、中国の企業や研究者の台頭が目立ちます。アリババがAnimate Anyone, Outfit Anyone, EMO, Replace AnythingといったECやエンターティメント領域への応用を強く意識した画期的なAI技術をいくつも発表しているほか(解説したX投稿)、TikTok運営のバイトダンス社もMagicAnimate, Boximatorといった動画生成技術を発表しています。スタートアップとしては、生数科技(Shengshu Technology)が先月、当時最高品質の動画生成AIを発表していました(以前のニュースレター)。
今回Klingを発表した快手は、TikTokのルーツとなった抖音(Douyin)と共に、ショート動画共有プラットフォームの2大巨頭として知られており、OpenAIのような基盤モデルの開発を行う企業、Runway, Pikaといった動画生成AIの提供を主事業とするスタートアップとは異なる性質を持つ企業です。生成AI普及のフェーズが、また一歩進んだと感じます。
なお、Klingの利用にあたっては中国の電話番号が必要で、さらにウェイトリストに登録する必要があり、現在は国内から使用することは難しいようです。
② NVIDIAがシステム設定も管理してくれるゲームアシスタントAIを発表
NVIDIAが6月2日に、ゲームアシスタントAI「Project G-Assist」を発表し、ユーザーがAIと対話しながらゲームを進めていくデモ動画が公開されました。このAIは、ゲームの攻略Wikiや画面を参照できるのに加え、システムとも連携できることが特徴です。たとえば「フレームレートを60fpsに保ちたい」といったお願いに対し、GPUの電圧を下げるといった最適化まで行ってくれます。なお、リリース時期は明らかにされていません。
NVIDIAのゲームアシスタント「G-Assist」が、GPT-4o×マイクラの更に先の未来を見せてくれています
Wikiや画面を参照して「序盤最強の武器は?」「どのスキルを上げれば?」といった質問に答えるのに加え
システムとも連携し、「60 fpsを保ちたい」とお願いすると、GPUの電圧を動的に下げてくれます!
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
3:56 AM • Jun 5, 2024
ゲーム・ハードウェア設定の数は数十に及ぶようで、 AI アシスタントはこれらの設定を監視したり、変更したりする権限を持つことになります。
このようにエージェントAIに広範な選択肢を与えると、まだまだ誤動作を起こしてしまうケースが多いです。ChatGPTは、「画像生成」「ウェブ検索」「コード実行」の3つのアクションの実行必要性の有無をかなり正確に判断できるようになっている一方で、GPTsで付け加えた独自機能に関しては、思わぬタイミングで呼んでしまうケースが少なくないです。LLMがこのような意思決定を正確に行えるようになるためには、まだまだ性能の向上が必至でしょう。
こういったAIアシスタントを構築する上で重要になるのが音声対話の品質ですが、先週OpenAIより、非常に印象的なGPT-4oのデモが公開されました。GPT-4oが「荘厳なライオン」「ちっちゃいネズミ」「賢くて冷静なフクロウ」といった複数のキャラクターになりきって一人多役で喋ってくれるというものです。エンドツーエンドなマルチモーダルAIのユースケースを体感できる良い動画となっており、視聴をお勧めします。
③ 2枚のアニメ絵の中割りを生成する画期的AI技術が公開
香港中文大学、Tencentの研究者らによって、2枚のアニメ絵の間の中割りを生成し、映像化するAI技術「ToonCrafter」が公開されました。ただ2枚の画像間を直線的に補完するのではなく、髪のなびき等を交えて、ダイナミックさを残しつつ自然に繋げている点が非常に興味深いです。
This is the turning point in AI animation.
ToonCrafter animates the frames between two input images and the demos are kind of unbelievable.
9 wild examples & link:
1)
x.com/i/web/status/1…— Proper (@ProperPrompter)
1:49 PM • Jun 1, 2024
既にワークフローツールComfyUIにて実装されており、様々なユーザーが実験動画を上げています。もちろん、ダイナミックな動きを補完しようとすると失敗することが多いようですが、ラフな線画をガイドとして添付することが可能で、これにより爆発動作も高品質に補完することもできます。
また、KREA社によるAI動画アップスケーラーと組み合わせて作成された、PIXAR風の3Dアニメキャラクターがこちらを振り向く動画(X投稿)も非常に高品質で見応えがあります。
こうした個々のユースケースに特化したAI技術は日進月歩で増え続けていますが、昨年と比べると、画像生成AI分野全体の発展速度は緩やかになっています。そこで、他のモダリティとの組み合わせにより、新たな可能性を模索する動きが活発になりつつあります。
例えば、画像生成時に人物の姿勢や全体の構図を指定できる「ControlNet」を開発したイリヤスフィール氏は先日、「Omost」と呼ばれる新たなプロジェクトを公開しました。LLMを用いて、「テキストプロンプトを、物体ごとに領域指定して画像生成するプログラミングコードに変換する」というもので、プロンプトを凝らずとも高い再現性を保証できる上、修正も直感的に行えることが特徴です。
Omostによる画像生成の仕組み(引用元のX投稿)
OmostはLLMと画像生成AIモデルが完全に分離されていますが、それらを融合させたさせたエンドツーエンドなマルチモーダルAIを用いることができれば、人間による指示がダイレクトに画像生成AIモデルに受け渡されるため、制御性がさらに向上することが期待されます。GPT-4oの画像生成機能はエンドツーエンドなモデルであると明らかにされており、一刻も早い公開が待たれます。
2. SNSで話題のAIツールをピックアップ!
NotebookLM (https://notebooklm.google/)
アップロードした資料についてチャットし、その内容を保存できるメモ作成アプリ。Googleが公式に提供しており、Gemini 1.5 Proを搭載
引用元をチェックできるため事実確認がしやすい上、結果をメモに保存して見返せるのが非常に便利
Gemini 1.5 Proはマルチモーダル機能を持つため、資料内の画像やチャートに関する質問にも応えてくれる
ハルシネーションが起きにくいように細心の注意が払われており、資料に関係ない質問に対しては、全く答えないことが特徴
AIverse (https://aiverse.design/)
AIプロダクトにおける機能のUXデザインをカテゴリごとに探せるギャラリーサイト
挙動が動画で掲載されているため、非常に見やすい
現在は124のデザインが掲載されており、今後も週次で更新予定
ログイン等不要で、無料で使用可能
3. 新たにユニコーンとなったAI企業8社を総まとめ!
AI分野におけるユニコーン企業、すなわち企業価値10億ドル以上の未上場企業はこの1年で20社から37社と約2倍になりました。新たにユニコーンとなった17社のうち、特に知名度が高いと思われる8社について概要をまとめていきます。
AIユニコーン、1年で2倍の37社に NVIDIAやGoogleなど出資
nikkei.com/article/DGXZQO…— 日本経済新聞 電子版(日経電子版) (@nikkei)
9:45 PM • Jun 6, 2024
Cohere (カナダ) | $2.5B
エンタープライズ向けにLLM技術を活用したプラットフォームを提供する企業で、Transformer論文の著者Gomez氏によって創業されました。GPT-4に迫る性能を持つオープンLLM「Command R+」を公開したことでも知られています。Command R+はオープンモデルの中では最高の日本語性能を有しており、小説執筆など、検閲や表現の規制に縛られることを嫌うようなユースケースで多用されています。(過去のニュースレター)
Cognition AI (アメリカ) | $2.0B
「世界初のAIソフトウェアエンジニア」と銘打って自律型AIエージェント「Devin」を発表したスタートアップで、他に目立った活動がないのにも関わらず、創業わずか半年で評価額は20億ドルに到達しました。あたかも本当にソフトウェアエンジニアと共同作業しているかのようなUXは、投資家たちから絶大な評価を得ているようです。(過去のニュースレター)
Mistral AI (フランス) | $1.5B
昨年DeepMindとMetaのOBにより共同設立された企業で、欧州発のOpenAIの競合として知られています。特にオープンLLMの開発に精力しており、昨年12月の資金調達直後には、LLaMA 2 70Bよりも高性能な上、6倍高速な「Mixtral 8x7B」を公開しています。(過去のニュースレター)
Runway (アメリカ) | $1.5B
Pikaと共に、AI動画生成サービス界の2トップを形成している企業です。今年2月にOpenAIからSoraが発表されて以降、SNS上で名前を聞く機会は激減しており、目立った新機能の発表もありません。Soraと共にAdobe Premiere Proで年内に使用可能になることが発表されていますが(過去のニュースレター)、生き残りをかけてどのような一手を打ってくるのか、注目が集まります。
A21 Labs (イスラエル) | $1.4B
自動運転技術で知られるモービルアイの創業者や、スタンフォード大学名誉教授らによって2017年に創業されており、ChatGPT登場以前から生成AI事業に注力していました。GPT-3が発表されてから約1年半後、ChatGPT発表の約1年前である2021年8月に「Jurassic-1」と呼ばれるLLMを発表しています。A21 Labsは当時から「Wordtune」と呼ばれるライティングツールも提供しており、一定の人気を博していたことから、ChatGPTのような生成AI革命を「起こせたかもしれなかった」企業と言えるでしょう。
Eleven Lab (アメリカ) | $1.1B
音声AI分野における初のユニコーン企業(過去のニュースレター)で、テキスト読み上げ・音声クローニング・吹き替えを行うソフトウェアやAPIを提供しています。昨年2月には、ユーザーが自分の声をアップロードすると、その使用ごとに報酬を得られる仕組みを持つ「声をシェアするプラットフォーム」を発表したことでも話題になりました(過去のニュースレター)。
Perplexity AI (アメリカ) | $1.04B
ChatGPTが登場してから1ヶ月後の2022年12月に、LLMを用いた対話型の検索エンジンをリリースしました。同様の機能を提供しているサービスは他にいくつもある上、ChatGPTのwebブラウジング機能を用いても似たようなことができますが、リサーチ用途において、やはりPerplexityは頭一つ抜けて使いやすいと感じます。
Synthesia (イギリス) | $1.0B
AIアバター動画の生成サービスを提供する企業で、競合としてはHeyGen社が挙げられます。今年4月に発表された、発話内容に合わせて表情や声のトーンを変化させられる新たなアバターモデルは、非常に印象的でした(過去のニュースレター)。
なお、ユニコーン企業の一覧はCB Insightsのwebサイトから確認できます。2024年5月時点で、1200を超えるユニコーン企業が存在しています。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024