Mavericks AI ニュース
Posts
Apple製品に独自AI及びGPT-4oが組み込まれると発表!3D AIのトップ企業が無料で試せる最高水準の動画生成AIを公開など

Apple製品に独自AI及びGPT-4oが組み込まれると発表!3D AIのトップ企業が無料で試せる最高水準の動画生成AIを公開など

マーベリック
June 16, 2024

Newsletter from Mavericksをご覧いただきありがとうございます！

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、3D AIのトップ企業Luma AIが公開した、無料で試せる最高水準の動画生成AIについて重点的に解説します！

📚 目次

1. 直近のビッグニュースTop 3
① 3D AIのトップ企業Luma AIが無料で試せる最高水準の動画生成AIを公開
② Appleが自社製品に独自AI Apple Intelligence, GPT-4oを組み込むと発表
③ Sakana AIが日本設立の企業としては最速の設立1年でユニコーンに

2. SNSで話題のAIツールをピックアップ！
① Dream Machine
② Eraser

3. Dream Machineの生成動画を厳選してさらに紹介！

1. 直近のビッグニュースTop 3

① 3D AIのトップ企業が無料で試せる最高水準の動画生成AIを公開

AI×3Dのトップランナー的存在として知られるLuma AI社が、テキスト・画像から動画を生成できるAI「Dream Machine」を公開しました。先週発表されたKlingやOpenAIのSoraとは異なり、無料で生成を試せるということで、大きな話題を呼びました（使い方については次のセクションにて紹介）。

Introducing Dream Machine - a next generation video model for creating high quality, realistic shots from text instructions and images using AI. It’s available to everyone today! Try for free here lumalabs.ai/dream-machine#LumaDreamMachine
— Luma AI (@LumaLabsAI)
4:01 PM • Jun 12, 2024

特に人物を動かすことが得意であり（まとめの X投稿）、人物画像とテキストプロンプトを入力して作成された以下の動画は、本物と見間違えるクオリティです。

妻の高校時代の写真（1978年撮影）と、それが動き出した映像 Luma Dream Machine
— Koya Matsuo (@mazzo)
8:38 PM • Jun 13, 2024

生成できる動画は24 fpsかつ5秒であり、30 fpsで1分以上の動画を生成できるSora, Veo, Klingと比べると劣ります。動画の質自体もSora水準とは言い難いものの、RunwayやPikaといった一般公開されている動画生成AIサービスの中では頭一つ抜けて高水準であり、分野全体でレベル感が高まっていると感じます。

Lumaは2021年に設立されて以来、スマートフォンで撮影された画像や動画から、バーチャル3D空間を作成することができるアプリやAPIを提供してきた他、今年1月には3Dモデル生成サービス「Genie 1.0」を公開していました（以前のニュースレター）。

AI 3D分野も着実に進展しており、高品質な3D生成AI「Rodin Gen-1」が話題になりましたが、画像生成分野におけるMidjourney、動画生成分野におけるSoraに匹敵するようなブレイクスルーが起きていません。同社の今後の3D関連の発表にも目が離せません。

なお、最後のセクションにて、Xに投稿された他の作例を紹介しながら、Dream Machineの可能性と限界について見ていきます。興味のある方は是非ご覧ください！

② Appleが自社製品にApple Intelligence, GPT-4oを組み込むと発表

Appleが6月10日から14日にかけて、毎年恒例の開発者会議WWDCを開催しました。生成AI領域で出遅れていると指摘されていたAppleですが、今回の発表内容については評価する声が多く、時価総額は一時Microsoftを抜いて首位に返り咲きました。内容を動画にてキャッチアップしたい方は、以下のX投稿がおすすめです。

Apple just announced a ton of incredible AI developments at WWDC.
The 11 most impressive reveals:
1. Using the iPad calculator as a notepad and getting real-time answers
— Rowan Cheung (@rowancheung)
8:48 PM • Jun 10, 2024

以下でAIに関する発表について、2パートに分けて解説していきます。

1. 独自AI Apple Intelligenceと純正クラウドPrivate Cloud Compute

Appleは、Macbook, iPhone, iPadといったデバイス上に「Apple Intelligence」と呼ばれるAIを組み込むことを発表しました。

iPhoneの通知欄にAIにより重要度が高いと判断された通知がピックアップして表示される
「電話」アプリでの通話内容が文字起こしされて、要約付きで「メモ」アプリに書き込まれる

といった事例が掲載されており、Apple製品ユーザーお馴染みのアプリにAIがシームレスに組み込まれていることを確認できます。他にも、誰でも手軽に使えることが強調されている画像生成機能や、絵文字の生成機能等が発表されました。

これらのAIタスクは、計算負荷に応じて2つの方法で処理されます。簡単なタスクは、デバイス上に搭載されているパラメータ数3B以下のAIモデルで行われます。これは、先日MicrosoftがAIモデルを搭載した「Copilot+ PC」を発表したのと同様の流れです。

より複雑なタスクは、Appleが独自に構築したクラウド上のサーバーにて、より大規模な自社製AIモデルにて処理されます。WWDCでは、ユーザーのセキュリティやプライバシーの保護に全力を挙げていることが強調されており、既存のクラウドコンピューティングシステムとは一線を画すという意味も込めて「Private Cloud Compute」と名付けられています。

Microsoftが先日発表したCopilot+ PCの目玉機能の一つである、ユーザーが過去にPC上で行ったあらゆる動作を検索できる「Recall」機能が、セキュリティへの懸念を示す指摘が相次ぎ公開見送りとなったこととは対照的です。

2. Apple製品にGPT-4oが統合

さらに、iPhone等のApple製品で、ChatGPTのアカウント作成なしに無料でGPT-4oを使用できるようになるとも発表されました。アップル基準のプライバシー保護が組み込まれており、リクエスト内容はOpenAIには保存されず、ユーザーのIPアドレスも非公開となります。

上述のPrivate Cloud Computeに搭載予定の自社製AIモデルの性能は、Apple公式発表によるとGPT-3.5以上GPT-4未満であり、その性能不足を補う役割が期待されていると考えられます。

ただし、ユーザーがGPT-4oを使用する際には、毎回許可が必要な形式となっている上、WWDC後には、Apple幹部が将来的にはGeminiを含めた他のAIモデルも統合することを示唆しています。他社製のAIモデルをApple製品の深いレイヤーに組み込んだり、強く依存することは避けた形です。

iPhoneからChatGPTを呼び出す様子（Apple公式発表より抜粋）

今回のOpenAIとAppleとの提携における金銭面の条件は明らかになっていませんが、ChatGPTのユーザー数が伸び悩んでいると言われるOpenAI（以前のニュースレター）にとってみれば、iPhoneにChatGPTが搭載され、接触機会が増えるというだけで、十分な価値になっていると考えられます。

なお、Apple Intelligenceは2024年夏から英語版が試験運用され、日本語での提供開始は、2025年以降となります。

③ Sakana AIが国内企業としては最速の設立1年でユニコーンに

元Googleの研究者2名によって設立された東京を拠点にするスタートアップSakana AI社が新たに約200億円を資金調達し、国内に拠点をおく企業としては最速の設立一年で評価額10億ドルのユニコーン企業となる見込みであると日本経済新聞が報じました。

Sakana AIは基盤モデルを開発するOpenAI等の企業とは異なったアプローチで、AIモデルの研究開発に取り組んでいる企業です。

成果として最も有名なのは、「2つのAIモデルをいいとこ取り」した新しいモデルを作成できるモデルマージ技術であり、例えば、「日本語が得意なLLM」と「数学に特化したLLM」を組み合わせることで、「日本語が得意な数学に特化したLLM」を作成することができます（以前のニュースレター）。ここ数ヶ月で高性能なオープンLLMが次々に登場したこともあり、個人開発者がそれらを組み合わせて、自らのニーズに沿ったLLMを開発する動きが見られるようになってきています。

さらに先週、LLM自身により良いLLM（より正確にはLLMの学習に必要な損失関数）を開発させるための新しい手法を発表しています。

Sakana AIの新しいブログ＆論文です！preference tuningの新しいロス関数「DiscoPOP」を、LLM「で」発見しました。LLMにロス関数を提案させスコアをフィードバックして自動で試行錯誤。DPOやKTOより高性能。「LLMでLLMの学習を改善する」という面白い取り組みになってます！
— Takuya Akiba (@iwiwi)
2:19 AM • Jun 13, 2024

両者はいずれも「進化的アルゴリズム」と呼ばれる、生成AI登場以前から様々な分野で活用されていた最適化手法をベースに開発されています。こういったアプローチは、少ない計算資源でも個々のニーズに最適化されたAIモデルを作れることが強みであり、小型AIモデルの性能が今後さらに向上すれば、一層注目を浴びることになるでしょう。

2. SNSで話題のAIツールをピックアップ！

Dream Machine (https://lumalabs.ai/dream-machine)

現在一般公開されている中では最も高品質な動画生成AI
テキスト・画像を入力として、5秒間の動画を生成できる。生成時間は2分（混雑時は追加で待ち時間がかかる）
生成動画の一貫性が非常に高く、特に人物が映る動画の生成が得意
無料で1ヶ月30回生成可能。サインアップするだけで即使用可能

Eraser AI (https://www.eraser.io/ai)

自然言語からダイアグラムを一発で生成する機能を有した図作成アプリ
後から自然言語で修正を入れたり、図を直接編集することができる
さらに、画面を分割してドキュメントを書くことも可能であり、実利用がしっかり意識されている
ログイン等不要で、無料でAI機能を20回使用可能

3. Dream Machineの生成動画を厳選してさらに紹介！

OpenAIのSora, GoogleのVeo, 快手のKlingなど、直近で話題になった動画生成AIはどれもごく一部のユーザーに限って公開されていました。一方、先週Luma AIが公開した「Dream Machine」は一般公開された上、無料でも30回使用可能であったことから、X上では様々なユーザーが生成した動画を投稿し、国内外で大きな話題を呼びました。

ここではそれらの一部を取り上げ、Dream Machineの可能性と限界について見ていきます。

Luma AIの公式サイトでも強調されていた通り、Dream MachineはRunway, Pikaなどと比べて、人物の一貫性を保つことが得意であり、顔のアングルの変化が小さければ極めて正確な描写をします。

#LumaAI が発表した新しい動画生成AIサービス #LumaDreamMachine を試してみたけど、かなりいい結果。いつもの明日来子さんで試してみた、顔立ちがしっかりわかって面白い
— 新清士@(生成AI)インディゲーム開発者 (@kiyoshi_shin)
2:38 AM • Jun 13, 2024

顔の向きを急激に変えるような動きが入るとやや運要素が強くなるようですが、以下の動画では、女性が左右に首を振っているのにも関わらず、一貫性が良く保たれています。

RIP Sora?
Luma AI just launched Dream Machine, and people are going crazy over it.
Here are 10 wild examples:
1. Wait. What? 😲
— Angry Tom (@AngryTomtweets)
12:59 PM • Jun 13, 2024

Soraをはじめとした多くの動画生成AIは、公開されているデモ動画がどれも実写系であり、アニメ系の動画でどの程度の品質が達成できるのかは未知数です。一方でDream Machineでは公式Xアカウントによってアニメ系のデモ動画が公開されているほか、

And experiment with any style imaginable 🎥: Steve Schütz - IG: radstream
— Luma AI (@LumaLabsAI)
4:01 PM • Jun 12, 2024

3D CG（X投稿）やいらすとや（X投稿）の画像を自然に動画化したユーザー投稿の作品も多く見られました。

また、動画生成AIは現実には起こり得ない現象をも表現可能なことが強みです。Dream Machineもこの例外に漏れず、指の上をミニチュアの象が歩くなんとも可愛らしい動画（X投稿）が生成されているほか、以下の「苺の象」の動画は非常にクオリティが高く衝撃を受けました。

We are living in the best time in human history!!
😍😍😍😍
To see the strawberry elephant come to life like this.
@LumaLabsAI#lumadreammachine#aiart#aivideo
— Mantle Hood (@mantlehood)
8:27 PM • Jun 12, 2024

もちろん、Dream Machineの生成動画にはまだまだ不自然な動きが混じることも多く、人の手が急に消失してしまったり（X投稿）、窓に映る反射をうまく描写できない（X投稿）といった例が報告されているほか、Runway, Pikaと同様、動画の長さや制御性には大きな難があります。それでも、動画生成AI技術が着実に発展してきていることを感じさせる発表でした。

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」

といったプロダクトをリリースしてきました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください！

【🐬NoLangがアップデート！】
動画編集機能が追加され、テキスト・画像・背景動画・音声・BGMを自由に変更できるようになりました！
✔︎少し嘘が混じってる...
✔︎画像がおかしい...
といった場合でもすぐに修正できます！
さらに使用可能なキャラ音声の数が26種類に増加。是非お試しください！
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
10:32 PM • May 12, 2024

AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024