- Mavericks AI ニュース
- Posts
- 今話題のポスターや図解、webページを対話形式で作成できる「v0」について詳しく解説!NoLangで「生の人々の声」を、鮮度落とさず面白い動画へと変換する方法
今話題のポスターや図解、webページを対話形式で作成できる「v0」について詳しく解説!NoLangで「生の人々の声」を、鮮度落とさず面白い動画へと変換する方法
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで「生の人々の声」を鮮度落とさず面白い動画へと変換する方法について解説します!
📚 目次
1. 直近のビッグニュースTop 3
① ポスターや図解、webページを対話形式で作成できる「v0」について解説!
② 顔のパーツを自由自在に操り、変顔まで作れる新技術が登場
③ ノーコードでチャットボットを作成可能な「Dify」は本当に実用的なのか?
1. 直近のビッグニュースTop 3
① ポスターや図解、webページを対話形式で作成できる「v0」について解説!
Vercel社が先日、対話形式でポスターや図解、webページのUI(見た目)を生成できるツール「v0」を公開し、SNSを中心に大きな話題を呼んでいます。ChatGPT研究所さんが画像付きで事例を詳しくまとめてくださっているので、是非ご覧ください。
Claude Artifactsを超えと噂される「v0 」が話題です
v0の特徴:
・会話形式でUI構築
・最新のNext.js, React, ウェブ検索に対応
・動的なウェブページ作成が容易に
・アニメーションなども簡単に実装可能
・高速で安定したパフォーマンス
・ベータ版が公開中以下に7つの事例をまとめました👇🧵 x.com/i/web/status/1…
— ChatGPT研究所 (@ctgptlb)
3:34 AM • Aug 26, 2024
v0はユーザーからの指示に応じて、ポスター・図解・webページUI用のコードを生成し、その実行結果まで表示します。さらにユーザーが追加指示を送ることで、生成されたコードを修正することも可能です。
v0は、ClaudeのArtifacts(以前のニュースレター)と同等の機能を提供していますが、v0の方が表現力が一段高いと感じます(v0とArtifactsの比較記事も要参照)。特に、Claudeでは作れなかった高品質な図解画像や高度なアニメーションを含んだwebページUIまで作成できる点が特筆に値します。v0を開発したVercel社は、世界中で使用されているReactベースのwebアプリケーションフレームワーク「Next.js」の開発元でもあり、v0の生成品質の高さにも合点がいきます。
現在WIX, Studioといったツールを使えば、ノーコードでwebページを作成することができますが、作成できるデザインの自由度には限りがあります。Claude Artifactsやv0のようなツールが今後進化していけば、誰もがより高い自由度で、オリジナリティ溢れるwebページを作成できるようになると一見思えます。
しかし、これらのツールは高度な機能実装や成果物修正が困難という致命的な問題点を抱えています。簡単な修正であれば、自然言語による追加指示によって実行できますが、厳密な要求に基づいた修正には失敗することが多いです。実際、NoLangアプリを再現しようとしましたが、完璧とはいきませんでした(下記画像参照)。
(上) NoLangのページ(下)v0で再現実装したページ
左上に配置してある三本線ボタンを押してサイドバーを開いた時に、三本線ボタンを含むヘッダー部分は縮小しないで欲しいが、v0で実装したページでは縮小してしまい、何度修正指示をかけても上手くいかなかった。
そして、完璧に修正を行えるようになるためには結局、生成されたコードをユーザーが理解できている必要があります。v0の現在の出力品質を80点として、仮にそれが95点になったとしても、「100点にするためにはコード知識が必要」という事実は依然揺るがず、今後もwebページ開発における普及は限定的でしょう。
それでもこのようなツールは、100点が求められないwebアプリ開発時のデザイン素案作成やエンジニアの教育用途において有用になりうることは間違いなく、今後の進化に注目したいところです。
② 顔のパーツを自由自在に操り「変顔」まで作れる新技術が登場
画像内の人物に対して、瞼の閉じ具合、首の傾き、口の開き具合、瞳の動きなどをスライダーで自由自在に操ることができる「Advanced LivePortrait」という技術が話題を呼びました。下記はこの技術を用いて作られたデモ動画であり、一貫性を保ちながら、非常に自然に顔の各パーツを動かせていることが分かります。
AI画像をスライダーでぐりぐり調節できる「AI Crew」が登場!より思い通りの画像がつくれるようになっていきますね。来年には生成ガチャの概念がなくなってたりしてw
— ひろちゅ~ (@hirochuu8)
10:51 AM • Sep 3, 2024
Advanced LivePortraitは、動画に合わせて画像・動画内の人物の顔をリアルタイムに動かせるオープンソース技術「LivePortait」(以前のニュースレター)を元に開発されています。現在、画像・動画生成分野における大きな問題として生成画像の細やかな制御が困難である点が挙げられますが、このような技術の発展により、少しずつ改善へ向かっています。
LivePortraitは単体でも非常に有用な技術ですが、他の技術と組み合わせることで、さらに可能性が広がります。例えば、画像から3Dマテリアルを生成・付与した上で、物理法則に基づいた照明処理を行う試みがなされています(動画はこちら)。
関連して、画像内の人物を喋らせるリップシンク技術も日々発展しています。先週はTikTok開発元のByteDanceより「Loopy」と呼ばれる技術が発表されました。
Loopy: New Audio-to-Video Lipsyncing Model Looks Insane
It generates lifelike facial expressions and movements from audio alone. It captures subtle details like sighs, expressive eyebrows, and natural head gestures, making your videos incredibly realistic.
Sample videos
1/5… x.com/i/web/status/1…
— el.cine (@EHuanglu)
1:29 PM • Sep 5, 2024
リップシンク技術は大きな需要を抱えていることもあり、他にも様々な研究機関、企業で開発が進んでいます:
EMO(クローズド):アリババが今年3月に発表。日本語でも上手くいき、現状では頭一つ抜けて最高性能だと感じます(以前のニュースレター)
VASA-1(クローズド):Microsoftが今年4月に発表
V-Express(オープン):Tencentが今年5月に発表。V-kpsと呼ばれるガイド用の動画が別途必要
他にも、クオリティはやや落ちますが、Heygen, Runway, Hedraといった会社がサービスの形でリップシンク機能を提供しており、それらの品質も日に日に改善しています。「人の顔を動かす技術」は今後も着々と発展していくでしょう。
③ ノーコードでチャットボットを作成可能な「Dify」は本当に実用的なのか?
Difyは、ノーコードでチャットボットなどのLLMアプリケーションを作成できるツールとして度々SNSで話題になっています。ブロックを線で繋いていくだけで、簡単にワークフローを制作できる点が魅力的であり、直近でも新たな機能が次々と追加されています。
先週は、Difyベータ版に「並列処理」が新たに追加され、複数の処理を並列して同時に行えるようになりました。例えば、もし全く同じ処理を5回独立に行う際は、5並列にすることで実行時間は1/5になります。
Difyによる並列実装の例。gpt-4o-miniによる処理が3並列で実行されている
Difyでは、ChatGPT, Claude, Geminiといったあらゆる最新のLLMを使用できる上、RAGも実装可能であり、独自の文書を読み込ませたカスタムチャットボットを簡単に作成し、webアプリとして公開できます。また、Google検索やスクレイピングも実装できるため、最新の情報を取り込むこともできます。
また、Difyの特筆すべき点としてオープンソースで開発されていることが挙げられます。日進月歩で進化する生成AI技術を使用したアプリケーションを作るにあたって、最新のモデル・技術を使用できることは必須条件と言えますが、もしDifyの開発が途中で頓挫してしまえば、不可能になってしまいます。
このような状況に陥らないように、DifyはコードやロードマップをGitHubにて公開しており、有志によって継続的にアップデート可能な体制が整っています。今年5月のリリースから4ヶ月しか経っていないのにも関わらず、GitHubのスター数は驚異の4万越えです。
このようにDifyは優れたノーコードツールである一方、2つの限界があります。
(1) 結局、部分的なコーディングが必要になるケースが多い
LLMアプリを作成する上で、適切に出力を加工したり精度を上げるにあたって、文字列処理は避けられません。例えば、特定の条件に基づいて、文字列を置換・削除するといった操作は頻繁に行われます。しかしこの際、どうしても処理が複雑になり、コーティングが必要になるケースが多いです。
実際、DifyにもPythonを直接実行できるブロックが用意されており、ある程度のプログラミング知識が前提とされていると言えます。
(2) 実装の自由度に制限がかかってしまう
例えば2024年9月現在、Difyは特定の条件に基づいてループ処理を実行する、いわゆる「Whileループ」を実装できないようです。もちろんこのような基本的な処理は今後実装可能なようにアップデートされる可能性が高いですが、どこまでいってもプログラムで直接実装する場合と比べると、自由度が大きく下がることは避けられないでしょう。
このように、Difyの使用にはプログラミングに対しての一定のリテラシーが求められ、実装の自由度も高くないため、本格的なアプリケーション開発には向いていないのが現状です。それでも高度なプログラミング知識なしで扱えるため、簡単なプロトタイプ作成や教材用途では非常に有用であり、LLMアプリ開発の敷居が今後も少しずつ下がっていくことが期待されます。
2. SNSで話題のAIツールをピックアップ!
Mapify (https://mapify.so/ja/)
資料・文書・webページなどあらゆるコンテンツを分かりやすくマインドマップにまとめてくれるツール
おすすめなのはwebページのマインドマップ化で、記事はもちろん、YouTube動画もまとめてくれる
記事や動画に一通り目を通した後に、頭の整理用に使用すると良い
無料でも10クレジットが付与され、3-10回程度実行可能
Copainter (https://www.copainter.ai/ja)
日本発のイラスト制作支援ツール。先週新たに線画(左)から下塗り(右)を生成してくれる機能をリリース
生成された画像はPSD形式でレイヤーに分けされた状態で出力することができ、人力で修正しやすくなっている
他にも線画と下塗りから着彩を行う機能などが提供
無料でも下塗り10回に相当するクレジットが付与
3. 🐬NoLangで「生の人々の声」を、鮮度落とさず面白い動画へと変換する方法
NoLangを使ってテキストやwebページの要約動画を作成するとき、デフォルトだと良くも悪くも角が取れた、中立的な立場からまとめられた動画が作成されることが多いです。今回は、やや過激な意見や一風変わった見方などを、面白さを削がずにそのまま動画化するためのプロンプトテクニックをご紹介します。
(0) はじめに:プロンプト機能の使い方
ヘッダーにある「動画設定」より「プロンプト」タブを選択します。オリジナルのプロンプトを作る際は、「マイプロンプト」を選択して「+追加」ボタンをクリックして作成できます。
(1) 「綺麗事に変換しないでありのままに」と伝える
例えば、5ちゃんねるなどに掲載されている「人々の生の声」を温度感そのままに伝えると、非常に面白い動画になることが期待されます。これを実現するには、「人々の生の声を聞くのが面白いので、綺麗事に変換せず、ありのままをそのまま映して」といった文言をプロンプトに追加するのがおすすめです。これにより、不必要にフィルターがかけられることはなくなります。
関連して、対話モードを使用して議論形式の動画を作成したいときは、「お互いの主張に譲歩するのではなく、言いたいことを言い合って」と付け加えることで、語り手同士が譲歩してしまって面白みに欠ける事態を避けることができます。
(2) 面白い発言を語り手に憑依させる
面白い発言は、「〜という意見があります」といったような第三人称の伝聞ではなく、「〜だ」といった第一人称で伝えた方が断然面白く伝わります。「人々の反応をそのままキャラに憑依させる形で発言させて」などと伝えると良いでしょう。
なお、これら2つのポイントを押さえて作成したプロンプトを「人々の反応集」という公式対話プロンプトにて公開しています。ネット上の人々の意見を動画でまとめるにあたっては、プラットフォーム等が定めているルールの遵守が求められますが、非常に良い出来栄えになると思いますので、是非使ってみてください!
解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、
どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」
といったプロダクトをリリースしてまいりました。
またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。
特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!
🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます!
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了!
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です!
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024
AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024