- Newsletter from Mavericks
- Posts
- どんなWebページでも3秒で解説動画に変換するAI「NoLang」を公開!DataBricksのオープンLLMの公開に注目すべき理由など
どんなWebページでも3秒で解説動画に変換するAI「NoLang」を公開!DataBricksのオープンLLMの公開に注目すべき理由など
Newsletter from Mavericks (旧 sayhi2.ai Newsletter)をご覧いただきありがとうございます!
今回は、インパクトの大きかったニュースや注目ツールに加えて、弊チームが開発したどんなWebページでも3秒で解説動画に変換するAI「NoLang」を紹介します!また、DataBricksのオープンLLMの公開に注目すべき理由についても解説します!
📚 目次
1. 直近のビッグニュースTop 3
① どんなWebページでも3秒で解説動画に変換するAI「🐬NoLang」を公開!
② HeyGenが全身のアバター動画を生成する機能を発表
③ OpenAIがSoraを用いてプロクリエイター達により制作された動画作品を公開
1. 直近のビッグニュースTop 3
① どんなWebページでも3秒で解説動画に変換するAIを公開!
弊チームMavericksは3月26日、リアルタイム解説動画生成AI「🐬NoLang」を公開しました!おかげさまで大きな反響をいただき、新たに3000人を超えるユーザーに登録いただきました!自信を持って開発したプロダクトとなっています。
まだお試しでない方は、是非以下の投稿よりデモ動画をご覧ください!(始め方の詳細は、次のセクションにて解説しています)
【重大発表🔥】
どんなWebページもわずか3秒で解説動画に変換するAI「🐬NoLang」を開発しました!英語の記事も、PDFも、アイコンを押すだけで、即座にショート動画感覚で楽しめます。
本当に自信のあるプロダクトで、完全無料で利用できるので、ぜひお試しください!
リンクはリプライから↓ twitter.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
11:30 PM • Mar 25, 2024
NoLangの最大の魅力は、Webページから解説動画をその場で一瞬のうちに生成できることです。Chrome等のブラウザでWebページを開いた状態で、ワンクリックするだけで動画生成が開始され、僅か3秒後には動画が再生されます。他のアプリを開くなどの操作は一切不要です。
またNoLangは、どんなWebページでも日本語の解説へと変換してくれます。他の言語で書かれているWebページの概要をサクッと掴むのにぴったりなツールとなっています (広東語のニュースを変換した例 (X))。
NoLangは他にも、以下のような機能を有します:
①テキストから解説動画を直接、数秒で生成
NoLangのWebアプリでは、Webページを参照せず、直接投げかけた質問に対して、解説動画を生成してもらうことも可能です。雑学系の質問がおすすめです。
②対話機能
動画が生成された後に「もっとこの部分の詳細が知りたい」「中学生にも分かる説明にしてほしい」「こんな語り口で喋ってほしい」といった要望を入力すると、プロンプトに合わせて動画を修正してくれる一押しの機能です。(「ずんだもん」風に解説させた例 (X))
③他ユーザーが生成した動画の閲覧
YouTubeを眺めるような感覚で、他のユーザーが生成した動画を閲覧することができます。ユニークな動画が多く、こんな使い方もあるのかと驚かされます。
NoLangはまだまだ発展途上であり、より便利な唯一無二のプロダクトを目指して、アップデートを重ねていく予定です。乞うご期待ください!
なお、生成した動画の商用利用やライセンスに関しましては、こちらのX投稿をご覧ください。
② HeyGenが全身のアバター動画を生成する機能を発表
アバター動画生成で知られるHeyGen社が先週、新たなデモ動画を公開しました。男性が歩きながらジェスチャーを交えて喋っており、AI生成とは思えないクオリティです。音声と唇の動きが連動していることから、是非音声ONでお聞きください!
[NEW] — Avatar in Motion 1.0🏃♂️✨
Move your hands, make gestures, use unique tones of voice, and HeyGen will flawlessly track, translate, and lip-sync your video with any input text.
Can't believe it?
👇Comment a script for what we should make Nik say & we’ll post the video!
— HeyGen (@HeyGen_Official)
10:48 PM • Mar 27, 2024
この動画の凄さを2ステップに分けて理解していきましょう。
① 今までの動画生成技術
HeyGenは昨年8月時点で既に、こちらのX投稿にあるように、AIで生成された上半身のみのアバター動画を生成する技術を有していました。自分の喋る動画を入力すると、見た目や声のトーン・アクセントを模倣したアバターが生成され、どんな発言もさせることができます。ここで注意すべきは、表情・唇の動き・身振り手振りを、全てAIが生成している点です。
似たような技術としてディーブフェイク (最新例) がありますが、こちらは元々人間が喋ったり踊ったりする動画があり、その参照動画内の人物の一部のパーツ (例えば顔) を別の人間に置き換えることで生成されます。
② 今回の動画生成技術
HeyGenは今回発表したデモ動画に関して「オリジナルの動画では話者はドイツ語を喋っているが、デモ動画で聞こえる英語の音声はAI生成である。話者の声やイントネーションは保持されている」とコメントしています。それゆえ、この動画の凄い点は、
話者の声の特徴を高精度に複製できている
人物の動きが大きい動画に対しても、高精度にLip Syncできている
の2点であると言えるでしょう。身体の動きに関してはAI生成特有の硬さが見られるものの、Xに投稿されている他の動画では、喋る内容が異なっても同じ動きをしており、どこまでAI生成なのかは不明です。
声の複製技術に関しては、先週OpenAIが一部提携企業向けに提供していると発表した「Voice Engine」を使用しているという見方が有力です。OpenAIの公式発表では、英語音声から日本語音声への変換も公開されており、ある程度自然である一方、外国話者が喋っているかのような片言感はまだ残っている印象でした。
今回HeyGen社が発表した機能はまだベータ版です。なお、HeyGenは非常に高価であることが知られており、月間契約だと、最安のプランでさえ$60かかり、生成できる動画の時間は30分のみです。より手頃な値段で類似機能を提供する企業が現れるかどうかにも注目が集まります。
③ Soraを用いてプロクリエイター達により制作された作品が公開
先週OpenAIは公式発表にて、Soraを使用してプロクリエイター達によって作成された短編動画を8つ公開しました。どれも見応えがありますが、風船の頭を持った人物の物語が描かれた以下の動画が、特に話題になりました。
@openai ‘air head’ was born out of @shy kids experimentation with OpenAI’s text-to-video model, Sora. “sunny, our balloon-headed boy, embodies the... See more
動画の制作過程はこちらのTikTok動画にて公開されており、複数の動画を繋げて一つの作品にするにあたって、風船に顔が浮かび上がったり色が変化してしまうなど、一貫性を保証するのが難しく、追加で編集を行った旨などが述べられています。
OpenAIの公式発表において、各作品に対してクリエイターの感想が添えられています。
Soraはリアルなものを作り出す能力に優れているが、
私たちを興奮させるのは、完全に超現実的なものを作り出す能力だ
想像力と手段が相反することによって、
その範囲が常に制限されてきたアーティストとしての私にとって、真の転機を象徴している
このように、Soraのもたらす新しい可能性について、多くの言及がなされていました。全体を通して、超現実的な表現が含まれる動画が多く、風船の頭を持つ人間の他にも「うなぎの尻尾を持つ猫」を描く動画などが掲載されています。
生成AIが既存の映像制作作業を代替し始めるのがいつになるかはまだ分かりませんが、新しい表現を実現するための手段として、生成AIが使用される日はかなり近いと感じさせる発表でした。
2. SNSで話題のAIツールをピックアップ!
NoLang (Webアプリ / Chrome拡張機能)
Webページや質問から僅か3秒で解説動画を生成するAI
Chrome拡張機能をダウンロードすれば、Webページを開いた状態からワンクリックで動画を生成できる
Webアプリでは、質問から直接動画を生成したり、他のユーザーの生成動画を閲覧することが可能
Googleログインが必要で、1日あたり10個の動画を生成可能 (3月31日時点)
Hume (https://hume.ai)
喜怒哀楽などの感情を可視化しながらAIと会話できるツール
自分やAIが言葉を発するごとに、18の感情成分を数値化した上で、2次元マップに感情をプロットしてくれる機能が非常にユニーク
AIの読み上げ性能も業界最高水準で、喜怒哀楽に富んだ発声をしてくれる。ただし、日本語は未対応
ランディングページからSpeak to It → Start Conversationと飛ぶことで、デモをログイン不要かつ無料で使用可能
3. DataBricksのオープンLLMの公開に注目すべき理由
以前のニュースレターでもお伝えした通り、オープンLLMとクローズドLLMの性能差は大きく、その差が縮まっているとは言い難い状況です。そんな中、DataBricks社は3月28日、GPT-3.5を超える性能を持つLLM「DBRX」をオープンモデルとして公開しました。こういった発表を耳にタコができるほど聞いた方も多いかと思いますが、今回の発表にはより重大な意味合いがあると考えます。
オープンモデルのLLMにまたかなり強力なものが出ました!
Databricksが合計パラメータ数1320億のMoEモデルDBRXを発表 !
databricks.com/blog/introduci…
イーロンが公開したGrok(DBRXの2倍以上の大きさ)やLllma2等の強力なモデルと比較しても性能は抜けてます.コード生成は凄い.GPT-3.5とも十分に戦えそう— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel)
12:29 AM • Mar 28, 2024
DataBricksは、データ管理・分析プラットフォームを手掛ける企業で、評価額は未公開企業の中で8番目となる$43Bとなっています (Forbes、昨年9月時点)。具体的には、構造化データと非構造化データを統一的に扱える「データレイクハウス」を提唱・開発しており、さらには、データの収集・蓄積から機械学習モデル開発・運用に至るまでを一気通貫で行えるように様々なサービスを提供しています。
DataBricksは今回のLLMの公開について、公式発表にて以下のように述べています。
企業や組織は、より優れた効率性と制御性を求めて、プロプライエタリ・モデルをオープンソース・モデルに置き換える傾向を強めています。
私たちの経験では、多くの顧客は、特定のタスクにオープンソースモデルをカスタマイズすることで、プロプライエタリモデルの品質と速度を上回ることができます。DBRXによってこの傾向がさらに加速することを期待しています。
※「プロプライエタリモデル」はGPT-4のようなクローズドモデルを指しています。
RAGやファインチューニングを適用してLLMをカスタマイズすることで、特定タスクにおける大幅な性能の向上が期待できます。このとき、対象のLLMがクローズドであると、利用企業目線では、コスト・保守性・チューニング自由度といった点で不便を被り得ります。つまり利用企業にとっては、モデルがオープンであることは明確なメリットです。
DataBricks社は今回の発表を受けて、最高品質のデータ管理・分析プラットフォームに加えて、世界最高レベルの自社開発オープンLLMを提供する企業となりました。一般には、AIモデルをオープンにしても、開発元にはほとんど恩恵がないと言われますが、DataBricks社に関しては、モデルとセットでプラットフォームの導入を促進できるという点で、絶大なメリットがあると感じます。
なお、Databrick社は2023年6月に、当時オープンLLMを開発していたMosaicMLを買収しており、さらにはキストデータの検索・分析等を行えるツールを開発するLilacも買収しています。プラットフォーム提供者としても、モデル開発者としても着実に力をつけている同社の今後の動きに目が離せません。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… twitter.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024
また私たちは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています。ぜひご覧ください!