- Mavericks AI ニュース
- Posts
- Gemini, ChatGPTがついに動画を理解しつつリアルタイム対話可能に!NoLang 2.5のアップデート情報を詳しく解説など
Gemini, ChatGPTがついに動画を理解しつつリアルタイム対話可能に!NoLang 2.5のアップデート情報を詳しく解説など
NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます。
皆様のおかげで、毎週投稿を始めてからついに1周年を迎えることができました!これからも最新AI技術の本質を分かりやすくお伝えしていく所存ですので、今後ともご愛読いただけますと幸いです。
今回は、12月11日にリリースされた🐬NoLang 2.5のアップデート情報に加えて、Google, OpenAIからの重大発表について詳しく解説しておりますので、是非最後までご覧ください!
📚 目次
1. 直近のビッグニュースTop 3
① NoLang 2.5がリリース。PDFのプレゼン動画への変換からVTuberキャラクター搭載まで!
② Googleがマルチモーダルかつリアルタイム対話可能な「Gemini 2.0 Flash」を公開!
③ OpenAIがついに動画生成AI「Sora」を一般提供開始!
2. SNSで話題のAIツールをピックアップ!
① NoLang
② Google AI Studio (Gemini)
1. 直近のビッグニュースTop 3
① NoLang 2.5がリリース。PDFのプレゼン動画への変換からVTuberキャラクター搭載まで!
NoLang2.0の発表から5ヶ月を経て、この度「NoLang 2.5」をリリースしました!普段からNoLangで動画を作成している方にも、そうでない方にも注目していただきたいアップデートとなっています。以下のデモ動画に内容をギュッとまとめておりますので、是非ご覧ください!
【🔥重大発表】🐬NoLang 2.5をリリースしました!!
超実用的。PDFをナレーション付き解説動画に変換する「PDFプレゼン」機能が登場!
さらにLive2Dに対応し、立体的かつ生き生きと動くキャラクターを動画に載せられるようになりました!
まだまだアップデートがあります!無料で試したい方は👇 x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
1:28 AM • Dec 11, 2024
以下でアップデート内容について解説していきます。
(1) 📄PDFプレゼン機能の登場
PDFをナレーション付き解説動画に変換する新機能「PDFプレゼン」をリリースしました。営業・販促資料、研修資料、市場分析レポートなどあらゆる文書を、記憶定着率の高い動画へと変換できます!
さらに、図表の読み取りも行ってくれるほか、100ページを超えるPDFにも対応しています。無料で1回使用できるチケットを配布しておりますので、是非こちらよりお試しください!
(2) 👤Live2Dアバター対応
VTuberでも使用されている、立体的に動くLive2Dアバターを動画に搭載可能となりました!さらにご自身のLive2Dモデルをアップロードして、オリジナルキャラクターとして活用することもできます(チュートリアル)。
また【12/20までの期間限定】で消費クレジットが70%OFFになっています。こちらも是非お試しください!
(3) 💠感情豊かな最先端音声読み上げソフトのボイスを使用可能に
国内発の感情豊かな音声読み上げソフト「AivisSpeech」のボイスを使用できるようになりました!特にタメ口のセリフや対話モードとセットで試していただくと、感情表現の豊かさを感じていただけるかと思います!
総ボイスは30種類を超え、今後さらなる拡充を予定しています。
(4) 🎥動画作成機能の大幅強化
今までより自由に、そして効率的に動画を作成できるようになりました!テキストを装飾可能になったほか、動画素材の拡充、動画素材のアップロード機能追加など、アップデート内容が盛り沢山です!詳しくは3つ目のセクションにて解説します。
最後になりますが、今週中に更なる発表を予定しておりますので、是非Xアカウントをフォローの上チェックしてみてください。今後ともNoLangを応援いただければ幸いです!
NoLangに関するお問い合わせは、こちらのフォームよりお願いいたします。
② Googleがマルチモーダルかつリアルタイム対話可能な「Gemini 2.0 Flash」を公開!
OpenAIが矢継ぎ早に12日間に渡って新機能を発表する中、Googleからも負けじといくつもの画期的な発表がなされました。まず注目したいのが、新モデル「Gemini 2.0 Flash」です。以下の4点を押さえておきましょう。
・高度なマルチモーダル機能を搭載し、テキスト・画像・音声に加えて動画入力にも対応。テキスト・画像・音声が出力可能
・さらに、Google検索や外部ツール実行(Function calling)にもネイティブ対応
・言語理解や動画認識など、様々なモダリティのベンチマークにおいて、これまでのGoogleの最高性能モデルGemini 1.5 Proと同等以上のスコアを達成
・それでいて軽量なため、カメラやスクリーンの映像を見せながら、必要に応じてGoogle検索で情報収集してもらいながら、リアルタイムな対話が行える
特に「目」を持ったAIとリアルタイムに対話できる体験は、AIとのインタラクションの在り方を根本から変える可能性を秘めており、私も衝撃を受けました。既にSNS上では、ユーザーによって様々な活用事例が報告されています:
Google Gemini 2.0 Realtime just helped me edit a video in Adobe Premiere Pro.
Using the live screen feature it was able to see what I was doing and guide me within seconds for how to add a basic blur effect.
This is a game changer.
Absolutely incredble.— Jerrod Lew (@jerrod_lew)
2:48 PM • Dec 12, 2024
これまでAIと文脈を共有することは簡単ではありませんでした。関連ファイルを1つ1つアップロードしたり、スクリーンショットを撮影してからAIに見せたりする必要があり、面倒になってしまう方も多かったのではないでしょうか。
一方で「目」を持ったGemini 2.0 Flashであれば、まるで同僚とZoomで画面共有しながら会話するように、画面を見せながら喋るだけで、ありとあらゆる情報を共有できます。現状では実験的な機能であるため数十分間に渡る会話は難しく、また日本語の音声合成の性能も高くないですが、Google AI Studioで誰でも無料で試すことができます(次のセクション参照)。
Googleからは他にも注目すべき発表が相次ぎました。とりわけ「Project Astra」のデモは、私たちが近い将来、モバイル端末やスマートグラスを携えて生活する未来を十分に想起させてくれたため、是非ご覧いただきたいです:
・Project Astra(テスト段階)
Android端末上で動作し、ユーザーの日常行動をサポートするAIエージェント。マルチモーダル処理、ツール操作、長期記憶の能力を備え、「通りがかった観光名所について教えてもらう」「そこに自転車で入れるかGoogle検索してもらう」「扉の暗証番号を教えてもらう」といった例が紹介されている。
・Project Mariner(テスト段階)
ClaudeのComputer Useと同等の機能で、Chrome拡張機能にて使用。「クライアント企業の電話番号をweb検索で探し出す」「複雑な指示をもとにECサイトで商品をカートに追加する」といったことが実現できている。
PerplexityやGensparkのようなAI検索エンジン。「Deep」という名の通り、時に数百に及ぶweb文献を検索して、包括的な長文調査レポートを出力してくれる。月額20ドルの「Gemini Advanced」に登録した上で、言語設定を英語にすると試せる(使用例)。
・Gemini 2.0 for games(研究段階)
「クラッシュオブクラン」の開発元SuperCellなどのゲーム開発企業と協力して、ゲーム用AIエージェントの研究に注力していると発表。追加学習なしで既に「どのキャラがおすすめかGoogle検索をもとに教えてもらう」「クエストの内容を思い出してもらう」といったことが実現できている。
Gemini 2.0 Flashが「エージェント時代の新しいAIモデル」と謳われており、実際上記4つのプロジェクトでは全て、Gemini 2.0 FlashがAIエージェントとして使用されています。多くはまだ試験段階での発表となっていますが、AIエージェントが私たちの日常生活に深く入り込んでくる未来が、確実に近づいていることを強く感じさせる発表でした。
💡 Gemini 2.0 FlashはGoogle AI Studioで提供されており、興味深い機能がいくつも搭載されています。詳しくは次のAIツール紹介のセクションをご覧ください。
③ OpenAIがついに動画生成AI「Sora」を一般提供開始!
OpenAIが「12 days of OpenAI」の3日目となる12月10日、待望の動画生成AI「Sora」をPlus・Proプランユーザー向けに提供開始しました。以下の3点を押さえておきましょう:
・提供が開始されたのは、2月に発表されたSoraの軽量版「Sora Turbo」。最大1080p、20秒までの動画生成に対応
・生成動画の品質およびプロンプトへの忠実度は、既存の動画生成AIと比較して特別高くはない
・最大の特徴は、新しいUI「Storyboard」の実装とSoraがそのUIに対応したこと
軽量版としてリリースされた影響もあってか、生成動画の品質面においては、他社モデルと比べても突出した強みは見られません。例えば、先日Tencent社がオープンソースとして公開した「Hunyuan」との比較においても、プロンプトの意図通りに動画が生成されなかったり、物理的な破綻が目立つなど、Soraの生成動画の方が低品質なケースが散見されます。「物理法則を理解している」と評価するには程遠いです。
OpenAI Sora was out of the game on day one.
To be fair, I compared it with Hunyuan, which dropped 6 days ago, it's an open-source AI model and you can run it locally for free.
TBH, if I were to compare it to Hailuo AI or Kling AI, Sora would look even worse.
Let’s dive in:
— el.cine (@EHuanglu)
5:35 PM • Dec 10, 2024
一方で、新たに導入された「Storyboard」というUIについては、賞賛の声が相次いでいます。このUIでは、シーンの内容をテキストでタイムラインに沿って記述でき、どの時点でどういった映像を描写をしてほしいかAIに細かく指示できます。
SoraのStoryboardと呼ばれる新UI/機能。タイムライン上にシーンを記述するプロンプトを配置でき、これにより何秒時点でどうなっていて欲しいかを細かく指定できる。なお、カードの前後で必ずしもカットは変わらない。(プロンプトの日本語訳は参考のため記しています)
さらに特筆すべきは生成動画の一部を切り取り、ストーリーボード上に配置して続きを生成できる点です。これにより、生成結果の一部が意図と異なる場合でも、直感的な操作で修正することができます。
SoraのRe-cutと呼ばれる機能。生成動画をストーリーボード上に配置し適切に切り取った上で、プロンプトを前後に配置して動画を拡張できる。(プロンプトの日本語訳は参考のため記しています)
現状では、プロンプトに忠実な動画が生成される確率は高くないため、Storyboardの意図通りに動画が生成されるケースはほとんどないと言っても過言ではありません。それでも、このUIは極めて直感的であり、今後の動画生成AIサービスの標準的なインターフェースとなる可能性を秘める素晴らしいものだと言えるでしょう。
なお実際のSoraの生成動画やUI、使用方法については、KEITOさんによる解説動画が参考になります。
また12月13日には、Gemini 2.0 Flashのリリースから1日遅れる形で、ChatGPTモバイルアプリの「高度な音声モード」にリアルタイム動画解析機能が実装されました。これにより、スマートフォンのカメラやスクリーン映像を介してChatGPTと対話できるようになっています。Geminiがウェブブラウザで提供されているのに対し、ChatGPTはモバイルアプリに限定される代わりに、自然な日本語での会話が可能という違いがあります。しかし、提供されている体験そのものに大きな差はないと感じました。
先週のその他のOpenAIによる発表は、「Canvas機能のアップデート」「ChatGPTとApple Intelligenceの連携」「Projects機能のリリース」など、比較的小規模な機能追加が中心でした。来週以降の大きなインパクトの発表に引き続き、期待が集まります。
💡 SoraはPlus, Proプランユーザー向けに、ChatGPTのリアルタイム動画解析機能はPlus, Teams, Proプランユーザー向けに公開されています。
2. SNSで話題のAIツールをピックアップ!
NoLang (https://no-lang.com)
12月11日にNoLang 2.5へとアップデート。「PDFプレゼン」と「Live2D対応」が実装
PDFにナレーションを付与して解説動画に変換可能になり、さらに立体的に動くLive2Dキャラクターを搭載できるように
他にも感情豊かな最先端合成音声が使用可能に、動画設定がリニューアルなどアップデートが盛り沢山
「PDFプレゼン」が1回無料で試せるほか、期間限定でアバター動画生成のクレジットが70%OFF
Google AI Studio [Gemini] (https://aistudio.google.com/)
Googleが公式提供している新モデルGemini 2.0 Flashが無料で試せるサービス
特におすすめなのが「目」を持ったGeminiとのリアルタイム会話。「Stream Realtime」 → 「Show Gemini」または「Share Your Screen」で始められる
ただし、日本語のアクセントはかなり不自然。ChatGPT Plus, Proに加入されている方はChatGPTモバイルアプリから同様の機能を試すことが可能
また「Starter Apps」→「Spatial Understing」もおすすめ。Geminiの物体検出機能を呼び出して、AIがどこまで正確に画像認識を行えているかを知ることができる
3. 🐬NoLangの動画作成機能のアップデート内容について詳しく解説!
今回は、NoLang 2.5のリリースに伴う動画作成機能のアップデート内容について詳しく解説します。今までより自由に、そして効率的に動画を作成できるようになっています!
(1) テキストを自由に装飾できるように。フォントの種類は150種類以上
テキストのフォント、色、縁取りの色、幅をカスタマイズできるようになりました。フォントは日本語だけでも150種類以上用意しており、どんなテーマの動画にもぴったりのデザインが見つかるはずです。
(2) BGM、背景動画、テロップベースが拡充。さらに動画素材のブックマーク機能も実装
BGMや背景動画、テロップベースの種類が大幅に増え、さらに好きな素材をブックマークできる機能も追加されました!頻繁に使用する素材を簡単に見つけられるようになっています。
動画設定画面が全面的にリニューアルされ、複数の設定を保持できるようになりました。ショート動画用、解説動画用など、用途やシーンに応じた設定を保存しておくことができます。
独自のBGMや背景動画がアップロード可能になりました!お気に入りのBGMや背景動画を使用することで、他では真似できないオリジナリティ溢れる動画制作が可能となっています。
その他にも以下のような機能が追加されています。
・話者の発話速度、BGM音量を調整できるように
・動画編集画面の画像編集時に履歴に表示される枚数が増え、さらにブックマーク可能に
NoLangでは今後も、生成できる動画のバリエーションを増やしつつ、より使いやすい編集機能の実装を進めてまいります。是非引き続きNoLangの進化にご期待ください!
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、
どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」
といったプロダクトをリリースしてまいりました。
またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!
🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます!
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了!
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です!
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024