Mavericks AI ニュース
Posts
デモで全世界に衝撃を与えたChatGPTの新音声機能がついにリリース!NoLangの「続けて質問」機能の使いどころを解説など

デモで全世界に衝撃を与えたChatGPTの新音声機能がついにリリース!NoLangの「続けて質問」機能の使いどころを解説など

マーベリック
September 29, 2024

Newsletter from Mavericksをご覧いただきありがとうございます！

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangの「続けて質問」機能の使いどころについて解説します！

📚 目次

1. 直近のビッグニュースTop 3
① デモで全世界に衝撃を与えたChatGPTの新音声機能がついにリリース！
② アリババが動画内の人物をピンポイントで置き換えられる新技術「MIMO」を発表
③ マルチモーダルなオープンAIモデル Llama 3.2 が公開！Meta初のARグラスの発表も

2. SNSで話題のAIツールをピックアップ！
① Tripo
② NotebookLM

3. 🐬NoLangの「続けて質問」機能の使いどころを解説！

1. 直近のビッグニュースTop 3

① デモで全世界に衝撃を与えたChatGPTの新音声機能がついにリリース！

今年5月にデモが公開され世界に衝撃を与えたChatGPTの「高度な音声モード」がついに、Plus / Teamプランの全ユーザーに向けて公開されました。元より発表されていた通り、応答までの時間は非常に短く、感情も豊かで、自然な音声会話を行うことができます。まだ試されていない方は是非、以下の事例まとめにて実際の会話の様子をご覧ください。

OpenAIは満を持して 'Advanced voice mode'を公開
ㅤ
現状、最も自然なAI音声会話をChatGPTと行うことが出来ます。
すでに日本のPlus/Team登録ユーザーは利用可能で、Xでも日本語の面白い事例が報告されています。
厳選して10個まとめました🧵👇 x.com/i/web/status/1…
— ChatGPT研究所 (@ctgptlb)
9:52 AM • Sep 25, 2024

「高度な音声モード」により実現されたことを5点挙げます：

1. 応答時間が実際の人間同士の会話レベルにまで短縮（公式発表では平均0.32秒）

2. カスタム指示を設定したり、メモリ機能によって過去の会話内容を記憶させたりできる

3. 喜怒哀楽を交えた感情豊かな表現を行えるように。「はっはっはっ」と声に出して笑うことも

4. 喋る速度も制御でき、まくし立てるような早い発話からスロー再生のようなゆっくりとした発話まで行える

5. 感情や速度、トーンを調整して特定の役になりきることもできる（スポーツ中継者、ドジっ子メイドなど）

このうち3〜5はエンドツーエンドな処理の登場によって可能になっています。従来の音声対話では、「ユーザーの発話内容を文字起こし→LLMに与えて文章生成→生成文を音声合成」といった形でテキスト処理と音声処理を別々に行っていました。一方「高度な音声モード」ではこれらを全て一つのモデルで行うため、ユーザーの発話内容を音声合成に直接反映させることができ、「もっと早く喋って」といった要求にも応えられるようになっています。

ただし現在の「高度な音声モード」では、安全性や著作権に配慮して機能が制限されていることに注意が必要です。歌ったり効果音を生成することは原則不可能であり、有名人など特定の人物になりきることはできません。また、GPT-4oのデモ時にプレゼンターの息が上がっていることを検知したように、会話相手の状況や感情を把握することもできないようです。

すぐに実践できる「高度な音声モード」のユースケースとしてはリアルタイム翻訳が挙げられます。例えばカスタム指示で「あなたは翻訳家です。日本語は英語に、英語は日本語に翻訳して」と設定するだけで実現できます。応答時間も極めて短く十分実用的です。

一方で、その他の用途で使用することを考えると、いくつか限界も見えてきます：

1. 相手の会話を引き出す「聞く力」に難がある。ChatGPT側から話しかけてくることもないため、一方的な会話になりがち

2.（生成AIの確率的に最も高い単語を生成し続けるという特性もあって）話題の自然な転換が苦手であり、意外性のない展開になることがほとんど

3.（元々GPTはClaudeに比べてロールプレイが苦手だと言われていることもあって）特定の役になりきるのがあまり得意でない。カスタム指示でロールプレイするように設定しても、ChatGPT本来の性格が抜けきっていないように感じる

これらを踏まえると、「高度な音声モード」は双方向的なコミュニケーションには向いておらず、あくまでもユーザーからの一方的な指示に従って、翻訳など特定のタスク遂行に特化したアシスタントとして活用するのが良いと言えそうです。これは雑談に特化して開発された日本発のおしゃべりAIアプリ「Cotomo」とは対照的です。

それでも音声対話AIをより高度な場面で利用しようとする動きはすでに始まっています。OpenAIと提携している語学学習アプリ大手のDuolingoは先週、GPT-4 / GPT-4o搭載の「Lily」と呼ばれるAIキャラクターと会話しながら英語を学べる新機能をリリースしました。

このLilyというキャラクターは、ユーザーのスピーキングスキルに合わせて会話のレベルを調節してくれます。また、ユーザーが挫折なしに学習できるようパーソナリティが徹底的に作り込まれており、発音や文法の誤りは指摘しないものの、会話があまりにも長すぎると遮るなど、実際の会話よりはマイルドな、それでいて少しだけ負荷がかかる体験を提供しています。これらはいずれも「高度な音声モード」では実現できません。

このように将来的には、エンドツーエンドな音声対話技術をもとに特定のユースケースに特化したシステムを構築することによって、付加価値の高い体験を提供するツールが次々と誕生することが期待されます。

② アリババが動画内の人物をピンポイントで置き換えられる新技術「MIMO」を発表

アリババが動画内の人物をピンポイントで置き換えられる技術「MIMO」を発表しました。合成したい人物は画像一枚で指定でき、バスケットボールのドリブルやブレイクダンスなど激しい動きを伴っていても、破綻なく綺麗に置き換えられています。是非以下のデモ動画をご覧ください。

Alibaba introduces MIMO
New AI that creates realistic character videos from simple inputs like character, motion, and scene.
10 demos
1. Interactive Scene Control
— Min Choi (@minchoi)
2:33 PM • Sep 25, 2024

類似技術として同じくアリババが昨年12月に公開したAnimate Anyoneが知られていますが、これは動画を見本に画像内の人物を「画像の世界で」動かしたり踊らせたりできる技術であり、画像内の背景が引き継がれます。また、「ディープフェイク動画」と言われる動画もSNSを中心に散見されますが、これらでは基本的に顔を入れ替える技術が使用されており、全身を置き換えることはできません。

MIMOと同様に動画内の人物を置き換えられるツールとして、a16zによるC向け生成AIアプリTop 100にも選ばれたViggleがありますが、MIMOはViggleと比べて、合成された人物の動きが圧倒的に滑らかです。下記のバスケットボール動画のように、複数選手が入り乱れている上ボールの動きが複雑な中でも、極めて正確に人物を置き換えられている点も特筆に値するでしょう。

5.
— Min Choi (@minchoi)
2:33 PM • Sep 25, 2024

ただし、このような技術は大きな危険性も孕んでいます。今後破綻がより少なく、照明条件等も考慮して人物を合成できる技術が公開されれば、いよいよ本物の動画との区別がつかなくなり、現在より高度なディープフェイク動画が大量に出回ると予想されます。1年前の時点ではAI生成動画は破綻が多く、瞬時に偽物だと見分けられるような品質だったことを踏まえると、改めてこの分野における進化速度の凄まじさを思い知らされます。

③ マルチモーダルなオープンAIモデル「Llama 3.2」がリリース！Meta初のARグラスの発表も

Metaが開発者向け会議「Meta Connect 2024」を9月26〜27日の2日間にわたって開催し、AIやARといった最新テクノロジーに関する発表が数多くなされました。

まず注目したいのは、オープンなAIモデルLlama 3.2の発表です。パラメータ数は1Bから90Bまでと、小型〜中型のモデルに限った公開になっています。1B, 2Bの小型モデルは、モバイル端末での動作が想定されており、クアルコム社やMediaTek社製のモバイルチップ用に最適化されています。11B, 90Bの中型モデルは、Llamaシリーズの中で初めて画像認識を行えるマルチモーダルモデルとなっており、公開されているベンチマークのスコアの全てでClaude 3 Haikuを上回り、GPT-4o miniに匹敵しています。

Llama 3.2の中型モデル (11 B, 90B) と Claude 3 Haiku, GPT-4o miniのマルチモーダルなベンチマーク性能比較（Meta公式発表）

また、既に米国にて販売されているスマートグラス「Ray-Ban」（過去のニュースレター）のアップデートも発表されています。Ray-Banに搭載された画像認識可能なマルチモーダルAIモデルには新たに記憶機能が追加され、例えば駐車場の番号を覚えるように音声でAIに指示すれば、いつでも思い出してもらうことができます。

Ray-Banに搭載されているマルチモーダルAIによる記憶機能の説明 (YouTube)

さらにはMeta初のARグラス「Orion」のプロトタイプも発表されました。スマートフォンの画面サイズに制限されることなく、何枚もの画面を映し出すことができるほか、搭載されたAIに対して、食材が並んでいる机の前で「スムージーのレシピを教えて」とお願いすれば、どんなスムージが作れるか、追加でどんな食材が必要かといった情報が画面に表示されます。Metaは未だARグラスの開発は研究段階としながらも、今後数年間のうちに、研究開発の成果をもとに新しいARデバイスを発表する予定だと明言しています。

上記の2つのグラスにはいずれも、Metaが自社開発したマルチモーダルAI Llamaをベースにしたモデルが使用されていると考えられます。このような視覚機能を持つ言語モデルはVLM（視覚言語AIモデル）と呼ばれます。

約1年前に発表され世界中で反響を呼んだOpenAIのGPT-4Vと比べると、VLMの性能は飛躍的に向上しました。これにより、PDFからの文字抽出や、クリーンな画像を対象にした物体認識はかなり正確に行えるようになっているものの、照明条件が悪いなどノイズが入ってしまうと、ハルシネーションが引き起こされてしまうことが多々あります。

ChatGPTの「高度な音声モード」の登場により、AIとの自然な音声会話が実現されつつあります。それに加えて、画像認識におけるハルシネーション問題が解決され、マイクとカメラを通してAIと自然に対話できるようになれば、一気にAIの日常生活への浸透が進むと考えられます。

2. SNSで話題のAIツールをピックアップ！

Tripo (https://www.tripo3d.ai/)

高品質な3Dオブジェクトを生成できるAIサービス。9月20日にバージョン2.0へとアップデートされ、品質が大幅に向上したと話題に
テキストや画像を入力すると、1分程度で3Dオブジェクトが生成される
動画変換AIツールと併用すれば、画像を回転させたような動画を作ることも可能
無料でも20個以上の3Dオブジェクトを生成可能

NotebookLM (https://notebooklm.google/)

アップロードした資料についてチャットしながら、必要に応じて内容を保存できるメモ作成アプリ。Googleが公式に提供
今回新たにYouTube動画や音声をインポートできるようにアップデート
引用元をチェックできるため事実確認がしやすい上、結果をメモに保存して見返せるのが非常に便利
ハルシネーションが起きにくいように細心の注意が払われており、資料に関係ない質問に対しては全く答えないことが特徴

Note

3. 🐬NoLangの「続けて質問」機能の使いどころを解説！

NoLangには生成された動画に対して続けて質問できる機能があり、これにより動画の内容に基づいて新しい動画を生成できます。今回はこの「続けて質問する」機能の使いどころについて解説していきます！

(0) はじめに：「続けて質問する」機能の使い方

動画再生画面中央にある「続けて質問する」ボタンを押下した後、質問内容を入力することで使用できます。生成された動画は「対話スレッド」に蓄積されていきます。

(1) 動画内の特定のパートを膨らませる / 深掘りする

NoLangで生成された動画の中で、特定のパート内での説明に飛躍があった場合に、「続けて質問する」機能を利用して「xxxについてもっと詳しく教えて」と入力することでそのパートに対する詳細な説明動画を生成できます。例えばNoLangについての解説動画であれば、「NoLangの対話機能についてもっと詳しく教えて」といった形になるでしょう。

この使い方はChrome Extension使用時も大変有効です。情報のキャッチアップをしていて、特定のパートの説明が分かりにくいと感じた際は、是非使ってみてください！

また、動画の他のパートはそのままで、特定のパートだけ充実させたい時は「動画の他の部分には一切変更を加えずxxxについての説明だけもっとリッチにして」と入力することで高い確率で実現できます。ただしこの際は動画の長さが伸びるため、「動画設定」で指定される動画の長さを一つ増やすことをおすすめします。

(2) 内容はそのままに伝え方を変える

動画の内容自体は素晴らしいが難易度を調整したい、あるいは、一度作った動画を別のターゲット層向けに作り替えたいといった状況においても「続けて質問する」機能は有効です。このときは、

「内容はそのままに、xxxについてもっと平易な言葉で噛み砕いて説明して」
「内容はそのままに、xxxに向けて伝え方を変えてみて。特に、用語や具体例をxxx向けにアレンジして」

といった風に入力すると良いでしょう。伝え方だけでなく動画の内容も修正したい場合は、AIへの要望を入力文に含めた上で、一から生成するのがおすすめです。

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください！

NoLang 2.0を完全解説！重要ポイント解説から、思い通りの動画を生成するための高度なテクニック紹介まで【毎週配信・無料・5分で読める🗓】国内外の注目企業の動向分析から最新AIの紹介まで、幅広いAIニュースを分かりやすく解説👉mvrks.news/p/nolang-20

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください！

🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます！
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了！
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です！
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024

AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024