- Mavericks AI ニュース
- Posts
- 人気声優の梶裕貴さんが自身の声で喋らせられる音声合成ソフトを製品化、GPT-4が財務諸表分析で人間のアナリストを上回るなど
人気声優の梶裕貴さんが自身の声で喋らせられる音声合成ソフトを製品化、GPT-4が財務諸表分析で人間のアナリストを上回るなど
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、Xでトレンド入りを果たした非公開技術Animate Anyoneがいつオープンに再現されるかを予想します。
📚 目次
1. 直近のビッグニュースTop 3
① GPT-4が財務諸表分析で人間のアナリストを上回る
② 生成動画の内容をテキストで自由に制御できる世界モデルPandoraが発表
③ 人気声優の梶裕貴さんが自身の声で喋らせられる音声合成ソフトを製品化
1. 直近のビッグニュースTop 3
① GPT-4が財務諸表分析で人間のアナリストを上回る
シカゴ大学の研究において、財務諸表分析でGPT-4が人間のアナリストを上回る予測性能を達成しました。さらに、既存の金融特化の機械学習手法をも上回っています。「次年度の収益が前の年と比べて増加するか減少するかを予測する」というタスクにおける結果です。
Accuracy, F1値という2つの指標において、一番右のGPT-4は、
人間のアナリストを上回る性能を達成(図は論文より引用)
アナリストの予測値は、証券情報サービスIBESに登録されている予測値を元に算出されており、業界、企業情報等が勘定されているのに対し、GPT-4に与えられたのは、匿名化された貸借対照表と損益計算書の数値情報のみでした。
生成AI登場以前から、AIモデルは入力データと出力の形式が決まっており、かつ十分なデータによって訓練を行えるタスクであれば、人間並みあるいはそれ以上の性能を発揮できることが知られていました。
LLMは現在、このようなタスクを追加の訓練なしにプロの人間並みの正確性で解くことができます。GPT-4はアメリカの弁護士試験に上位10%のスコアで合格でき、日本の医師国家試験にも合格したことが知られていますが、今回新たに、数値分析を要する金融分野でも同様の性能を発揮できることが示された形です。
一方でこのような性能評価では「常識的には考えられないミス」をしたケースがあったかどうかを考慮できていないという問題点があります。例えばGPT-4は医師国家試験にて、「妊婦の患者に投与できない薬剤」「患者に対して安楽死を促すような言葉がけ」を選択したと報告されています。今回の財務諸表分析タスクでも、収益が上がったか下がったかを答えればよく、予測値が僅かに外れていても、とてつもなく外れていても、同じペナルティしか課せられません。
そうした致命的なミスによる影響を考慮しても、LLMがプロの人間並みだと結論付けられる研究結果が今後どれくらい出てくるのか、注目しておくと良いでしょう。
② 生成動画の内容を自由に制御できる世界モデルPandoraが発表
開発組織Matrix.orgの研究者らによって、世界をシミュレートする世界モデル「Pandora」が発表されました。動画再生中に「爆発が起きる」「ロボットがポットにリンゴを入れる」などと指示すると、その通りにシミュレートされた動画が続けて生成されます。下記の動画30秒あたりから流れる、パラレルワールドを創り出すデモンストレーションは大変興味深いです。
🔥Introducing Pandora 🌏 🪐
a World Model that generates videos of world states with real-time language control 🎥🕹️
Simulate the world across domains in an _interactive_ way!
check out more world-model.ai
— Maitrix.org (@MaitrixOrg)
7:07 PM • May 23, 2024
以前のニュースレターで、動画生成AIモデルの抱える問題点として、制御性、時間に対する一貫性、長さの3つを挙げました。Soraの登場により、一貫性や長さに関しては目覚ましい飛躍が見られましたが、制御性に関してはまだ課題が多く、「動画生成前にテキストを一度に入力する」という基本的な枠組みから抜け出せていませんでした。
インタラクティブに指示を出して動画の内容を変更できるPandoraは、生成される動画の質こそかなり粗いですが、制御性を大幅に向上させる可能性を秘めています。
なお、SoraやPandoraといった動画生成AIモデルは、物理法則を理解していない点にも注意が必要です。Soraの生成動画では、倒れているコップが突然浮き上がったり、液体がコップを通り抜けたりといったシーンが見られました。AIモデルに世の理を理解させる試みはまだまだ発展途上と言えます。
Soraでは倒れているコップが突然浮き上がったり、液体がコップを通り抜けたり
といった物理法則を無視したシーンが生成されることがある(引用元)
③ 梶裕貴さんが自身の声で喋らせられる音声合成ソフトを製品化
進撃の巨人のエレン・イェーガー役などで知られる人気声優の梶裕貴さんが、自身の声で喋らせることができる音声合成ソフト「CeVIO AI 梵そよぎ トークボイス」を製品化すると発表しました。個人または同人サークルに限り、商用・非商用問わない幅広い用途での利用を許諾する方針とのことです。
梶裕貴さんは公式Xを通して以下のように述べています。
AI技術の発展と普及により、現在、無法地帯となってしまっている"声の権利"問題。
私自身、この問題について、日頃から頭を悩ませておりました。
(略)
それでも私は、AIと敵対するのではなく、共存すべきだと考えています。AIという技術自体に善悪はない。あくまで、それを使用する人間側のモラルにかかっている。
だからこそ、あえて私の声を持つ『梵そよぎ』を解禁することで、"正しい音声AIの在り方"を証明できるのではないかと考えたのです。
声の領域においてAIの濫用は世界的に大きな問題となっており、実際、AIを使ってカバー楽曲を生成できる「AI Hub」のDiscordサーバーが、昨年10月に著作権苦情を受けて一時削除されるといった騒動がありました(現在は復活)。ここで多くのユーザーが使用していたのは、中国発と見られ、現在もオープンソースとして公開されているRVCです。10〜50分の音声データを学習させるだけで、その人の声にリアルタイムで音声変換できることができる画期的な技術ではありますが、利便性の裏には必ず悪用のリスクが付きまといます。
また、国内では法整備が追いついておらず「知財法の分野で、声そのものを守ることに特化した法律はない」といった問題点もあります。
今回発表されたのは、梶裕貴さんの声で「喋らせることができる」ソフトですが、「歌わせられる」ソフトはそれ以前に発表されており、以下の投稿から本人とAIの歌声を聴き比べることができます。
「悪魔の子」カバーしました🗣️
"人間"と"AI"それぞれが持つ、
可能性の違いをお楽しみください!【#梶裕貴】🕊️
youtu.be/OwIR_HlDZNE【#梵そよぎ】🫧
youtu.be/mr4wTT7IL6I【#そよぎフラクタル】4月3日(水)21時〜
クラウドファンディング重大情報解禁生配信⬇️
youtube.com/live/Uybn-wIAn…— 梶裕貴 Yuki Kaji (@KAJI__OFFICIAL)
11:30 AM • Mar 30, 2024
公開されているAI音声は、感情の込め方やそれに伴う抑揚の変化が不自然で、まだ「AI感」が残っていると感じます。一方で、先日発表されたGPT-4oのデモにおける感情表現能力はこれまでのAIとは一線を画しており、AIが生身の声優の歌声・芝居を多くの人が判別不可能なレベルで模倣できる日も決して遠くないのではないかと感じさせます。
声の濫用や権利に関する議論は、GPT-4oの音声対話機能が公開されてから数年で一層盛んになっていくと予想されます。
2. SNSで話題のAIツールをピックアップ!
Speak (https://www.speak.com/jp)
OpenAI Startup Fundが出資する、500万DL突破の注目AI英会話アプリ
AIと会話を始める前に目標がいくつか設定され、会話内でそれらが全て達成されるとチャレンジクリアとなることから、ゲーム感覚で楽しめる
さらにAIによる添削機能も非常に優秀で、会話終了時に全ての発言に対してフィードバックをもらえる。完璧な発言に対しては添削不要と出るのも嬉しい
Apple Store及びGoogle Playから無料で始めることができる
Mem (https://mem.ai/)
同じくOpenAI Startup Fundが出資する、AIを活用したメモアプリ
Xで気になった投稿に「@memdotai Mem It」とリプライするだけで、読みやすく整形された状態で投稿内容をメモとして保存できるのが強力
他にもメモの統合・カテゴライズ・質問・関連するSNS投稿の推薦など、メモに関する機能が非常に充実
有料プランは月額8.33ドルだが、7〜30日間の無料トライアル有り
3. 話題になった非公開技術はいつオープンに再現される?
① Animate Anyone
昨年11月30日に中国のアリババ社より、キャラクターの静止画一枚に対して、動きを指定するボーン動画を与えることで、そのキャラクターを自由に動かせる「Animate Anyone」が発表されました。顔や服装が終始一貫している上、動きが滑らかであることが特徴で、Xのトレンドに入るなど、大きな話題を呼びましたが、コードは非公開であったため、落胆した人も少なくありませんでした。
画像内のキャラを思うがままに抜群の精度で動かせる「Animate Anyone」、話した声をすぐに翻訳するMeta「Seamless」など重要論文5本を解説(生成AIウィークリー) techno-edge.net/article/2023/1… 添付映像は骨格動画で画像内キャラや写真内リアル人物を制御する滑らかに動かすデモ。ウルトラマンやメッシ等
— Seamless (@shiropen2)
1:29 AM • Dec 4, 2023
それでも、その1週間後にByteDance社が、同様の技術「Magic Animate」をコードと共に公開しました。また先月には、Novita AI社がAnimate Anyoneの非公式実装を公開したほか、Tencent社も「MusePOSE」と呼ばれる技術を公開しています。これらの技術は、Animate Anyone本家と比べると一貫性の面でやや劣っているとは言え、肉薄するクオリティの動画を生成できます。
【画像からダンスを生成】
MusePOSEは画像1枚とモーションデータからダンスを創る新しいフレームワーク。選考していたimg-2-Danceと比べても非常に高い一貫性を保っています。また服などの動きなども非常に自然。
続く>>
#生成AI#AI— 田中義弘 | taziku CEO / AI × Creative (@taziku_co)
9:13 AM • May 30, 2024
Animate Anyoneが公開されてから僅か半年でこのレベルの技術が多数出現していることは驚くべきことであり、1年が経過する頃には、本家と厳密に同レベルの技術がオープンに公開される可能性は十分にあります。
また、コードこそ非公開ですが、ダンス動画とキャラクターの静止画一枚をアップロードするとそのキャラクターがダンスする動画を生成できるDomo AIやGoEnhanceといったサービスも登場しており、アリババによって技術が独占されている状況ではなくなってきています。
② EMO
アリババは他にも、今年2月末に1枚の人物写真と音声を用意するだけで、画像内の人物に喋らせたり歌わせたりできる技術「EMO」をコード非公開で発表しており、同様の手法よりも遥かに高品質の動画を生成できました(以前のニュースレター)。
その3ヶ月後となる先月、Tencent社より類似技術V-Expressがコードと共に公開されました。EMOと異なり、V-kpsと呼ばれるガイド用の動画が別途必要であり、身体の動きもやや硬いとは言え、かなり自然かつ高品質な動画が生成されています。
Tencent AI Lab just released a new open-source model that creates talking head avatars like EMO and Vasa-1.
It's probably the best open-source model for talking head avatars I've seen so far.
Some examples + code below 👇
— Halim Alrasihi (@HalimAlrasihi)
11:18 PM • May 27, 2024
V-ExpressのGitHubには、Animate Anyoneの再現実装プロジェクト「Moore-AnimateAnyone」や、Magic Animateの発案者に対する謝辞が記されており、開発にあたっては、技術ナレッジを共有できるというオープンコミュニティの強みが最大限生かされていると考えられます。Animate Anyoneと同じく、本家発表から1年以内に、厳密に同レベルの技術がオープンに公開される可能性は十分あるのではないでしょうか。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024