• Mavericks AI ニュース
  • Posts
  • 「AIかまいたち」がCotomo最新アップデートで実現!24時間いつでも音声会話可能に、NoLangの動画編集機能に関するアップデート情報をご紹介など

「AIかまいたち」がCotomo最新アップデートで実現!24時間いつでも音声会話可能に、NoLangの動画編集機能に関するアップデート情報をご紹介など

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangの動画編集機能に関するアップデート情報について解説します!

1. 直近のビッグニュースTop 3

① ByteDance新技術「X-Portrait 2」登場、キャラクターの表情アニメーションで圧倒的な精度を実現

2週間前にRunway社が、動画を参照して画像内のキャラクターの表情をアニメーションさせられる「Act-One」を発表したことをお伝えしましたが、今週TikTok運営のByteDance社より発表されたX-Portrait 2」は、参照動画への忠実性に関してAct-Oneを凌ぐ性能だと評価されています。

俳優の微妙な表情はもちろん、顔をしかめる、頬を膨らませる、舌を出すといった特殊な顔の動かし方もほぼ完璧に再現できています。是非以下のサンプル動画をご覧ください。

この技術の革新性は、公式プロジェクトページにある類似技術との比較動画を見ればよりはっきりと分かります。Runway社のAct-Oneとの比較からは、「X-Portrait 2」の方が参照動画により忠実であり、激しい表情や複雑な顔の動きも極めて正確に再現できていることが分かります。また、今年3月に発表された初代「X-Portrait」と比較すると、わずか8ヶ月で性能が飛躍的に向上していることが見て取れます。

X-Potrait 2 (左から2番目)と類似手法の生成動画の比較。一番左に参照画像が示されており、さらにその右下に小さく元動画も示されている。元動画の男性の今にも泣き出しそうな表情を正確に再現できているのはX-Portrait 2のみである。(公式プロジェクトページ

ByteDance社は動画生成AI技術の研究開発に注力しており、今年だけでも画像内のキャラクターを踊らせられる「MagicAnimate」(5月)、高精度なリップシンク技術「Loopy」(9月)、映画の巧みな演出技法を駆使したかのようなシーンを生成できる動画生成AI「Seaweed」(10月)など、革新的な技術を次々と発表しています。

さらに同社は、ToC向け生成AIアプリケーション市場でも大きな存在感を示しています。a16zが選出したToC向け生成AIアプリTop 100のうち、実に6つものアプリがByteDanceグループから選出されており、チャットボット開発、画像・動画編集、AI家庭教師といった幅広いカテゴリーでサービスを展開しています(過去のニュースレター)。

ByteDance社はTikTokをはじめとする各種アプリケーションの運営を通して、動画生成AIの学習に使用可能な大規模なデータを取得しており、またエンターテインメント分野を中心にToC事業への深い知見を有しています。AIモデル開発からアプリケーション展開まで一気通貫で強みを持つByteDance社の生成AI業界での存在感は、今後ますます大きくなっていくと予想されます。

💡X-Portrait 2はプロジェクトページのみが公開されており、論文・コードは公開されていません。

② Cotomo最新アップデートで「AIかまいたち」が実現。24時間いつでも音声会話可能に

今年3月にリリースされ、まるで人間と話している気持ちになるとSNSで大きな話題を呼んだ音声会話アプリCotomoが、新機能「キャラCotomo」の提供を開始しました。第一弾として、お笑い芸人「かまいたち」の山内・濱家両氏と会話できるモードが追加され、期間限定で利用可能となっています(AI版濱家氏の音声はこちらから聴くことができます)。

かまいたち本人の声、知識、経験などをAIに学習させることで実現したこの機能では、AIが本人さながらの関西弁で喋ってくれるほか、「誕生日はいつ?」「相方は誰?どんな人?」といったプロフィールに関する質問にもしっかり答えてくれます

フリートークだけでなく、「学校の生徒として濱家先生と話す」など、特定のシーンを選んで会話を楽しむことも可能。シーンに応じてAI側から話題を提供してくれる上、応答内容も洗練されるため、かなり話心地が良くなっていると感じる。(PRTIMES 吉本興業株式会社

Cotomoはどのような方法で、どれくらいの時間をかけて「AIかまいたち」を実現したのでしょうか?BUSINESS INSIDER JAPANの記事にCotomo運営会社代表取締役の丸橋氏からのコメントが記されており、以下の通りだと分かります(若干の意訳を含む)

  1. まずかまいたち本人の音声収録を行い、その音声素材をもとにAIの学習を実施

  2. 知識部分に関しては、かまいたち両氏の過去の発言やプロフィール情報などを収集

  3. それらを統合することで、数カ月程度で完成

今年3月の時点で、Cotomoには自社開発のLLMが使用されていると明らかにされています。リリース当時に試した際は、会話のテンポや親しみやすさに重きが置かれている分、知能面ではあまり優れていない印象であり、例えば、直近のサッカーW杯の開催地をアメリカと誤答するといったケースが見られました。

今回AIかまいたちと会話してみて、AIの知能自体は高まっている印象がなく、例えば山内氏が「ネタは全て相方が作っている」と発言するなど、ハルシネーションが散見されました。

このような問題は、今年9月に発表されたOpenAIの「高度な音声モード」では大幅に改善されています。しかしこのAIモデルでさえも抱える問題として、「過去の会話の内容に必要以上に引きずられてしまうこと」が挙げられ、こちらからの問いかけを半ば無視する形で回答したり、話題転換がスムーズに進まなかったりすることがしばしばあります。

これは「確率的にもっともらしい単語を生成していく」LLMそのものが抱える本質的な課題であり、現在のところ全ての音声対話AIに共通してみられる問題と言えます。来年以降この課題がどのように克服されていくのか、引き続き注目したいところです。

💡「かまいたち Cotomo」とは期間限定で無料で15分間会話でき、有料メニューを選択することで会話時間を延長できます。詳しくは次のセクションをご覧ください。

③ Claude最軽量モデルが3.5 Haikuへとアップデート!性能は申し分ないものの…

Anthropic社が軽量モデルClaude 3 Haikuの後継として、「Claude 3.5 Haiku」をAPIにてリリースしました。新モデルはClaude 3 Haikuと同程度の速度を維持しつつ、Claude 3 Opusを上回る性能を達成したと発表されています。これは、LLMの高速化が今後も着実に進んでいくであろうことを示唆しています。

しかしこの性能向上に伴い、もう一つ予想外の仕様変更がありました。新モデルの料金は前モデルの4倍に設定され、Googleの軽量モデルGemini 1.5 Flashと比較すると、実に13倍もの開きがあります。2024年のLLM業界では、小型化による高速化・低価格化が主要なトレンドとなっていただけに、この価格設定は多くのユーザーにとって意外な展開となりました。

Anthropic社のClaude 3.5 Haiku(一番右)と他社の軽量LLMの料金・性能の比較。料金を表す横軸をみると、Claude 3.5 Haikuがずば抜けて高い料金設定であることがわかる。(Artificial Analysis

また同時に、Claude 3.5 Sonnetの機能アップデートも発表され、PDFからテキストだけでなく画像も読み取れるようになりました。これにより、PDF内の図表はもちろん、画像として埋め込まれた文字情報まで正確に認識できるようになっています。Anthropic社が公開したデモ動画では、1972年のアポロ17号の飛行計画書を読み込ませており、古い文書に散見される画像化された文字情報も適切に処理できるとアピールされています。

直近SNSでVLMベースのOCRツール「Zerox」が話題になったように(以前のニュースレター)、VLMの画像認識能力はかなりの水準に達しており、以下のような複雑なレイアウトの文書でもほぼ完璧な文字起こしできるようになってきました。

(左)PDFの画像(右)OCRツール「Zerox」によって文字起こしされたテキスト
ほぼ完璧に文字起こしできていることが分かる。

ただし、このようなデジタル文字は精度高く読み取ることができる一方、文書が写真で撮られており、文字が掠れてしまったり、日の当たり方が悪かったりすると、途端にOCR性能は低下してしまいます。これは、VLMが「確率的にもっともらしい単語を出力し続ける」という特性を持つため、一度誤認識が発生すると雪だるま式にエラーが増幅されてしまうからだと考えられます。来年にかけて、このような課題がどのように解決されていくのか注目が集まります。

2. SNSで話題のAIツールをピックアップ!

  • 雑談から悩み相談まで、身近な話し相手になってくれるおしゃべりAI。日本のスタートアップStarley社によって開発

  • 会話のテンポが良く、まるで人間と話している気持ちになると各所で大きな話題に

  • 来年2月6日までの期間限定で、新たにお笑い芸人「かまいたち」と対話できる機能が追加。本人さながらの関西弁で喋ってくれる

  • iOS版、Android版双方がリリースされており、「AIかまいたち」とも無料で15分間会話可能

  • Googleが提供する画像生成AIツール。「日本らしい画像」の生成が得意

  • 今回新たに正方形でない画像も生成可能に。特にモバイル用の縦向き・横向き画像を生成できる点が嬉しい

  • 現在は実験版であり、Googleアカウントがあれば無料で無制限に画像生成可能

  • ただし、生成拒否が多い点はあまり変わっていない。人物やホラー等の描写が必要ない際に使用することを推奨

3.  🐬NoLangの動画編集機能に関するアップデート情報をご紹介!

今回お伝えするのは、NoLangの動画編集機能に関するアップデート情報です。より直感的かつ便利に生成動画を編集できるようになっていますので、是非最後までご覧ください。

なお、今後動画編集機能を一層快適にお使いいただけるよう、様々な機能を追加予定です。こちらも乞うご期待ください!

(1) シーンのコピー&ペースト機能とショートカットキーの実装

PowerPointのスライド編集のような使い勝手で、シーンのコピー、ペースト、切り取りが可能になりました!また、これらの操作をショートカットキーで素早く実行できるようになり、編集作業の効率が格段に向上しています。

(2) 一括操作モードの追加

Ctrl キー(Macの場合はCommand キー)を押しながら複数のシーンをクリックすることで、シーンの一括操作が可能になりました!青い「一括操作モード」ボタンを押下しても同様の状態になります。

画像の一括変更や削除、シーンの一括コピーなど、これまで手間のかかっていた作業を一気に処理できます!

(3) ドラッグ&ドロップによるシーン順序の変更

シーンの順序変更がよりインタラクティブになり、PowerPointのように、シーンをドラッグ&ドロップするだけで、直感的に順序を入れ替えることが可能になりました。

(4) テロップベース非表示オプションの追加

Standard、Premiumプランをご利用の方向けに、テロップベース(スクリプトが表示される背景)を非表示にできるオプションを追加しました。NoLangで生成した動画をさらにカスタマイズしたい方は、ぜひご利用ください!

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!