• Mavericks AI ニュース
  • Posts
  • 日本語特化の音声読み上げAIが立て続けに2つもリリース!無料で感情豊かな音声合成が可能に、最新版のNoLang Chrome拡張機能についてご紹介など

日本語特化の音声読み上げAIが立て続けに2つもリリース!無料で感情豊かな音声合成が可能に、最新版のNoLang Chrome拡張機能についてご紹介など

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、先日仕様変更された🐬NoLangのChrome拡張機能最新版について解説します!

1. 直近のビッグニュースTop 3

① 感情豊かに音声生成できる日本語特化の音声合成ソフトが立て続けにリリース! - Aivis Speech

今週、これまでとは一線を画す性能の音声合成AIが、国内より相次いでリリースされ、音声AI業界にて大きな話題を呼びました。11月19日にJPChain社が「Aivis Speech」をリリースし、翌20日にはAlgomatic Global社が「にじボイス(旧DMMボイス)」のサービス提供を再開したのです。まずは以下の2つの投稿にて、実際の生成音声をお聴きください!

両サービスはそれぞれ異なる強みを持っており、いずれも既存の音声合成サービスが達成できていなかった特徴を備えています。

Aivis Speechは平たく言えば、感情豊かな音声生成が可能な「Style-Bert-VITS2」を日本語用にさらに進化させた音声合成ソフトです。

「Style-Bert-VITS2」は昨年中国の研究者らによってオープンソースで公開されたモデル「Bert-VITS2」の日本語特化版で、表現力豊かな音声を生成できることが特徴です。オープンソースであることから、開発者は自前の音声データでファインチューニングしてオリジナルのモデルを作ることができます。しかしStyle-Bert-VITS2は「漢字の読み方」「アクセント」の修正が行えず、日本語音声合成特有の問題が残存していました

一方、Aivis Speechでは「ずんだもん」のキャラクターボイスで有名な音声合成ソフトVOICEVOXと互換性を持たせる形で、音声の事後修正を実現しており、大きな強みとなっています

Aivis Speechの操作画面。下部の調整パネルから読み方やアクセントを自由に変更できる。
またVOICEVOX互換であり、設定すればずんだもんの音声なども読み上げできる。

そして、Aivisに関する注目すべき発表はこれだけではありません。

Google Colabなどの環境で簡単な操作を行うだけで、専用に録音されていない玉石混合の音声データからでも、Aivis Speech対応の音声合成モデルを作成できる「AivisBuilder」のリリースを予定しているほか、音声合成モデルの共有プラットフォーム「AivisHub」を既に公開しています。

Aivisのプロジェクトページでは、「AivisSpeech でのローカル音声合成から、モデルの制作・ミックス・公開まで、Aivis Project は誰もが自由に好きな声を共有できる未来を形にしていきます」と述べられています。Aivisの音声合成モデルが、今後の日本語音声合成モデルのスタンダードへとなっていくのか、注目したいところです。

💡Aivis SpeechのデスクトップアプリはMac, Windows共に、無料でダウンロード・利用可能です。次のAIツール紹介のセクションも併せてご覧ください。

② 感情豊かに音声生成できる日本語特化の音声合成ソフトが立て続けにリリース! - にじボイス

Aivis Speechには大きな可能性が秘められている一方で、普及に向けていくつかの課題も抱えています。11月24日現在、音声合成モデルの共有プラットフォーム「AivisHub」に登録されている公式モデルは1つのみであり、有志によって共有されたモデルを含めても10に満たない状況です。また、主にデスクトップアプリとして提供されているため、CPUでもある程度高速に動作しますが、PCへの負荷は避けられません。

一方「にじボイス」は、アニメ音声に特化したサービスながら、既に35種類のボイスを公式提供しており、年内に100種類まで拡充する計画を発表しています。さらに、Webアプリとして提供されているため、使用環境を問わず手軽に音声合成を行えることが大きな強みとなっています。

にじボイスの操作画面。キャラクターを選んで、読み上げ文章を入力・再生するという極めてシンプルな作りとなっている。

両サービスの性能比較に関しては、既にSNS上でユーザーによる検証結果が投稿されています(例1例2)。これまでの議論も踏まえて総括すると、「Aivis Speech」は自由度の高さが際立っており、手間暇をかければオンリーワンの理想的な音声に近づけていくことができる点が魅力的です。対して「にじボイス」は、テキストを入力するだけで手軽に、まるで声優がアフレコしたかのような表現力豊かな音声を生成できる点が強みでしょう。

今年は世界的に見ても音声AIの性能・表現力が飛躍的に向上した一年であり、特にOpenAIが発表した「高度な音声モード」は、自然な読み上げと極めて短い応答時間を両立し、大きな反響を呼びました(過去のニュースレター)。

しかし、OpenAIやElevenLabsといった海外企業が提供する音声合成サービスでは、昨年より改善されているとはいえ、日本語と英語で大きな性能差があります。このような状況下で、国内企業から立て続けに高性能な音声合成サービスがリリースされたことは、日本語音声合成分野の発展に向けた大きな一歩と言えるでしょう。

💡にじボイスは12/4までの期間限定で、無料で利用可能です。次のAIツール紹介のセクションも併せてご覧ください。

③ 音楽生成AI「Suno」がV4へとアップデート!音質がクリアになり表現力も劇的に向上

昨年末に音楽生成AI「Suno V2」が極めて高性能だと日本で大きな話題となり、「AI音楽生成に革命が起きた」と持て囃されましたが、それから一年、Sunoはさらに飛躍的な進歩を遂げています。

先週、音楽生成AI「Suno」がV4へとメジャーアップデートされました。特筆すべきは「大幅な音質の向上」です。これまでのSunoで生成された音楽は「シャカシャカしたノイズを含むこもった音声」になりがちでしたが、V4で生成された音楽は極めてクリアです。さらに、表現力も著しく向上しており、肉声に近い自然な歌声が生成されています。

以下の検証動画では日本語で生成された音楽を聴けるほか、過去バージョンとの比較も詳しくなされており、音楽生成AIの進化を体感できます。是非音声ONでご覧ください。

このようにこの一年での音楽AIの音質向上には目覚ましいものがありますが、進化はそれだけではありません。先日リリースされた「Personas」機能により、AI歌手を指定して楽曲を生成できるようになっているほか、「Replace Section」機能を使えば、メロディーはそのままに、楽曲の一部分を選択して歌詞のみを修正することも可能になっています(両機能の実例付き解説動画)。発展途上ながら、音楽生成AIの制御性も大きく向上した一年でした。

AIがこのような進化を遂げた今、SNSで「AIが生成したのか判別できない」といった発言が随所で飛び交っていますが、実はその道のプロですら判別が困難なケースが出てきているようです。例えば「ジョジョの奇妙な冒険」シリーズの作者である荒木飛呂彦さんは、自身の著書の中で、自分で描いたと思った絵がAI生成だと知って驚いたと述べています:

 この前、「これ、俺が描いたよな」という絵を見たのですが、実はAIで描いたものだと知って驚きました。僕が漫画を描くときは、ちょっと自分らしさの印になるようなものを絵に入れています。でもその絵は「この辺のまつ毛の感じとか、俺の絵だよね」というところまでそっくり真似をしていて、本当に見分けがつかないのです。最近の絵だったら「いや、こんなの描いてないよ」とすぐわかりますが、一〇年くらい前の絵でこれをやられたら、記憶も曖昧になっているので、もう全然わかりません。今後、AIが進化すればするほど、こういうことが増えていくでしょう。

ITmediaより引用

テキスト・画像・音声といった、大量の学習データが入手可能な分野では、AIが人間の作品・生成物を極めて緻密に模倣できるという認識が、今後ますます当たり前になっていくのではないでしょうか。

💡Suno V4はPro、Premierの有料ユーザー向けにベータ版として公開されています。

2. SNSで話題のAIツールをピックアップ!

  • 感情豊かに音声生成できる無料かつ日本語特化の音声合成ソフト

  • 「漢字の読み方」「アクセント」などの修正も簡単に行える点が非常に魅力的

  • Mac, Windows共に対応しており、無料でダウンロード可能

  • 音声合成ソフトVOICEVOXとも互換性があり、「音声合成エンジン→音声合成エンジンの管理」から登録することで、VOICEVOXでの音声合成もできる

にじボイス (https://nijivoice.com/)

  • まるで声優がアフレコしたかのような表現力豊かな音声を生成できる、国内発のアニメ声特化の音声合成ツール

  • 元々「DMMボイス」の名で提供されていたが、4日間で概算700万文字の音声が生成されるほどの人気を博したため、一時中断を経てリニューアル

  • 現在35種類の音声が提供されており、年内に100種類まで拡充予定

  • 12/4までベータ版であり、無料で140字以内の音声を何度でも生成可能

3.  🐬NoLang 2.0リリース後に仕様変更された、Chrome拡張機能最新版についてご紹介!

今回は、NoLang 2.0のリリース後にアップデートされた、Chrome拡張機能最新版の仕様についてお伝えします。より安全に動画生成できるよう改良されていますので、しばらくChrome拡張機能を使用されていない方は、是非一度目を通してみてください!

Chrome拡張機能で動画生成を行う際、新たに「動画設定の確認」画面が表示されるようになっています。ここでは現在の動画設定と、生成にかかるコストを事前に確認することができます。

動画設定の変更が必要な場合は、「Web版のNoLang」リンクから、NoLang Webアプリ版の動画設定画面へ簡単にアクセスできます。なお、NoLang Webアプリ版とChrome拡張機能の動画設定は共有されているため、一度設定を変更すれば両方に反映されます。

もしこのような確認画面を経由する必要がなく、「ボタンを押下するだけで一発で動画を生成したい」という方は、「次回以降、動画生成前に設定を確認しない」のボックスにチェックを入れることで、従来通りのフローで動画生成を行えます。是非ご活用ください!

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!