- Newsletter from Mavericks
- Posts
- Metaが史上最高性能のオープンLLM「Llama 3」を発表!音声対話領域においてなぜオープンLLMの進化が重要なのかなど
Metaが史上最高性能のオープンLLM「Llama 3」を発表!音声対話領域においてなぜオープンLLMの進化が重要なのかなど
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったニュースや注目ツールの紹介に加えて、音声対話領域においてなぜオープンLLMの進化が重要なのかについて解説します!
📚 目次
1. 直近のビッグニュースTop 3
① Metaが史上最高性能のオープンLLM「Llama 3」を発表
② MetaのスマートグラスにマルチモーダルAIが搭載!
③ AIアバターが文章解釈をもとに感情を込めて喋れるように
2. SNSで話題のAIツールをピックアップ!
① Groq
② Wonder Studio
1. 直近のビッグニュースTop 3
① Metaが史上最高性能のオープンLLM「Llama 3」を発表
ここ数ヶ月間でのオープンLLMコミュニティの盛り上がりは凄まじく、過去最高レベルのオープンLLMが次々と公開されていました。そんな中、先日ついに、大本命であるLlama 3がMetaより公開されました。今回公開されたのは小型の8Bモデルと中型の70Bモデルであり、同規模のLLMと比較してもずば抜けた性能を持ちます。
Llama 3の性能比較。特に中型の70Bモデルが、クローズドLLMのGemini Pro 1.5やClaude 3 Sonnet(両者ともにパラメータ数は非公開)と肩を並べている点に注目。
Metaの公式発表より抜粋
高性能なオープンLLMにアクセス可能になると、利用者や開発者にとってはどのような恩恵があるのでしょうか?3点に分けて説明していきます。
1. 自由にカスタマイズ可能
オープンLLMの最大の魅力は、自由にカスタマイズ可能なことでしょう。ELYZA社をはじめとする複数のモデル開発企業は、Llama 2をベースにした日本語特化モデルを開発しました。また、大きな話題を呼んだ音声会話型おしゃべりAIアプリ「Cotomo」に搭載されたチャットボットは口語での会話に特化していますが、こちらにも独自LLMが使用されており、オープンLLMをベースにして開発されたと考えられます。
また、カスタマイズ可能なのは出力言語や文体だけではありません。Groqが提供するAIチップ「LPU」(以前のニュースレター参照)による高速化によって、Llama 3 8Bの速度が800 tokens/sと3~4倍程度高速になることがXにて報告されています。
2. 規制に縛られない
Claude 3は必要以上に倫理に厳しいことで知られており、例えば「2ちゃんねる形式でClaude 3とGPT-4を比較する」ことさえも拒まれてしまいます。ChatGPTはより規制が緩いと言われますが、それでも過去に、利用規約に違反するとしてユーザーがバンされた例が多数あります。
これは、LLMを用いて創作活動を行う人にとっては致命的な問題です。バンされる危険性と隣り合わせであることはもちろん、表現が規制されている時点で、好ましくない状態と言えます。
オープンLLMはこういった規制に縛られない上、チュ-ニングも自在に可能という点で、創作活動との相性は抜群です。個人単位で、創作に特化した日本語LLMを公開する動きも出てきており、この動きはさらに加速していくと予想されます。
3. インターネットとの接続を必要とせず、どこにでも搭載できる
オープンLLMは、インターネットに接続できない環境でも使用できる上、機密情報が漏洩するリスクも一切ありません。また、エッジデバイス上に直接搭載することも可能で、Llama 3 8Bがラズベリーパイ上で2 token/sで動くことも確認されています。
なお、現在公開されているLlama 3 8B, 70Bの日本語性能は、英語での性能に比べるとかなり劣る印象で、日本語リーダーボードではGPT-3.5に大きく劣る結果となっています。それでも、Llama 2をベースとした高性能な日本語モデルが多数出現したことを踏まえると、近いうちに過去最高性能の日本語特化モデルが出現することは大いに期待できます。
② MetaのスマートグラスにマルチモーダルAI機能が搭載!
Metaが次世代スマートグラスRay BanにマルチモーダルAI機能を搭載したことを明らかにし、こちらも興味深い発表となりました。グラスをかけた状態で「この建物について教えて」と尋ねると、AIが回答してくれる様子も公開されています。
Metaからワクワクする発表です!同社のスマートグラスにMeta AIのビジョン機能が追加されると発表されました!
グラスをつけた状態で「Hey Meta」で始めて
「これ翻訳して」「この建物について教えて」
と話しかけるだけで、回答を音声付きで教えてくれ、リアルタイム情報にもアクセス可能です!
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
5:37 PM • Apr 23, 2024
MetaのLlama 3についての発表では、公開したモデルらに加えて、マルチモーダルな400Bモデルを訓練中であり、その性能はGPT-4を超えるレベルであることも明らかにされました。それゆえ、今回搭載されるAI機能には、Llama 3の開発で培ったマルチモーダルAIに関する技術がふんだんに活かされていると考えられます。
こうした発表を受けてMeta の動向に関心が集まっていますが、CEOのザッカーバーグ氏は先日のインタビューにて「私たちはソフトウェア、とりわけ低レベルのインフラをオープンソースにしてきたが、プロダクトをオープンにする傾向にはない」と発言しました。つまり、LlamaをはじめとするAIモデルをプロダクトとして見なしてはいないと言うのです。
寧ろ懸念しているのは、OpenAIのような巨大企業がモデル開発を独占することによって、例えばファインチューニングの方法が限られるなどして、プロダクト開発に制限が生まれてしまうことのようです。今回は、自社で培ったAI技術をスマートグラス開発にうまく取り入れた形となりましたが、今後もこのような形で、AIモデル開発を行う企業ならではの画期的なプロダクトが発表されることを期待したいものです。
なおスマートグラスRay Banは、アメリカを含む一部地域のみで販売されていますが、日本では未販売です。
③ AIアバターが文章解釈をもとに感情を込めて喋れるように
AIアバター動画の生成サービスを提供するSynthesia社が、発話内容に合わせて表情や声のトーンを変化させられる、新たなアバターモデルを発表しました。AIアバターが、読み上げ文章から喜怒哀楽を読み取った上で、非常にナチュラルに感情を載せて喋るデモ動画が公開されています。是非音声ONでご覧ください!
HeyGenでもかなりリアルなアバター動画を作れると思っていましたが、更に進歩してきたと感じます!
SynthesiaのAIアバターが進化し、発話内容に合わせて表情や声のトーンを変えられるように
喜怒哀楽がよく伝わってきます。俳優が喋っているかのようです!
それに加えて、
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
5:40 AM • Apr 25, 2024
このようなAIアバター動画作成ツールとしてはHeyGenが有名で、堀江貴文氏が自身のアバターが喋る動画を「ホリエモンAI学校」のプロモーションに使用するなど、国内でも広まりを見せています。
今回Synthesiaが公開したアバターは、同社の過去アバターはもちろん、Heygenのアバターと比べても、AI生成特有のパターン化された動きによる違和感が少ないです。Synthesia社のアバターはこの3年間で飛躍的に進化しており(比較動画)、今後もリアルさは増していくばかりでしょう。
AIアバターは、あらゆる言語を流暢に話せることから多言語配信と非常に相性が良いです。レポーター全員にAIアバターを起用し、グローバル配信を行うニュース番組「Channel 1」なるものも登場しており、その威力を感じさせられます。
こういったAIアバター動画の生成はコスト面で問題を抱えており、現状1分2ドル程度の費用がかかる(HeyGenの場合)他、値下げの動きも長い間見られていません。それでも技術は着実に進歩しており、今後も目にする機会は増えていくと予想されます。
2. SNSで話題のAIツールをピックアップ!
Groq (https://groq.com/)
次世代AIチップ「LPU」上で動作する高速化されたLLMを体験できるツール
Llama 3も搭載されており、70Bモデルは300 tokens/s, 8Bモデルは800 tokens/sという脅威的な速度で動作
サインアップ不要、無料で即使用可能
Wonder Studio (https://wonderdynamics.com/)
映画「レディ・プレイヤー・1」の主演俳優らによって開発された実写動画内の人物を3DCGキャラクターで置き換えられるツール
モーションはもちろん表情まで追跡し、非常に高い精度で置き換え可能
人物にはタグ付けがなされるため、シーンが変わっても、追加の操作なしに自動的に置き換えがなされる
サンプルとして用意されたCGキャラクターとの置き換えを無料で行える
3. 音声対話においてオープンLLMの進化がなぜ重要か
オープンLLMの台頭により、LLMを活用したアプリケーション開発が更に盛り上がっていくことが予想されますが、注目すべき応用先として「音声対話」があります。この領域においては、LLMが早く/速く回答をしてくれることが非常に重要です。
LLMの回答の早さ/速さを司る変数として、「レイテンシ」「スループット」の2つがあります。レイテンシは、LLMが回答を開始するまでの時間、スループットは1トークンあたりの出力時間です。レイテンシは入力長によらず概ね一定ですが、スループットと出力長に応じて、回答開始から出力完了までの時間は長くなります。
音声対話領域において、現在問題となりうるのは「レイテンシ」です。人間が会話に応答する時間は平均0.2秒であり、1秒以内に相手が話に反応してくれないと人はストレスを感じるとされます。
しかし、Artificial Analysisによるデータを見れば分かる通り、残念ながら、現状APIで提供されているほとんどのLLMはこの条件を満たしていません。大規模なモデルだと、そもそも応答時間が長い他、待ち時間が生じたり、通信が不安定なことにより、レイテンシが長くなってしまうケースもあります。
Artificial AnalysisによるAPIで提供されている主要LLMのレイテンシの計測結果
その点、APIに頼らず自らLLMを用意できれば、レイテンシをモデルの応答時間に限りなく近づけることができるという大きな利点があります。
オープンLLMの話題になると、しばしばクローズドLLMとの性能比較が語られがちですが、今回見てきたように、オープンLLMが圧倒的に優位にあるような応用先においては、オープンLLMの性能向上そのものに大きく意味があります。
例えば、今年大きな話題を呼んだ音声会話型おしゃべりAIアプリ「Cotomo」に搭載された独自開発のAIは、話が堂々巡りになるケースが多かったり、前回のサッカーW杯の開催地をアメリカと答えてしまうなど、知能面ではあまり優れていない印象でした。このような問題が解決されることで、より革新的な体験が提供されることが期待されます。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… twitter.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024