- Mavericks AI ニュース
- Posts
- GPT-4に迫る日本語性能を達成するオープンLLM「Command R+」が公開、Sunoの対抗馬となる音楽生成AIがついに登場!など
GPT-4に迫る日本語性能を達成するオープンLLM「Command R+」が公開、Sunoの対抗馬となる音楽生成AIがついに登場!など
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったニュースや注目ツールの紹介に加えて、AI分野に革命を与えた「Attention is All You Need」論文著者たちの現在について解説します!
📚 目次
1. 直近のビッグニュースTop 3
① GPT-4に迫る日本語性能を誇るオープンLLM「Command R+」が公開!
② OpenAIがGPT-4の学習に100万時間以上のYouTube動画を使用
③ 「Suno」の対抗馬となる高性能な音楽生成AIがついに登場!
1. 直近のビッグニュースTop 3
① GPT-4に迫る日本語性能を誇るオープンLLMが公開!
「Attention is All You Need」論文の著者の一人であるAidan Gomez氏がCEOを務めるCohere社が、104Bのパラメータを持つオープンLLM「Command R+」を公開しました。様々なベンチマークにおいて、他のオープンモデルに大差をつけて過去最高性能を達成している上、日本語のベンチマーク性能もGPT-4に迫るレベルです。さらにGomez氏が「日本語機能の向上を最優先とする」と発言したことから、今後も大いに期待できる発表となりました。
Command RおよびR+の主要言語として日本語をサポートできることを嬉しく思います。日本語の機能を今後も向上させていくことを最優先事項とします。
— Aidan Gomez (@aidangomez)
11:56 AM • Apr 11, 2024
ここに来て、オープンLLM開発は一段と活発さを増しています。ここ1ヶ月間だけでも、イーロンマスク氏率いるXAI社による「Grok-1」の公開(前々回)、データ管理・分析プラットフォームを手掛けるDatabricks社による「DBRX」の公開(前回)、さらにはLlama 2の1万分の1以下の学習コストで同モデルを上回る性能を達成した「JetMoE」の公開などがありました。
さらにはTechCrunchによると、Meta社が遅くとも来月中には「Llama 3」を公開すると認めたようです。
一方で、国産のオープンLLMの開発には陰りが見え始めています。この分野にて開発をリードしてきたELYZA社は、先日発表したGPT-3.5レベルのLLM「ELYZA-japanese-Llama-2-70b」をAPIで提供予定と述べており、モデルをクローズドにする決断をしたと言えます。
国内外でLLMの性能差や開発力に大きな開きがあることを踏まえると、国内企業が開発したLLMがそれ単体で価値を持つ場面は少なく、クローズドにするのは自然な流れと言えます。革新的な研究成果が得られない限り、今後もなかなか差は縮まらないと予想されます。
② OpenAIがGPT-4の学習に100万時間以上のYouTube動画を使用
OpenAIが、GPT-4をはじめとしたAIモデルの学習に、100万時間以上のYouTube動画を使用していたとニューヨークタイムズ紙などが報じました。YouTubeの利用規約において、コンテンツの無断スクレイピングやダウンロードは禁止されており、それらをAIの学習に用いることも本来違反となる行為です。
同紙によるとOpenAIは、YouTube動画を同社が開発する文字起こしAI「Whisper」を用いて文章に変換し、これをGPT-4などの学習に用いていたようです。YouTubeと親会社を共にするGoogle社内には、この事実に気づいている従業員がいたものの、同社もAIモデルの学習にYouTube動画を活用していたため、黙認していたとのことです。
こうした強引なデータ収集は、データ枯渇が目前に迫っていることを示唆しています。実際研究によって、高品質なテキストデータは2026年に枯渇し、低品質なテキストデータは2030年に不足するといった予測がなされています。
分野こそ変わりますが、クリーンさを謳っているAIモデルの中で最も有名なのは、Photoshop, IllustratorといったAdobe社の主力製品に直接搭載され、画像生成や動画編集をサポートする「Adobe Firefly」ではないでしょうか。Adobe社は、独自にストックデータを保有し、Fireflyもストック内の数億の画像データで学習されています。同社は、Fireflyの学習に使用されたコンテンツの作成者にロイヤリティを支払っている他、1分あたり3ドル前後で動画コンテンツの買取も開始しています(Bloomberg)。
ただそんなFireflyも、100%クリーンとはいかないようです。Bloombergは、Fireflyのロイヤリティが、AI生成と断ってMidjourneyの生成画像を投稿していたユーザーにも支払われていたと報じています。Midjourneyは、鬼滅の刃をはじめとする著作権で保護されたコンテンツを容易に生成できてしまい(過去のX投稿)、その生成画像も当然クリーンとは言えません。こうしたデータの扱いを巡る問題は、データの枯渇が進むにつれて、更に顕著になっていくでしょう。
③ Sunoの対抗馬となる高性能な音楽生成AIがついに登場!
Google Deepmindの元研究者らが先週、音楽生成AI「Udio」をリリースしました。歌声も生成可能な音楽生成AIにおいては、「Suno」一強の状態が長らく続いていましたが、Udioの登場によってその構図が大きく変わりそうです。
生成される音楽の質は極めて高く、少なくとも素人にとっては、AI生成だと判別するのが困難なクオリティです。是非以下のデモ動画を音声ONでご覧ください!
Introducing Udio, an app for music creation and sharing that allows you to generate amazing music in your favorite styles with intuitive and powerful text-prompting.
1/11
— udio (@udiomusic)
1:00 PM • Apr 10, 2024
UdioはSuno同様、日本語の曲を生成することができます(Xに投稿された作品例)。また、[spoken], [guitar solo]といったタグを歌詞に挿入することで、楽曲を自在にコントロールでき、それらを駆使されて作られたこちらの作品は見事でした。笑い声が挿入されたトーク音源(X投稿)を生成するといった変わった使い方もされています。
Udioは、音楽生成AIにつきまとう著作権問題について対処していく方針も示しています。プラットフォーム上で作成された音楽がオリジナルであり、いかなる著作権も侵害していないことを保証するためにセーフガードを導入していると述べており、学習データの出所を明らかにしていないなど、消極的な姿勢を見せているSunoとは対照的です。
Udioは現在無料で使用することができます。仕様や使い方については、次のセクションで解説しています。
2. SNSで話題のAIツールをピックアップ!
Udio (https://www.udio.com/)
テキストから高品質な歌・音楽を生成できるAI
1分程度で、30秒程度の楽曲が2-4曲生成。日本語対応
延長機能を駆使してフル尺の曲を生成したり、リミックスすることも可能
現在はベータ版として提供されており、無料で1ヶ月あたり1200曲生成可能
Ideogram (https://ideogram.ai/)
テキスト入りの画像生成を得意とする画像生成AIツール
無料で使用可能にも関わらず、人手評価において、4つの項目でMidjourney V6, DALL-E3を超える性能を達成
4/12にアップデートされ、テキスト誤り率が減少して更に使いやすくなった
サインアップするだけで即使用でき、無料で一日100枚 (25回) 生成可能
3. 「Attention is All You Need」論文著者たちの現在
Attention技術は、GPTを含めたあらゆるLLMに使用されている、生成AI分野における中核技術です。2017年にGoogle Deepmindの研究者らによって「Attention is All You Need」という論文で発表されました。
この論文の著者たちの多くは、現在もAIスタートアップを率いる実業家として、様々な場所で大きな活躍を見せています。ここでは、各々が立ち上げた会社の現在について見ていきます。
昨年5月時点での、Transformer論文著者たちの所属。
Parmar, Vaswani氏は、Adeptを離れた後、Essential AIを共同創業して現在に至ります。
画像はBridgeより引用(ソース)
① Aidan Gomez (Cohere CEO)
本記事でも取り上げたように、「Command R+」を開発するCohere社は、Transformer論文の著者Gomez氏によって創業されています。
Cohere社はエンタープライズ向けにLLMやRAG技術を活用したプラットフォームを提供する企業です。同社はCommand R+の公開直後、「Rerank 3」と呼ばれるRAG関連の技術も発表しています。これは、ベクトル検索の代わりにLLMを使用するもので、文書検索の性能向上に加え、JSONのような半構造データをうまく扱えることが期待されます。こうしたRAG技術を公開している企業は珍しく、引き続き注目すべき企業と言えるでしょう。
② Llion Jones (Sakana AI CEO)
Jones氏は、今年のCB InsightsのAIスタートアップTop 100に、日本を拠点とする企業として唯一選ばれたSakana AI社を共同創業し、現在CEOを務めています。
同社は、多数の小型AIを効率的に連携させることに注力しており、先日には、2つのAIモデルを「いいとこ取り」した新しいモデルを作成できるモデルマージ技術(詳しくはこちら)を発表したことで話題を集めました。
③ Noam Shazeer (Character.AI CEO)
上記2社が、著者らの研究領域ど真ん中であるAIモデル開発を行っているのに対し、Shazeer氏は、好きなキャラクターのAIチャットボットを作成・共有できるCharacter.AIを創業しており、アプリケーションレイヤーで勝負しています。
極めてシンプルなサービスであるにも関わらず、2023年9月時点でChatGPTの約60%のトラフィックを獲得したとされています。また、先月発表されたa16zによるレポートにおいては、モバイルアプリを中心に、AIコンパニオンが主要なユースケースとして盛り上がりを見せていると述べられています。Character.AIは、このカテゴリの代表的プロダクトであり、今後も目が離せません。
a16zによるConsumer領域におけるモバイルアプリTop 50のエンゲージメント時間の分析
Companionカテゴリのアプリのエンゲージメントが極めて長いことが分かる(ソース)
今回は生成AI分野において大活躍をしている3人の人物を取り上げましたが、他の著者も、AIエージェント・ワクチン・ブロックチェーンプロトコルなど、広範な分野で活躍を見せています。以下の投稿に続きをまとめていますので、気になった方は是非ご覧ください!
AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… twitter.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024
また私たちは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています。ぜひご覧ください!