- Newsletter from Mavericks
- Posts
- イーロンマスクがLLM「Grok-1」をオープンソース化!a16zレポートから見るここ半年での生成AI分野の変容など
イーロンマスクがLLM「Grok-1」をオープンソース化!a16zレポートから見るここ半年での生成AI分野の変容など
sayhi2.ai Newsletterをご覧いただきありがとうございます!
今回は、インパクトの大きかったニュースや注目ツールに加えて、a16zのレポートから見えてくる、ここ半年での生成AI分野の変化について解説します!
📚 目次
1. 直近のビッグニュースTop 3
① イーロンマスクがLLM「Grok-1」をオープンソース化
② Sakana AIが2つのモデルを「いいとこ取り」する新技術を発表
③ 大幅に進化した音楽生成AI「Suno v3」が一般公開
1. 直近のビッグニュースTop 3
① イーロンマスクがLLM「Grok-1」をオープンソース化
イーロンマスク氏率いるxAI社が、独自のLLM「Grok-1」をオープンソース (Apache 2.0) で公開しました。以下の3点を押さえておきましょう。
1. 昨年から一部ユーザーに公開されているGrokとは異なる
xAI社は昨年11月より、Xの一部課金ユーザー向けにチャットボット「Grok」を公開していました。Xのツイートデータを学習していることもあってか、高いユーモアセンスを持つことが特徴的でした。
X社のLLM「Grok」の先行利用動画が話題。リアルタイムにトレンドを把握
X社のチャットボット「Grok」を先行利用しているユーザーの、実際の使用動画が話題です。
GrokはXの投稿データにアクセスして、リアルタイムにトレンドを理解でき、更にユーモアセンス抜群です。
詳細は↓①… twitter.com/i/web/status/1…
— マーベリック|生成[email protected] (@sayhi2ai_jp)
2:57 AM • Nov 22, 2023
一方で、今回公開されたのは昨年10月時点でのモデル「Grok-1」であり、対話など特定のタスクへの最適化はなされていないと説明されています (公式発表)。それゆえ、今回公開されたモデルは、Xのチャットボット「Grok」レベルの会話体験は提供できないと考えられます。
2.非常に大規模なこともあり使用報告はないが、 オープンモデルの中では最高性能
Grok-1のパラメータ数は314Bで、オープンモデルとして有名なLlaMA 2の最大モデル (70B) の4倍超と圧倒的なサイズを誇り、個人利用はまず不可能です。それどころか、3月26日現在でも、Grok-1を提供しているAPIプロバイダーは現れておらず、使用報告も見かけません。
それでも、Grok-1はオープンモデルの中で、MMLUというベンチマークで最高性能を達成しています。先日、Googleが小型のオープンモデルLLM「Gemma」を発表したことも踏まえると、オープンモデルを開発するコミュニティにとって強力な追い風が吹いていると言えるでしょう。
3. マスク氏とOpenAIの対立が背景にある
マスク氏がGrok-1をオープンソースで公開した背景の一つとして、マスク氏とOpenAIの深い対立があります。同氏は先月「公益性の高いAIの開発によって人類の利益を目指すという当初の理念が薄れた」と主張し、OpenAIを提訴していました。
モデルの公開直後も、XにてOpenAIを強烈に皮肉っており、クローズドな開発を進めるOpenAIに対する反抗的な意味合いがあったと受け取れます。
今回の発表は、マスク氏がLLMのオープンソース化を予告してから僅か一週間での出来事であり、言わば奇襲でした。同氏が今後、どのような形で更なる手を打ってくるのか、注目が集まります。
② Sakana AIが2つのモデルを「いいとこ取り」する新技術を発表
東京を拠点とするスタートアップSakana AI社が、2つのAIモデルを「いいとこ取り」した新しいモデルを作成できる新技術を発表しました。同社が自社技術に関して詳細な発表をしたのは初めてです。
例えば「日本語が得意なLLM」と「数学に特化したLLM」を組み合わせることで、「日本語が得意な数学に特化したLLM」を作成することができます。パラメータ数7Bの小型モデルを2つ統合することで、日本語の数学問題を解くベンチマークでGPT-3.5を超える性能のモデルを作成することに成功しています。
公式発表より抜粋
さらには、異なるアーキテクチャを持つモデル同士を統合することも可能です。日本語のLLMと英語のVLM (画像とテキストを両方入力できるモデル)を統合して得られたVLMは、青信号の写真を見て、緑ではなく青に光っていると回答できており、日本文化をよく理解していることが見て取れます。
公式発表より抜粋
こういったモデルの統合技術は「モデルマージ」と呼ばれ、かねてよりオープンLLMの精度を向上させたり、Stable Diffusionモデルで所望の画風に沿った画像を生成したりするために使用されていました。しかし、望ましい結果を得るためには、統合の割合や方法を適切に見極める職人技が必要でした。
この問題に対しSakana AIは、統合の割合や方法を「進化的アルゴリズム」と呼ばれる最適化手法を用いることで、自動的に決める手法を開発しました。元PFNのエンジニアの秋葉拓哉氏も言及している通り (YouTube)、モデルマージは何故うまくいくか説明が困難な、黒魔術として知られていました。このようなケースでは、自動化アプローチが特に有効だったと考えられます。
Sakana AI社はかねてより、多数の小型AIを効率的に連携させることに注力すると発表しており、今回の発表はその方針に沿ったものでした。同社の動向から引き続き目が離せません。 (過去のSakana AIについての特集はこちら)
③ 大幅に進化した音楽生成AI「Suno v3」が一般公開
昨年12月に大きな話題を呼んだ、テキストから音楽を生成するAI「Suno」が大幅にアップデートされており、先週ついに全ユーザーに向けて公開されました。AI生成であることが素人には判別できないクオリティに到達しつつあると感じます。是非以下の動画を音声ONでお聞きください。
V3 is coming in 3…
— Suno (@suno_ai_)
4:33 PM • Mar 19, 2024
作れる曲の長さは2分間となり、ボーカルなしの曲まで作成することが可能です (生成例) 。Sunoは日本語の楽曲生成も得意としており、こちらのような非常に質の高い曲も作成できます (使い方については次のセクションで解説)。
このようにして、楽曲を数十秒程度で作成できることは大変嬉しいことである一方、Sunoは学習データの出所を明らかにしていないとして大きな批判を浴びています。画像生成AIと比較してデータの入手経路が限られていることもあり、著作物の無断使用を疑う声も多いです。
Sunoとは異なるアプローチで音楽を生成するモデルとして、ByteDanceが発表した「StemGen」があります。こちらは、ドラム、ピアノ、ベース、ギターといった楽器別に、それらの音をうまく調和させて音楽を生成できます。
どの学習データを使用して、どのような音楽生成AIを設計し、どのように活用していくべきか、まだまだ模索段階であると感じます。
2. SNSで話題のAIツールをピックアップ!
Suno AI (https://sayhi2.ai/ja/product/suno_ai)
テキストから高品質な楽曲を生成できるツール。高度なテクニックは一切不要
2024年3月にv3が一般公開。大幅に楽曲の質が向上し、ボーカルなしの曲も作れるように
高速化もなされ、45秒程度で2分間の楽曲が2曲生成
無料かつ、サインアップするだけで即使用可能
生成AIを駆使してウェブサイトをノーコードで作成できるツール。インターフェースだけでなく、ボタン送信などの基本的な機能も実装可能
「ChatGPT, Geminiを比較するWebサイト」といった形でテキストを与えたり、画像を参照させてウェブサイトを作成できる
さらにアドオン機能があり、OpenAI, Claude, Stable DiffusionなどのAPIを直感的かつ簡単に組み込める
無料かつ、サインアップするだけで即使用可能
3. a16zレポートから見るここ半年での生成AI分野の変容
a16zが、SimilarWebが推定したWebサイトのアクセス数をもとに「consumer向け生成AIウェブサービス Top 50」を算出しています。a16zは6ヶ月前も同様のレポートを公開しており、当時の結果と比較することで、ここ半年での生成AI分野の変容ぶりが見えてきます。
① 音楽、生産性向上のためのサービスが増加
この半年でTop 50のAIサービスのカテゴリは大きく変化しました。「General Assistant (ChatGPT, Geminiなどの汎用型チャットボット)」の割合が50%以上減少し、新たに「Music」と「Productivity」の2カテゴリが追加されています。
アクセス数Top 50の生成AIウェブサービスのカテゴリ (a16z算出)
左: 2023年9月、右: 2024年3月
「Music」に属するのは上述したSuno AIのみです。如何に異質な存在であるかが分かります。
一方「Productivity」に含まれるサービス数は7つにも及び、マクロな変化が起きていると言えます。YouTube動画を要約できるEightifyやプログラミング特化型の対話ボットPhind、更には会議の文字起こしが行えるOtter.aiなど、幅広い用途のサービスがランクインしています。汎用型チャットボットの割合が大幅に減少したことも踏まえると、ここ半年で、目的別にカスタマイズされた生成AIサービスが一気に浸透したと捉えることができます。
さらに興味深いのは、7つの「Productivity」サービスのうち6つがChrome Extension機能を提供しているという点です。ChatGPT間とのコピー&ペースト作業を無くすようなシームレスな体験の設計がいかに重要であるかを示唆しています。
② AIキャラクターの需要は大きく、更に増している
GPTsやCharacter.aiに代表されるような、人格を持つAIチャットボットと対話できる「Companion」サービスの数もここ半年で2つから8つまでに増えています。
驚くべきはエンゲージメントの高さです。「Companion」サービスの1ヶ月あたりのユーザーのセッション数は約180であり、他の主要カテゴリの20倍あるいはそれ以上に及びます。特に、Character.aiの使用時間の平均は1日約2時間となっています。
なお、8つの「Companion」サービスのうち6つが、ユーザーの入力を検閲しないことを謳っています。OpenAIが提供するGPTsは、AI彼女を許さないなど、かなり厳しい規定を設けていますが、やはり規制なしで自由に会話できることへのニーズは大きいようです。
国内に目を向けてみても、おしゃべりAI「Cotomo」が生身の人間と話している気持ちになると話題になったり、 ロールプレイング能力が極めて高いClaude 3がリリースされるなど、AIキャラクターへの関心は日に日に高まっています。今後も需要は拡大の一途を辿るのではないでしょうか。
a16zのレポートの全文はこちらから確認できます。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています!
さらに、本年より18000以上のGPTsの掲載を開始しました。ぜひご覧ください!
またXでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… twitter.com/i/web/status/1…
— マーベリック|生成[email protected] (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024