• Newsletter from Mavericks
  • Posts
  • Sakana AIが研究活動を完全自動化する世界初のAIシステムを公開!NoLangで「分かりやすい対話動画」を作成するための3つのコツなど

Sakana AIが研究活動を完全自動化する世界初のAIシステムを公開!NoLangで「分かりやすい対話動画」を作成するための3つのコツなど

Newsletter from Mavericksをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで「分かりやすい対話動画を作成するための3つのコツ」について解説します!

1. 直近のビッグニュースTop 3

① Sakana AI社が研究活動を完全自動化する世界初のAIシステムを公開!

AI分野の研究者たちは、AIが進歩を遂げるたびに「あとはAIに論文を書かせる方法を見つけるだけだ!」と冗談を言い合うのが常だったそうですが、ついにその冗談が現実のものとなってしまいました。東京に拠点を置くAI企業「Sakana AI」が、最初の準備以外、一切の人間の介入なしで研究プロセスを自動化できるAIシステム「The AI Scientist」をオープンソースで公開しました。以下のような論文を自律的に執筆でき、その査読まで行えます。

The AI Scientistにより執筆された論文の抜粋(全文はこちら

まず、このAIシステムの概要と画期的な点について述べた上で、次の節にて、限界や今後の展望について見ていきます。

▼The AI Scientistの概要・画期的な点

The AI Scientistは、「アイデア出し→研究計画策定→実験→論文執筆→査読→改善…」という人間による研究活動をほぼそのまま、自律的に再現します。研究計画の策定や論文執筆にあたって、APIを使用して他の文献の情報を取得することで、研究の新規性や正確性を保証しています。

The AI Scientistの概念図。大きく分けて「アイデア生成」「実験」「論文執筆」「査読」の
4ステップからなる(Sakana AI公式発表より抜粋)

論文1本の執筆に要するコストは僅か15ドル未満と破格の安さである上、執筆された論文の一部は、最高峰の機械学習学会「NeurIPS」の査読プロセスを模したAI(本研究により提案)によって学会に採択される価値を持ちうる論文と評価されています(10段階中5点のBorderline Accept。4点だとBorderline Reject)。また報告では、研究者からみても有意義な研究テーマが選択された事例もあったと述べられています。

冒頭で述べた、このAIシステムを動かすために必要な「最初の準備」とは何を指しているのでしょうか?特にクリティカルなものを2つ挙げます。

(1) 研究のアイデア

論文を執筆するにあたって最も重要なのは「何を研究するか」と言われますが、ここに関してはAIではなく人間が考えなくてはなりません。ただしここで必要なのは、研究名、400文字程度の概要に加えて、「興味深さ」「実現可能性」「新規性」といった研究の良さを測る尺度を主観的に決め打ちしたものだけです。このアイデアは、その後LLMによって何度もブラッシュアップされ、やがて研究計画として採用されます。

研究計画策定にあたって種となるアイデアの例(提案論文より抜粋)

(2) 実験に使用するプログラミングコードのベースライン

The AI Scientistは数値実験を通して新手法を探索・改善していきますが、その前に実験で使われるプログラミングコードのベースラインを事前に用意する必要があります。これは既存手法の実装コードに対応しており、AIシステムはこのコードを改変して提案手法を実装します。

② AIが自ら研究する時代は到来するか?The AI Scientistの限界と今後の展望

▼The AI Scientistの限界

(1) 致命的なハルシネーションや過ちを引き起こしてしまう

この研究では、人間なら絶対にしないような過ちを起こしてしまうという生成AIの根源的な問題を解決できていません。例えば以下のような例が報告されています:

  • 使用したGPUの情報が与えられていないのにも関わらず、勝手に推測して記述してしまう

  • 指標が悪化したのにも関わらず「改善した」と述べてしまう(すなわち、2つの数値の比較さえ正確に行えないことがある)

また査読プロセスにおいて、AIがそれらを見抜けていないことも問題です。上記の誤りを含む論文は、査読AIによって学会に採択される価値を持ちうる論文だと評価されてしまっています。

(2) 実験の上流設計を行えない

実験で使うべきコードのベースラインを事前に与えており、実験設計において人間の介入度合いが大きい点も限界として挙げられます。現状、AIにとって一から実験用コードを作り上げることが困難であることはもちろん、参考になるコードをweb上から探し出すに足る検索能力を有していないことも大きな壁と言えるでしょう。

▼今後の展望

このようにThe AI Scientistは、生成AIや検索システムの持つ根本的な問題は解決できていませんが、まだまだ研究としては初期段階であり、大きな伸び代があります。

この研究で使用されたのはGPT-4oやClaude 3.5 Sonnetといった他社によって提供されているチューニングされていないLLMであり、研究用途への最適化余地があります。また、テキスト処理しか用いておらず、マルチモーダル機能を活用して参考論文の図表をインプットすれば、大きな精度向上が期待できます。

体裁の整った有意義なテーマの論文を、冒頭以外一切人間の手を借りずに執筆し切れているという点は非常に画期的です。そして、今回は査読結果を元にした論文の更なる改善はコンセプトとして示されているだけであり、実装されていないようですが、こういった大きなサイクルまで完遂できるようになれば、論文の正確性を向上させるブレイクスルーとなるかもしれません。

③ xAIがチャットボット「Grok-2 Beta」をリリース。画像生成AIのFluxも使用可能

イーロン・マスク氏率いるxAI社が、チャットボット「Grok」をバージョンアップし、「Grok-2 Beta」としてリリースしました。Grok-2と、より小型のGrok-2 miniが発表されており、Grok-2はChatbot Arenaで、GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 ProといったLLMに匹敵するスコアを達成しています。

Chatbot ArenaにおけるELOと呼ばれるスコアの比較。Grok-2は4番手に来ている
xAI公式発表より抜粋)

8月18日現在、Grok-2 miniのみがXのプレミアムプラン以上のユーザーに提供されているようです。私も試してみましたが、関連ポストの取得精度が以前(過去のニュースレター)よりは向上したものの、下記のように質問に関係のないポストが拾われることも多く、情報収集用にはまだまだ便利とは言い難い状況です。

「NoLang 2.0とは?」という質問に対するGrok-2 miniの回答

むしろSNSで現在話題になっているのは、前回のニュースレターでも取り上げた画像生成AI「Flux」が利用可能であることです。ChatGPTと同様にテキストプロンプトから画像生成でき、生成画像の品質の高さについて言及するユーザーが多い一方(アニメ画像生成例Midjourneyとの簡易的な比較)、著作権・肖像権を侵害するようなコンテンツが簡単に生成されてしまうことを危惧する声もあります

なお、SNSでは依然、Fluxが度々話題となっています。Perplexityの有料ユーザーが、検索結果に沿った画像をFluxで生成できるようになったほか、生成画像のスタイル、キャラの顔などを指定できるLoRAモデルも早速出回ってきています(CivitAI等のサービスで確認可能)。

元々画像生成AI分野は、高性能だがクローズドゆえカスタマイズしにくいMidjourneyと、性能こそ劣るがオープンであり狙った画像を生成しやすいStable Diffusionの両者が存在感を示していました。しかしStable DiffusionのStability AI社が失速し、代わりにより高性能なFluxが登場したことで、勢力図が大きく変わろうとしています。今後のこの分野の動向に大きな注目が集まります。

2. SNSで話題のAIツールをピックアップ!

Runway Gen-3 Alpha Turbo (https://runwayml.com/)

  • 大きな話題を呼んだGen-3 Alphaの小型モデルが先週より使用可能に。Gen-3 Alphaより7倍高速で2倍安い

  • Gen-3 Alphaと異なり無料ユーザーも利用可能。少なくとも25秒分の動画を生成できる

  • 無料プランで動画生成したところ、5秒の動画生成に10-20秒かかり、追加で10秒程度待ち時間が発生した

  • 生成動画の品質は高いが、プロンプトへの追従性はまだ低いことを実感できる

  • テキストから分かりやすいポンチ絵を瞬時に生成してくれるサービス

  • 複数の図解方法から選択→その後複数のスタイルから選択といった形で自分の気に入った絵を選べるのが魅力的

  • 絵はPNG, SVG, PDF形式でエクスポート可能な上、文字・色等を生成後に変更することも可能

  • 現在はベータ版であり、無料で全機能を利用可能

3. 🐬NoLangで「分かりやすい対話動画」を作成するための3つのコツ

NoLangの対話モードを使えば、Q&A形式、討論形式など様々なスタイルで、良いテンポの分かりやすい動画を作成できます。

対話モードでは特に、生成動画の内容についてAIに追加指示を与えられる「プロンプト」が生成内容を大きく左右します。今回は、分かりやすい対話動画を作成するた目の3つのプロンプトテクニックをご紹介します。

(0) はじめに:プロンプト機能の使い方

ヘッダーにある「動画設定」より「プロンプト」タブを選択します。オリジナルのプロンプトを作る際は、「マイプロンプト」を選択して「+追加」ボタンをクリックして作成できます。

(1) 各話し手の人物像や両者の関係性を簡潔に設定する

NoLangでは「話し手を誰かになりきらせる」ことが有効であり、特に対話モードにおいては、話し手たちの人物像・関係性が会話内容に多大な影響を与えます。人物像であれば、職業、性格、長所・短所などを指定できます。

ここで注意が必要なのは、人物像・関係性は明確に設定すべきだが、長々と書いてしまうと、効きが悪くなってしまったり、予期せぬ形で設定を拾ってしまう可能性があることです。その人物を表すのにピッタリな言葉を見つけて簡潔に記述しましょう

(2) 語り手と聞き手に「対になる役割」を与えてあげる

人物像や関係性を指定する際、語り手と聞き手に対になる役割を与えることで、より会話の内容がリアルかつ面白くなります。「生徒と教師」「上司と部下」「案内役と質問役」といった関係性はもちろん、「知識がない人と物知りな人」「過激派と穏便派」といったように、人物像の設定においても対になる役割を与えてあげるのが有効です。

例えば、公式プロンプト「生徒と教師」では、このように「知識不足の生徒」「物知りの教師」
という対の役割を与えています。

(3) 聞き手の反応のバリエーションをコントロールする

特にQ&A形式の対話動画の場合、聞き手のリアクションが簡単な相槌や質問ばかりで単調になってしまうことがあります。その場合は、以下のようにして聞き手のリアクションのバリエーションを増やせます。

  • 語り手の説明を別の言葉で言い換えて確認し、理解を深める

  • 語り手の説明に関連する個人的な経験や観察を短く共有し、話を広げる

  • 短絡的に相槌を打つだけでなく、語り手の進行を円滑にする形で具体的な質問を投げかける

  • 現在の話題と以前に触れた内容との関連性を指摘しつながりを探る

  • 説明された概念の長所や短所について尋ね、批判的思考を促す

  • 視聴者が持つかもしれない疑問や懸念を代弁して質問する

ただし、「生徒と教師」のような関係性では、生徒側が喋りすぎたり、話を広げすぎたりするとかえって分かりにくくなることもあります。関係性に合わせて適切に聞き手の反応のバリエーションを設定してみましょう。

なお基本的には、このように逐一パターンを記述するより、話し手たちの人物像・関係性を適切に設定した方がうまくいきます(これは前回紹介した「ルールを逐一指定するのではなく真似させるのが吉」という原則に通じます)。このようなリアクションのコントロールは、補助的に使用するようにしましょう。

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!