Mavericks AI ニュース
Posts
OpenAIが高速、安価、高性能な新モデルGPT-4o miniを発表!NoLangのChrome拡張で思い通りの要約動画を生成する方法など

OpenAIが高速、安価、高性能な新モデルGPT-4o miniを発表!NoLangのChrome拡張で思い通りの要約動画を生成する方法など

マーベリック
July 22, 2024

Newsletter from Mavericksをご覧いただきありがとうございます！

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで、Chrome拡張とプロンプト機能を駆使して思い通りの要約動画を生成する方法について解説します！

📚 目次

1. 直近のビッグニュースTop 3
① OpenAIが高速、安価、高性能な新モデルGPT-4o miniを発表！
② Googleが、音声指示をもとにロボットがオフィスの道案内を行うデモを公開
③ Metaが新たなLlamaベースのマルチモーダルAIをEUでは提供しないと発表

2. SNSで話題のAIツールをピックアップ！
① イルシル
② Rodin

3. 🐬NoLangで、Chrome拡張とプロンプト機能を駆使して思い通りの要約動画を生成する方法

1. 直近のビッグニュースTop 3

① OpenAIが高速、安価、高性能な新モデルGPT-4o miniを発表！

7月18日、OpenAIが新モデル「GPT-4o mini」を公開しました。5月13日のGPT-4o公開以降、目立った動きがなかったOpenAIにとって、久々の大きな発表となりました。

GPT-4oを一言で言い表すならば、「GPT-4oに迫る性能を持つマルチモーダルな小型AIモデル」です。下記のベンチマークに示されているように、GPT-4o mini（最左；橙）はGPT-4o（最右；桃）に迫る性能を達成し、多くのベンチマークでGemini FlashやClaude Haikuといった他社の軽量モデルを上回っています。また、テキストだけでなく画像も入力できる上、将来的には音声・画像・動画の入出力にも対応予定と明記されています。

GPT-4o miniと他のAIモデルのベンチマーク性能比較（OpenAI公式発表）

そして最も注目すべきは、GPT-4oに迫る性能を有しつつも、非常に安価かつ高速であることです。API料金はGPT-4oの20分の1以下かつClaude Haikuの半分程度であり、出力速度はGPT-4oの1.5倍かつClaude Haikuを上回っています。

主要なAIモデルの料金・速度比較。
（Artificial Analysisより引用）

また、今年4月の論文で発表された「Instruction Hierarchy」という仕組みが導入されており、プロンプトインジェクションやシステムプロンプト抽出といった攻撃に頑健になっていることも特徴です。

ただし、GPT-4o miniを使用する上で注意しておくべき点もあります。一般に小型LLMは、ベンチマークで同程度の性能を達成するモデルと比べて、インプット可能な知識の総量が少なく、結果としてハルシネーションを引き起こしやすいとされており、GPT-4o miniについても知識不足を指摘する声が散見されています。

自分で試した限りでもその傾向があり、例えばイチロー選手についてGPT-4oとGPT-4o miniに尋ねたところ、GPT-4o miniの回答のみが、所属していた球団や渡米時期について、大きな誤りを含んでいました。

GPT-4oとGPT-4o miniの回答比較。
GPT-4o miniは、「中日ドラゴンズに入団」（正しくは「オリックス・ブルーウェーブ」、「1999年にマリナーズに移籍」（正しくは2000-2001年にかけて）など誤った言及が見られる。）

既にGPT-4oが全世界のユーザーに無料開放されていることもあり、今回の発表の恩恵を受けるのはAPIを使用する開発者に絞られるでしょう。それでも、長い目で見ると小型AIモデルの開発技術は飛躍的進化を遂げており、GPT-4o miniは、2022年11月に公開されたGPT-3.5シリーズに属するモデル（text-davinci-003）と比較してトークンあたりの費用が99%近く減少しています。

Claudeを開発する競合のAnthropic社も先月、今後の目標は「数ヶ月ごとに、知能と速度・コストのトレードオフを大幅に改善すること」と述べており（以前のニュースレター）、モデルの小型化・高速化を進めていく流れは今後も続いていくでしょう。

② Googleが、音声指示をもとにロボットがオフィスの道案内を行うデモを公開

Google DeepMindが、Gemini 1.5 Proを用いて、音声でロボットに指示を与え、オフィスの道順案内を実行させるデモを公開しました。例えば以下のデモでは男性が「Lewisと申しますが、自分のデスクはどこにありますか？」と尋ねると、ロボットが彼のデスクまで道案内をしてくれる様子が収められています。

We took the robots on a tour of specific areas in a real-world setting, highlighting key places to recall - such as "Lewis’s desk" or "temporary desk area". Then, they were asked to lead us to these locations. 🏢
Watch more. ↓
— Google DeepMind (@GoogleDeepMind)
2:05 PM • Jul 11, 2024

このデモの技術的詳細は、Google DeepMindによる元論文を元に読み解けます：

ユーザーがロボットを操縦しながらオフィス全体を案内する
それに基づいて地図の役割を果たす「トポロジーグラフ」を別の計算環境で構築する
オフィス案内時に撮影された動画と、ユーザーからの質問を元に、VLMにゴール地点（のスナップショット）を出力させる
地図の役割を果たすトポロジーグラフを参照し、現在地点からゴール地点へとロボットを動かしていく

ここで注目すべきは、VLM（視覚言語モデル; テキスト及び画像を処理可能）に対してオフィスの案内動画を入力する必要がある点です。例えば1時間の動画を入力したければ、約100万トークンを入力する必要があります。Gemini 1.5 Proは、GPT-4oの15倍以上のトークンを処理できること知られ、動画2時間に相当する200万トークンを入力可能です。上記のデモでは、Geminiのこの利点が存分に活かされていると言えます。

実験では、オブジェクト、家具、照明条件などが変化する中、90%の成功率でゴール地点に到達できたとされています。課題として16分の案内動画からゴール地点を導出するのに10-30秒もの時間を要していることが挙げられますが、これはGPT-4o miniに見るようなモデルの小型化によって解決されていくでしょう。

Geminiのビジョン機能を実生活に役立てる例としては、今年5月に行われたGoogle I/Oで発表された「Project Astra」が記憶に新しいです。以下のデモでは、モバイル端末に搭載されたAIが、カメラを通して見える物体やシーンを理解し、それらについてユーザーと自然言語で会話しています。オフィスの窓から見えるロンドンの町並みを認識して説明したり、コンピューターの画面からコードを読み取って分析したりする様子が収められています。

We’re sharing Project Astra: our new project focused on building a future AI assistant that can be truly helpful in everyday life. 🤝
Watch it in action, with two parts - each was captured in a single take, in real time. ↓ #GoogleIO
— Google DeepMind (@GoogleDeepMind)
5:26 PM • May 14, 2024

この1年間、最高水準のLLMの性能はほぼ横ばいである一方、VLMの画像認識能力は目覚ましい進歩を遂げています。近い将来、さらに革新的なデモンストレーションが公開されることが期待されます。

③ Metaが新たなマルチモーダルAIをEUには提供しないと発表

MetaがLlamaベースのマルチモーダルAIをEUには提供しない方針であるとアメリカのニュースメディアAxiosが報じました。Metaは今年4月時点で、GPT-4を超える水準のマルチモーダルなAIモデル「Llama 3 (400B)」を数ヶ月後にリリース予定と発表していましたが、EUにはこのモデルが提供されず、代わりにテキストのみを扱えるバージョンのモデルが提供される予定とのことです。

MetaはAxiosに対して、今回の判断の理由として「EUのAI規制状況が予測不可能なこと」を挙げました。実際、EU理事会は今年5月に「AI規制法」を採択しており、違反した場合の罰金額は最大「3500万ユーロまたは全世界売上高の7%のいずれか高い方」と極めて厳しく設定されています。

EUによるAI規制法のタイムライン。（KPMG; 2024/05/27公開）

Metaはかねてより欧州のAI規制への対応に苦慮しており、今年6月には、EU, EEAのユーザーがFacebookやInstagramに投稿したデータを使用してAIシステムのトレーニングを実施する計画を、欧州の規制当局の要請を受けて一時停止していました。Metaはこの際も、「欧州の技術革新やAI開発競争にとって後退であり、欧州の人々にAIの恩恵をもたらすことをさらに遅らせることになる」と強い懸念を表明していました。

他にも、Apple社が先月発表した独自AI「Apple Intelligence」を含む新AI機能をEU圏内では提供しない予定だと報じられています（Bloomberg）。このような状況が続けば、EUのAI開発者や企業は世界的な競争から取り残され、イノベーションの機会を失うリスクに直面することになってしまいます。他のビッグテックの動きを含め、引き続き動向を注視していく必要がありそうです。

2. SNSで話題のAIツールをピックアップ！

イルシル (https://irusiru.jp/)

文書や資料をもとにスライドを自動生成できる日本発のAIツール
スライドの文言や構造化の仕方を一からAIが自動で考えてくれる
生成されたスライドを、馴染み深いPowerPoint形式で編集できる上、デザインテンプレート数は1000以上
無料でも3個のスライドを作成可能。有料プランでは、PPTX, PDF形式でエクスポートも可能

Rodin (https://hyperhuman.deemos.com/rodin)

現在、最も高性能とされている3Dモデル生成AIツール
基本的に、画像からメッシュ作成→メッシュを精緻化→3Dモデル生成という3ステップで行われる。また画像ではなくテキストから生成することも可能
どの工程も30秒未満の短時間で実行される上、各工程でやり直しが可能
無料でも5個の3Dモデルを生成可能

3. 🐬NoLangで、Chrome拡張とプロンプト機能を駆使して思い通りの要約動画を生成する方法

NoLangではChrome拡張機能（リンク）を使うことで、webページを閲覧中にワンクリックで要約動画を生成できます。今回は、この要約動画の質を「プロンプト機能」を使ってさらに向上させる方法をお伝えします。

(0) はじめに：プロンプト機能の概要・使い方

プロンプト機能を使うことで、生成動画の内容について、AIに追加指示を与えることができます。「中学生にでも分かるように」「冒頭に視聴者の注意を惹くワードを入れて」「熱血な先生になりきって」など、指示できる内容は多岐にわたります。

使い方：ヘッダーにある「動画設定」より「プロンプト」タブを選択します。オリジナルのプロンプトを作る際は、「マイプロンプト」を選択して「＋追加」ボタンをクリックして作成できます。

(1) 自分の欲しい情報のみが手に入るように取捨選択させる

Chrome拡張機能を使ってwebページの要約動画を生成した際、時折「この情報は要らないんだけどな…」「欲しい情報を含めてくれなかった…」という状況に陥ることがあるかと思います。

この問題は、自分が知りたい項目と興味のない項目をプロンプトに書くことで解決できます。例えば、あなたがテック系の記事、論文を読みたいが、技術そのものではなく、その活用法や将来性に興味のあるようなビジネスマンであれば、以下のように記述するだけで、生成される動画の内容が断然自分好みに寄ります。

知りたい情報:

1. 技術・ツールのビジネスへの応用例
2. 料金・導入コスト
3. 将来の展望や業界へのインパクト
4. 主要プレイヤーや競合状況
5. 成功・失敗事例

全く興味のない情報:

1. 技術の詳細な仕組みや動作原理
2. プログラミング言語や開発環境の詳細
3. 研究開発の過程や技術的な課題
4. 技術者向けの実装方法や最適化手法

また、そもそも何に興味があり、何に興味がないのかさえも考えるのが面倒であれば、AIに考えさせてみましょう。例えば、以下のような質問をChatGPTやClaudeに投げかければ、簡単に答えが得られます。

技術そのものではなく、その活用法や将来性に興味のあるようなビジネスマンが、テック系の記事を見て、欲しい情報、いらない情報をそれぞれ箇条書きで10個挙げてください。

(2) 用語を噛み砕いて説明させる / 比喩や例示を用いさせる

記事について解説してもらったものの、用語が難しくて結局よく分からなかった…というケースでは、用語を噛み砕くよう明示的にプロンプトで指示してみましょう。(1) の内容と合わせると、以下のようなプロンプトが出来上がります。

聴衆は技術に精通していないため、複雑な技術用語は用いないこと。言及が必要な場合は、中学生にも分かるよう噛み砕いて分かりやすく説明して

また、以下の「欲しい情報」に焦点を当てて説明し、「全く興味のない情報」については一切言及しないで

知りたい情報:

1. 技術・ツールのビジネスへの応用例
2. 料金・導入コスト
3. 将来の展望や業界へのインパクト
4. 主要プレイヤーや競合状況
5. 成功・失敗事例

全く興味のない情報:

1. 技術の詳細な仕組みや動作原理
2. プログラミング言語や開発環境の詳細
3. 研究開発の過程や技術的な課題
4. 技術者向けの実装方法や最適化手法

また、比喩や具体例を用いさせることも、分かりやすい説明を得る上で効果的です。

ただし、あまりにも噛み砕かせることに注力しすぎると、かえって何を言っているか分からなくなってしまうこともあります。自分に適した塩梅を見つけてみましょう。

解説は以上となります。今回紹介したテクニックを用いて作成したプロンプトを「技術記事の核心を解説」という公式プロンプトとしてNoLangアプリで公開しています。是非Chrome拡張機能を使って、要約動画の生成を試してみてください！

なお、先々週のニュースレターではNoLang2.0についての詳細な解説を行いました。NoLangを使いこなしたい方は、是非こちらもご覧ください！

NoLang 2.0を完全解説！重要ポイント解説から、思い通りの動画を生成するための高度なテクニック紹介まで【毎週配信・無料・5分で読める🗓】国内外の注目企業の動向分析から最新AIの紹介まで、幅広いAIニュースを分かりやすく解説👉mvrks.news/p/nolang-20

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」

といったプロダクトをリリースしてきました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください！

🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます！
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了！
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です！
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024

AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024