Mavericks AI ニュース
Posts
GoogleがSoraを凌駕する動画生成AI「Veo 2」を発表、NoLangでキャラクターにPDF解説をしてもらえるようになりました!など

GoogleがSoraを凌駕する動画生成AI「Veo 2」を発表、NoLangでキャラクターにPDF解説をしてもらえるようになりました!など

マーベリック
December 22, 2024

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます！

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで新たに実装された、キャラクターによるPDF解説の機能について解説します！

📚 目次

1. 直近のビッグニュースTop 3
① Googleが新たな動画生成AI「Veo 2」を発表。Soraを凌駕する性能か
② OpenAIが新しい「o3」シリーズを発表 - AIは得意分野で人間を超えていく
③ OpenAIが新しい「o3」シリーズを発表 - 思考力強化により未知の問題も解けるように

2. SNSで話題のAIツールをピックアップ！
① Suno
② ImageFX

3. 🐬NoLangでキャラクターにPDF解説をしてもらえるようになりました！

1. 直近のビッグニュースTop 3

① Googleが新たな動画生成AI「Veo 2」を発表。Soraを凌駕する性能か

今年2月にOpenAI社がSoraを発表して以降、同水準の性能を持つ動画生成AIが続々とリリースされていましたが、ついにSoraを超える性能を持つAIが登場したようです。Google社が先週発表した「Veo 2」の生成動画の品質は、これまでの動画生成AIと比べても頭一つ抜けています。是非以下のSora (Turbo) との比較動画をご覧ください。

I tested Sora vs. the new Google Veo-2.
I feel like comparing a bike vs. a starship:
— Ruben Hassid (@RubenHssd)
2:14 PM • Dec 17, 2024

Veo 2は既に一部のユーザーに公開されており、賞賛の声が相次いでいます。特筆すべきは、2月にOpenAIが「厳選して」公開したSoraのデモ映像と比較して、Veo 2が「ポン出し」で生成した映像が遜色のない品質を達成している点です。

また以下の投稿では、主要な動画生成AI 8種でステーキを切る映像を生成して比較していますが、Veo 2のみが違和感のない自然な映像の生成に成功しています。

Let’s have a good old fashioned GenAI steak-off! 🥩
This test is very challenging for AI models. Hands, consecutive slicing physics & movement, interpretation of ‘steak done perfectly’, steam, juices, etc.
Who did it best? Who’s your top three?
— Blaine Brown (@blizaine)
2:48 AM • Dec 17, 2024

さらにVeo 2は物理法則の理解においても卓越した能力を見せています。猫が跳躍する様子や、ブルーベリーが水面に落ちる瞬間の表現を極めて正確に再現できており、これがAI生成だと見破ることは非常に困難でしょう。

AIによって生成される動画の品質は高まるばかりですが、今後はどのような発展を遂げていくのでしょうか？興味深い試みの一つに、インタラクション可能な空間を生成する「世界モデル」の開発が挙げられます。

先日発表された「Genie 2」は、1枚の静止画から最長1分間のインタラクティブな3D空間を生成できる「世界モデル」です。生成された世界では、PCのキーボードで自由に移動でき、重力や照明効果といった物理法則も考慮されています。さらに、風船を割ったり土管を撃ったりといった、オブジェクトとの相互作用も可能となっています。

Introducing 🧞Genie 2 🧞 - our most capable large-scale foundation world model, which can generate a diverse array of consistent worlds, playable for up to a minute. We believe Genie 2 could unlock the next wave of capabilities for embodied agents 🧠.
— Jack Parker-Holder (@jparkerholder)
2:24 PM • Dec 4, 2024

2023年に画像生成AI、2024年には動画生成AIが生成品質を大幅に高めましたが、来年は「世界モデル」が発展し、インタラクション可能な3D空間を手軽に生成できる時代が訪れることが期待されます。

💡 Veo 2は、ごく一部のユーザーのみに公開されており、こちらからウェイトリストに申し込むことができます。

② OpenAIが新しい「o3」シリーズを発表 - AIは得意分野で人間を超えていく

OpenAIが「12 days of OpenAI」の最終日に、oシリーズの新モデル「o3」「o3-mini」の存在を明らかにし、その評価結果を発表しました。o1から僅か3ヶ月という異例の速さでの上位モデルの発表となりましたが、まずは以下の4点を抑えておきましょう。

・「推論のスケーリング則」に基づいて推論コストを増やしていくことで、数学、科学、プログラミングといった分野において、世界トップレベルの人間と同等のスコアを達成

・「人間には簡単だがLLMにとって難しかった問題」も解けるようになってきている。特に、正答率を0% (GPT-3) から5% (GPT-4o) まで向上させるのに4年もかかっていたARC-AGIテストにおいて、「o3 high」は88%という驚異的な正答率を記録

・しかし、「o3 high」の推論コストは1タスクあたり50万円に及ぶこともある

・この課題に対処すべく、GPTシリーズと同様、oシリーズでも高速化・コスト削減に向けた取り組みが進行中

以下で詳細を説明していきます。

最初に注目すべきは、o3が競技プログラミングで世界175位相当のスコアを達成し、OpenAI主任研究者のスコアをも上回ったことです。また、数学、科学、プログラミングに関する他のベンチマークテストでも、顕著な性能向上が確認されています。

o1, o3シリーズに含まれるモデルの、プログラミング・数学・科学のベンチマークテストにおけるスコアの比較結果（OpenAIのYouTubeより）

ただし、この精度向上は「推論コストの増加」によって実現されている側面が大きい点に注意が必要です。後述するように、o3の推論コストは1タスクあたり50万円にも及ぶケースがあります。

o3-miniについては、推論コストの異なる3つの設定での結果が示されていますが、コストと性能は明確なトレードオフの関係にあり、最も高性能なo3-mini (high) では、応答時間がo1を上回る23秒にまで膨れ上がっています。

（左）o1, o3シリーズに含まれるモデルのコスト（横軸）と競技プログラミングのスコア（縦軸）の関係。横軸のスケールや単位は不明であることに注意
（右）o3シリーズに含まれるモデルと旧モデルの応答時間の比較結果
（OpenAIのYouTubeより）

これまでに述べた結果は、かつてAlphaGoが囲碁で人間の世界チャンピオンを打ち破ったように、「推論のスケーリング則」に従って十分な時間をかけて推論を行えば、STEM分野における多くのタスクでもAIが人間の能力を凌駕する段階に到達しつつあることを示唆しています。

③ OpenAIが新しい「o3」シリーズを発表 - 思考力の強化により未知の問題も解けるように

そして注目すべき結果がもう1つあります。それは、o3がARC-AGIと呼ばれるテストで88%という驚異的な正答率を達成したことです。このテストは「人間には簡単だがAIにとって解くのが困難なパズル問題」であり、2020年にGPT-3が0%を記録してから、2024年のGPT-4oで5%に到達するまでに4年という長い期間を要していました。

従来のLLMが「strawberryという単語に含まれる"r"の数を数える」といった単純処理が苦手だったことを思い出せば、この結果のインパクトはより明確になるのではないでしょうか。

ARC-AGIテストに含まれる問題の例。左のタスクでは閉領域を黄色で埋めればよく、右のタスクでは「出っ張り」を取り除くだけで良いが、このような問題はAIにとって決して簡単ではない。（ARC Prize）

o1, o3モデルのARC-AGIテストにおける1タスクあたりのコストとスコアをプロットした図。o3のみ事前にチューニングがなされており”TUNED”と但し書きがついていること、またコストを示す横軸は対数スケールであることに注意。（ARC Prize）

グラフの「76%」「88%」といった数字は、事前にo3に類似の問題を学習させた際の結果です。つまりこの結果は、o3があらかじめ与えられた練習問題からルールを会得することで、これまで解けなかった問題にも対応できる能力があることを示しています。

一方で、o3は実用面での問題を抱えています。1つのタスクを解くために必要なコストが3000円から50万円にまで及んでしまっているのです。

モデル	正答率	推論時間	推論コスト
o3 low (tuned)	76%	1分	3000円
o3 high (tuned)	88%	15分	50万円

このコストは今後どのようなペースで下がっていくのでしょうか？OpenAI社が今年7月に公開したGPT-4o miniは、GPT-3.5シリーズと比較して費用を99%削減することに成功しており、「学習に関するスケーリング則」についてはすでに、性能を維持しつつコストを十分削減できることが示されています。

「推論に関するスケーリング則」において同様の理屈が適用できるかは不明ですが、少なくともo3-miniは、o1-miniと比較して費用を一定程度に抑えられていることが示されており（②の2枚目の散布図を参照）、この問題は比較的早期に克服されるかもしれません。

またEpoch AI社の分析によれば、電力供給やデータ量不足、チップ生産能力などの制約を加味しても、少なくとも2030年までは、GPT-2からGPT-4への規模拡大と同等のスケールで、AIの学習に必要な計算量を拡大可能とされており、スケーリングによる更なる性能向上も十分に期待できます。

AIモデルの学習に必要な計算量を確保する上でボトルネックとなり得る要素ごとに、2030年に実現可能な計算量 (FLOP) の予測を示した図。どの要素に関しても、GPT-2→GPT-4のペースで到達する2e29 FLOPを強くは制限しない結果となっている（Epoch AI）

現在o3は公開されておらず、ARC-AGIテストを解けることが、来年以降期待される「AIエージェント」としての実用性にどの程度貢献するのかは定かではありません。

しかしARC-AGIの考案者であるChollet氏も指摘している通り、推論時間を増やすアプローチが、AIが単なるパターンの適用に留まらず、それらを組み合わせて未知の問題にも対処できる能力も獲得するための、有望で強力なパラダイムであることは確かでしょう。

💡 o3シリーズのモデルは現在未公開ですが、安全性テストを目的としたアーリーアクセスに申し込むことができます。また、o3-miniは1月後半に公開予定、o3はさらにその後公開予定と述べられています。

2. SNSで話題のAIツールをピックアップ！

Suno (https://suno.com/)

最新モデル「Suno V4」がついに全ユーザーに無料で解放
音質が極めてクリアになったほか表現力も著しく向上しており、肉声に近い自然な歌声の音楽が生成できる
Customモードを選択し、ChatGPT o1などを使用して歌詞を生成するのがおすすめ
無料でも、V4で10曲を生成可能

ImageFX (https://labs.google/fx/ja/tools/image-fx)

Googleが公式に提供する画像生成AI。先週、搭載されているAIモデル「ImageFX」の性能が向上したと発表
元々得意だった日本人の描写がさらに改善されているほか、本物さながらのWebサイトのLPも生成可能に
生成拒否が多いという欠点に関しては、以前より改善されているものの、まだ検閲が過度な印象
現在はベータ版であり、無料で無制限に生成可能

3. 🐬NoLangでキャラクターにPDF解説をしてもらえるようになりました！

12/11にリリースされた「NoLang 2.5」では、PDFをナレーション付き解説動画に変換する新機能「PDFプレゼン」を公開したほか、立体的に動くLive2Dアバターを動画に搭載できるようになりました。

そして先週、「PDFプレゼン」機能にて、Live2Dキャラクターを搭載できるようになりました！厚生労働省が公開した「年収の壁」に関する資料を題材にした動画を以下で公開していますので、是非ご覧ください。

【新機能✨】🐬NoLangでキャラクターにPDF解説をしてもらえるようになりました！
研修資料、市場分析レポート、講義資料...など、無機質だったPDFが「見ていて楽しい動画」に変換されます！
「PDFプレゼン」が使用可能な無料チケットを追加で1枚配布していますので、ぜひこの機会にお試しください！ x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
10:42 PM • Dec 16, 2024

さらに、この機能を皆様に体験していただきたく、「PDFプレゼン」機能を無料で使用できるチケットを追加で1枚配布しております。まだ試されていない方は、この機会に是非新機能をお試しください！

今後もNoLangは、より簡単かつ自由度高く動画を制作できるツールを目指して進化を続けてまいります。どうか引き続きよろしくお願いいたします！

NoLang 2.5に関しては、先週の解説記事も併せてご覧ください。

Gemini, ChatGPTがついに動画を読み取ってリアルタイム対話可能に!NoLang 2.5のアップデート情報を詳しく解説!

mvrks.news/p/gemini-chatgpt-nolang-2-5#ai-news-1

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください！

【🔥重大発表】🐬NoLang 2.5をリリースしました！！
超実用的。PDFをナレーション付き解説動画に変換する「PDFプレゼン」機能が登場！
さらにLive2Dに対応し、立体的かつ生き生きと動くキャラクターを動画に載せられるようになりました！
まだまだアップデートがあります！無料で試したい方は👇 x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
1:28 AM • Dec 11, 2024

NoLang Instagram

NoLang Instagramアカウントへのリンクはこちら！