Mavericks AI ニュース
Posts
AIエージェントが電話予約の代行までこなせるように。「Genspark Super Agent」が登場!

AIエージェントが電話予約の代行までこなせるように。「Genspark Super Agent」が登場!

他にも...ついにChatGPT o1とDeepSeek R1が東大理科三類に合格!

マーベリック
April 06, 2025

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます！

📚 目次

1. 直近のビッグニュースTop 3
① レストランへの電話まで行える汎用AIエージェント「Genspark Super Agent」が登場
② Runwayが動画生成AI「Gen-4」をリリース。オープンモデルも躍進を見せている
③ ついにChatGPT o1とDeepSeek R1が東大理科三類に合格！

2. SNSで話題のAIツールをピックアップ！
① Gemini Deep Research
② ElevenLabs

1. 直近のビッグニュースTop 3

① レストランへの電話まで行える汎用AIエージェント「Genspark Super Agent」が登場

AI検索エンジンで知られる「Genspark」が汎用AIエージェント機能「Genspark Super Agent」をリリースしました。先月話題になった中国発の汎用AIエージェント「Manus」とは違ったベクトルで遂行可能なタスクの幅が広く、音声付きの動画を生成したり、レストランに予約電話をかけたりといった大変興味深い事例が紹介されています。

Meet Genspark Super Agent - a fast & reliable general AI agent!
Check it out: genspark.ai
— Genspark (@genspark_ai)
3:49 PM • Apr 2, 2025

Manusは独自の開発環境下で「自由にコーディングを行える」ことが特徴的であり、これによりデータ分析結果を元にグラフを作成したり、結果をHTML形式で表示することができました。

対してGenspark Super Agentは、80を超える外部ツールにアクセスできることが最大の特徴です。Google Veo 2を呼び出して動画を生成したり、ElevenLabsを用いてナレーションや効果音を生成したり、さらにはユーザーの電話番号でレストランに電話予約することまで可能です。ただし、Manusのような自由なコーディングは許されておらず、あくまでもGensparkで用意されているツールのみを組み合わせて使うことしかできません。

Genspark Super Agentの構成要素。複数のLLMを統合していること、80を超えるツールを用意していることが明らかになっている。（ツール例としては画像生成、音声合成、HTML生成などが考えられる）
（MainFunc）

2025年「AIエージェント」が大きなトレンドとなっていますが、AIエージェントサービスは大きく分けて2種類に分かれます。

一つ目がOpenAI Deep Researchのような、現時点で十分実用的なサービスであり、既に社会にインパクトを与え始めています。もう一つがOpenAI Operator、Manus、Devin†のような、複雑なタスクを自律的にこなせるものの役に立つ場面は少なく、どちらかというとコンセプトを理解するために試すべきサービスです。Genspark Super Agentも現時点では後者に分類され、Manus以上に「オモチャ感」が強い印象です。

ただし侮れないのは、Manus、Devin、Genspark Super Agentは全て、他社のAIモデルを原則そのまま利用している「AIラッパー」である点です。例えばManusに関しては、共同創業者が「Claudeと様々なQwenの微調整されたバージョンを使用（X）」「ブラウジング技術にはオープンソースのBrowser Useを使用（X）」と述べています。

対してOpenAI Deep Researchでは微調整されたo3が使用されており、それが競合ツールを性能で上回る要因の一つとなっています。今後このような「モデルの重みレベルで特定タスクに特化したAIエージェント」がどのようなインパクトを残していくか注目したいところです。

†Devinは先週2.0へとアップデートされたこともあり、3つのサービスの中では最も実用的でしょう。

💡 Genspark Super Agentは無料でも試すことができますが、タスクによっては1回遂行することすらできない場合があるため、本格的に試すためには、月額$24.99の有料プランに加入する必要があります。

② Runwayが動画生成AI「Gen-4」をリリース。オープンモデルも躍進も見せている

Runway社よりGen-3から約10ヶ月を経て、新たな動画生成AI「Runway Gen-4」がリリースされました。生成AIを駆使した個人映像制作を研究しているCreativeEdgeが、「（現在世界最高水準の性能とされる）KLING v1.6やGoogle Veo 2でしか生成できなかったレベルの動画」が生成可能になったと評している通り、Gen-3から着実な性能向上を遂げています。

Gen-4 sets a new standard for video generation and is a marked improvement over Gen-3 Alpha. It excels in its ability to generate highly dynamic videos with realistic motion as well as subject, object and style consistency with superior prompt adherence and best-in-class world
— Runway (@runwayml)
2:43 PM • Mar 31, 2025

このように最高品質の動画生成AIの性能は着実に向上している一方、5秒の動画生成には依然として$0.25〜0.50もの費用がかかります。またこれらのモデルは非公開であるため、画像生成AIでいうStable Diffusionのように、独自のカスタマイズをすることはできませんでした。

しかし最近その風向きが変わりつつあります。アリババグループの通義研究所が2月末に公開したオープン動画生成AIモデル「Wan 2.1」が大きな話題を集めており、生成される動画の品質や一貫性は、Sora登場以前の動画生成AIを遥かに上回っています。

The matrix in the style of Netflix Castlevania
Proof of concept with Wan 2.1 and stylized first frames with RF_Edit
Added some bloom in davinci resolve and upscaled with topaz but outside of that it's raw output.
— A.I.Warper (@AIWarper)
6:44 PM • Mar 28, 2025

さらに「動画の始点だけでなく終点も固定」「動画内のキャラクターを固定」「動画のスタイル変換」といった制御も効きやすく、2022年8月に公開された『「Stable Diffusion」級の衝撃』とも言われています（新清士氏）。

もちろん画像生成AIと比べると敷居は高く、NVIDIA RTX 4090 GPUで5秒間の動画を生成するのに約8分間かかるとされています。それでも今後しばらくに渡って品質向上・コスト低下が続いていくのは確実であり、動画生成AIの民主化が進み、開発競争が一層激化していくことが予想されます。

💡 Runway Gen-4では現在、Image-to-Video機能が全ての有料プランのユーザーに向けて提供されています。

③ ついにChatGPT o1とDeepSeek R1が東大理科三類に合格！

LifePrompt社は、OpenAIのChatGPT o1、DeepSeek R1が東京大学最難関の理科三類に合格したと発表しました。

河合塾の協力のもと採点が行われ、昨年のGPT-4による検証結果と比較して、特に数学、理科、地理科目において飛躍的な点数向上が見られています。さらに驚くべきことに、今回は特別なプロンプトは一切与えられておらず、問題文のスクリーンショットのみ与えられた「ぶっつけ本番」の状態で合格点を叩き出しています。

（上）ChatGPT o1, DeepSeek R1の2025年東大入試における得点
（下）昨年（GPT-4）と今年（o1）の科目別点数比較
（LifePrompt社 note）

ここで疑問が生じます。AIが「東大理三合格レベル」の知能を獲得しているにもかかわらず、なぜAIのビジネス活用は依然として限定的なのでしょうか？

まず一つ目に「オンボーディングの難しさ」が挙げられます。人間の社員が入社後に、他の社員と会話したり、社内文書を読んだりして獲得する情報量と比較すると、AIに与えられる情報量は圧倒的に少ないのが現状です。現在は「プロンプトで背景知識を与える」「RAGを使用して資料へアクセス権限を与える」といった手法が限界であり、デジタル化されていないものも含め、AIに十分な背景知識を与えるプロセス自体に多大な時間とコストがかかってしまいます。

また十分な知識を与えられたとしても、LLMが「コンテキストが膨大になると処理の正確性が著しく低下する」という技術的な問題もあります。このため、LLMが得意とされるアプリケーション・システム開発ですら、「プログラム全体を読み込ませて適切に修正する」といった試みは、まだ成功率が低いのが現実です。

それでも今話題のMCPをはじめとして、AIに情報を与えるためのコストが下がるような「仕組み」は少しずつ整備されつつあります。さらに上記のようなLLM性能に起因する問題が一定解決すれば、AIエージェントの実用性が一気に高まることが期待されます。

東大入試に合格できるレベルの知能を持ちながら、実世界での活用にはまだハードルがあるというこの矛盾は、AI普及を考える上で今後一層重要な論点となっていくでしょう。

💡 LifePrompt社によるレポートの全文はこちらよりご覧いただけます。

2. SNSで話題のAIツールをピックアップ！

Gemini Deep Research (https://gemini.google/overview/deep-research/)

Googleが公式提供しているリサーチAI。OpenAI Deep Researchを除けば、最も高い性能である印象
実行時間は5〜10分程度で、OpenAI Deep Researchより高速
リサーチ実行前に計画を示してくれ、不満があれば手動修正して後戻りをなくすことも可能
現在は無料で提供されている

ElevenLabs (https://elevenlabs.io/)

世界的に有名な音声AIツール。先日、Speech-to-Text用のAIモデルがアップデートされ精度が大きく向上
特に日本語性能が高く、ベンチマークスコアで、後発のOpenAI最新モデル「gpt-4o-mini-transcribe」を上回っている
Speech-to-Textをはじめとして、様々な機能を無料で試すことが可能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください！

【🔥重大発表】🐬NoLang 3.0をリリースしました！
縦型ショート動画を直接生成・編集可能に。今だけ無料で試せます！
さらに編集機能が一新され、制作できる動画の幅が大きく広がりました！
他にも、「どんなPDFも1分要約」「話題の画像生成AI Imagen3」など注目機能が盛り沢山。詳しくは👇
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
12:52 AM • Mar 17, 2025

NoLang Instagram

NoLang Instagramアカウントへのリンクはこちら！