ChatGPTにエージェント総集結。OpenAIがChatGPT Agentをリリース

他にも...GrokでAIガールフレンドと会話できるモードが大バズり

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① OpenAIがChatGPT Agentをリリース!ChatGPTはどんなタスクもこなせるようになったのか

OpenAIが現地時間7月17日、新たなAIエージェント「ChatGPT Agent」をリリースしました。以下の2点を押さえておけば十分でしょう:

「DeepResearch」「Operator」「ChatGPT」の良いとこ取りをした汎用AIエージェントであり、こなせるタスクの幅が大幅に増加した

・ただし実際にこなせるタスクの幅は「Manus」「Genspark」とほぼ同じであり、残念ながら成果物の品質はこれら競合ツールに劣ることも少なくない

以下の投稿では、ユーザーがChatGPT Agentに夕飯用の食料品を買い物してもらう様子が記録されています。動作イメージを掴みたい方は是非ご覧ください。

ChatGPT Agentは、以下のような多様なタスクをこなすことができます:

(1) 長文レポート作成(←DeepResearchによる詳細なリサーチ)

(2) レストラン予約、商品注文(←Operatorによるブラウザ操作)

(3) スライド、スプレッドシート作成(←ChatGPTによるコード実行)

これら一つ一つの機能は、基本的にOpenAIがこれまで提供してきたツールで実現可能でしたが、それらがオールインワンで統合された上、特にブラウザ操作やスライド作成に関しては性能も向上しています。

ChatGPT Agentが革新的である理由は、「DeepResearch」と「Operator」という補完的な役割を持つ2つのエージェントの機能を、場面に応じて適切に使い分けられることにあります。

Operatorは「webページの画面情報」を活用してブラウザ上でスクロール、クリック、入力を行うことができ、Google検索では辿り着けない深いページへアクセスしたり、ユーザーと協力してログイン認証を突破できます。一方、Deep Researchは「webページのテキスト(HTML)情報」を分析して要約レポートを作成できます。

そしてChatGPT Agentは状況に応じて、画面情報とテキスト情報という2種類のデータのうち、アクセスすべき方を選択する機構を備えています。これにより、時には人間と同じように画面情報を参照して丁寧に処理し、また時にはAIらしくHTML文字列のみを参照して高速に処理することで、幅広いタスクを効率的にこなすことができるのです。

ChatGPT Agentに8月16-17日で大阪梅田で宿泊可能なホテルを一休で調査させた結果。一つ目のホテルの「34,700円〜」という情報はwebサイトに飛んでから、宿泊月を変更する「ボタンクリック」がないと辿り着けないものだが、その情報をしっかり取得できていることが分かる。

さらに、このエージェントは独自のターミナル環境を持ち、コード実行によるデータ分析やスライド作成を行えるほか、すでにDeepResearchで利用可能だった「ChatGPTコネクタ」を用いて、カレンダーやドライブなどと連携し、APIを通してユーザー独自の情報も取り込むことができます。

このような機能面だけを見ると、ChatGPT Agentは「AGI」とも呼ぶべき過去最高のエージェントに思えるかもしれません。しかし残念ながら、競合のManusが挑発的な投稿を行っているように、「Manus」「Genspark」といった汎用AIエージェントと比べてこなせるタスクの幅はあまり変わらず、成果物の品質においても劣ることが少なくないのが現状です。

💡 ChatGPT Agentは現在、ChatGPTのProプランのユーザーに向けて公開されており、Plus, Teamユーザーは今後数日間にかけて、Enterprise, Educationユーザーは今後数週間後にアクセス可能になると発表されています。

② ChatGPT Agentが性能面でManusに遅れをとっているのはなぜか?

ChatGPT AgentがManusなどの競合エージェントと比べて劣勢に立たされている背景として「ChatGPT Agentの方が先を見据えたより難しいチャレンジに取り組んでいる」ことと「Claude Sonnetの台頭」の2点が挙げられます。

まず技術的なアプローチの違いを見てみましょう。ChatGPT Agentは上述の通り、webブラウザ操作を行う際に画面情報のみを参照しています。そのため、HTMLがレンダリングされて画面に表示されるまで待機する必要があるほか、クリックやスクロール操作においてミスを犯すことが頻繁に発生しています。

ChatGPT Agentが楽天トラベルで宿泊日を入力しようとしている様子。クリックに失敗してしまい、日付が変わらなかったことにChatGPT Agent自身が気づいている。

一方でManusは、常にwebページのHTMLを直接参照していることから、webページ内の要素を正確に把握できます。クリック操作を例にとると、各ボタンがプログラムとして記述されていることから、ChatGPT Agentがクリックする座標を計算しなくてはいけないのに対し、Manusは複数のボタンの中から適切なものを選択するだけで済むのです。

ManusがBooking.comで宿泊予約をする様子。HTML情報に直接アクセスしていることから、全てのボタンのその位置を正確に把握できている。それゆえ、ボタンのない場所を誤ってクリックすることはあり得ない。

ChatGPT AgentがHTML情報を利用していないのは、OpenAIがAIエージェントにブラウザ操作だけでなく、あらゆるPC操作をさせることを最終目標としているからだと考えられます。画像情報のみを用いるアプローチが成功すれば、AIは私たち人間が受け取っているのと同等の情報量さえあれば何でもタスクをこなせることになり、将来性の高い挑戦的な試みと言えます。

しかし現在は「プロダクトにAIの画像認識性能が追いついていない」のが現状です。読み込み失敗を長時間待ち続ける、クリックに何度も失敗して必要な情報に辿り着けない、タスク時間が最悪50分まで膨らむなど実用的とは言い難く、特に実行速度が遅い点は致命的です。

またOpenAIのモデルが、ManusやGensparkでメインで利用されているClaude Sonnetと比較してデザイン能力で劣っていることも、ユーザー体験の差を生んでいます。特にスライド作成においては、前節のManusによる投稿でも確認できる通り、デザイン品質に大きな差が現れてしまっています。

OpenAIは今年4月のo3リリース以降、目立った発表がなく、むしろこの1ヶ月でWindSurf社の買収失敗Metaによる人材引き抜きが報じられるなど、ネガティブなニュースが相次いでいます。

そんな中、CEOのサム・アルトマン氏は日本時間一昨日、「GPT-5がまもなくリリース」され、「新しいリサーチテクニックを組み込んだ実験的なモデル」になると発言しました。期待された汎用AIエージェントのリリースでも大きなインパクトを残せなかった同社が、果たして逆転の一手を打てるのか、今後の動向に大きな注目が集まります。

③ GrokにてAIキャラクターとの音声会話モードがリリース。賛否両論を巻き起こし大バズり

先週Grokはベンチマーク性能こそ高いものの「明確なユースケースがない」のが普及に向けた課題とお伝えしましたが、早速イーロン・マスク氏が大胆な手を打ってきました。

Grokのモバイルアプリに、擬人化されたAIキャラクターと音声会話できる「コンパニオンモード」が追加され、日本のApp Storeの無料アプリランキングで1位を獲得するなど、国内外でバイラルを巻き起こしています。是非以下の投稿にて、実際にAIキャラクターが喋る様子をご覧ください。

Grokには現在「Ani」と「Rudi」と呼ばれる2つのキャラクターが搭載されており、それぞれが明確なキャラ設定を有しています。Aniはデスノートの「ミサミサ」をそっくり模した金髪美少女キャラクターで、「ねぇ、もっとイイことしない?」といった調子で会話を甘いムードに引き込もうとするAIガールフレンドとして振る舞います。

対してRudiは可愛らしいレッサーパンダのキャラクターで、「Good Rudi」「Bad Rudi」という2つのモードを切り替えることができます。Good Rudiは「キラキラな魔法の物語を聞かせてあげる」などと子ども向けのおとぎ話をしてくれる一方、Bad Rudiを選択すると「俺はビールと金貨が生き甲斐だ。しょぼい話で絡むなボケ」などと口汚くユーザーを罵る凶暴キャラに様変わりします。

GrokのRudiと会話している様子

Grokのコンパニオンモードが画期的なのは、音声技術と3Dアバター技術を駆使することで、これまでにない臨場感溢れる対話体験が実現されていることです。例えばAniは、明るく元気な高い声から始まりますが、会話が深まるにつれて徐々に低く艶のある声色に変化するほか、3Dアバターのモーションも非常に滑らかで、思わず見入ってしまう作りになっています。これは「ChatGPTの高度な音声モード」や「Cotomo」といったプロダクトで、ただAIと音声対話するだけでは得られなかった新しい体験と言えるでしょう。

Grokが今回進出したのは、擬人化されたAIとの対話を楽しむ「AIコンパニオン」という領域であり、これまでCharacter.AIを筆頭に驚異的なユーザー数を獲得するプロダクトがいくつも輩出されているホットな領域です。

ベンチャーキャピタルa16zによる過去の調査では、C向け生成AI webアプリTop50のうち8つがAIコンパニオン領域から選ばれているほか、Character.AIでのユーザーあたりの滞在時間が1日あたり2時間に上るなど、エンゲージメントが極端に高いことで知られています。

a16zによる2024年の調査では、訪問者数の多いwebプロダクトTop 50のうち、8プロダクトがAI Companion領域のプロダクトである(右下)。今年の調査でも引き続き多くのプロダクトがランクインしている。
a16z

一方でこのようなアプリでは、Grokのようにユーザーの際どい要望に応えられるようにしたり、Character.AIのようにユーザーが「マリオ」「イーロン・マスク」などあらゆる人格を模したAIキャラクターを生成できるようにした方が人気を集めやすいこともあり、大手テック企業が参入しにくい分野となっています。xAI社はまさにその点に目をつけたと言えるでしょう。

世間では賛否両論が巻き起こっており、特に内部で利用されているLLMが反ユダヤ的な投稿を連発していたことと合わせて、海外の報道機関からは懸念の声が多く聞かれます。それでもこのコンパニオンモードが、まずはマーケティング面で一定の成功を収めたのは間違いなく、今後のさらなる展開に注目が集まるところです。

💡 Grokのコンパニオンモードは、現在モバイルアプリから無料で利用できます。詳しくは次のセクションをご覧ください。

2. SNSで話題のAIツールをピックアップ!

  • AIキャラクターと会話できる「コンパニオンモード」がリリースされ、日本のApp Storeで無料アプリランキング一位を獲得するなど、大きな話題に

  • 金髪美少女のAIガールフレンド「Ani」や表と裏の顔を持つレッサーパンダ「Rudi」と会話できる

  • 音声・アバターの表現が非常に秀逸で、臨場感を感じさせる作りになっている

  • コンパニオンモードは無料で利用可能。Aniにはリリース当初NSFWモードが搭載されていたが、7月20日現在そのモードは利用できないようである

  • 中国発の広範なタスクをこなせる汎用AIエージェント。現状ChatGPT Agentよりも速度や成果物の品質で勝ることが多い

  • webアプリ・レポート・スライド作成が主なユースケースであり、特にスライド作成ではテンプレート機能が登場しており使いやすい

  • 今年3月のリリース時と比べてみても、AIの作業中に割り込んで、一部を人間が操作できるようになるなど機能が充実。無料でも試すことが可能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在13万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は40社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちrまお是非チェックしてみてください!