• Mavericks AI ニュース
  • Posts
  • OpenAIがソフトウェアエンジニアリングAIエージェント「Codex」をリリース

OpenAIがソフトウェアエンジニアリングAIエージェント「Codex」をリリース

他にも...OpenAIがChatGPT各モデルの使い分けについて解説記事を公開

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① OpenAIがChatGPT各モデルの使い分けについて解説記事を公開! - メジャーモデル編

OpenAIがChatGPT内でのモデルの使い分けについて解説記事を公開しました。ここでは公式情報を引用しながら、私自身の見解も交えて各モデルの特徴と用途について解説します。なお以下では、私が最もおすすめできるモデルから順に紹介しているほか、「」で囲った部分はOpenAIの記述を直接引用しています。

(1) GPT-4o | 性能・機能の両面で汎用性が高く、迷ったらまず試すべし

「日常タスクに優れている」モデルであり、「ブレインストーミング」「要約」「メール」「クリエイティブコンテンツ」といったタスクでの利用が推奨されています。バランスの良いモデルであることから、迷ったらGPT-4oに聞くのがおすすめです。

GPT-4oは性能面だけでなく機能面から見ても、汎用性が高いです。画像、ドキュメント(PDF, PPTX, …)、CSVファイル、音声など広範な形式の入力を受け取ることができる上、Python実行、検索、画像生成、ビデオ付き音声会話、GPTsといったChatGPTのあらゆる機能を利用できます。

(2) o3 | 論理的思考力が圧倒的。検索も非常に強力

じっくり推論した後に回答してくれるoシリーズのモデルであり、「戦略的計画(壁打ち)」「詳細な分析」「大規模なコーディング作業」「高度な数学・科学」といった緻密な論理的思考を必要とするタスクを得意としています(以前のニュースレター)。

GPT-4oとの使い分けとしては、そのタスクを他の人にお願いする時に、瞬発的にその場で回答して欲しい場合はGPT-4o、持ち帰って数10分〜数時間考えてから回答して欲しい場合はo3とすると良いのではないでしょうか。

また「DeepResearch-lite」と称される通り、GPT-4oと比べて検索性能が飛躍的に向上している点も特筆に値します。

「現在の市況を踏まえて、飲食店経営で売上3000万円を達成する方法を考えてください」という質問に対するo3の回答。検索結果から正確に市況を分析した上で、逆算思考に基づいた筋の良い回答をしている。

上と同じ質問に対するGPT-4oの回答。o3と比べると、深く考えずにそれっぽいことを言っているだけ、と捉えられても仕方のない回答となっている。

弱みとして、やり取りの数が多くなると、途端に性能が低下することが挙げられます。往復回数は3〜5回程度に抑えるのが望ましいでしょう。

(3) DeepResearch | 待ち時間は長いが、調査の網羅性は圧倒的

時に50件以上もの文献を調査した上で長文レポートを生成する機能です(モデルではありません)。私たち人間が数時間かけて行うような徹底的な調査作業を自動化することができます。

一方で、実行には数分から数十分の時間を要するため、よほどの網羅性が必要とされない限りは、o3を使った方が早く欲しい情報に辿り着けるでしょう。

とはいえ、回答品質は競合サービスと比較しても群を抜いており、完璧な調査結果が必要な場面では非常に価値があります。なお、正式版ではo3ベースのモデルが採用されていますが、無料プランではo4-miniベースとなるため、やや精度が落ちる点に注意が必要です。

(4) o4-mini, o4-mini-high | o3が使えない時に代替として優秀

o4-miniは、o3の後継モデルo4(未発表)を小型化したモデルと見られ、o3同様に緻密な論理的思考に基づいて回答をしてくれます。「コーディング」「科学的概念の説明」といった「技術タスク」を得意とします。

一方、o4-mini highは同一モデルながら思考時間をより長く取るよう設計されており、応答速度は遅くなるものの、より質の高い回答が期待できます。

一般にモデルが小型化すると搭載可能な知識量が制限される傾向があり、回答品質も下がりがちです。少なくとも私自身は、o3が使える環境であえてo4-mini, o4-mini-highを使用したいと思った場面にはほぼありません

それでも、Free, Plusプランではo3の利用に制限があるため、これらのモデルがo3の代替として機能する場面は多いはずです。

② OpenAIがChatGPTの各モデルの使い分けについての解説記事を公開! - マイナーモデル編

(5) GPT-4.5 | EQの高いモデルだが、出番は少なめ

「コミュニケーション」に秀でており「クリエィティブ」なタスクを得意とする感情指数(EQ)が高いモデルです。以下のようなサンプルプロンプトが公式サイトに掲載されています。

・AIトレンドに関する魅力的なLinkedIn投稿を作成してください。

・新機能のリリースにあたって製品説明文を書いてください。

・共感的なトーンでお客様向けの謝罪文を作成してください。

以前のニュースレターでも紹介した通り、カスタマーサポートでは特に有用です。 しかしGPT-4oと比べて応答速度が遅く、明確な差が出ないことも多いため、使用場面は限られるでしょう。

(6) GPT-4.1 | 良くも悪くも指示に忠実。出番はあまりない

先週ChatGPTに新しく追加された、良くも悪くも指示にそのまま従うモデルです。「4.1」という名がついているものの、GPT-4.5の劣化版ではなくまったく別の専門性を持ったモデルであり、 OpenAIの公式発表ではコーディングタスクへの強みが特に強調されています。

ChatGPTにおける使用感として、コーディング以外の用途では、GPT-4oとの差を感じる場面は少ない印象です。プロンプトに絶対的に従って欲しい際には、使用を検討する価値があるかもしれません。

このように、現在ChatGPTには優劣の分かりにくいモデルが多数搭載されており、それらを使いこなすにはかなりの知識と経験が必要となります。OpenAI CEOのサム・アルトマン氏はこの状況は好ましくないと度々発言しており、実際数ヵ月以内にリリース予定と明言されているGPT-5は「o3を含む複数技術が統合された一つのシステム」とされています。GPT-5というただ一つのAIに聞くだけで残りはAIが全てやってくれるといった未来を目指しているのでしょう。

サム・アルトマン氏が2月13日に示したOpenAIの今後のロードマップ。
こちらの投稿画像を筆者が修正)

こうした状況を踏まえると、今後ChatGPTはモデル選択の複雑さを解消し、ユーザーが意識することなく最適な回答を得られるサービスへと発展していくでしょう。それでも、ChatGPTに限らず生成AIの可能性を最大限に引き出せるようになるためには、各モデルの特性と限界を実際に試しながら感覚を養っておくことが、長い目で見ても大きな財産になると考えています。

③ OpenAIがついにソフトウェアエンジニアリングAIエージェント「Codex」をリリース

OperatorやDeepResearchといったAIエージェントを公開してきたOpenAI社が、新たに第3のAIエージェント「Codex」をリリースしました。クラウド上で動作するソフトウェアエンジニアリングエージェントであり、Devinと似た機能を持ちます。

Codexでは、単一のGitHubリポジトリと連携した上で、自然言語でタスクを指示するだけで、ワンクリックでプルリクエスト作成できる状態までタスクを遂行してくれます。以下の公式動画の冒頭を見れば、より詳しく理解できるでしょう。

OpenAIの公式発表からは、CodexがDevinと似たような機能を有しつつも、異なる思想・ゴールに基づいて設計されていることが伺えます。

CodexはDevinと同様にクラウド上の隔離されたコンテナ環境で動作しており、低コストで並列作業数を10倍、極論100倍以上にも増やせます。これは人間の開発チームでは決して実現できないスケーリングでしょう。

また、Codexには「codex-1」というo3ベースの専用モデルが搭載されています。このモデルはソフトウェアエンジニアリングタスクに対して強化学習で訓練されており、他社モデルを利用しているDevinと比較して、より人間の好みに沿った成果物を生み出すことが期待されます。

codex-1とOpenAI oシリーズのモデルとの性能比較。人間のエンジニアが業務で対処するような問題を集めた「SWE-Bench」やOpenAI内部でのソフトウェアエンジニアタスクなど、実用的なタスクにおいてcodex-1の性能が高いことが強調されている。

一方でCodexには明確な制限もあり、安全面を理由に、環境構築時を除いてインターネットへのアクセスが許されていません。タスク実行中に外部Webサイトを検索したり、APIを呼び出したりすることができないため、実行可能なタスクは限定的です。これは独自のブラウザ環境を持つDevinとは対照的でしょう。

Devinが「世界初のAIソフトウェアエンジニア」と謳われてリリースされたのに対し、OpenAIは今後のCodexの方向性について以下のように述べています:

・開発者が自分で手がけたい作業を推進し、それ以外をエージェントに委譲する未来を想像している

・リアルタイムコラボレーションと非同期委譲の両方をサポートする Codex ツール群を構築している

・最終的には、両者が統合されると考えている

ここでいう「リアルタイムコラボレーション」とは、IDE上でAIによるタブ補完やチャット機能を駆使して、AIと高頻度で連携を取りながらコーディングを進めることを指します。つまり、人間自身によるコーディングを補佐する機能も積極的に開発していくというOpenAIの姿勢が見て取れます。

実際、OpenAIは先日IDE「Windsurf」の開発元の買収に約30億ドルで合意したと報じられています。現在のCodexはまだリサーチプレビュー版であり機能も限定的ですが、今後どのような進化を遂げていくのか、大いに注目したいところです。

💡 CodexはChatGPT Pro, Enterprise, Teamユーザー向けに公開されており、Plus, Eduユーザーに対してもまもなく提供予定とされています。今後数週間は追加費用なしでアクセスできるものの、それ以降はレート制限が設定され、それを超えて利用したい場合は、追加利用枠を購入する必要があるともされています。

2. SNSで話題のAIツールをピックアップ!

  • YouTube、webページ、ドキュメントなど様々なソースを要約してくれるAIサービス

  • 例えばYouTubeリンクを入力すると、タイムスタンプごとの要約が生成

  • そして画期的なことに、生成文ごとに、元動画・スクリプトの対応箇所をワンクリックで瞬時に確認できる。

  • 機能制限こそあるものの無料でも試すことが可能。UIが抜群に良く、非常におすすめできるサービス

ElevenLabs Scribe (https://elevenlabs.io/)

  • 世界的に有名な音声AIツール。先日リリースされた文字起こしAIモデル「Scribe」の日本語性能が非常に高い

  • ベンチマークスコアで、後発のOpenAI最新モデル「gpt-4o-mini-transcribe」を上回っている

  • Speech-to-Textをはじめとして、様々な機能を無料で試すことが可能

  • 先月に初の海外拠点として日本法人を設立しており、今後の発表にも期待

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!