- Mavericks AI ニュース
- Posts
- OpenAI Spring Update, Google I/Oをどこよりも深く徹底解説!NoLangに待望の新機能が追加など
OpenAI Spring Update, Google I/Oをどこよりも深く徹底解説!NoLangに待望の新機能が追加など
Newsletter from Mavericksをご覧いただきありがとうございます!
先週はOpenAIとGoogleが立て続けに大規模な発表を行い、生成AI分野も大いに盛り上がりましたが、同時に様々な情報が飛び交い、正確なキャッチアップに苦心した一週間でした。
今回は、これらの情報について重点的に解説していきます!
📚 目次
1. 直近のビッグニュースTop 3
① ついにOpenAIが新AIモデルGPT-4oを発表!
② 他にも重要項目が目白押しだったOpenAIの発表をどう捉えれば良いか
③ Google I/OにてAIを活用した検索機能などが新たに発表!
1. 直近のビッグニュースTop 3
① ついにOpenAIが新AIモデル「GPT-4o」を公開!
5月13日、OpenAIが「Spring Update」にて、魔法のような新モデルGPT-4oの公開を含む大々的な発表を行いました。昨年11月のDev Day以来の大規模な発表となります。
リアル翻訳こんにゃくを実現した以下のデモが特に衝撃的でしたが、他にも必見のデモ動画がOpenAI公式発表(GPT-4o紹介, ライブデモ)からいくつも公開されており、まずは気になったものをいくつか観てみることをお勧めします。
OpenAI demos real-time language translation with its latest GPT-4o model.
— TechCrunch (@TechCrunch)
5:29 PM • May 13, 2024
数ある発表内容の中で、まずは新モデルGPT-4oの特徴について解説します。なお、以下で紹介する機能のうち現状どれが使用可能か、使用不可の場合いつ使えるようになるのかについては、最後のセクションにまとめています。
1. GPT-4 Turboを超える性能を持つにも関わらず安価かつ高速
人間により評価が下されるChatbot Arenaのリーダーボードにて、GPT-4oはGPT-4 Turbo (以下GPT-4と略称) を大きく上回るスコアを達成しており、さらに他のほとんどのベンチマークでもGPT-4 Turboを上回っています。
しかしより注目すべきは、GPT-4oはこれだけ高い性能を有しつつ、安価かつ高速であることです。トークンあたりでGPT-4と比較すると、4倍高速かつ料金は半分となります。さらに、日本語のトークン効率が上昇したことから、日本語使用時は速度と料金がさらに1.4倍改善され、5倍以上高速で料金は3分の1となります。
2. マルチモーダルかつエンドツーエンド
GPT-4oは、
画像理解、動画理解、画像生成
音声入力、音声合成
が可能なマルチモーダルAIモデルであり、さらに入出力がどんなモダリティであっても同じニューラルネットワーク上で処理するエンドツーエンドなモデルです。
今までOpenAIが提供していたChatGPTの音声対話機能では、「Audio → Text」「GPT-4」「Text → Audio」と3つのモデルが使用されており、画像生成機能でも「GPT-4」「Text → Image」の2つが使用されていました。一方で、GPT-4oはどちらのケースでも、単一のモデルで処理を行うことが可能です。
エンドツーエンドな処理のメリットは大きく2つあります。1つ目は高速化です。OpenAI公式発表によると、ChatGPTの音声対話機能における待ち時間は、GPT-3.5使用時ですら2.8秒でしたが、GPT-4oは僅か平均0.32秒です。
2つ目は、処理中に情報が失われず、モダリティを跨いだ複雑な処理が可能であることです。例えば、画像でキャラを指定して画像生成を行うとき、「画像認識モデル (Image → Text)」「LLM (Text → Text)」「画像生成モデル (Text → Image)」が別々だと、最初に入力したキャラの画像情報は、一旦テキストに変換された上で画像生成モデルに受け渡されますが、その過程で様々な情報が抜け落ちてしまい、一貫性が担保されません。一方で、これらのモデルが1つに統合されていると、画像情報を直接的に伝達でき、より整合性の取れた結果が期待できます。
GPT-4oを用いた、キャラを固定した画像生成 (OpenAI公式発表)
※5月17日現在、ChatGPTで提供されているGPT-4oはエンドツーエンドになっていない (後述)ようで、再現に失敗しました。
3. 音声対話の品質が劇的に向上し、人間レベルに
高速化によって遅延時間が僅か0.32秒となったGPT-4oですが、さらにエンドツーエンド化によってより細やかな情報(例:声のトーン、誰が話者か)も勘案できるようになり、会話相手の状況や感情を理解した上で、音声に感情を乗せることが可能となりました。
OpenAIは以下のようなデモを公開しており、メンバーがGPT-4oと、あたかも友達と話しているかのようにやりとりする様子を見ることができます。
AIとは思えないほどのハイテンションかつハイテンポでバースデーソングを歌う
ユーザーの息が上がっていることを検知
エンジニアの面接に臨む男性が、カウボーイハットを被って行こうと思うんだけどどう?と問いかけると、大爆笑
他にも、相槌などのフィラーを的確に交えることができる他、AIの発言途中にそれを遮って喋り始めても、違和感なくやりとりできています。
なお、今回のデモで使用されているAI音声は、映画「Her」にて主人公が恋する対話型AI「サマンサ」を強烈に意識していると言われており、Xにてサム・アルトマン氏も言及しています。
② 他にも重要項目が目白押しだったOpenAIの発表をどう捉えれば?
Spring UpdateではGPT-4o公開の他にも、いくつか重大発表がありました。一つ目は、GPT-4o, GPTsの一般ユーザーへの無料開放です。無料ユーザーでも、最高スペックモデルであるGPT-4oを、3時間あたり10回使用できるようです。
また、ChatGPTのデスクトップ版のリリースも発表されました。特に、ショートカットキーを使ってコマンド一つで、スクリーンショットを撮影して、ChatGPTに送信できる機能が画期的です。GPT-4oは、GPT-4Vと比較して画像認識性能が飛躍的に向上していることから、様々なユースケースが生まれると期待でき、OpenAIからは、JupyterNotebook上でペアプログラミングをするデモが公開されています。
このように、今回の発表では華々しい成果が多数公開されましたが、GPT-4oの性能に関しては、疑問を投げかける声が少なからずあります。実際、私の体感でも、日本語テキストの生成能力は旧GPT-4と同等か僅かに下回るレベルであり、文章作成やコーディング時には旧GPT-4やClaude 3 Opusを使用することがよくあります。
しかしOpenAIの先を危ぶむにはまだ早いと考えられます。OpenAI CTOのムラティ氏はライブデモの中で、GPT-4oを「GPT-4レベルの知能を無料ユーザーを含む全ての人にもたらすモデル」と紹介しています。また、同氏が「今日の発表は無料ユーザーに焦点を当てているが、次のフロンティアにも大きな関心を寄せており、間もなく次の大きなことに向けて、進捗状況をお知らせする予定」と述べている間、スクリーン上に一瞬だけ「Fontier models coming soon」と表示されました。既により高性能なモデルを準備していることを匂わせています。
右上のスクリーンに映し出されている文字に注目 (OpenAI Spring Update)
GPT-4oはGPT-3.5 Turboよりも高速なモデルであることから、旧モデルと比較して非常に軽量な、頒布容易なモデルであることは確実です。にも関わらず、性能は競合他社を含めた全モデルの中で最高レベルであり、このような状況は今後いつ訪れるかも分かりません。これを踏まえて今回の発表は「世界最高レベルのモデルを全世界の人々に知らしめるための発表」だったと捉えることができます。これは、GPT-4oのトークナイザーが20言語に最適化されたこと、OpenAIがこれまでとは打って変わって「実生活と結びついた、誰もが驚ける分かりやすいデモ」を大量に公開したこととも整合しています。
今回の発表後、月20ドルの有料プランと無料プランでできることの差が劇的に縮まり、アンバランスな状況となっています。有料ユーザーに向けた発表が近々行われる可能性は極めて高そうです。
③ Google I/OにてAIを活用した検索機能などが新たに発表!
OpenAIの発表の翌日、毎年恒例の開発者向け会議Google I/Oが開催されました。「魔法のようなAI」を発表したOpenAIとは対照的に、GoogleはGoogle Search, Google Drive, Google Sheetsなど既存の製品への融合を着実に進めていることを発表しました。
また、新たなLLM, 画像生成, 動画生成モデルも多数発表されました。どれも競合他社を含めると過去最高性能には至っていないものの、着実に性能が向上していることは間違いありません。以下に主要な発表内容を公式記事へのリンク付きでまとめます。
Google検索で実験的に提供されていた、生成AIによる回答機能「SGE」が「AI Overviews」という名前で正式機能となり、アメリカにて提供が開始されました。
また、Multi-Step Reasoningという仕組みが今後導入予定であることが発表されました。「ボストンにあるヨガ教室。勤務地からの徒歩時間と新規入会特典つきで」といった複雑なクエリも適切に処理し、必要に応じてGoogle MapsやGmailなど他のサービスと連携しながら回答を導出し、見やすい形で結果をまとめてくれるというものです。
SGEではハルシネーションが多発することが問題視されているだけに、どこまで実用的であるのか、注目が集まります。
Multi-Step Reasoning使用時の検索結果 (Google公式発表)
Google Drive, Gmail, Google Sheetsなど主要なGoogle製品が搭載されているGoogle Workspaceにて、Geminiをサイドバーから呼び出せるようになる予定だと発表しました。
製品間を跨いだ横断的な処理も行える点が魅力的です。例えば、PDFの領収書が添付されたメールをGmailで開くと、PDFをドライブに保存した上で、抽出した情報を整理してスプレッドシートに保存するのはどうかと、Geminiが能動的に提案するデモが示されています。
Gemini 1.5 Proのコンテキスト長が100万トークンから200万トークンまで拡大されています。GPT-4oと比べると15倍以上の長さです。また、この3ヶ月間でベンチマーク性能が大きく向上していることも示されています。
小型かつ高速な新モデルGemini 1.5 Flashもリリースされました。Claude 3 Haikuよりも1.5倍近く高速ながら、性能はGemini 1.0 Proに匹敵します。
画像生成AI「Imagen 3」、動画生成AI「Veo」が公開され、ImageFX, VideoFX, MusicFXといったサービスのwaitlistが公開されています。Veoについて、生成動画の質はSoraにやや劣るものの、Runway, Pikaには優っている印象で、Sora同様1分間の動画を生成可能です。
Introducing Veo: our most capable generative video model. 🎥
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO
— Google DeepMind (@GoogleDeepMind)
5:35 PM • May 14, 2024
2. SNSで話題のAIツールをピックアップ!
NoLang (https://no-lang.com)
弊チームMavericksが開発するリアルタイム解説動画生成AI
先週新たに動画編集機能が公開され、テキスト・画像・背景動画・音声・BGMを自由に変更できるように
一日の生成上限が20回に引き上げ
GPT-4oも既に組み込まれており、生成動画の品質が大きく向上
BlitzMe (https://blitzme-app.com/)
「笑わないといいねができない」新感覚のSNS。いいねボタンがない代わりに、ユーザーが笑うといいね判定される
自分から自然と笑いがこぼれると、自動でいいねが押されるという体験が非常に感動的
5/8にベータ版が公開されたばかりの新プロダクト
Apple Store及びGoogle Playで提供されており、無料で使用可能
3. OpenAIが発表した機能のうち、現状どれが使える?
OpenAIは先週、様々な新機能・サービスを発表しましたが、その中には既に使用可能なものとそうでないものがあり、思わぬ落とし穴もあります。5月19日時点での情報をまとめました。
ChatGPT(Webアプリ, iOS, Android)
一部の課金ユーザー(ChatGPT Plus)向けに順次提供を開始中(既に日本ユーザーに向けても提供開始)
今後数週間にかけて、使用可能なユーザー範囲が拡大される予定。対象者にはメールで通知が来る
現状はMacアプリのみ提供。なお、AppleシリコンのPCのみで動作し、IntelシリコンのPCでは動作しないことに注意
今年後半にはWindows版の提供も計画
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
執筆者より
日頃よりニュースレターをご愛読いただき、ありがとうございます。おかげさまで購読者数は順調に伸びており、アンケートを通じて貴重なご意見も多数いただいております。皆様の声は、大きな励みとなっています!
今後も、有益かつ質の高いAI情報を届けていきますので、引き続きよろしくお願いいたします!
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024