ChatGPTの画像生成機能が圧倒的進化。漫画や図解まで生成可能に!

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

今回は【CEO Pickup】と題して、(株)Mavericks代表の奥野より、経営者目線での解説をお届けしています。是非ご一読ください!

1. 直近のビッグニュースTop 3

① GPT-4oの画像生成機能が大幅アップデート。漫画や図解も一発生成できるように

DALLE-3のリリースから1年半。OpenAIがついにGPT-4oに新しい画像生成機能を搭載しました。これまでの画像生成AIの常識を覆すような生成例がいくつも発掘され、Xでトレンド入りを果たすなど、SNSを中心に大きな話題となっています。百聞は一見に如かずということで、是非以下の投稿をご覧ください。

GPT-4oが新たにこなせるようになったタスクについて、以下の4点をおさえておきましょう:

タスク

ユースケース

(1) テキストを含む画像生成

「一見破綻のない」漫画図解サムネイルポスターLINEスタンプを「ポン出し」で生成できる

(2) キャラクターの固定

キャラクターの画像をアップロードして、別の場面の画像を生成できる。複雑な複数キャラクターに対しても成功例あり

(3) 画像スタイルの変換

写真を「ジブリ風」に変換するムーブメントが国内外で見られたほか、「いらすとや風」への変換

(4) 透過画像の生成

背景が透明な画像も生成できるように。イラストから線画を抽出したり、背景を透明に変換したりすることも高精度に行える

(右)左画像を入力してGPT-4oに画像生成させた結果。キャラクターの特徴を極めて正確に捉えており、また「NoLang」の文字も正しく描画できている。

この中でも特に、画像にテキストを含められるようになったことのインパクトは大きく、SNS上で「バズった投稿」の多くはこの機能によるものです。

また「キャラクターを固定した画像生成」や「画像スタイルの変換」といったタスクでは、従来はComfyUIなどのツールを使って技術者が専用のワークフローを構築しないと実用レベルの精度は達成できませんでした。しかしGPT-4oやGeminiの登場により、直感的なプロンプト指示だけで成功するケースが増えており、これらのマルチモーダルAIモデルはまさにゲームチェンジャーとなりつつあります

同じく今月発表されたGeminiの画像生成AI機能と比較すると一長一短ありますが、GPT-4oは「テキストを含んだ画像生成」や「アニメ・イラスト画像の作成」においてGeminiを上回っています。

次のセクションでは、今回の新機能の限界と展望について詳しく見ていきます。

💡 GPT-4oによる画像生成機能は現在、有料ユーザーに向けて提供されており、ChatGPTおよびSoraで使用可能ですが、レート制限が設けられています。またOpenAI CEOのサム・アルトマン氏は「まもなくChatGPTの無料ユーザーも1日3回生成できるようになる」と述べています

② GeminiやGPT-4oによる画像生成の飛躍的進化を支えた技術革新とは?

OpenAIも認めている通り、GPT-4oの画像生成AI機能には多くの限界が存在します。まず日本語テキストを含む画像生成では、文字が破綻してしまうことが少なくありません。一方で英語のテキスト生成では破綻は非常に少なく、日本語でも今後着実に改善されていくことが期待されます。

またOpenAIの前モデル「DALL-E 3」は実写画像の生成を苦手としていましたが、GPT-4oでは大きく改善されたとは言え、依然として得意とは言い難い状況です。この点ではGeminiに軍配が上がるでしょう。

そしてGPT-4oは「部分修正」が苦手という課題もあります。変更したい領域をブラシで指定してからプロンプトを打ち込んで画像編集できる機能も備わっていますが、変更してほしくない箇所まで変更されてしまうことが多いのが現状です。

(左)ChatGPT(GPT-4o)で青く領域を指定して部分修正を指示した
(右)修正後の画像。1コマ目、2コマ目で指定外領域でも背景変更や人物削除といった変更が勝手になされてしまっていることがわかる

GeminiやGPT-4oによる画像生成は、どうしてこのような高い性能を実現できているのでしょうか?その要因として「モデルアーキテクチャの進化」が挙げられます。Stable DiffusionやFlux、DALLE-3といったこれまでの画像生成AIモデルは「拡散モデル」と呼ばれる設計をベースにしているのに対し、Googleの論文OpenAIのシステムカードで示唆されている通り、GeminiやGPT-4oは「自己回帰モデル」を基盤に設計されています。

自己回帰型のモデルにはLLMの成長を支えた「スケーリング則」が適用されるため、モデルを大規模化していくことで性能が上昇していくという利点があります。今回私たちが目の当たりにしたような進化が、今後も繰り返される可能性は十分にあるでしょう。

またGeminiやGPT-4oの進化は、これから先「テキストプロンプトを入力して画像生成する」時代から「AIと対話したり、画像を見せたりしながら画像を作り上げる」時代に移り変わっていくことを示唆しています。これにより目的に合った、イメージ通りの画像をポン出し生成するのにかかる時間は今後どんどん減っていき、実用性が増していくしょう。

一方で、画像生成AIがLLMと異なる点として「最後の手直しが困難」な点が挙げられます。Geminiの画像編集Canvaのテキスト・物体の切り抜きを使えばある程度解決できますが、まだまだ編集の自由度・精度は限定的です。「80点の画像を95点の画像に手直しする」作業の半自動化にはまだまだ時間がかかりそうです。

③ 【CEO Pickup】汎用AIエージェント「Manus」がもたらす業務革新

初めまして。NoLang開発チーム(株)Mavericks 代表の奥野と申します。

今週以降のニュースレターにて、定期的に経営者・スタートアップCEOとしての観点からテックニュースに関する分析をお届けできればと思っております。どうぞよろしくお願いいたします。

今回のトピックは、「Manus」と呼ばれる中国発の自律型AIエージェントになります。

2024年までの主要なAIサービスでは、実際のビジネス現場における業務フロー全体を特定の一つにアウトソースできる事例が極端に少なく、難しいものでした。収集・作成といった単一業務をそれぞれに特化したサービスで効率化することは容易でも、最終成果物として完成させるにはやはり接着剤として人間の関与が必要でした。

しかし、Manus では「目的」だけ伝えれば、AIがその達成のための計画と実行を自律的に進めることが可能です。作業を手順化する必要がなく、目的に応じた業務フロー全体をManusが理解・執行してくれます。

2025年はAIエージェント元年と言われながら、すでに3ヶ月が経過しました。

さまざまな企業がAIエージェント導入や開発に向けて活動する中で、Manusは多くのユーザーにとって、AIによる業務革新イメージを想起させた最初のプロダクトとなったのではないでしょうか。

実際にAIエージェント活用が進みそうな事例を以下にまとめました。

特に人事・採用のダイレクトリクルーティングなどは、大規模なSES企業では年間予算が10億円を超えることも珍しくありません。実際、新卒や中途採用を問わず、転職エージェントからの案内メール送付作業や面接、人事評価タスクなどの一部は定型的な業務も多く存在します。

マーケットサイズが大きく労働集約的であり、生産効率が利益率に直結するような業界課題には非常にインパクトのあるソリューションとなりうるでしょう。

そんな業界課題に理解の深い企業がAI エージェントサービスを導入する際、どのような評価軸でツールを評価するべきなのでしょうか?

特に考慮すべきは、情報漏洩と可用性のリスクでしょう。

高度な自律性を持つAIエージェントだからこそ、扱う情報のセンシティブさやトラフィック増加時の耐障害性を十分に検討したうえで、堅牢なセキュリティ体制やインフラ整備を選定基準として重視することが求められます。

2. SNSで話題のAIツールをピックアップ!

  • AIに自然言語で指示して、モバイルアプリを作成できるツール。Boltと同じくフレームワークにReact Nativeを使用

  • Airbnb, Instagramなど有名アプリのクローンを比較的高精度に作成できる

  • 無料でも1日5往復のやり取りが可能であり、Boltよりも試しやすい

  • ただし、エラー修正専用のボタンは用意されていないので、直してほしいエラーがあった時には、コピー&ペーストして明示的に教える必要

Google AI Studio (https://aistudio.google.com/)

  • Googleが開発者向けに提供している機能を一挙に試せるプレイグラウンド。最新モデル「Gemini 2.5 Pro」を使用可能に

  • Gemini 2.5 Proは長考するリーズニングモデルであり、数学や科学のベンチマークで最高水準のスコアを達成

  • 左のタブから「Create Prompt」を選択し、右のタブにてModelを「Gemini 2.5 Pro Experimental」に設定して試すことができる

  • 先日追加されたGeminiによる画像生成・編集機能も極めて有用なので、こちらも試してみるのがおすすめ

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!