• Newsletter from Mavericks
  • Posts
  • 人手評価でFlux超え!テキスト処理が得意な画像生成AI Ideogram 2.0が登場、NoLangで「異なるMBTI間の対話動画」を作成する方法など

人手評価でFlux超え!テキスト処理が得意な画像生成AI Ideogram 2.0が登場、NoLangで「異なるMBTI間の対話動画」を作成する方法など

Newsletter from Mavericksをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで「異なるMBTI間の対話動画」を作成する方法について解説します!

1. 直近のビッグニュースTop 3

① 人手評価でFlux超え!テキスト処理が得意な画像生成AI Ideogram 2.0が登場

今月に入ってから画像生成AI分野が大きな盛り上がりを見せています。先週は、a16zの生成AIアプリTop 100(後述)に2回連続で選ばれており、元Google Brain研究者らにより設立されたIdeogram社が、画像生成AIサービスをがバージョン2.0へとアップデートしました。

下記の公式投稿では、テキスト入りの画像を正確に生成できることが強調されているほか、人手評価では、指示への忠実度、テキスト処理、及び全体的な評価において、先日大きな話題となったFlux Pro(前々回のニュースレター)を上回ったと報告されています。

実際にどのようなテキストが描画できて、どれくらいの成功確率なのかは、こちらのX投稿によくまとまっており、何度か失敗するものの、異なる2つのテキストを同時に描画することも可能なようです。ユースケースはこちらのX投稿にもまとまっています。

私自身、1.0のリリース以降Ideogramを愛用していますが、画像生成AIモデルが一から学習されていることもあり、Stable DiffusionやMidjourneyとは一味違う、独特な雰囲気の画像を生成できる印象があります。例えばこちらの女性の画像は、やや主観が入りますが「AI生成っぽくない」ように見受けられます。

Ideogramは他にも、お絵かき機能、参照画像をもとに生成する機能、画像からプロンプトを逆生成する機能、カラーパレットを指定できる機能などを搭載しており、それらの便利さは、以下のデモ動画にて一気に確認できます。

Ideogramは、無料で一日5回、計20枚の画像を生成できるほか(詳しい使い方は次のセクションにて)、iPhoneアプリやAPIサービスもリリースしており、競合のMidjourneyと差別化を図っています。

対するMidjourneyも、webアプリにて25枚の画像を生成できる無料トライアルを期間限定で提供するなど(8月25日現在は終了)、ユーザー獲得に注力しています。クローズド、オープンの双方にてどの企業が画像生成AI分野にて覇権を握るのか、注目したいところです。

② a16zがC向け生成AIサービスTop 100を発表。半年でどう変化した?

a16zが、推定アクセス数をもとに算出したC向け生成AIサービス Top 100を公開しました。Webアプリ・モバイルアプリのそれぞれに対して50プロダクトが選出されています。

a16zにより発表されたC向け生成AI webサービス Top 50。
レポート及びモバイルサービスTop 50はこちら

昨年3月の調査(以前のニュースレター)と比較して、24%のプロダクトが新たにランクインしており、改めて変化の激しい業界であることが伺えます。ここ半年でC向けの生成AI分野がどのように変容したか、3つの観点から解説します。

(1) クリエイティブツールが多様化。動画生成から音楽制作まで

生成AIの利活用が最も進んでいる分野の一つがクリエイティブ分野であり、今回選出されたwebプロダクトの52%が、コンテンツ生成・編集をサポートするクリエイティブツールです。ここでいうコンテンツは、画像・動画・音声・音楽など広範なモダリティに渡ります。

前回選出されたコンテンツ生成プロダクトの多くが画像生成ツールでしたが、今回は41%に留まり、その代わり

  • 動画生成ツールDream Machineを提供するLuma

  • ネットミームで話題となった、動画のスタイルを変換できるViggle

  • Sunoと並んで音楽生成AIツール2強をなすUdio

  • HeyGenのようなアバター動画を安価に作成できるVidnoz

といった動画生成、音楽生成ツールが新たにランクインしています。また、音楽生成AIツールSunoは、順位を36位から5位まで大幅に押し上げています。

C向け生成AI webサービス Top 50に新たにランクインしたプロダクト一覧
a16z記事

実際、6月にLuma社が公開したDream Machineをはじめとして、Kling, Runway Gen-3 Alphaといった本物と見分けがつかないレベルに精巧な動画を生成できるツールが一挙にリリースされたほか、音楽生成分野に関しても、上述のSuno, Udioに加えて新たにLoudMeと呼ばれる同水準のツールが登場してきています。

生成AIツールを駆使して、現段階でどれくらいの品質のコンテンツが作れるのか、以下のMVを観れば概観が掴めると思いますので、是非ご視聴ください。

(2) ByteDanceの存在感が増大

TikTokの運営元であるByteDance社が、生成AI分野にて存在感を大きく強めています。ByteTanceの子会社が開発するツールが、新たに4つTop 100にランクインし、計6つが名を連ねる形となりました。

そのうちの3つはユーザーが独自のチャットボットを作成・共有できるボット開発プラットフォームです。Coze以前のニュースレター)は、Notion, Google Driveなどの外部ツールと簡単に連携可能であり、業務効率化を助けるボットの作成が想定されています。

一方、Cici及びその中国語版のDoubaoは、旅行計画、スタイリスト、恋愛相談といった用途が紹介されており、日常生活での使用を想定したエンターテインメント性の高いサービスです。

残り一つは、Gauthと呼ばれるAI家庭教師アプリです。ByteDance社は2023年末に生成AI領域でR&D部門を立ち上げており、その成果が早速出てきていると言えます。

(3) 新たなカテゴリとして、「デート」が登場

半年前の調査にはなかった新カテゴリとして「デートと外見評価」が追加され、3つのモバイルアプリがランクインしました。例えばUmaxというアプリでは、ユーザーが顔写真を上げると、項目ごとにレーティングされ、より魅力的になるためのアドバイスが与えられます。さらに、より魅力的な画像案も生成してくれます。

運営会社は、既に100万人を超えるユーザーを獲得しているとしており、今後一年でどれだけこういったツールが普及していくのか、注目が集まります。

外見評価アプリ「Umax」の説明図(a16z記事

③ OpenAIがGPT-4oのファインチューニング機能を一般公開

OpenAIがGPT-4o及びGPT-4o miniのファインチューニングの一般提供を開始しました。ファインチューニングとは、AIモデルにデータを追加学習させて、特定のドメインやタスクに強くする手法のことを指します。

OpenAIの公式ドキュメントには、ファインチューニングのユースケースとして

  • 出力のスタイル・フォーマットを固定する

  • 複雑なプロンプトに従ってくれない場合に修正をかける

  • 多くのコーナケースを処理する

が挙げられており、一般には、出力形式やプロンプトの効きを️改善することは可能だが、新たに知識を注入することは困難とされています。ドキュメントでは他にも、GPT-4o miniのような小型モデルをファインチューニングすることで特定タスクにおける性能をGPT-4o水準まで引き上げ、コストカット・高速化を図るという例も紹介されています。

OpenAIはGPT-4oのファインチューニングの成功事例として、Cosine社と共同でソフトエンジニアリング特化のAIエージェント「Genie」の開発プロジェクトに取り組み、SWE-Benchと呼ばれるベンチマークにて、過去モデルより大幅に高い30.08%の正答率を達成したことを挙げています。

実はこの正答率は、創業わずか半年で評価額20億ドルに到達したスタートアップCognition AI社が公開した「世界初のAIソフトウェアエンジニア」と呼ばれる自律型AIエージェント「Devin」を大きく上回っています。SWE-Benchは、実在するGithubのイシューを元に作成された、人間のエンジニアが業務で対処するような複雑な問題から構成されており、そのような実践的な問題でこれだけの差が出ていることは非常に有意義と言えるでしょう。

SWE-BenchマークにおけるGenie及び他モデルの性能比較。
上から6番目のDevinと比較しても遥かに高い正解率を達成している
Cosine社公式発表

Cosine社CEOのPullen氏へのインタビューによると、Genieは数10億トークンの合成データをファインチューニングに使用しているとのことです。OpenAI APIをそのまま使用すると10万ドル程度の費用がかかる計算になりますが、大変興味深いアプローチと言えます。

一方で、OpenAIのGPTに限らず、ビジネスとりわけ業務効率化の文脈で、自社データを使用したLLMのファインチューニングが役に立った事例は未だほとんど報告されていません。100万トークンの膨大な文章を入力できるGemini 1.5 ProのようなLLMが登場していることもあり、現状は参考例をそのままプロンプトに入れたり、RAGを使って参照させるアプローチの方が、手軽な上に遜色ない精度が出るケースが多いでしょう。

2. SNSで話題のAIツールをピックアップ!

  • Flux Pro水準の高品質な画像を無料で生成できるAIツール。先日2.0へとアップデート

  • 特にテキスト処理を得意としており、うまくいけば異なる2つのテキストを同時に描画することもできる

  • ギャラリーから人気の画像とそのプロンプトを閲覧できるのも嬉しい

  • 無料でも1日5回、20枚の画像を生成可能

  • 対話形式でwebアプリのUIを生成できるツール。運営元のVercel社は、webアプリで広く使用されているReactフレームワーク「Next.js」を開発

  • Claude Artifactsと似た機能を持つが、デザインのレベルや配置の精度が高いと評判

  • Xでよく見かける図解n選や、リッチな機能を持つページも生成可能と話題

  • 無料でも回数制限ありで使用可能

3. 🐬NoLangで「異なるMBTI間の対話動画」を作成する方法

今回は、NoLangのユースケースの一つとして、「異なるMBTI間の対話動画」を作成する方法について解説します。以下のX投稿にて、生成動画例を紹介していますので、まずはこちらをご覧ください。

上記投稿にて作成方法を簡易的に紹介していますが、ここではより詳しく説明していきます。

方法1: NoLangが用意した公式プロンプトを使用

ヘッダーにある「動画設定」より「プロンプト」タブを選択します。対話モードがONになっていることを確認した上で、「ESFP v.s. INTP」という公式対話プロンプトを設定すれば完了です。

方法2: プロンプトを自作する

(1) Perplexity AIで「ESFJあるある5選。各々は75文字で。」などと検索します。リアルタイム情報でないため、ChatGPTに聞く手もありますが、MBTIに関しては、web上に解説記事が多く出回っており、それらを活用したいため、ここではweb検索結果上位を要約してくれるPerplexityを用いています。

(2) NoLangで「マイ対話プロンプト」を選択して「+追加」ボタンをクリックし、「キャラ設定→特徴」に結果を順々に貼り付けていきます。片方のMBTIに対して設定が完了したら、もう片方に関しても、これまでの手順を同様に実行します。

(3) さらに備考欄に「お互いの主張に譲歩するのではなく、言いたいことを言い合って」と追記します。異なる考え方を持つ人物たちに討論させるとき、何も指示を与えないと、お互いが譲歩してしまって面白みに欠けるため、このように明示的に指示しています。

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!