Mavericks AI ニュース
Posts
あのChatGPTより一貫性高く画像生成。人物固定・画像編集できるAIモデル「FLUX.1 Kontext」が登場

あのChatGPTより一貫性高く画像生成。人物固定・画像編集できるAIモデル「FLUX.1 Kontext」が登場

他にも...ElevenLabsが感情・喋り方を細かく制御できる音声合成AI「Eleven v3」を公開

マーベリック
June 08, 2025

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます！

📚 目次

1. 直近のビッグニュースTop 3
① 【お知らせ】株式会社Mavericksにて全職種の業務委託および正社員の募集を開始しました！
② あのChatGPTよりも一貫性高く人物固定できる画像生成AI「FLUX.1 Kontext」が登場
③ ElevenLabsが感情・喋り方を細かく制御できる音声合成AI「Eleven v3」を公開

2. SNSで話題のAIツールをピックアップ！
① FLUX Playground
② Eleven v3

1. 直近のビッグニュースTop 3

① 【お知らせ】株式会社Mavericksにて全職種の業務委託および正社員の募集を開始しました！

株式会社Mavericksでは「Mavericks AIニュース」による情報発信に加え、動画生成AIサービス「NoLang」の運営・開発を通して、AIの可能性を探求し、革新的な技術でユーザーの皆様に新たな体験を届けてきました。

そしてこの度、事業拡大に伴い、新規メンバーの募集を開始したことをお知らせいたします。

私たちは2023年、世界に先駆けてリアルタイム動画生成AIサービス「NoLang」をリリースし、現在13万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は40社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら会社をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。

Mavericks 採用ページ

NoLangを開発するMavericksでは、フロントエンド・バックエンド・アルゴリズムエンジニア、UI/UXデザイナーを募集中。リアルタイム動画生成AI技術で世界に挑戦する仲間を探しています。

careers.mvrks.co.jp

私たちは現在、次のNoLangの大規模アップデートに向けて精力的に開発に取り込んでいます。今後開発スピードをさらに加速させていきますので、次なる発表まで今しばらくお待ちください。

② あのChatGPTよりも一貫性高く人物固定できる画像生成AI「FLUX.1 Kontext」が登場

世界最高水準のオープン画像生成AIモデル「FLUX.1」を開発するBlack Forest Labs社が、新たにテキスト・画像を受け取って画像生成できるマルチモーダルモデル「FLUX.1 Kontext」をリリースしました。

このモデルはChatGPTの画像生成機能と同様に、画像に対して自然言語で様々な編集を施すことができますが、特に一貫性の維持という観点では、ChatGPTやGeminiを上回る性能を発揮していると言えるでしょう。是非以下の投稿にて、実際の生成例をご覧ください。

It’s over.
FLUX 1 Kontext edits AI images live
Keeps your character and text consistent, pixel-perfect tweaks in seconds 🤯
10 wild examples + how to try: 👇
1. Change hair style
— Min Choi (@minchoi)
3:43 PM • May 31, 2025

FLUX.1 KontextはChatGPTの画像生成とは異なるアーキテクチャを採用しており、特に「ピンポイント」あるいは「オブジェクトの一貫性を保ったまま」画像を編集することに長けています。以下の比較例では、日本人の画像の編集において、FLUX.1 Kontextのみが完璧に近い結果を出していることが分かります。

FLUX.1 Kontext [pro], ChatGPT, Geminiの比較。プロンプトは全て「He is wearing a soft knit sweater instead of a jacket, smiling with his mouth open, raising both hands in the air in the park.」

また、複雑な指示を与えてもしっかりと一貫性を保つことができる点も特筆に値します。もちろん、詳細に観察すると僅かに特徴が変わっており、不気味の谷を惜しくも越えられていないようにも思えますが、つい最近まで人物を指定した画像生成にはLoRAと呼ばれる技術を用いて数十枚の画像を学習させる必要があったことを考えると、飛躍的な技術進歩を感じます。

FLUX.1 Kontext [pro]で参照画像を編集した結果。非常に一貫性は高いが、不気味の谷を越え切れていない印象も受ける。

一方で、一貫性が高い故に良くも悪くも融通が効かないという特徴も見受けられます。下記の例では、キャラクターの顔の再現性こそ高いものの、首元の影まで同じ描き方になるなど、「忠実すぎ」て元画像の特徴に縛られすぎている印象を受けます。一貫性こそ落ちているものの、GPTらしい画風に自然に寄せる「大雑把な」ChatGPTとは対照的と言えるでしょう。

FLUX.1 Kontext [pro], ChatGPTの比較。Flux.1 Kontextは、首元の影まで忠実に再現したり、「タキシードを着させて」という指示を受けて、元画像の服を拡張する形で半ば無理やり服を描画したりしている点が特徴的である。

FLUX.1 Kontextには3種類のサイズのモデルが含まれており、開発元のBlack Forest Labs社は、devと呼ばれる12Bの最軽量モデルを今後オープンモデルとして公開する予定だが、それ以外のモデルはAPIでのみ提供するとしています。

同社は現在厳しい経営状況に置かれているStable Diffusion開発元のStability AI社と同じ轍を踏まないよう、このようなスキームを一貫して採用しており、FLUX.1においても最大サイズのproモデルをオープンではなくAPIのみで提供しています。

大規模モデルをユーザーの手元で動作させるのは困難であることを考えると、これは一定理にかなったスキームと言えます。OpenAIやGoogleといったモデル開発企業が次々と画像生成・編集能力を有するクローズドモデルをリリースしている中で、同社がどのような戦略をもって生き残っていくのか、今後の動向に注目したいところです。

💡 FLUX.1 Kontextは公式プレイグラウンドから無料で試すことができます。詳しくは次のセクションをご覧ください。

③ ElevenLabsが感情・喋り方を細かく制御できる音声合成AI「Eleven v3」を公開

昨年9月にOpenAIがリアルタイム音声会話機能をリリースし、世界に衝撃を与えてから8ヶ月が経過しました。この間、Geminiの音声合成機能が大幅にアップデートされるなど、英語圏では感情豊かで人間と区別ができないレベルに自然な音声合成が当たり前になり、日本語でもかなりの品質が達成されつつあります。

そんな中、音声AIユニコーンのElevenLabs社が新たにα版として公開した「Eleven v3」が、「感情豊か」なだけでなく、「感情・喋り方を制御できる」音声合成モデルとして、海外を中心に大きな話題となっています。是非以下のデモ動画を音声ONでお聞きください。

Introducing Eleven v3 (alpha) - the most expressive Text to Speech model ever.
Supporting 70+ languages, multi-speaker dialogue, and audio tags such as [excited], [sighs], [laughing], and [whispers].
Now in public alpha and 80% off in June.
— ElevenLabs (@elevenlabsio)
6:14 PM • Jun 5, 2025

このモデルでは読み上げ文にタグを挿入することで、[excited], [happy]といった感情表現から、[whisper], [strong French accent]といった喋り方まで文単位で制御することができます。他にも[laughing]で笑いを挿入したり、[clapping], [gunshot]で効果音を挿入するなど、今までの音声合成モデルでは実現不可能だった、多彩な制御が可能になっています。

私が実際に試した限りでは、生成音声の品質こそ極めて高いものの、今までのElevenLabsのモデル以上に生成音声にバラツキがある印象でした。話すスピード・間の取り方などが毎回変わってしまい、話者の一貫性には欠けています。公式発表でもリサーチプレビューのα版であることが強調されており、今後の改善に期待したいところです。

また、日本語は音声タグに対応していないことも残念な点として挙げられます。それでも、日本語の読み上げ間違いは大幅に減っており、イントネーションもGeminiに迫る水準で自然になってきています。そしてElevenLabs社は初の海外拠点として日本法人を東京に設立していることから、まだまだ日本語性能が向上していくことを強く期待できるでしょう。

2023年は画像生成AI、2024年は動画生成AIが特に発展した年になりましたが、昨年末からの盛り上がりも含めて、2024-25年は音声合成AIが飛躍的に性能を向上させる展開となりそうです。

💡 Eleven v3は無料で試すことができます。詳しくは次のセクションをご覧ください。

2. SNSで話題のAIツールをピックアップ！

FLUX Playground (https://playground.bfl.ai/)

最先端画像生成AIモデル「FLUX」及び画像編集AIモデル「Flux Kontext」を試せる公式プレイグラウンド
部分的な画像編集やキャラクターを指定して画像生成においては、ChatGPTやGeminiを凌ぐ性能
他にも、物体追加・除去や画像拡張の機能が提供されている
FLUX.1 Kontext [pro]であれば無料でも12回、50枚の画像を生成できる

Eleven v3 (https://elevenlabs.io/ja/v3)

ElevenLabsの最新AI音声合成モデル「Eleven v3」が無料で試せる。日本語の音声読み上げの精度が大きく向上
さらに日本語には対応していないが、[happy], [laughing]といったタグを追加して感情を制御したり、表現を追加したりできる機能が非常に強力。公式ガイドにサンプルプロンプトもあり
サインアップなしに何回か試せるほか、ログインすれば無料でも十分な回数試すことができる

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください！

【🔥重大発表】🐬NoLang 3.0をリリースしました！
縦型ショート動画を直接生成・編集可能に。今だけ無料で試せます！
さらに編集機能が一新され、制作できる動画の幅が大きく広がりました！
他にも、「どんなPDFも1分要約」「話題の画像生成AI Imagen3」など注目機能が盛り沢山。詳しくは👇
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
12:52 AM • Mar 17, 2025

NoLang Instagram

NoLang Instagramアカウントへのリンクはこちら！