Mavericks AI ニュース
Posts
Geminiが大幅進化!画像編集をオールインワンでこなせるように

Geminiが大幅進化!画像編集をオールインワンでこなせるように

他にも...NoLang3.0がリリースされ、実用性が大きく向上しました!

マーベリック
March 23, 2025

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます！

📚 目次

1. 直近のビッグニュースTop 3
① NoLang3.0をリリース！ショート動画に正式対応、作成可能な動画の幅も大きく広がる
② Geminiが大幅進化！幅広い画像編集タスクをオールインワンでこなせるように
③ OpenAIが「どう話すか」を指定できる新音声合成AIをリリース

2. SNSで話題のAIツールをピックアップ！
① NoLang
② Google AI Studio

3. 雑学動画、資料解説からPR動画まで。🐬NoLangの活用事例をまとめています！

1. 直近のビッグニュースTop 3

① NoLang3.0をリリース！ショート動画に正式対応、作成可能な動画の幅も大きく広がる

3月17日にNoLang 3.0をリリースしました！動画生成、動画編集共にリニューアルされ、実用性が大きく向上しています。

以下でアップデート内容及び期間限定キャペーンについてご紹介します！

【🔥重大発表】🐬NoLang 3.0をリリースしました！
縦型ショート動画を直接生成・編集可能に。今だけ無料で試せます！
さらに編集機能が一新され、制作できる動画の幅が大きく広がりました！
他にも、「どんなPDFも1分要約」「話題の画像生成AI Imagen3」など注目機能が盛り沢山。詳しくは👇
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
12:52 AM • Mar 17, 2025

(1) 📱ショート動画の直接生成・編集が可能に

TikTok、Instagram向けの縦型ショート動画を直接生成できるようになりました！さらに生成後の編集機能が解放されており、細かい修正をしたり、独自素材を挿入したりすることも可能です！

(2) 🎥動画編集機能が大幅リニューアル

編集画面の機能・デザインが刷新され、より使いやすくなりました！これにより、縦型・横型問わず、作成できる動画の幅が一気に広がっています！

(3) 📚️PDF資料を「1分要約」する新モード登場

どんなPDF資料に対しても、要点と重要ページを自動抽出し、1分間のナレーション付き動画にまとめてくれます！IR資料、営業資料、研修資料など、あらゆるPDFの内容をサクッと理解できる動画を作成できます。

(4) 🖼️最高峰の画像生成AI「Imagen 3」の導入

話題の最先端画像生成AI「Imagen 3」が利用可能になりました！驚くほどリアルかつ高品質な画像が生成され、一発目の生成品質が大幅に向上するので、ぜひお試しください！

🎁期間限定キャンペーン

今回のリリースを記念して、以下の特典をご用意しています！

・全プランで「縦型動画の生成・編集・ダウンロード」が可能に
・新規ユーザー限定で、サインアップ時の付与クレジットが200増加

今後もNoLangをより便利で使いやすいツールとすべく、精力的に開発を進めていきますので、どうか引き続きよろしくお願いいたします。

💡 上記では紹介しきれなかったアップデート内容の更なる詳細については、こちらをご覧ください！また最後のセクションにて、NoLangの活用事例について解説しています。

② Geminiが大幅進化！幅広い画像編集タスクをオールインワンでこなせるように

GoogleがAIモデル「Gemini 2.0 Flash」に画像生成・画像編集機能を追加したことが大きな注目を集めています。特に画像編集では、「背景を夜に変えて」「部屋の家具を全部消去して」「この人物にこの服を着させて」といったように自然言語で指示するだけで精度高く画像編集でき、私自身大いに驚かされました。

Google Gemini 2.0 Flash is insane 🤯
Anyone can now easily edit photos using just text or other photos.
Here's how, plus 10 wild examples: 👇
— Min Choi (@minchoi)
8:31 PM • Mar 16, 2025

この新機能の汎用性は非常に高く、以下のような広範なタスクをこなすことができます。

タスク	ユースケース
オブジェクトの追加・置換	人物と商品を指定して、持たせたり、着せ替えたり（指定方法はテキストでも画像でも）
オブジェクトの削除	透かしの削除（現在は規制）、不要な物体削除
部分編集	表情を変える、ポージングを変える
カメラ視点の変換	正面写真から横顔・後ろ姿を生成、部屋の内装を別の角度から
スタイル変換	イラスト・線画に変換
画像付きの文章・物語生成	絵本の作成、料理手順の生成
画像生成	生成した画像を次ステップで編集することも可能

これまでのAI画像編集では各タスクに対して専用のツールやワークフローを用意する必要があり、使いこなすには高度な技術と知識が必要でした。しかしGeminiではこれらを全て1つのサービスで実行でき、自然言語で誰でも簡単に行えるようになっています。それでいてAIが生成したとは見分けがつかないレベルに高品質な画像を再現性高く生成できる点が、非常に革新的だと言えるでしょう。

一方で、この技術にもまだ限界があります。まず複雑な画像編集をしようとすると上手くいかないケースが多々見られます。またGoogle製のImageFXやGeminiで生成した画像はかなり正確に編集できるものの、「Gemini生成っぽくない」画像を編集させようとすると失敗する確率が一気に上昇します。

（左）元画像
（右）Geminiによる編集結果
「女性にカバンを持たせて」と指示。元画像が薄暗い上、やや画質が悪いこともあり、何度試しても、「コラ画像」のようになってしまう

これは画像生成AIの表現力が限定的であるためと考えられます。実際、ImageFXでは人物に対して「性別、人種、年齢、髪型」しか指定していなくても、背景など他の状況を追加指定すると、何回乱数値を変えてもほぼ同一の顔の人物が生成されてしまいます。つまりGeminiにとって世の中に存在する画像の多くがまだ「初見」であり、そのような画像に対しては編集に失敗してしまうのです。

ImageFXで生成した画像。何度乱数値を変えても、これらとほぼ同一の顔が生成された。プロンプト：「室内でホワイトボードの前に立つ東アジア系の若い男性。ストレートのミディアムヘアの黒髪をボウルカットにしている。黒の細い横縞の入った白いTシャツの上にダークネイビーのカーディガンを羽織っている。首には青いヒモがぶら下がっている。背景は清潔でモダンなホワイトボードで、うっすらとシーリングライトの光が反射している。照明は柔らかく均一で、ニュートラルでプロフェッショナルなムード。男は穏やかで無表情な顔でカメラを直視している。」

それでも、AIを活用した画像生成・編集が今までより遥かに手軽かつ実用的になったことは間違いありません。今後さらなる技術の進化によって、これらの限界も克服されていくことが期待されます。

💡 Geminiの画像生成・編集機能はGoogle AI Studioから無料で試すことができます。詳しくは次のセクションをご覧ください。

③ OpenAIが「どう話すか」を指定できる新音声合成AIをリリース

OpenAIが新たな音声合成AIモデル「gpt-4o-mini-tts」をリリースしました。「何を話すか」だけでなく「どう話すか」を指定できる点が革新的であり、「YouTubeのようにテンション高く」「アニメキャラクターになりきって感情豊かに」といった指示を与えることで、トーンや抑揚などをコントロールすることが可能になっています。

興味ある内容をChatGPTに聞く → YouTuberの書き起こし風にリライトしてもらう → OpenAI.fmで読んでもらう。
普段ラジオ代わりにYouTubeかけ流ししてるからか、予想以上に頭に入ってきて困惑している。
— Yukiya Okuda / THE GUILD (@alumican_net)
2:01 AM • Mar 21, 2025

OpenAIが提供している無料のプレイグラウンドにて試すことができ、話者やスクリプト内容に加えて、話し方をプロンプトで指定できます。スピード感や間の取り方まで調整できる柔軟性の高さが特徴的です。

しかしながら、この技術はまだ実験段階であり、特に日本語では合成音声特有の不自然さが残っているように感じられます。制御性についても課題があり、話す速度を指定したり、「アニメキャラクターになりきって感情豊かに」といったように大きな変化をつけようとすると差を感じられますが、「コールセンター担当者のように丁重に」といったような細かな制御はあまり効かない印象です。

また、日本語特有の問題として「読みを間違えることが多い」という課題もあります。「東京特許許可局」といった発音しにくいワードや、「声高に」といった読みが難しい単語ではしばしば読み間違いが発生してしまいます。そして最大の問題は、音声合成を行うごとに毎回声のトーンが変わってしまうことです。どのボイスとも一期一会になるため、お気に入りの声を見つけて使い続けるといったこともできません。

それでも、昨年末から今年にかけて音声合成AIは国内外で大いに盛り上がりを見せています。日本国内では昨年11月に「AivisSpeech」「にじボイス」といった音声合成サービスが立て続けにリリースされたほか、海外でも「人間より人間らしい」と評されるリアルな音声AIコンパニオン「Sesame」が発表されたばかりであり、今後の動向に目が離せません。

💡 音声合成AIモデル「gpt-4o-mini-tts」は、OpenAIのプレイグラウンドから無料で試せます。また、同時に音声文字起こしAIモデル「gpt-4o-transcribe」「gpt-4o-mini-transcribe」も発表されており、ElevenLabs社の「Scribe」と並んで日本語にて高品質だと話題になっています。

2. SNSで話題のAIツールをピックアップ！

NoLang (https://no-lang.com)

3月17日にNoLang 3.0へとアップデート。ショート動画の直接生成・編集が可能に
さらに編集画面がリニューアルされたほか、最先端の画像生成AI「Imagen 3」も利用できるようになり、作成できる動画の品質と幅が大きく向上
期間限定で、誰でもショート動画の生成・編集を試すことができる

Google AI Studio (https://aistudio.google.com/)

Googleが開発者向けに提供している機能を一挙に試せるプレイグラウンド
新たにGeminiによる画像生成・編集機能が追加。無料で利用可能
左のタブから「Create Prompt」を選択し、右のタブにてModelを「Gemini 2.0 Flash (Image Generation) Experimental」に設定して試すことができる
2つの画像を用意して「この人にこの服を着せて」などと指示することもできる。ImageFXやGeminiで生成した画像を編集させるのがおすすめ

3. 雑学動画、資料解説からPR動画まで。🐬NoLangの活用事例をまとめています！

NoLangを使ってみたことはあるが、

・どんな動画が作れるのか把握しきれていない
・どんなユースケースがあるか分からない

といった方が多いのではないでしょうか？NoLang 3.0へのアップデートに伴い、🐬NoLangの機能・事例紹介ページをリニューアルいたしましたので、ご案内します！

まず「機能紹介」ページでは、NoLangのおすすめの使い方に加え、作成可能な動画例をチェックすることができます。NoLang 3.0へのアップデート以後に作成可能となった、新しいフォーマットの動画も多数掲載されています！

NoLang「機能紹介」ページ

「動画事例」ページでも、ユースケース別に動画事例をまとめています。是非これらの動画を参考に、様々なコンテンツ・形式で動画生成を試してみてください！

NoLang「動画事例」ページ

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください！

🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます！
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了！
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です！
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024

NoLang Instagram

NoLang Instagramアカウントへのリンクはこちら！