- Newsletter from Mavericks
- Posts
- GoogleがGPT-4レベルのAIモデル「Gemini Ultra」を提供開始!新サービス「カクダイV1」の紹介など
GoogleがGPT-4レベルのAIモデル「Gemini Ultra」を提供開始!新サービス「カクダイV1」の紹介など
sayhi2.ai Newsletterをご覧いただきありがとうございます!
この度、購読者が1000人を突破しました!今後とも厳選したAI情報を分かりやすく正確にお伝えしていきますので、引き続きご愛読のほどよろしくお願いいたします。
今回は、インパクトの大きかったニュースや注目ツールの紹介に加え、特別企画として、弊チームが開発した高解像度化ツール「カクダイV1」について解説します。
📚 目次
1. 直近のビッグニュースTop 3
① GoogleがGPT-4レベルのAIモデル「Gemini Ultra」を提供開始
② 日本語の音声合成AIモデルの性能が飛躍的に向上
③ 世界最高レベルの高画質化技術を無料公開!
2. SNSで話題のAIツールをピックアップ!
① Gemini Advanced
② Meshy
1. 直近のビッグニュースTop 3
① GoogleがGPT-4レベルのAIモデル「Gemini Ultra」を提供開始
2月8日、GoogleがGPT-4越えのAIモデルと謳っていた「Gemini Ultra」の提供を開始しました。対話型AIサービス「Gemini Advanced」より2ヶ月間無料で利用可能です。
以前よりGoogleは、対話型AIサービス「Bard」を提供していましたが、これを名称変更し、モデル・サービス名を一本化した形です。
GoogleによるGemini UltraとGPT-4の比較 (テキスト領域)
https://deepmind.google/technologies/gemini/
「Gemini Advanced」には日本からも登録可能なのですが、公式発表によると、現在は英語でのみ使用可能で、日本語で使用できるようになるのは2/12の週以降になります。
現時点での情報をもとに、Gemini Advancedについて、残念だった点・期待できる点をまとめました。
残念だった点
海外での反応を含めて、言語モデル単体の性能として、明確にGPT-4を超えているといった声はほとんど聞きません。GPT-4レベルという表現が妥当でしょう。
期待できる点
近日中にGmail, Google Docs, Google Slidesなどで使用可能になることが発表されており、既存サービス群との連携によって、どのような新しい価値体験が提供されるか注目が集まります。
さらに、画像認識の性能は、GPT-4を超えるのではないかという声が多く、私も同様の体感を持っています (Google Mapsとの連携例)
なお、GPT-4レベルのLLMを2ヶ月間無料で体験できるのは、またとない絶好の機会です。GPT-4を普段使用していない方は、日本語での使用が可能になる来週以降、登録することをお勧めします。(具体的な方法や料金体系については、次のセクションで解説します)
② 日本語の音声合成AIモデルの性能が飛躍的に向上
テキストから音声を合成する日本語対応のAIモデル「Style-Bert-VITS2」が公開されました。調整やラベリング作業なしに、文脈を理解し、それに応じて喜怒哀楽に富んだ自然な音声を生成できる点が画期的です。
以下のデモを、是非音声ONでご覧ください。AIによる日本語合成音声の質が飛躍的に向上していることを体感できます。
【日本語でも自然な音声合成AI】
Style-Bert-VITS2は、日本語特化モデル JP-Extraを搭載し、かなり自然な日本語による発話をTTSで実行してくれます。公式のサンプルを聞く限り、スタイル無しでもかなりの精度。文脈と感情がかなり合致。
是非音声ONで!!
続く>>
#生成AI#AI— 田中義弘 | taziku CEO / AI × Creative (@taziku_co)
8:34 AM • Feb 7, 2024
音声モデルを自作すれば、自分の好きな声で発話させることも可能です。関西弁で喋るAITuberなどが早速作成されています。
「Style-Bert-VITS2」は、オープンソースの音声合成AIモデル「Bert-VITS2」を改良したもので、エンジニアのlitaginさんによって作成されました。Bert-VITS2は、中国の研究者らによって作成されたモデルで、2/1に日本語対応していました。
音声合成の分野では、学習に用いるデータの質が非常に大事であり、精度向上のボトルネックの一つだと言われています。しかし、日本語の高品質かつオープンな音声データセットは非常に限られているのが現状です。先日、litaginさんによって公開された日本人プロ声優の大規模音声データセットmoe-speechは、PCゲームの録音データをソースに作成されています。こういった個人による自主的な取り組みでは限界があると思われるため、国や大企業が主導して、より多くの高品質な音声データセットを作成、公開することが望まれます。
Style-Bert-VITS2は、こちらのデモから試すことができます。100文字・15秒の文章の音声合成が20-30秒で生成されます。
③ 世界最高レベルの高画質化技術を無料公開!
私たちMavericks, Inc.はニュースレターによる情報発信だけでなく、様々な生成AIプロダクトの開発を行っています。この度、画像の高画質化ワークフロー「カクダイV1」を無料公開しました。オープンなアップスケーラーとしては世界最高レベルです。
その性能を実感いただくために、ステーキの画像を1024倍に拡大するデモ動画を作成しています。是非ご覧ください。
【生成AIによる異次元の高画質化技術を無料公開🔥】
AI高画質化ワークフロー「カクダイV1」を開発しました
有料AIアップスケーラー MagnificAIを代替するワークフローとして使えます
実際の1024倍高画質化のデモ動画をご覧ください!
ワークフロー掲載のnoteはリプライ↓
(お問い合わせはDMで✉️) twitter.com/i/web/status/1…— マーベリック|生成[email protected] (@sayhi2ai_jp)
10:49 PM • Feb 6, 2024
AIによる画像の高画質化技術はアニメーション制作や広告クリエイティブなど幅広く利用され、身近なところでは画像編集・加工アプリにも使われてきました。特に昨年、画像生成AIモデルStable Diffusionを活用した手法が多数開発され、飛躍的に性能が向上しています。
AIによる高画質化技術の歴史や応用例、我々が開発したワークフローについては、こちらのnote記事に詳しくまとめてあります。是非ご覧ください。
2. SNSで話題のAIツールをピックアップ!
Gemini Advanced (https://sayhi2.ai/ja/product/gemini_google_com)
Googleが公開したGPT-4レベルのAIモデル「Gemini Ultra」搭載の対話型AIサービス
最初の2ヶ月は無料。以降は月額2900円
こちら (https://gemini.google.com/advanced) から登録可能
2月11日現在は、英語でのみ使用可能。来週以降、日本語にも対応予定
※ 現在、日本語でも回答は返ってきますが、Gemini Ultraは使用されていないと考えられます (実際、日本語での回答を促すと、性能が大幅に悪化することが確認できています)
テキストから3Dオブジェクトを生成するツール。2月6日のアップデートにより大幅に品質が向上
リアル・アニメ・マインクラフト風などスタイルを指定した生成も可能
3Dオブジェクトを共有できるギャラリーもあり、他人の作品や生成に使用したプロンプトを見ることができる
無料かつサインアップするだけで即使用可能
3. 【特別企画】カクダイV1で思いのままに画像を高画質化するためのコツ
今回は特別企画として、私たちMavericks, Inc.が開発した、画像の高画質化ワークフロー「カクダイV1」の実践的な使い方を解説します。
注)カクダイV1の使い方に関しては、こちらのnoteに記載しています。誰でも使用できますので、ご興味ある方はぜひご一読ください!
Magnific AIなど、AIアップスケーラーツールの多くは、様々なパラメータを変えて仕上がりを調整できるように設計されています。カクダイV1でも同様に、パラメータをうまく設定することで、品質を高めることができます。
① denoise を使いこなそう
denoiseは、アップスケーラーの強度(創造性)を表し、上げるほど品質が向上しますが、その代わりに元画像と乖離していきます。カクダイV1では、denoiseを2つ調整でき、デフォルトが0.3/0.35となっています。
【denoiseの調節のコツ】
元々高画質な画像をさらに高画質化したい場合は、denoise 0.2/0.2 程度
ぼやけた画像を鮮明にさせたい場合は denoise 0.3 ~ 0.6
元画像と変わっても良いので、綺麗な画像を得たい場合は denoise 0.6 ~ 0.8
実際にdenoiseの値を変えて試してみた結果が以下です。denoise 0.4/0.5では元画像に比較的忠実に高画質化できています。denoise 0.6/0.7では改変が入っているもののより鮮明になり、書き込みが増えていることがわかります。
② 幽霊が現れたらControlNet Strengthをあげよう
Promptが画像の関係ない部分にも作用してしまい、意図しないオブジェクトが生成されるケースが存在します。その場合は、ControlNet Strength(CN Strength)を上げることで、対処することができます。
【CN Strengthの調節のコツ】
基本はCN Strengthは 0.1 程度
意図しないオブジェクトが現れたら、CN Strengthは0.3 ~ 0.6 程度にあげると良い
上げすぎも良くないので注意
下記の画像の高画質化では、CN Strengthを0.1に設定すると幽霊が現れます (2枚目)。そこで、CN Strengthを0.3に上げてみると無事に消えてくれました。(3枚目)
また、0.6に設定すると画質が低下するので (4枚目)、この画像ではCN Strengthを0.3に設定するのが良さそうだと分かります。
今後も私たちは、カクダイの開発・アップデートを行っていきます。Xアカウント (https://twitter.com/sayhi2ai_jp) において更なる使い方のコツや更新情報を発信していく予定ですので、是非フォローしてお待ちください!
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
なお、今週は文量の関係上「最近、資金調達を行なった注目企業・ツール」を扱いませんでした。来週特集を行う予定です!
運営元の紹介
生成AI特化開発チームMavericksは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています!
さらに、本年より18000以上のGPTsの掲載を開始しました。ぜひご覧ください!
またXでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、日々情報発信しています。是非チェックしてみてください!
a16zの@venturetwins による2023年に発表された動画生成AIのまとめが本質的です
時系列まとめはもちろん、各AIツールの機能まとめ (入力モーダル、生成される動画の時間、制御機能の有無)、注目論文一覧、Xのインプレッション分析まであります
特に注目すべき5選↓
— マーベリック|生成[email protected] (@sayhi2ai_jp)
10:01 AM • Jan 3, 2024