Mavericks AI ニュース
Posts
アリババが写真内の人物をリアルに歌わせられる新技術を発表、Midjourneyに迫るレベルの無料画像生成AIツールを紹介!など

アリババが写真内の人物をリアルに歌わせられる新技術を発表、Midjourneyに迫るレベルの無料画像生成AIツールを紹介!など

マーベリック
March 03, 2024

sayhi2.ai Newsletterをご覧いただきありがとうございます！

この一週間で重要なAIニュースや質の高いAIツールが、いつにも増して多く発表されています。そこで、今週は扱う題材数を増やし、全部で10個のAIツール・ニュースに関して、要点を押さえた解説を行っていきます！

📚 目次

1. 直近のビッグニュースTop 3
① アリババが写真内の人物をリアルに歌わせられる新技術を発表
② 背景が透明な「四角でない画像」も生成できる革新的技術が公開
③ Microsoftが1.58bitの重みを持つ次世代LLMを発表

2. SNSで話題のAIツールをピックアップ！
① Ideogram
② Cotomo

3. 今週はまだまだ重要ニュースがあります…追加で5つのニュースを一挙紹介！

1. 直近のビッグニュースTop 3

① アリババが写真内の人物をリアルに歌わせられる新技術を発表

人物写真と音声を用意するだけで、画像内の人物に喋らせたり歌わせたりできる技術「EMO」をアリババが公開しました。高速なラップ調の曲でさえも見事に歌い上げており、本物と見分けがつかないクオリティまで到達していると感じます。是非以下の動画をご覧ください！

【lip syncを超えて、表情豊かに身体を揺らしながら歌唱！】
たった一枚の参照画像から、高速なラップ調の曲でさえも、圧倒的な一貫性を保ちながら歌い上げる動画が作成されています！
アリババによるEMOという手法。進撃の巨人のエンディング曲を歌唱するデモも公開されています↓
— マーベリック|生成[email protected] (@sayhi2ai_jp)
6:29 AM • Feb 28, 2024

EMOに関して、特に以下の2点が革新的だと考えられます。

たった一枚の画像から歌ったり喋ったりする動画を作成できる
単純なリップシンクを超えて、表情の変化や身体の揺らし方までリアルに再現できている

アリババはここ1年で、ECやエンタメ用途の画期的なAI技術をいくつも発表しています。キャラクターや人物を自由に踊らせることができる「Animate Anyone」、着せ替えAIモデル「Outfit Anyone」、画像内のあらゆるものを置き換えられる「Replace Anything」がその代表例です。これら3つの技術については、過去にこちらでまとめています。

残念ながら、アリババはこういった最先端技術の公開に消極的で、EMOを含めた上記4つの技術全てに関して、コード未公開となっています。同等の性能を達成するオープンな技術の登場が待たれます。

② 背景が透明な「四角でない画像」も生成できる革新的技術が公開

今日の画像生成AIは非常に高品質な画像を生成できるようになりましたが、実利用するとなると、まだまだ使い辛い点があるのも事実です。その一つに長方形の画像しか生成できず、生成画像を重ねていくことができないという問題点がありました。

今週、この現状を打破する技術「LayerDiffusion」が公開されました。発表した研究者2名は、昨年の画像生成AI界における最大の発明と言っても過言でない「ControlNet」の作者でもあります。

LayerDiffusionは「背景が透明な画像」を「背景に合わせて」生成することができます。以下の画像を用いて、具体的な使用例を説明していきます。

まず、一番左上の何もない部屋の画像を背景とし、「a table」と入力すると背景が透明なテーブル画像が生成され、両者を重ね合わせることで部屋に机が設置されます。生成された画像を背景として「cat on table」と入力すると机の位置を考慮して、机上にちょこんと乗った猫の画像が生成されます。この要領で物体をいくつも追加していくことで、最終的に右下のようなリッチな部屋の画像を生成することができます。

さらに驚くべきは、猫の透過画像に窓から差し込む光によって生じる影まで織り込まれている点です。「背景に合わせて」画像を生成できていることがよく分かります。

LayerDiffusionは先日論文にて発表された、出来立てホヤホヤの技術ですが、コードの公開も進んでおり、これから使用報告が増えていくと思われます。今後1年に渡って、精度の改善や他の画像生成技術との融合が進んでいくと考えられ、新たにどのような可能性が拓けていくのか、非常に楽しみです。

以下の投稿にてより詳細な解説を行っています。興味のある方は是非ご覧ください！

ConrolNetの作者2人が発表したLayerDiffusion。皆が待ち望んだ機能を備えており、詳しく解説していきます！
①Stable Diffusionを含めた任意の潜在拡散モデルを、背景透明な画像を生成できるよう変換する技術です
これにより「四角でない画像」も生成できるようになり、一気にできることが増えます↓… twitter.com/i/web/status/1…
— マーベリック|生成[email protected] (@sayhi2ai_jp)
2:46 AM • Feb 29, 2024

③ Microsoftが1.58bitの重みを持つ次世代LLMを発表

Microsoftが発表した「BitNet b1.58」は、既存のLLMより遥かに高いエネルギー効率を達成し、GPUをはじめとするハードウェア開発を変える可能性があります。

深層学習モデルの実体は平たく言えば行列であり、各行列の要素値 (重み) を最適化することで、所望の出力を得ることができます。従来のモデルではこの重みは16 bitの小数で表現されていましたが、今回提案されたLLMでは、モデルの重みが[-1, 0, 1]のみからなります。[-1, 0, 1]を表現するには1.58 bit必要であることから、「1.58 bit LLM (あるいはより大雑把に 1 bit LLM)」と呼ばれています。

このような究極的な量子化技術は計算のパラダイムを根本的に変えるものです。例えば下図のように、[-1, 0, 1]からなる行列とベクトルの乗算は、ただのベクトル要素の加算となります。このような変革により、現在の計算パラダイムにおいて圧倒的なシェアを誇るGPUよりも高い計算効率を達成するハードウェアの開発が期待されます。

BitNet b1.58が既存のLLMと比較してどのように重みを表現し、どのように行列乗算を変えるかを表した概念図。元論文より抜粋

また、大幅な高速化やメモリ使用量・エネルギー消費の削減も実現されています。一例として、BitNet b1.58 70Bは、LlaMa 70Bと比べて9倍のスループット (1トークンあたりの生成速度) を達成したと報告されています。

従来もこのような1 bitのLLMは提案されていましたが、今回は同じパラメータサイズの既存モデルよりも高い性能を達成したことが革新的でした。一方で、性能比較が行われているモデルのサイズは高々3BとLLMとしては小型であり、まだまだ限定的な結果が示されたに過ぎないと言えます (例えば、GPT-3のパラメータ数は135B)。更なる研究結果の発表が待たれるところです。

参考(元論文): The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

2. SNSで話題のAIツールをピックアップ！

今週紹介する2つのAIツールは、今まで紹介してきた中でも特ににおすすめのツールになっています。是非両方とも試していただければと思います！

Ideogram (https://sayhi2.ai/ja/product/ideogram_ai---publicly-available)

2/29にversion 1.0が公開されたばかりの無料画像生成AIツール
人手評価において、4つの項目でMidjourney V6, DALL-E3を超える性能を達成
テキスト入りの画像の生成が得意で、誤り率はDALL-E3の半分以下
サインアップするだけで即使用でき、無料で一日100枚 (25回) 生成可能

Cotomo (https://sayhi2.ai/ja/product/cotomo_ai)

雑談から悩み相談まで、身近な話し相手になってくれるおしゃべりAI。日本のスタートアップStarley社によって開発
応答が非常に速い上、タイミング良く相槌を打ってくれたり、過去の会話内容の記憶をもとにやりとりしてくれたりする。まるで人間と話している気持ちになるとSNSで大きな話題に
Apple Storeからダウンロードして無料で使用可能。Android版は現在開発中

3. 今週はまだまだ重要ニュースがあります…追加で5つのニュースを一挙紹介！

今回で11回目のニュースレター発行となりますが、今週は特に、インパクトの大きいAIニュースが多かったと感じています。そこで、最初のセクションでは解説できなかったものを5つ取り上げ、それぞれ簡潔に説明していきます！

Geminiに白人の画像生成を拒否する等の不具合が発生したことを受け、Googleが画像生成機能を停止し謝罪

白人画像の生成を拒否したり、「1943年のドイツ兵」というプロンプトで黒人やアジア人の画像を生成したことなどが問題視されていました。より深刻な不具合も報じられており、Googleの株価は一時3兆5000億円 (4.5%)下落しました。

イーロンマスク氏がOpenAIを提訴

イーロンマスク氏は2015年のOpenAI設立時の出資メンバーの一人でした。同氏は「人類の利益」を目指す非営利組織という当初の理念が薄れ契約に違反しているとして、出資した資金の返還などを求めています。

Appleが10年間行ってきたEV開発のプロジェクトを中止し、生成AIに注力

Appleが10年間行ってきたEV開発のプロジェクトを中止し、スタッフの多くは生成AI部門に異動すると報じられました。これまで、同プロジェクトには数十億ドルが投じられていました。生成AI開発で出遅れていると目されるAppleですが、巻き返しに向けて重大な決断をしたと言えるでしょう。

人型ロボを開発する米Figure AIがOpenAI, NVIDIAから1000億円調達

Figure AIは汎用的な人型ロボットを開発する、2022年設立のシリコンバレー発スタートアップ。今回の調達を受けて、評価額は約4000億円 (26億ドル) となりました。Figure AIが開発したロボットがコーヒーを淹れる動画はこちら。

国内初の「生成AI専用保険」が3月より提供開始

あいおいニッセイ同和損害保険とAI開発を行うArchaic社らによる発表です。Archaic社が開発した生成AIを利用した企業で情報漏えいや知的財産権の侵害などが発生した場合、企業が負担する費用を負担するとのことです。こういった先進的な取り組みが広がり、国内における生成AIの導入が加速していくことが期待されます。

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

生成AI特化開発チームMavericksは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています！

さらに、本年より18000以上のGPTsの掲載を開始しました。ぜひご覧ください！

sayhi2.ai - 最新AIツールまとめサイトsayhi2.ai（👋 Say Hi to AI）は、5000以上の最新のAIツール及び18000以上の「GPTs」を掲載！検索、チャットボット、sayhi2.ai独自設計の「人気度」等を活用し欲しいAIツールが簡単に見つかる。最新AIトレンドを3分でキャッチアップできるニュースレターも配信中！sayhi2.ai/ja

またXでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、日々情報発信しています。是非チェックしてみてください！

a16zの@venturetwins による2023年に発表された動画生成AIのまとめが本質的です
時系列まとめはもちろん、各AIツールの機能まとめ (入力モーダル、生成される動画の時間、制御機能の有無)、注目論文一覧、Xのインプレッション分析まであります
特に注目すべき5選↓
— マーベリック|生成[email protected] (@sayhi2ai_jp)
10:01 AM • Jan 3, 2024