Mavericks AI ニュース
Posts
MetaがGPT-4レベルのコーディングに特化したLLMを公開!動画生成AIが克服すべき3つの課題など

MetaがGPT-4レベルのコーディングに特化したLLMを公開!動画生成AIが克服すべき3つの課題など

Hidenori Iwakiri
February 04, 2024

sayhi2.ai Newsletterをご覧いただきありがとうございます！

今回は、インパクトの大きかったニュースや注目ツールの紹介に加え「動画生成AIが克服すべき3つの課題」について解説を行います！

📚 目次

1. 直近のビッグニュースTop 3
① MetaがGPT-4レベルのコーディングに特化したLLMを公開
② 日本発のリアルタイムお絵描きツールがリリース！
③ 視覚情報のみを用いてモバイルを操作できるエージェントが発表

2. SNSで話題のAIツールをピックアップ！
① Akuma AI
② Perplexity

3. 動画生成AIが克服すべき3つの課題

1. 直近のビッグニュースTop 3

① MetaがGPT-4レベルのコーディングに特化したLLMを公開

1月29日、Metaがコーディングに特化したLLM「Code Llama 70B」をオープンモデルとして公開しました。HumanEvalというベンチマークにおいてGPT-4を上回ったことから大きな話題を呼びました。

HumanEval (一番左の列) で、Code Llama-Instruct 70B (67.8) が GPT-4 (67.0) を上回っていることが分かる。Metaの公式発表より引用。
https://ai.meta.com/blog/code-llama-large-language-model-coding/

このように「特定領域の特定タスク」での性能を表すベンチマークで、GPT-4レベルの性能を達成するLLMが増えています。しかし実際の利活用においては、これらのLLMの得意領域であっても、GPT-4より遥かに使い勝手が悪いという印象を受けます。

やや主観が入りますが、その主要な理由は以下になると考えています。

人から見たLLMの使い勝手の大部分は、LLMの「人間の曖昧な指示から意図を正しく汲み取る能力」の高低によって決まる
ほとんどのベンチマークがこの能力により生まれる性能差を考慮できていない
そして残念ながら、この能力においてGPT-4に匹敵するモデルは一つも公開されていない

実際、Perpleixtyにて公開されているCode Llama-Instruct 70Bを試してみましたが、コードの修正をお願いしても、修正したコードの説明があまりに簡素だったり、そもそも修正してくれないケースが散見されました。(試し方については次のセクションで解説しています)

他の生成AI分野では、最高性能のモデルが頻繁に更新されている一方、LLM分野におけるGPT-4一強の構造は1年近く変わっていません。例外として、Googleが公開予定のGemini Ultraは、多くの指標でGPT-4を上回っており、GPT-4よりも使いやすいことが期待されます。ベンチマークによる性能評価には限界があることを踏まえて、LLMに関して当分は、OpenAIとGoogleの動向のみ追っていれば十分でしょう。

② 日本発のリアルタイムお絵描きツールがリリース！

画像生成AIのMidjourneyが2022年秋に公開されて以降、10000を超えるAIツールが公開されていますが、残念なことに日本発のツールはほとんどありません。

そのような中、非常に嬉しいニュースが舞い込んできました。日本発の画像生成AIサービスAkuma AIが新たに、アニメ特化型のリアルタイムお絵描きツール「AIキャンバス」を発表しました。スケッチを綺麗なイラストにリアルタイム変換してくれ、AIの支援を受けながらお絵描きすることができます。

日本発のリアルタイムお絵描きアプリが@AkumaAI_JP
より公開
早速試してみましたが、画像の生成速度や質が高い上
・画像が気に入らなければ「シード」ボタンを押して差し替える
・生成画像をワンクリックでキャンバスに移す
といった機能が強力です！(動画は公式より引用)
— マーベリック|生成[email protected] (@sayhi2ai_jp)
11:16 AM • Feb 2, 2024

類似のお絵描きツールとしてKREAが世界的に有名です。KREAで作成できる画像が写真・絵画風であるのに対し、Akuma AIはアニメイラストのお絵描きに特化しています。アニメ×リアルタイムお絵描きの分野で、世界最高のツールと言っても過言ではないでしょう。

生成AIが普及する以前からお絵描きツールとして親しまれていたアイビスペイントと異なり、Akuma AIはStable Diffusionで画像生成できるサービスとして認知を集めてきました。それゆえ、ユーザー層が大きく異なると考えられますが、今後世間によってどのような評価がなされていくのか、注目が集まります。

③ 視覚情報のみを用いてモバイルを操作できるエージェントが発表

アリババが発表した「Mobile Agent」は視覚情報のみを用いてモバイルを操作できるエージェントです。「TikTokで猫の動画を探していいねして」「東京ドームへの行き方を調べて」といった指示をもとに、画面を操作してタスクをこなすことに成功しています。

アリババが、視覚情報のみを用いてモバイルを操作するエージェント「Mobile Agent」を発表
デモ動画では、エージェントがTikTokで猫の動画を探し出し、いいねまでしてくれています
XML情報やシステムのメタデータなど用いておらず、まさしく人間と同じように知覚し行動していることになります
— マーベリック|生成[email protected] (@sayhi2ai_jp)
3:17 AM • Jan 31, 2024

注目すべきは「視覚情報しか用いていない」という点です。こういったAIによる端末の操作では、システムデータを活用していることがしばしばですが、このエージェントは人間と同じく、画面情報のみをもとに思考・行動しています。

さらにMobile Agentは、「直近5日間の天気を調べて、メモ帳アプリに分析結果を書いて」といった複数のアプリを横断する必要があるタスクも完遂しており、成功率は28/33と80%を超えました。

実装としては、画像処理が可能なGPT-4Vをベースに、OCRツールとアイコン検知ツールを補助的に使用しています。実は、GPT-4Vの画像読み取り能力は決して高くなく、扇型を三角形と誤認するといった報告もなされていますが、その弱みを既存技術で上手く補った形です。

GPT-4VをはじめとしたマルチモーダルなLLMが進化すれば、AIが解けるタスクの幅は飛躍的に広がっていきます。その可能性の一端を感じることができる、大変興味深い発表でした。

2. SNSで話題のAIツールをピックアップ！

Akuma AI (https://sayhi2.ai/ja/product/akuma_ai)

日本発のリアルタイムお絵描きツール。アニメイラストに特化しており、公開から24時間で100万枚の画像が生成
画像生成速度が非常に高速。生成画像が気に入らなかった場合、「シード」ボタンを押して差し替えられるのも便利
無料かつサインアップするだけで即使用可能
左上の三本線をクリックした後「AIキャンバス」から試すことが可能

Perplexity (https://sayhi2.ai/ja/product/perplexity_ai)

検索・リサーチ用のツールとして有名だが、最新のLLMを試せる「Playground」機能も非常に有用
GPT-4レベルのコード特化LLM「Code Llama 70B Instruct」も試すことが可能
画面最下部に小さく書かれている「Playground」を押して始められる
無料かつサインアップするだけで即使用可能

3. 動画生成AIが克服すべき3つの課題

2023年は動画生成のブレイクアウトイヤーであったと言われています。特に、キャラクターを自由自在に動かせる「Animate Anyone」は大きな反響を呼び、Xのトレンド入りという快挙も成し遂げました。

2024年に入ってからも、Googleが非常に高品質な動画生成AIモデル「Lumiere」を発表するなど、大いに盛り上がりを見せています。ここでは、動画生成AIが更に進化していくにあたって、克服すべき3つの課題を紹介します。

1. 制御性

動画の構成要素を「何が起きているか (例: 男性が山道を歩いている)」と「カメラがどう動いているのか」の2つに分けてみます。後者のカメラの動きに関しては、Runway, Pikaをはじめとする多くのツールで指定できる一方、前者については、きめ細かなコントロールが難しい状況です。自然な動画が生成されたとしても、それが意図したものになるとは限りません。

先月Runwayが発表したMulti Motion Brush機能では、最大5つの対象に対して、動く方向と量を指定することができます。こういった機能が拡充されていくことで「思った通りの動画」を作れる確率が高まっていくでしょう。

Runway Motion Brushがまもなく複数物体に適用できるように！これは楽しみです
最大5つの対象を指定して、動く方向と量を指定可能
「対象」は複数物体でもokなのが嬉しいポイント
動画生成における根本的課題「制御性の低さ」を打破する大きな一手になるかもしれません！
— マーベリック|生成[email protected] (@sayhi2ai_jp)
1:04 PM • Jan 17, 2024

2. 時間に対する一貫性

AIによって一から生成された動画は、時間に対する一貫性に欠けます。例えば最初の数秒間歩いていた人が、次の1秒間の間に地面に溶け込むようにして消えてしまう、といったことが頻繁に起こります。

ちなみに、AIによって生成された動画の中には、一貫性の高いものもありますが、これらは基本的に全てVideo-to-Video、つまり、参照している元動画があるということになります。以下の例が分かりやすいでしょう。

New Model Updates!
Introducing two new models for our Video-to-Video function:
1. Storybook Cartoon
2. Color Illustration
Plus, more stability and enhanced results with our optimized algorithm , ensuring a smoother creative experience for you! Enjoy creating!
— DomoAI official (@DomoAI_)
1:29 PM • Dec 28, 2023

3. 長さ

現状、AIが一度に生成できる動画の長さは短く、2~4秒とされます。ツールの中には、それ以上長い動画を生成できるものもありますが、基本的には生成された動画を繋げているだけであり、数秒区切りでやや不自然な変化が生じます (例外としてVideo-to-Videoであれば、より長い動画を安定して生成できま)す。

a16zのJustine Moore氏に言わせれば、動画生成AIは、現状LLMでいうGPT-2レベルです。GPT-2の発表からChatGPT (GPT-3.5) の公開まで4年弱かかりましたが、この数年で動画生成分野がどこまで発展を遂げるか、非常に楽しみです。

動画生成AIの動向についてより詳しく知りたい方は、Justine Moore氏によるこちらの記事をご覧ください。

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

なお、今週は文量の関係上「最近、資金調達を行なった注目企業・ツール」を扱いませんでした。来週以降の特集をお待ちください！

運営元の紹介

私たちは sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています！

さらに、本年より18000以上のGPTsの掲載を開始しました。ぜひご覧ください！

sayhi2.ai - 最新AIツールまとめサイトsayhi2.ai（👋 Say Hi to AI）は、5000以上の最新のAIツール及び18000以上の「GPTs」を掲載！検索、チャットボット、sayhi2.ai独自設計の「人気度」等を活用し欲しいAIツールが簡単に見つかる。最新AIトレンドを3分でキャッチアップできるニュースレターも配信中！sayhi2.ai/ja

またXでは、AIニュースに関して、一段踏み込んだ考察を交えながら日々情報発信しています。さらに現在、画像の超解像度化ツールを開発中であり、大きな反響をいただいています。近日中に誰もが使用できる形で公開予定です。是非チェックしてみてください！

【Magnific.AI を超えるアップスケーラーを作る】
私たちは今、Magnific.AI を超える、ComfyUI アップスケーラーを作るプロジェクトを始動しています。
数日中に version 1 を無料で誰でも使える形で公開します！
開発途上ですが、以下のような結果が得られています。 twitter.com/i/web/status/1…
— マーベリック|生成[email protected] (@sayhi2ai_jp)
9:42 AM • Jan 29, 2024