• Mavericks AI ニュース
  • Posts
  • 皆が待ち望んだカスタム動画生成AIモデル作成機能をKlingが限定公開!地方自治体によるNoLang導入事例についてご紹介など

皆が待ち望んだカスタム動画生成AIモデル作成機能をKlingが限定公開!地方自治体によるNoLang導入事例についてご紹介など

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、地方自治体による🐬NoLang導入事例についてご紹介します!

1. 直近のビッグニュースTop 3

① Klingがカスタム動画生成AIモデルを作成できる待望の新機能をアーリーアクセスで公開

画像生成AIの世界では、Fluxのような最先端モデルを使えば、10-20枚の顔写真を用意するだけで、簡単にカスタムAIモデルを作成できますチュートリアル)。そしてこのようなカスタムAIモデルの学習機能が、ついに動画生成AIの世界にも登場しました。

中国発の動画生成AI「Kling」が、カスタムAIモデル学習機能のアーリーアクセスを開始し、text-to-videoでも、キャラクターを指定して極めて一貫性の高い動画を生成できるようになったと大きな話題を呼んでいます。

特定の人物の動画を学習させれば、ディープフェイク動画を生成できてしまうのではと思わせるほど品質が高いです。以下の投稿で生成動画がまとめられていますので、是非ご覧ください。

これまでにも、「画像」を参照させて特定人物の動画を生成できるツールは存在していました。例えば中国発のViduでは 「Reference to Video」という機能が提供されていますが、キャラクターの一貫性・再現性は高いとはいえず、しばしば別人が映る動画が生成されてしまいます。またMetaが先月発表した「Movie Gen」は高い再現性を誇っているようですが、リリース時期は明らかになっていません(過去のニュースレター)。

一方Klingの新機能では、複数の「動画」を学習データとして与えられます。これにより様々なカメラアングルからの特徴を正確に捉えることができ、再現性は極めて高くなっています。こちらのチュートリアルによれば、10〜15秒程度の動画を10〜30本用意するだけでカスタムモデルを作成でき、生成時はキャラクターを示すタグをテキストプロンプトに含めるだけで簡単に利用できます。

OpenAI社のSora発表を皮切りにした、今年の動画生成AIの進化には目を見張るものがあり、Soraに匹敵する性能を持つ動画生成AIがいくつも登場しました。今回のKlingの新機能は濫用の危険性を伴うため、リリース自体はまだ先になる可能性がありますが、このような技術がコモディティ化していくのは時間の問題でしょう。

💡このKlingの新機能は、海外の一部ユーザー向けにアーリーアクセスの形で限定公開されており、一般リリースの時期については明らかになっていません。

② デスクトップ版ChatGPTにてアプリ内のテキストを自動で読み取ってくれる新機能が登場

OpenAI社が新たに、ChatGPTデスクトップアプリの新機能「Work with Apps」をmacOS限定でリリースしました。この機能によりChatGPTが、XCode・VSCode・ターミナルといった開発者向けコーディングアプリ内のテキストを直接読み取れるようになり, ChatGPTへのコピー&ペースト作業なしに、AIと議論しながらコーディングすることが可能になります。

現在生成AI分野では「AIエージェント」がトレンドワードとなっており、OpenAIやGoogleといった企業が、旅行の予約などのタスクをwebブラウザ上で実行してくれるAIエージェントのリリースを予定していると報じられています(Bloomberg, Verge)。先日Anthropic社により発表されたAIがPCを操作できる「Computer Use」もそうしたAIエージェントの一つです。

今回の「Work with Apps」の発表からは、OpenAI社が「Computer Use」とは異なったアプローチでPC・webブラウジング作業を自動化するAIエージェントの開発に取り組んでいることが垣間見えます。

OpenAIのデスクトップアプリ開発をリードするAlexander Embiricos氏によると、この機能は主にmacOSの「アクセシビリティAPI」を利用してテキストを読み取り、ChatGPTに送信しています(Techcrunch)。これはAppleのボイスオーバー機能にも使用されている技術で、20年近くの歴史がある信頼性の高い技術です。

しかしこの実装ではすべてのアプリに対応させることはできず、機能的な制限も多いです。実際VS Codeとの連携では、利用の際に特別な拡張機能のインストールが必要です。読み取り可能なのはテキストのみであり、写真や動画などの視覚的要素は理解してくれないほか、Cursor・GitHub Copilotといった類似ツールと異なり、コーディングアプリに「書き込む」ことができないという制限もあります。

「Work with Apps」の使用画面。Xcodeと連携すると、コードの内容をChatGPTが自動で読み取ってくれて便利である。一方で書き込み機能はなく、生成されたコードは逐一コピーする必要がある上、ウィンドウサイズの調整も面倒であり、現状はCursor等のツールの方が遥かに使いやすい。

これは、画面のスクリーンショットを見せて、あらゆるマウス・キーボード操作を実行させられるAnthropic社の「Computer Use」とは対照的です。「Computer Use」では、あらゆるwebサイトに対してタスクを実行させることができる分、読み取りミスや誤った挙動が多く見られます

将来的には自由度と性能を両立させるために、各社が対照的な2つのアプローチを組み合わせることで、実用レベルのAIエージェント開発を目指していくと考えられます。現在「Work with Apps」ではコーディング用のアプリのみが連携可能ですが、今後どのようなアプリが追加され、どのように利便性が向上していくのか注目したいところです。

💡「Work with Apps」はChatGPTのPlus, Teamユーザー向けにリリースされており、macOSのChatGPTデスクトップアプリで使用することができます。

③ OpenAI, Googleらが次世代モデル開発で壁に直面。新たな一手を模索する時代へ突入か

AIモデル開発を牽引するOpenAI、Google、Anthropicの主要3社が、より強力なAIモデルの開発を目指して巨額の投資を続けているものの、思うような性能向上が得られていないBloombergが報じました

これまで生成AI分野では、学習データや計算資源とを増やすことで性能が向上する「学習に関するスケーリング則」が広く知られており、各社はこの法則に基づいて開発を進めてきました。しかし少なくとも現時点では、性能向上の費用対効果が著しく低下しているようです。

「言語モデルのスケーリング則」の説明図。計算量、データセットサイズ、モデルサイズを大きくしていくと、性能が一定スケールで向上していく。ただし横軸対数プロットである点に注意。(ITmedia)

そして注目すべきは、業界の有識者たちからも同様の指摘が相次いでいる点です。

ChatGPTの開発で中心的役割を果たしたとされるOpenAIの元主任研究員イリヤ・サツケバー氏は2010年代はスケーリングの時代だったが、今は再び驚きと発見の時代に戻っている。誰もが次の一手を探している」と述べています。モデル開発を主導してきた研究者からのこうした発言は、業界が直面している課題の深刻さを物語っています。

また、ベンチャーキャピタルa16zの創業者2人が「2年前はOpenAIのLLMが抜きん出ていたが、現在は6つのモデルが同等の性能で横並びとなっている」「改善幅という点では、(AIモデルの進化は)本当に鈍化している」と指摘している通り、各社が同種の技術的な壁にぶつかっているのは間違いないでしょう。

MMLUという言語理解ベンチマークにおける、オープン・クローズドモデルの性能推移を示した図。2023年3月にGPT-4がリリースされて以降、MMLUスコアの向上は非常に限定的である。(Epoch AI)

また、AIモデルの性能向上を阻む問題として、「リソースの限界」もあります。研究論文によって、高品質なテキストデータは2026年に、低品質なテキストデータでさえ2030年には不足すると予測されているほか、AIモデルの学習に必要な膨大な電力消費も、開発の足かせとなっています。

この状況を打開する可能性のある手法として、OpenAIが最近発表した「o1」シリーズのような、「推論に関するスケーリング則」に基づくアプローチが注目を集めています。このアプローチはプログラミングや数学といった特定分野で成果を上げており、私自身も普段のコーディング作業にて、GPT-4oからo1シリーズにかけてのコーディング能力向上を強く実感しています。しかし現状では適用できる領域が限定的であり、多くの人が性能向上を実感できる状況にはありません。

各社が技術的な壁に直面する中、単なる性能向上だけでなく、新たなユースケースを切り開くような革新的な発表がいつなされるのか、引き続き動向を注視したいところです。

2. SNSで話題のAIツールをピックアップ!

  • Klingと並んで有名な中国発の動画生成AIツール。先週新たに新モデル「Vidu-1.5」がリリース

  • 「Multi-Entity Consistency」という新機能によって、複数の画像を参照させて動画生成できるように

  • さらには、アニメ系コンテンツの生成において卓越した品質を誇ると話題に

  • 無料でも高速モードで20本程度の動画を生成でき、さらに720pの高解像度動画を3本限定で生成可能

  • 画像内のキャラクターを音声に合わせて喋らせることができる日本語対応のリップシンクAI

  • モデルが「Character-2」へとアップデートされ、品質が大幅に向上したほか、先週新たにボイスチェンジャー機能やノイズ除去機能が追加され、さらに使いやすくなった

  • 無料でも30秒以下の動画を一日5本生成できる

3. 地方自治体による🐬NoLang導入事例についてご紹介!

今回はNoLangの活用事例として、広島県廿日市市による、施策の解説動画を作成する取り組みについてご紹介します。

廿日市市は、世界遺産・厳島神社を擁する宮島で知られる観光都市です。そんな廿日市市では、市の施策や取り組みをより多くの市民に分かりやすく伝えるべく、NoLangで解説動画を作成し、HP等で発信する取り組みを始めました

例えば、廿日市市のDX推進計画について紹介するwebページに動画が掲載されており、19ページにも及ぶ推進計画書の内容について、質問者と解説者がやりとりする形で、計画書内の図表を引用しながらわかりやすく解説されています。

活字ベースで「読むのが大変」だった計画書の概要が、NoLangによって「見るだけで簡単に理解できる」動画へと転換されている、素晴らしい事例と言えるのではないでしょうか。

NoLangで作成されたDX推進計画に関する解説動画の一コマ
引用元:中国新聞デジタル「生成AI動画で施策を解説 廿日市市 広島県内の自治体で初

この取り組みの更なる詳細は、中国新聞にて紹介されています。記事はGoogleアカウントでログインすることで無料で閲覧可能ですので、是非ご覧ください。

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!