• Newsletter from Mavericks
  • Posts
  • Metaが動画内のオブジェクトをリアルタイムに追跡できる驚愕のモデル 「SAM 2」を公開!NoLangで「指示を完璧に聞いてもらう」ためのコツなど

Metaが動画内のオブジェクトをリアルタイムに追跡できる驚愕のモデル 「SAM 2」を公開!NoLangで「指示を完璧に聞いてもらう」ためのコツなど

Newsletter from Mavericksをご覧いただきありがとうございます!

今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangで「AIに指示を完璧に聞いてもらうためのコツ」について解説します!

1. 直近のビッグニュースTop 3

① Metaが動画内のオブジェクトをリアルタイムに追跡できる 「SAM 2」を公開

Metaが画像・動画内のオブジェクトをリアルタイムに識別・追跡できるセグメンテーションモデル「SAM 2」をオープンソース(Apache 2.0)で公開しました。以下のデモ動画を見れば、このモデル発表のインパクトの大きさを即座に理解できるかと思います。是非ご覧ください。

SAM 2では、下図のように、対象をボックスで囲んだり、クリックすることで、追跡対象を指定することができます。

SAM 2における追跡物体を識別する仕組み(SAM 2の論文より引用)

さらには「T-Rex2」という技術と組み合わせると以下の動画のように、同一種類の物体が複数ある場合にて、そのうちの1つを選ぶだけで、全ての物体が識別・追跡されます。CountAnythingというモバイルアプリもリリースされており、丸太、金属パイプ、りんごなど、製造工程における様々な種類の物体のカウント作業にて使用できます。

SAM 2は、2023年に公開された画像のセグメンテーションモデル「SAM」を動画に対応させた後継モデルです。SAMはInstagramで既に使用されているほか、科学や医学の分野でも広く使用されており、例えば、衛生画像の分析において、建物・畑・道路を識別したり、細胞画像を分析して皮膚がんを検出したといった事例があります。対象が画像だけでなく動画にまで拡張されることで、利用範囲はさらに広がると予想されます。

SAM 2の学習には、5万超の動画、64万超の時空間マスクを含む非常に大規模なデータセットが使用されています。SAM 2はいわゆる生成AIモデルではありませんが、特定タスクにおいて、データが十分に用意されていれば、高い性能が達成されることを示す良い例だと感じています。

SAM 2はMetaの公式デモページから簡単に試すことができます。次章にて使い方も解説しているので、是非ご覧ください。

② Runway新モデルが画像からの動画生成に対応。動画生成AIは次なるステージへ

RunwayのGen-3 Alphaがテキストからの動画生成に加えて、新たに画像からの動画生成に対応しました。両者を同時に入力することもでき、「この画像をこういう風に動かして」と指示することも可能です。

上記で紹介されている作品はいずれも意外性があり非現実的な展開を伴っていますが、現実に即した実用的な動画を作ることもできます。特に、以下の女性が喜怒哀楽を表現する動画は、本物とは区別がつかないほどにリアルで衝撃を受けました。

Gen-3 Alphaはこのように高品質な動画を生成できる一方、残念ながら莫大な生成コストがかかるのが実情です。無料ユーザーは使用できず、月額15ドルのプランでは、10秒の動画生成に360円もの費用がかかってしまいます。生成時間も2〜3分程度かかることから、気軽に動画を生成できるとは言い難いです。

そんな中Runwayは先週、Gen-3 Alphaより遥かに小さいコストで7倍高速なモデル「Gen-3 Alpha Turbo」の学習を完了し、全ユーザーに向けて公開予定と発表しました。LLM分野では、既にモデルの小型化・高速化の動きが活発化していますが、動画生成分野においても、小型モデルを提供していく流れが本格化しつつあります。

例えば、Gen-3 Alphaと並んで有名な動画生成AI「Dream Machine」 (以前のニュースレター)が小規模なプレビュー版モデルであることが明らかにされており、実際Dream Machineでは、無料ユーザーでも一日30回動画を生成できます。

また、OpenAIのSoraに迫る性能を持つと言われた中国初の動画生成AI「Vidu」(以前のニュースレター)が、APIの提供を開始すると発表しました。これまで動画生成AIをAPI形式で提供している企業はほとんどありませんでしたが、動画生成AIが他のアプリケーションに搭載可能なクオリティに到達し始めていることが、このような変化を引き起こしていると考えられます。ここ2ヶ月で大きな盛り上がりを見せている動画生成AIの今後の動向に引き続き注目です。

③ Canvaが画像生成AIサービスを提供するLeonardo AIを買収

1億9000万人以上のユーザーにデザインツールを提供するCanva社が、画像生成AIサービスを提供するLeonardo AI社を買収すると発表しました。Leonardo AI社は2022年に設立されたばかりのオーストラリアの企業で、1900万人以上のユーザーを持ちます。

Leonardo AI社の画像生成AIサービスは、生成画像を制御するための機能が豊富であることが特徴です。特に、下記動画で紹介されているRealtime Canvasと呼ばれるツールがユニークで、画面の左半分で絵を描いていると、その結果を元に生成された画像が、画面の右半分にて瞬時に表示されます。他にも、キャラクターやスタイルを画像で指定できる機能、高画質化機能、自分だけの画像生成AIモデルを訓練できる機能も提供されています。

※現在は有料ユーザーに向けて、下記動画よりさらにリアルタイム性の高い生成モードが提供

さらにLeonardo AI社は「Phoenix」と呼ばれる独自の画像生成AIモデルを開発・提供しており、こちらも大きな強みと言えるでしょう。

同社は、ビデオゲーム会社出身のメンバーにより創業されており、2022年の設立当初はゲームアセットの作成に注力していました。その後方針を転換し、現在はファッション・広告・建築といった業界のユーザーをメインのターゲットに、上記のような画像生成AIプラットフォームを提供しています。

対するCanva社は、バナー、SNS用画像、スライドなどのデザイン制作をサポートするAI機能を多岐に渡って提供しており、それらはMagic Studioとして集約して提供されています。Magic Studioには、画像生成、画像編集、高画質化用のツールも含まれており、Canvaの共同創業者Adams氏は、「Leonardo AI社の技術をMagic Studioに統合することを検討しており、Magic Studioの既存ツールをより強化するか、あるいはLeonardoのモデルを直接利用した新しい生成AI機能を導入するかもしれない」と述べています

Canva社による買収後も、Leonardoの画像生成AIプラットフォームは引き続き独立して運営され、Canva社はLeonardo AI社のAPI事業やモデル開発事業の強化に注力・出資していくとのことです。生成AI黎明期に設立された生成AIサービス提供に特化した企業の買収事例として、今回は過去最大規模であり、両者が提供するプラットフォームの今後の進化に注目していきたいところです。

2. SNSで話題のAIツールをピックアップ!

Leonardo AI (https://leonardo.ai/)

  • 1900万人以上に使用されている有名画像生成AIプラットフォーム

  • 画像生成・AIお絵描き・画像の高画質化など、AI画像作成に必要、あるいはAI画像生成を活用したツールが網羅的に搭載されている

  • また、画像生成時に事前指定できるスタイルが豊富なことも大きな強み。「Concept Art → Game Concept」といった形で二階層で指定できる

  • 無料でも1日10回、40枚以上の画像を生成可能

  • Metaが公開したセグメンテーションモデル「SAM 2」を簡単に試せるページ。激しい動きも複雑な動きも極めて高精度に追跡できることを体感できる

  • 30近くの動画があらかじめ用意されているほか、自分の動画をアップロードすることも可能

  • クリックで追跡範囲を追加でき、追跡したくない範囲を右クリックで指定することも可能

  • サインアップなしに無料で使用できる

3. 🐬NoLangで「指示を完璧に聞いてもらう」ためのコツ

NoLangのプロンプト機能を使うことで、生成動画の内容についてAIに追加指示を与えることができますが、指示を聞いてくれない場面に遭遇することがあります。今回は、AIに指示を聞いてもらうために知っておくべきTipsを3つ紹介します。

(0) はじめに:プロンプト機能の使い方

ヘッダーにある「動画設定」より「プロンプト」タブを選択します。オリジナルのプロンプトを作る際は、「マイプロンプト」を選択して「+追加」ボタンをクリックして作成できます。

(1) 強い言葉、繰り返し、「*」を使用する

非常にシンプルですが、「絶対にxxxして」と強い言葉を使用したり、「大事なことなのでもう一度言います。xxx」といった形で繰り返して指示することで、指示の効きが良くなることが度々あります。繰り返しを行う際には、それら2文を極力離れた位置に配置するのがおすすめです。

また、強調したい指示を「*」で囲むことも有効です。

(2) 特別な指示であることを明示的に伝える

「最初の一文をおはようございますで始めてください」といったように、指示が明確であるのにも関わらず効かない場合は、「今回は特別にxxxしてください」と命令してみましょう。これにより、大幅な改善が見られることがよくあります。

(3) NoLangが「得意なこと」と「できないこと」を理解する

NoLangにも得手不得手があり、たとえ指示が明確であっても、NoLangが苦手としている指示は通らないことが多いです。以下でNoLangの「得意なこと」「できないこと」について解説します。

【得意なこと】

①文体や口調を指定する

NoLangは「ですます調で解説する」「語尾を【〜じゃ】にして喋る」など、文体や口調の指定を守ることが得意です。

②冒頭・末尾の文章、説明の流れを指定する

「最後の一文を【ご清聴ありがとうございました。】で締めてください」といったように末尾・冒頭の文章を指定したり、「はじめに要点を伝えてから、結論にいたった理由を説明し、理由に説得力を持たせる事例やデータを提示した上で、最後にもう一度要点を述べて」といったように説明の流れを指定するのも有効です。

③解説のターゲット層・レベル感を指定する

「技術に精通しているエンジニアに対して説明して」「小学生にも分かるように説明して」といったように、解説のターゲット層・レベル感を指定できるのは、NoLangの強みです。

④特定の人物になりきってもらう

③のように聞き手に対する指定をできるのはもちろん、語り手に対する指定をすることもできます。NoLangは様々な歴史上の人物・有名人について精通しているので、「〜になりきって喋って」といったプロンプトで、様々な人物のロールプレイを試してみると面白いでしょう。

【できないこと】

①生成される原稿の長さ・文字数を厳格に指定する

NoLangでは、生成される原稿の長さの目安を「動画設定」の「長さ」にて指定できますが、プロンプトで厳密に指定することは困難です。

②異なる指示を10個以上同時に効かせる

一度に多くの指示を与えてしまい、NoLangの処理能力を超えてしまうと、生成される原稿への指示の反映が弱くなってしまいます。重要な指示を中心に簡潔にまとめるようにしましょう。

③webページのURLを与えて解説させる

NoLangは、入力の質問文で与えられたURL先のwebページを読み込むことはできません。そのような用途でNoLangを使用したい場合は、Chrome拡張機能をご利用ください。

④リアルタイム情報を元に解説させる

NoLangは最新の情報にアクセスできない点にも注意が必要です。そのようなケースでは、PerplexityというAIツールと併用するのがおすすめです。詳しい使い方については、以下の投稿をご覧ください。

解説は以上となります。以前のニュースレターにてNoLang2.0についての詳細な解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、

  • どんなWebページでも3秒で解説動画に変換する「🐬NoLang

  • ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)

  • 生成AIアップスケーラー「🥩カクダイV1

といったプロダクトをリリースしてまいりました。

またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。

特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!