- Mavericks AI ニュース
- Posts
- Claudeが強化されてついにPCを操作できるように!挑戦的な新機能Computer Useを発表、NoLangの動画設定機能のアップデート情報をまとめてご紹介など
Claudeが強化されてついにPCを操作できるように!挑戦的な新機能Computer Useを発表、NoLangの動画設定機能のアップデート情報をまとめてご紹介など
NoLang運営チームよりお届けしている、Mavericks AI ニュースをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangの動画設定機能のアップデートについてまとめて解説します!
📚 目次
1. 直近のビッグニュースTop 3
① Claude 3.5 Sonnetに人と同じようにPC操作させられる「Computer Use」が発表
② Runwayが俳優の演技を元に画像内のキャラクターの表情を動かせる新機能を発表
③ ElevenLabsがペルソナを指定してキャラに合った声を生成できる機能をリリース
2. SNSで話題のAIツールをピックアップ!
① GPT Engineer
② ElevenLabs
1. 直近のビッグニュースTop 3
① Claude 3.5 Sonnetに人と同じようにPC操作させられる「Computer Use」が発表
Anthropic社がClaude 3.5 Sonnetのアップデートを実施し、さらにこの新モデルにPCを操作させられる新機能「Computer Use」をリリースしました。また、新たな小型AIモデルClaude 3.5 Haikuを今月末にリリース予定であるとも明かしています。
今回のアップデートによるClaude 3.5 Sonnetのスコア向上幅は、GPT-4oや過去の自身の結果と比べるに、多くの指標においてそこまで大きなものではありません。一方で注目すべきは、新たにエージェント能力に関するベンチマーク結果が2つ示されたことです。これは続いて説明する、Computer Useにおける性能を測るための指標です。
Claude 3.5 Sonnetと他のAIモデルとのベンチマーク性能比較。下二段では、Agentic coding, Agentic tool useといったエージェント能力に関する結果が示されている(Anthropic公式発表)
Computer Use機能を使うと、私たち人間が普段PCを使って調べ物をしたり、ドキュメントを書いたり、表計算をしたりするのと同じやり方で、AIにPCを操作してもらいタスクを実行させることができます。
例えば、「明日の朝ゴールデンゲートブリッジで友達と日の出を見たいから、景色の良いビュースポットを探して、移動時間と日の出の時刻を調べて、カレンダーに予定として登録してくれない?」とお願いすると、Google検索、地図アプリ、カレンダーアプリを駆使して、私たちと同じような手順で、タスクを完遂してくれます。非常に印象的なデモですので、是非一度見ていただきたいです。
We're trying something fundamentally new.
Instead of making specific tools to help Claude complete individual tasks, we're teaching it general computer skills—allowing it to use a wide range of standard tools and software programs designed for people.
— Anthropic (@AnthropicAI)
3:06 PM • Oct 22, 2024
このように、AIにPCを操作させるという試みはこれまでにもなされてきていましたが、Computer Useは過去のプロジェクトたちと比べても、ずば抜けて高い性能を達成しています。例えば公式ブログでも述べられている通り、各操作でカーソルを縦横何ピクセル動かせば良いか計算するのは、AIにとって決して簡単な問題ではありませんが、Computer Useは正確にそれらを計算し、スムーズにタスクを遂行できています。
Computer Use機能は既にAPIで公開されており、開発知識があれば誰でも自分のPCで動かすことができます。吉祥寺にあるご飯屋さんを食べログをもとに調べる(X投稿)、表計算ソフトで簡単な計算をする(X投稿)といったタスクに実際に成功していることが分かります。
もちろん、このComputer Useは実験的な機能としてリリースされていることもあり、未だ全くもって実用的な機能とは言えません。安全上の理由から、普段のブラウザ環境とは別の環境でしか使用できない上、ログイン操作も封じられていることから、上記のデモのように実際に我々の生活に役立つようなタスクを遂行させることはできません。また、スクロール、ドラッグ、ズームといった操作を苦手としており、日本語の入力にも往々として失敗します。
それでもOpenAI CEOのサム・アルトマン氏が、AIは現在レベル2の「Reasoners」にあり、レベル3の「Agents」に到達するのもまもなくであると述べている通り、今年から来年にかけてAIエージェントの開発が一気に進むことが予想されています。Computer Useのような機能が今後どのような速度で進化していくか、引き続き動向を注視すべきでしょう。
Bloomberが報じたOpenAIの定義する5つのAIの成長段階。Chatbots, Resoners, Agents, Innovators, Organizationsと分類されている。(引用元)
② Runwayが俳優の演技を元に画像内のキャラクターの表情を動かせる新機能を発表
今年下旬に入ってから、動画生成AIに関する画期的な発表が毎週のようになされており、2024年は「動画生成AI飛躍の年」だったと言えるでしょう。先週は新たにRunway社より、動画を参照して画像内のキャラクターの表情をアニメーションさせられる「Act-One」が発表されました。
以下の紹介動画をご覧いただければ分かる通り、参照動画内の演者の細かい表情の動きまで反映されており、生成された映像では、PIXARアニメーションさながらに、キャラクターが生き生きとした表情で会話を展開しています。生成動画を実際の映画作品の一部だと言って見せられても、ほとんどの人が信じてしまうでしょう。
Introducing, Act-One. A new way to generate expressive character performances inside Gen-3 Alpha using a single driving video and character image. No motion capture or rigging required.
Learn more about Act-One below.
(1/7)
— Runway (@runwayml)
5:58 PM • Oct 22, 2024
同様の技術としては、動画生成AI Klingの開発元「快手(Kuaishou)」が今年7月にオープンソースとして公開した「LivePortrait」(以前のニュースレター)が挙げられます。このモデルは遅延時間が非常に短く、RTX 4090 GPUで僅か12.8 msとされています。顔出しなしでの生配信が主なユースケースとして挙げられるでしょう。
一方で、Act-OneはRunway社の最新動画生成AIモデル「Gen-3 Alpha」をベースとしており生成時間は長いですが、参照動画と生成動画間で顔のプロポーション、カメラアングル、画角が異なっていても、破綻なく高品質な動画を生成できることが強みとされています。Runway社は「映画的な動画を生成できる」と謳っており、例えば以下のように、二人の男性同士のマルチターンの会話シーンを、演者が一人二役を演じることで制作できてしまいます。
One of the models strengths is producing cinematic and realistic outputs across a robust number of camera angles and focal lengths. Allowing you generate emotional performances with previously impossible character depth opening new avenues for creative expression.
(4/7)
— Runway (@runwayml)
5:58 PM • Oct 22, 2024
Runway社は先日、大手ハリウッドスタジオのLionsgate社とのパートナーシップ締結を発表したばかりです。これまでAIによる動画制作の現実的なメリットは、常人が思いつかないような意外な展開を生み出したり、「うなぎの尻尾を持つ猫」といった超現実的な生命体を生成するなど「AIならではの表現」が実現できる点が大きかったと思います。今回の新機能の発表はこれに加えて、「既存の動画制作の置き換え・効率化」といった文脈でも、動画生成AIがプロダクションレベルで活用できる可能性を示していると感じさせます。
なおこのAct-Oneは、既に一部のユーザーに向けて徐々に公開が進んでおり、 まもなく全ユーザーに公開される予定とのことです。
③ ElevenLabsがペルソナを指定してキャラに相応しい声を生成できる機能をリリース
音声生成AI企業初のユニコーンであるElevenLabs社が、性別・年齢・役柄といったスピーカーの特徴をテキストで指定して、キャラクターに相応しい声を生成できる「Voice Design」機能を全ユーザーに向けてリリースしました。以下のデモ動画では、「しゃがれた声の年老いた魔法使い」「とても怒った声の怖い鬼」「可愛くて生意気なちっちゃいネズミ」など様々なレパートリーの音声を生成できることが確認できます。是非ご覧ください。
Introducing Voice Design.
Generate a unique voice from a text prompt alone.
Is our library missing a voice you need? Prompt your own.
— ElevenLabs (@elevenlabsio)
1:41 PM • Oct 23, 2024
私自身、このようなテキストから話者を生成する機能を提供するソフトウェアはこれまで見たことがなく、非常に先進的な取り組みと言えます。この機能を実装するためには、ラベル付きの高品質な音声データが大量に必要になりますが、ElevenLab社はどのようにしてデータを取得しているのでしょうか?
そこで注目したいのが、同社が今年2月に発表した「声の共有プラットフォーム」です。そこではユーザーが自分の声を全世界に向けて公開することができ、その声が使用される度に報酬を得ることができます。ElevenLab社はこのプラットフォームにアップロードされた音声をもとに、高品質な肉声のデータセットを廉価に構築できてしまいます。
このプラットフォームがどれくらい盛り上がっているかは定かでありませんが、ElevenLabのライブラリでは、既に3000以上の高品質な音声が使用できると発表されています。今後さらに音声が充実していき、音声の利用者が増えていけば、音声を提供するインセンティブも大きくなっていきます。このような好循環を作り上げていき、高品質なデータを充実させていくことがElevenLab社の狙いの一つと言えるでしょう。
なお残念なことに、ElevenLabsの日本語の合成音声の品質は英語に比べると劣っており、特に複雑な漢字・語句を含む文章を精度高く読み上げさせられる方法は現状ありません。またより根源的な問題として、日本語の合成音声ソフトでは読み方をひらがなで指定して修正できることが多いですが、これは他の言語にはない独自の仕様であり、どの海外サービスでもサポートされていないことが挙げられます。音声合成AIの分野では、LLM、画像・動画AIといった他分野以上に、日本発のモデル・サービスが求められているのではないでしょうか。
2. SNSで話題のAIツールをピックアップ!
GPT Engineer (https://gptengineer.app/)
AIに自然言語で指示して、webアプリを作成できるツール
v0やClaude Artifactsと異なり、単一のHTML, TSXファイルを生成するのではなく、コンポーネントごとに分割して実装してくれるため、本格的なアプリを作れる
さらにGitHubと連携させることができ、プロジェクト用のレポジトリを作成して、部分的にローカルで作業することもできる
Googleログインのみで、無料で試すことが可能
ElevenLabs (https://elevenlabs.io/blog/rvg)
世界的に有名な音声AIツール。「しゃがれた声の年老いた魔法使い」といったようにスピーカーの特徴をテキストで指定し、キャラに合った声を生成できる機能が新たに追加
僅か10秒で3種類の音声が生成。ランダム性が高いため、イメージと合わなくても繰り返し生成することで、自分の思った通りの声が得られることが多い
生成した声は保存でき、あらゆる文章を読み上げさせることができる
音声合成、効果音生成といった他の機能も含めて、無料で試すことが可能
3. 🐬NoLangの動画設定機能のアップデート情報をまとめてご紹介!
NoLangをより使いやすく、より広い用途で使えるツールとすべく、私たちは精力的に開発に取り組んでおり、直近でも様々なアップデートを実施しました。今回はその中でも特に、「動画設定」から利用可能な新機能についてご紹介します!
(1) 読み上げボイスとして「青山龍星」が選択可能に
ショート動画で大人気の「青山龍星」がついに音声・アバターともに選択可能となりました!低音の中にも温かみのある男性ボイスであり、落ち着いた雰囲気の解説動画を作りたい方に特におすすめです。是非試してみてください!
(2) 約4〜6分の動画を生成可能に
今までNoLangで生成可能な動画の最大長は約3分でしたが、新たに、約4〜6分の動画を生成できるようになりました!特に長文記事の要約動画の叩き台を作成する際におすすめです。
(3) BGM・背景を事前に指定可能に
BGMや背景を動画生成前に指定できるようになり、動画編集機能を使わずとも、同じBGM・背景で何度も動画を生成できるようになっています。
細かいオプション追加から新機能の搭載まで、直近でいくつものアップデートを予定しています。是非今後ともNoLangの進化にご注目ください!
また、以前のニュースレターにてNoLang2.0についての詳細な解説を行いました。NoLangを使いこなしたい方は、是非こちらもご覧ください!
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、
どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」
といったプロダクトをリリースしてまいりました。
またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!
🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます!
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了!
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です!
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024