- Newsletter from Mavericks
- Posts
- GPT-4o超えと噂のClaude 3.5 Sonnetが公開!ゲームもスライドもその場で生成可能、Runwayが動画生成AIモデルGen-3を発表など
GPT-4o超えと噂のClaude 3.5 Sonnetが公開!ゲームもスライドもその場で生成可能、Runwayが動画生成AIモデルGen-3を発表など
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、Anthropic社が公開したSNSで話題の新機能「Artifacts」について重点的に解説します!
📚 目次
1. 直近のビッグニュースTop 3
① Claude 3.5 Sonnetが公開!ゲームもスライドもその場で生成可能
② Runwayが動画生成AIモデルGen-3 Alphaを発表
③ Robloxが(3D+インタラクション=)4D生成AIの開発に取り組んでいると発表
2. SNSで話題のAIツールをピックアップ!
① Claude
② ElevenLabs
1. 直近のビッグニュースTop 3
① Claude 3.5 Sonnetが公開!ゲームもスライドもその場で生成可能
Anthropic社が新たなLLM「Claude 3.5 Sonnet」を公開しました。Anthropicは元々、高性能なものから順にClaude 3 Opus, Sonnet, Haikuという3つのLLMを展開していましたが、新たに中位モデルSonnetの改良モデルが公開された形です。
Claude 3 Sonnet は、13のベンチマーク全てにおいてClaude 3 Opusを上回り、過半数のベンチマークにてGPT-4oをも上回っています。ベンチマークの結果から、テキスト理解だけでなく、画像理解の性能もトップレベルであることが見て取れます。
Claude 3.5 Sonnetと他のLLMのベンチマーク性能比較。先頭8つはテキスト理解・生成能力を測るもので、末尾5つは画像理解能力を測るものである。Anthropic公式発表より抜粋。
ただし、X上でのユーザーの反応及び自分の体験に基づいた主観的な評価にはなりますが、今回のモデルが、GPT-4oやClaude 3 Opusを知能面で大幅に上回っているという感覚はありません。
一方で、Claudeのwebアプリに新しく追加された「Artifacts」と呼ばれる機能は大変真新しいものでした。百聞は一見に如かず、ということで是非以下の公式デモ動画をご覧ください。
Artifactsは、会話中に生成されたコード等を実行し、その結果を別ウィンドウでプレビュー表示することができます。ChatGPTのCode Interpreterと異なり、HTML, Javascriptも実行できるため、webサイト、ゲーム、スライドなどを生成可能です。使い方について次のセクションで、仕様の詳細やユースケースについては最後のセクションにてまとめています。
Claude 3の発表から僅か3ヶ月半しか経っていませんが、Claude 3.5 Sonnetは、Claude 3 Opusと比較して2倍高速である上、値段は5分の1です。Anthropic社は公式発表にて、今後の目標は「数ヶ月ごとに、知能と速度・コストのトレードオフを大幅に改善すること」と述べています。OpenAIがGPT-4を改良して、GPT-4 Turbo, GPT-4oと性能を落とさずに速度・コストを改善してきたのと同じ流れであり、モデルの小型化・高速化は今後一層進んでいくでしょう。
一方で、今後LLMが知能面でどれほどの進化を見せるのかは不透明です。2023年3月に登場したGPT-4を知能面で大きく上回るLLMは未だ発表されていません。また、OpenAI CTOのムラティ氏は「OpenAIの研究所にあるモデルの性能は、現在公に使用可能なモデルと比較してそこまで進んでいない」と発言しています。
Anthropic公式発表には「今年中にClaude 3.5 Haiku, Claude 3.5 Opusをリリース予定」と明記されており、特にClaude 3.5 Opusの性能に注目したいところです。
② Runwayが動画生成AIモデルGen-3 Alphaを発表!
動画生成AIサービス大手のRunwayが、ついに新たな動画生成AIモデル「Gen-3 Alpha」を発表しました。OpenAIのSoraを除いた中では、過去最高品質の動画が生成されていると言って良いでしょう。是非以下の公式デモ動画をご覧ください。
Introducing Gen-3 Alpha: Runway’s new base model for video generation.
Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.
runwayml.com/gen-3-alpha
(1/10)
— Runway (@runwayml)
1:15 PM • Jun 17, 2024
Gen-3 Alphaは明示的にテキストを含ませた動画を破綻なく生成できるほか、アニメスタイルの動画もうまく生成できます。ストーリー性のある動画も生成でき、特に、以下のインタビューを受ける犬が突然豹変する動画が衝撃的でした。
OpenAIがSoraを発表してから4ヶ月が経過しましたが、GoogleのVeo, 快手のKling, Luma AIのDream Machineなど、ここに来て週1ペースで新たに高品質な動画生成AIが発表されています。
Runwayはこれらの企業とは異なり、動画生成AIモデルの開発やサービスの提供を主要事業としてきた会社です。Runwayのサービスには以前から、カメラワークを指定する機能、入力画像のどの部分をどの方向にどれだけ動かすかを指定する「Motion Brush」機能、リップシンク機能が搭載されいます。これらの機能が、Gen-3にも搭載されることがRunwayメンバーによって明らかにされており、特にGen-3とリップシンク機能を使用して生成されたこちらの動画は実物と見分けがつかないレベルに高いクオリティです。
さらに、年内に動画編集ソフトAdobe Premier ProにRunwayが搭載されることも発表されており(以前のニュースレター)、生成AIを使用した動画制作のフェーズがより実用に踏み込んだ次の段階へと歩みを進めることになりそうです。
Gen-3 Alphaはまもなく全ユーザー向けに公開されると発表されています。
③ Robloxが4D生成AIの開発に取り組んでいると発表
オンラインゲームプラットフォームのRoblox社が、4D生成AIの開発に取り組んでいると発表しました。ここでいう4Dとは、「インタラクション」が可能になった3Dオブジェクトのことを指します。
例えば以下のデモ動画では、単なるレースカーの3Dオブジェクトが、エンジン等のパーツへと分離され、さらに各パーツに物理的性質が導入されることで、コース上を走れるようになる、といったイメージが紹介されています。このようなオブジェクトをテキストや音声のプロンプトから一発で生成できるようにしていくことを目指すようです。
Today, generative AI can create a 3D race car. Roblox is now working on 4D generative AI, where that race car has an engine, moveable parts and a physics rig that enables it to drive down a track — all generated with just a text or voice prompt.
corp.roblox.com/newsroom/2024/…— David Baszucki (@DavidBaszucki)
2:46 PM • Jun 18, 2024
Roblox社は、ユーザーが自分でゲームを作成したり、他のユーザーが作成したゲームをプレイできるプラットフォームであり、メタバースの先駆け的な存在としても知られています。既に3D生成AIモデルの開発やサービスへの導入を行っており、3Dボディメッシュをすぐに使用できるアニメーション化されたアバターに変換するAvatar Auto Setupやテキストプロンプトから3D オブジェクトの外観を生成するTexture Generatorを提供してきました。
Robloxは公式ブログの中で、4D生成AIモデルを開発していくにあたって遭遇している3つの困難について説明しています。
1. 機能性
物体に機能を持たせるのは容易ではありません。例えば、レーシングカーのドアをパーツとして動かせるようにするには、ドアの位置を特定し、切り込みを入れた上で、さらに開閉可能なようにヒンジを取り付ける必要があります。これを自動で実現するには、自動車の構造についての事前知識を持ち合わせた上で、適切に適用する必要があります。
2. インタラクティブ性
機能を持った複数物体の相互作用をエミュレートするにあたっても困難が生じます。例えば、車が岩に衝突した場合は、岩の大きさや車の速度などを考慮した上でどこからどのように砕けるのかを再現する必要があります。
3. 制御性
ユーザーの思った通りの挙動が実現されるように制御性を高めることも必須ですが、これは画像・動画・3D分野でも直面している根本的な課題として知られています。
現状は、3D生成AIモデルですら、商用開発にそのまま使える水準には至っていませんが、それでも今回の発表は、クリエイティブ産業に新たな可能性をもたらす先駆的な挑戦として注目に値すると感じました。
2. SNSで話題のAIツールをピックアップ!
Claude (https://claude.ai/)
新たにClaude 3.5 Sonnetを搭載。無料でも回数制限ありで使用可能
Artifacts機能は、右上のユーザーアイコン→Feature Previewとクリックし、Artifactsを「On」にして有効化できる
編集機能や回答途中停止機能も追加されたため、以前より格段に使いやすくなっている
ElevenLabs (https://elevenlabs.io/sound-effects)
最も有名な音声AIツールのうちの一つ。今月よりテキストプロンプトから効果音を生成する機能が開放
デフォルトではプロンプトに応じて音の長さを自動調節してくれる。自ら設定することも可能
無料で何十回も生成できるだけのクレジットが付与。Attributionを記載するか、課金プランに入会することで商用利用も可能
他にも、テキスト読み上げ・音声クローニング・吹き替えを行える
3. Claudeが新たに公開したArtifacts機能を徹底解説
Anthropic社が新たに公開したArtifacts機能は、会話中に生成されたコードやその実行結果を別ウィンドウでプレビュー表示するという非常にシンプルな設計です。テキストプロンプトでwebアプリの見た目やフローチャートを生成・編集するようなサービスはこれまでも多数存在していましたが、
モデル開発企業であるAnthropic社が提供している
過去最高レベルのコーディング能力を持ち、かつ高速なClaude 3.5 Sonnetが使用されている(HumanEvalというベンチマークではGPT-4oを上回る)
プロンプトからデザインを直接生成するというよりは、対話形式でAIと一緒にデザインを作り上げていく体験を提供している
といった点が特徴的であったこともあり、SNSを中心に大きな反響を呼びました。
Artifacts機能で何ができるのか、生成するコードの種類別に説明していきます。
1. HTML
HTMLを表示できる上、Javascript(React含む)にも対応しているため、webサイトやゲームを作成した上で、それらを実際にクリックして挙動を確認することまで可能となっています。さらに、Reveal.js, Rechartsといったライブラリにも対応しているため、添付したドキュメントをもとに(アニメーション付きの)スライドを作成したり、csvデータを読み込ませてそれらを可視化したグラフを確認できるwebアプリを生成することも可能です。
任天堂の決済短信をCluadeに分析させた結果...
ㅤ
そろそろスライド作成業務もAIで必要なくなりそう。
ㅤ
プロンプト: ''' この資料を元に、reveal.jsでリッチな分析レポートを作成して。実際に発表することを想定しつつ、リッチなアニメーションも搭載すること ''' x.com/i/web/status/1…— すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai)
10:07 AM • Jun 21, 2024
2. SVG
ArtifactsはSVGのレンダリング結果も表示することができます。分かりやすい図解を生成したり、SVGアニメーションを使って動画を作成することも可能です。特に下記の自分の執筆した本の図をアニメーション化するという試みは非常に面白いです。
Visualizing Deep Learning with Claude 3.5 Sonnet.
Need to pause now because I will soon hit a message capacity on Claude. 😅 x.com/i/web/status/1…
— elvis (@omarsar0)
9:45 PM • Jun 20, 2024
3. Markdown
Markdown形式のドキュメントをプレビュー表示することも可能です。
4. Mermaid
Mermaidにも対応しており、フローチャート、シーケンス図、ガントチャートなどの図作成にも使用可能です。
ただし、生成される図のデザインにはやや難があります。よりこだわりたい方には、Eraser AI(前回のニュースレター)がおすすめです。
claude 3.5 sonnet is actually CRAZY
in less time than it took me to speed-eat a burrito (~10 min), @ajflores1604 used natural language prompts to build this interactive diagram of music industry stakeholders and how they’re involved in different industry activities and scenarios
— cherie hu (@cheriehu42)
12:17 AM • Jun 21, 2024
Artifactsのユースケースについては、こちらのX投稿にもよくまとめられています。
冒頭で述べたように、Artifacts機能は、対話形式でAIと一緒にデザインやプロダクトを作り上げていく体験を提供している点が特徴的です。このような体験を提供しているプロダクトとしては、「世界初のAIソフトウェアエンジニア」と謳い発表された「Kevin」が挙げられます(以前のニュースレター)。しかし、Kevinは一般公開されておらず、その使用感は不明です。
Artifactsを使っていても、エラーが発生するなどして実行に失敗してしまうケースによく遭遇します。こういった体験を提供するプロダクトが実用的になるまでには、更なるLLMの性能向上が必至と言えます。それでも、実際のデザイン業務に近く、今後主流となり得る可能性を秘める良いUX設計になっていることは確かだと考えています。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、
どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」
といったプロダクトをリリースしてきました。
またMavericksは、ニュースレターだけでなくXにおいても、開発プロダクトに関する最新情報、AI分野の最新動向や知見を積極的に発信しています。
特に、NoLangを普段から使用している方、生成AIの動向をより前線でキャッチアップしたい方におすすめです。是非チェックしてみてください!
【🐬NoLangがアップデート!】
動画編集機能が追加され、テキスト・画像・背景動画・音声・BGMを自由に変更できるようになりました!✔︎少し嘘が混じってる...
✔︎画像がおかしい...といった場合でもすぐに修正できます!
さらに使用可能なキャラ音声の数が26種類に増加。是非お試しください!
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
10:32 PM • May 12, 2024
AI分野に革命を与えた論文「Attention is All You Need」の著者を至る所で見かけるので、彼らの現在を気合い入れて調べてみましたが
8人中7人が新たに創業しており、Sakana AI, Character AI, Cohere (Command R+開発) などさすがすぎる面々でした...(残り1人もOpenAI研究者)
以下で全員見ていきます
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:40 AM • Apr 9, 2024