- Mavericks AI ニュース
- Posts
- GPT-4oをコスパで圧倒するLLM「DeepSeek-V3」が中国より登場!NoLangで動画編集後の再生成にかかる時間が劇的に短縮されましたなど
GPT-4oをコスパで圧倒するLLM「DeepSeek-V3」が中国より登場!NoLangで動画編集後の再生成にかかる時間が劇的に短縮されましたなど
NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!本年も話題になったAIニュース・ツールについて、特に「どう解釈すればいいか?」「今後はどのように進化していくのか?」といった視点を大事にして毎週発信していきますので、どうぞよろしくお願いいたします!
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、🐬NoLangにおける動画編集後の再生成に関するアップデートについて紹介します!
📚 目次
1. 直近のビッグニュースTop 3
① 中国のDeepSeek社が驚異的な低コストでGPT-4oレベルのLLMを開発・公開!
② AIエージェントの年の幕開け。リサーチ、SNSマーケを代替するエージェントが次々登場
③ NVIDIAがCES 2025で「フィジカルAI」時代を見据えた動画生成AIを発表
1. 直近のビッグニュースTop 3
① 中国DeepSeek社が驚異的な低コストでGPT-4oレベルのLLMを開発・公開!
昨年12月26日、中国のAIモデル開発企業DeepSeek社が非常に限られた計算資源で、GPT-4oやClaude 3.5 Sonnetに匹敵する性能のLLM「DeepSeek-V3 (671B)」 を開発し、オープンソースとして公開しました。最先端モデルの開発には莫大なコストが必要という認識が広まっていただけに、AI業界にとっては衝撃の発表であり、OpenAIのサム・アルトマンCEOもこの成果に言及しています。
特筆すべきは、GPU輸出規制下にも関わらずGPT-4oレベルのモデルを完成させたことです。アメリカ政府が中国に対しNVIDIAの最先端GPU「H100」や「A100」の販売を禁じる中、DeepSeek社はH100の半分の性能しかないGPU「H800」を用い、わずか600万ドル(1億円)、280万GPU時間という驚異的な低コストで開発を完遂しました。Meta社の最新モデル「Llama 405B」が要した3000万GPU時間と比較すると10分の1のコストながら、それを上回る性能を実現したことになります。
さらに驚くべきことに、OpenAI、Google、Anthropicといった大手AI開発企業間での激しい人材の流動性が見られる中、DeepSeek社は中国国内の人材のみで開発を進め、外部からの資金調達も受けずにこの成果を達成したようです。
米CNBCが報じている通り、DeepSeek-V3は「私はOpenAIによって訓練されたモデルでGPT-4アーキテクチャを基にしています」と回答することがあり、このAIモデルは少なくとも、GPTの出力を学習データとして活用しているようです。
これらが意味するのは、「GPT-4レベルのLLMを構築する」点においては、OpenAIをはじめとしたAIモデル開発をリードする企業が持つ人材、技術力、計算資源面での優位性が揺らぎつつあるということです。「他社モデルを模倣する」だけであればハードルは高くない可能性があります。
DeepSeek-V3にもo1と同様の「DeepThink」モードが実装されており、時間をかけて思考してから回答を生成することが可能です。現時点ではo1やGemini 2.0 Flash Thinkingのような劇的な性能向上は見られないものの、GPT-4oやGemini 2.0 Flashなどが無料提供され、GPT-4レベルの「LLMの利用」が民主化されたのに続き、「LLMの開発(模倣)」までもが民主化への道を歩み始めていることを感じさせる発表となりました。
DeepSeek-V3に過去のニュースレターをもとに「自分なりの考察」をさせてみた結果。ベンチマークで「GPT-4レベル」のLLMには、明らかにGPT-4よりも思考力が低かったり、日本語出力がうまくいかないモデルも多いが、DeepSeek-V3はかなり質の高い回答をしてきている。
💡 DeesSeek-V3は無料で試すことができます。詳しくは次のセクションをご覧ください。
② AIエージェントの年の幕開け。リサーチ、SNSマーケを代替するエージェントが次々登場
2025年のAI業界で是非とも注目したいトレンドワードの一つが「エージェント」です。年末年始にて早速、この分野で様々な新サービスが発表されました。まず目を引くのが、Google出身者らによって設立されたH社の「Runner H」です。同社はパリを拠点とするスタートアップであり、昨年11月に300億円という大型調達を実施しています。
Runner HはClaudeの「Computer Use」同様、タスクを与えるとPCを操作して自動で完遂してくれるエージェントです。例えば以下のデモでは、「このWebサイトにて、レビュー数100以上で評価4.5以上のラザニアのレシピを探して」といった指示を与えると、Computer Useの3分の1以下のステップで目的を達成できる様子が示されています。
Craving precision in web scraping? Runner H delivers unmatched accuracy, extracting information with advanced filters and built-in requirements. It’s like having a master chef for your data needs. Hungry for lasagna? 🍝
— H (@hcompany_ai)
7:19 PM • Nov 27, 2024
汎用的なPC操作を会得することを究極目標として、人間と同じように画面の視覚情報のみを頼りに操作を行うComputer Useと異なり、Runner HはWeb操作に特化していると説明されています。WebサイトのHTML構造など、人間には見えない情報も活用することで、より効率的に作業を進められていると考えられます。
また、より専門的な用途に特化したエージェントも登場しています。その一例が、スタートアップ向けのSNSマーケティング作業を自動化する「Astral」です。ユーザーはワークフローをブロック図で定義するだけで、Redditで話題の投稿へのリプライなど、複雑な作業を自動化することができます。
Announcing Astral - an AI marketer that works 24/7 to grow your startup.
Astral navigates websites, creates content, and runs marketing across socials.
Watch Astral automate Reddit in real-time:
— Savannah (@SavannahFeder)
7:58 PM • Jan 9, 2025
さらに、アプリケーション開発の分野でも、ここ数ヶ月でいくつものAIエージェントが登場しました。Replit Agent、Cline、Devinといったサービスは、Claude Artifactsやv0のようなUI生成にとどまらず、データベース連携やAPI実装、ユーザー認証といったバックエンド機能まで含めた完全なアプリケーションを生成できることが特徴です。
このようなエージェントブームの背景には、GPT-4クラスのLLMの高速化とコスト低下があります。エージェントは過去の行動履歴をプロンプトに含める必要があるため、膨大な入力トークンを処理しなければなりません。例えばClindeにてLLMとしてClaude 3.5 Sonnetを使用した場合、株価データのグラフを表示するシンプルなプロトタイプ作成でも1回あたり0.7ドルのコストが発生します。さらに成功するかもまちまちです(参考)。
Claude 3.5 Sonnet、GPT-4o、Gemini 2.0 Flashといった新世代モデルの登場により、ようやくこうした処理を現実的なコストで実行できるようになってきたと言えます。また冒頭で紹介したDeepSeek-V3を用いれば、Claude 3.5 Sonnetの10分の1以下という破格のコストでタスクを実行できます。
今後のエージェント普及は、まず特定の領域やタスク、Webサイトに特化した限定的な用途から始まると予想されます。この1年でエージェントがどこまで多様なタスクを、どの程度の品質で遂行できるようになるのか注目したいところです。
💡 Runner H, Astralは共にwaitlistが公開されていますが、まだユーザーによる使用報告は上がっていません。それでも、AIエージェントの活用法を探る上で良い題材となるはずです。Replit Agent, Devinはそれぞれ月額制で提供されている他、ClineはOSSとして公開されており、APIキーを設定することで誰でも使用可能です。
③ NVIDIAがCES 2025で「フィジカルAI」時代を見据えた動画生成AIを発表
世界最大規模のテクノロジー見本市「CES 2025」がラスベガスで開催され、中でもNVIDIA社からの発表内容が大きな注目を集めました。
まず同社は動画生成AIモデル「Cosmos(4B〜14B)」をオープンソースで発表しました。このモデルは運転映像やロボットから見た一人称視点の映像など、「フィジカルAI」の学習に必要な合成データを生成できます。「フィジカルAI」とは、ロボット制御や自動運転など、実世界と直接的に相互作用しながらタスクを遂行する能力を持つAIを指し、NVIDIAが今後数年以内に大きな進展が見込まれるとして特に注力している分野です。
Introducing NVIDIA Cosmos, an open-source, open-weight Video World Model. It's trained on 20M hours of videos and weighs from 4B to 14B. Cosmos offers two flavors: diffusion (continuous tokens) and autoregressive (discrete tokens); and two generation modes: text->video and… x.com/i/web/status/1…
— Jim Fan (@DrJimFan)
6:31 AM • Jan 7, 2025
この発表と時を同じくして、トヨタ社との自動運転車開発における提携も明らかになりました。提携により、トヨタの次世代車にNVIDIA製GPUを搭載した車載向け統合チップ(SoC)が採用されることが決定しています。
NVIDIA CEOのジェンスン・フアン氏は、Cosmosについて「さらなるブレイクスルーを迎えるまでにはより多くのデータが必要だ」と述べており、まだまだ発展段階の技術と言えます。それでも、Googleの世界モデル「Genie 2」の生成品質などを見るに、今後も短いスパンで動画生成・世界生成の品質が大きく向上していくことが予想され、近い将来に転換点が訪れるかもしれません。
さらにNVIDIAは「世界最小のAIスパコン」と称する「Project DIGITS」も発表しています。小型本ほどのサイズながら128GBの統合メモリを搭載し、2台接続することで最先端オープンソースモデル「Llama 405B」さえも実行できてしまうという驚異的なスペックです。価格も1台3000ドルからと個人の研究・開発用途での購入も視野に入る水準に設定されており、GPT-4oやGemini 2.0に匹敵するAIモデルをオフィスや研究室で手軽に実行できるようになる時代がもうすぐのところまで来ています。
💡 Project DIGITSは、5月に販売開始予定です。
2. SNSで話題のAIツールをピックアップ!
DeepSeek (https://chat.deepseek.com/)
Llama 405Bの10分の1の開発費用ながら、GPT-4oやClaude 3.5に匹敵する性能を持つ中国発のオープンソースLLM「DeepSeek-V3」を試せる公式webアプリ
オープンソースとは思えないほど回答品質が高く、日本語の応答も極めて自然
o1のような「DeepThink」機能や、web検索機能も搭載
現在は無料で無制限に質問可能。ただしAIとのやりとりはモデルの学習に使用される可能性があることに注意
Felo (https://felo.ai/ja/search)
Perplexityの無料版よりも高い性能を誇る日本発のAI検索エンジン
1月8日にFelo 3.0へとアップデートされ「Search Agent」機能が追加。数百ものwebページを読み込んで分析・調査レポートを作成できるように
検索対象を特定プラットフォームに絞ったり、検索結果からプレゼンを生成することもできる
無料でも使用可能。Search Agent機能は、「Web検索」→「検索代理」で使用できる
3. 🐬NoLangで動画編集後の再生成にかかる時間が劇的に短縮されました!
NoLangの動画編集機能がさらに使いやすくなりました!これまでは編集内容を反映した動画を再生成するのに数十秒かかっていましたが、先日のアップデートにより、動画の再生成がほぼリアルタイムで行われるようになりました。
これにより、編集結果を即座に確認できるようになり、より効率的に動画制作を進められるようになっています!
動画生成の高速化に続き、今後も皆様の動画制作をよりスムーズにするアップデートを順次実施予定です。引き続きNoLangの進化にご注目ください!
解説は以上となります。以前のニュースレターにてNoLang2.5についての解説を行っているので、NoLangを使いこなしたい方は、是非こちらもご覧ください!
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksは、AI分野における深い知見と高度な技術力を活かし、多岐にわたるAIプロダクトの開発に取り組んでいます。これまでに、
どんなWebページでも3秒で解説動画に変換する「🐬NoLang」
ほしいAIがすぐに見つかる「👋sayhi2.ai (Say Hi to AI)」
生成AIアップスケーラー「🥩カクダイV1」
といったプロダクトをリリースしてまいりました。
またMavericksは、ニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。是非チェックしてみてください!
🐬NoLangとPerplexityを組み合わせれば、最新トレンドに関する解説動画も簡単に生成できます!
「ゆっくり解説」も「ショート動画」も、リサーチから生成まで一瞬で完了!
Perplexityのいいところは、引用文献も閲覧できること。怪しいな...と思ったらすぐに確認、修正まで可能です!
続く >> x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
6:08 AM • Jul 11, 2024