動画編集もついにAIで行える時代に!「Runway Aleph」がリリース

他にも...ChatGPTに教育特化の新機能「学習モード」が登場

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます!

1. 直近のビッグニュースTop 3

① ChatGPTに教育特化の新モードが追加!もうLLMは単なる業務効率化ツールではない

「うちの子にChatGPTを与えると、宿題のカンニングツールとして使われて、全く学力が伸びないのでは…」

そういった心配は徐々に杞憂になっていくでしょう。

ChatGPTに新たに、教育に特化した「学習モード」が追加されました。この新モードでは、答えを聞かれても直接回答しないように調整されており、対話を通してユーザーがどこでつまづいているのかを明らかにしながら、答えへと導いてくれます。

OpenAIによれば、この新モードは約40の教育機関の教師、科学者、教育学の専門家からの意見を取り入れて構築されたとのことです。実際、ユーザーに一度に与える情報量を調整して無理なく考えられるようにしたり、ユーザーの学年やスキルレベルに応じて説明の仕方を変えたりといった工夫が取り入れられています。

因数分解の問題をChatGPTに質問した時のデフォルトと学習モードでの挙動の違い。デフォルトではいきなり回答を提示しているが、学習モードでは色んな指導方法があることを考慮して、「たすきがけ」「公式」のどちらを使用しているかを質問することから始めている。

ただし技術的には、教育に特化させるにあたって追加学習は行われておらず、あくまでもシステムプロンプトをデフォルトから変えているだけのようです(実際のプロンプト)。それでも私が実際に試した限りでは、普段のChatGPTと比べて回答がコンパクトかつ自分のことを知ろうとする姿勢が感じられ、まるで別人と会話しているような印象を受けました。

OpenAIは今回の新モードの特徴として、過去のやり取りを元に回答が「パーソナライズ」されていることを挙げています。このような回答の個別最適化は、OpenAI、Googleなどモデル開発各社が今年から特に喧伝している機能ですが、現状では実用的とは言い難い性能であり、実用性の壁を越えるには技術的なブレイクスルーが必要でしょう。

これまでLLMは主に業務効率化ツールとして利用されてきましたが、今年下半期に差し掛かってから、ユーザーの日常生活のサポートを謳うツールや宣伝が目立っています。Googleは先月初めに「Gemini for Education」をリリースしており、学習内容に沿ったオーダーメイドのクイズを生成する機能やAIエキスパートGem(Googleサービス連携可能なGPTsのようなもの)を教師間で共有できる機能などが盛り込まれています。

また先週、Metaのザッカーバーグ氏は公式書簡にて「仕事の自動化」に注力するのではなく、私たちの人生を豊かにしてくれる「パーソナル超知能をすべての人に届けること」を目指すと述べています。音声会話できるGrokのAIコンパニオン「Ani」も記憶に新しいところです。

Grokに搭載されたAIコンパニオンモードにおけるチャット画面
(左)レッサーパンダのキャラクター「Rudi」(右)AIガールフレンド「Ani」

このような生成AIのさらなるマスアダプションを目論んだ動きは、今年から来年以降にかけて、より一層加速していくでしょう。

💡 ChatGPTの「学習モード」はPlus, Proのユーザーはもちろん、無料ユーザーにも解放されています。詳しくは次のセクションをご覧ください。

② 動画生成だけでなく動画編集もAIで。「Runway Aleph」がリリース

2024年はSoraの発表を皮切りに、動画生成AIが飛躍的な性能向上を遂げた年となりましたが、今年に入っても依然としてその勢いは止まっていません。

Runway社が新たに、動画を自然言語で編集できる「Runway Aleph」をリリースしました。以下のデモ動画にできることが分かりやすくまとまっているので、是非ご覧ください。

このようにAlephでは、「カメラアングルを左方向に変えて」「背景の建物を削除して」「照明をより暖かくして」といった自由自在な指示に対応できます。ユーザーの投稿動画を見ても、非常に多彩な編集を行えることが分かります。

この水準かつ自由度で動画編集を行えるAIツールの登場は今回が初めてであり、今後は動画生成に留まらず動画編集の分野でも競争が加熱していくでしょう†。

また先週は、オープンな動画生成AIモデルにも大きな動きがありました。アリババグループの通義研究所が「Wan 2.2」をApache 2.0ライセンスで公開し、クローズドモデルと遜色ない性能だと大きな話題を呼んでいます。

ただしオープンモデルとは言え、最高性能の14Bモデルを動作させるためにはハイエンドなGPU環境が必要であり、API料金は5秒480pの動画生成に0.40ドルと、同水準のクローズドモデルと比べて決して安くはありません

画像生成と比べると、動画生成AIをAPIやローカルで利用するのはまだまだ手軽さに欠けますが、性能・品質の両面で引き続き改善が進み、徐々にそのハードルは下がってくるでしょう。

† 追記:日本時間8月2日に、動画生成AI「Hailuo」のエージェント機能が強化され、こちらでも動画の編集が自然言語で簡単に行えるようになっています。やはり競争は激化していきそうです。

💡 Runway Alephは現在、すべての有料プランのユーザーに向けて提供されています。

③ OpenAIの汎用LLMがついに国際数学オリンピックで金メダル相当のスコアを達成!

OpenAI社が開発中の「実験的な推論LLM」が、国際数学オリンピックにおいて金メダル相当のスコアを達成したと発表されました。驚くべきことに、このモデルはあくまで汎用的なモデルであり、数学に特化して訓練されたわけではないと述べられています。

さらに競技本番と全く同じ条件でこの結果が達成されている点にも注目すべきでしょう、AIに理解させるための特別な入力処理は一切行われておらず、自然言語がそのまま入力され、制限時間4時間半という人間と同じ条件の下で、ツールやインターネットも使用せずに問題を解き切っています。

これに続いてGoogleも「高度版Geminiモデル」が同様に、自然言語入力、制限時間4時間半という条件で金メダル相当のスコアを達成したと報告しました。ChatGPT o1のリリース以前である昨年7月の時点では、数学に特化したフレームワークを構築した上で、2-3日の期間を要してようやく銀メダル相当のスコアを達成できていたことを考えると、この1年での性能向上がいかに飛躍的だったかよく分かります。

2024年の時点では、「証明システムの利用」「問題のプログラミング言語への変換」といったテクニックを駆使して、2-3日間をかけてようやく銀メダル獲得に漕ぎ着けていたのに対し、今回は自然言語を入力するだけで、エンドツーエンドな処理により、4時間半以内に金メダル獲得のスコアを達成した(Google DeepMind

これらの結果はどんなに難解な問題であっても、解くのに必要な情報がノイズなく与えられている理想環境であれば、AIは推論能力を駆使して世界トップレベルの人間に相当する性能を発揮できることを改めて示唆しています。

そして、今年に入ってからAIエージェントはコーディング分野を中心に実タスクでも凄まじい性能向上を見せており、これは「AIエージェントに関するムーアの法則」として定量的に示されています。AI研究機関METRによれば、コーディングタスク、コンピューター操作や自動運転といった10のベンチマークによる計測結果を鑑みると、7ヶ月毎にAIエージェントがこなせる(人間換算の)タスク時間は概ね2倍になっているのです。

コーディングタスクを例にとると、2023年4月にリリースされたGPT-4は人間が5分かかるタスクを50%の割合でしか解けませんでしたが、今年2月に発表されたClaude Sonnet 3.7では人間が1時間かかるタスクを同様の割合で解くことができています。

この傾向が続けば、来年の4月には4時間、来年末には8時間相当のタスクを50%の割合でAIが処理できるようになります。改めて、AIが指数関数的な性能向上を見せていることを肝に銘じておく必要があるでしょう。

2. SNSで話題のAIツールをピックアップ!

  • SNSでもよく話題に上がる汎用AIエージェントだが、特にスライド生成機能が大きく進化し実用的になりつつある

  • 数百にも及ぶテンプレートが用意されており、「AIらしくない」スライドを手軽に作成可能

  • またスライド内のテキスト・画像の差し替えや、オブジェクト位置の変更をPowerPointに近いUIで行うことができ、完璧とは言えないが、修正もかなりしやすくなっている

  • クレジット制限はあるが、無料でも試すことが可能

ChatGPT Study Mode (https://chatgpt.com/)

  • ChatGPTにおいて新たに「学習モード」が無料でもお試し可能

  • 質問を投げかけると即座に答えを教えるのではなく、問いかけをしながら一緒に答えを考えてくれる

  • 学校の宿題はもちろん、プロンプトの書き方を考えるなど、あらゆるトピックで利用可能

  • 音声入力を利用してサクッと試して見るのがおすすめ(音声対話にはまだ未対応)

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは?

一番ためになったのは?

Login or Subscribe to participate in polls.

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLangをリリースし、現在13万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は40社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちrまお是非チェックしてみてください!