- Mavericks AI ニュース
- Posts
- OpenAIが日本語に特化したGPT-4のカスタムモデルを発表!Adobe Premiere ProでSoraが使用可能になると発表など
OpenAIが日本語に特化したGPT-4のカスタムモデルを発表!Adobe Premiere ProでSoraが使用可能になると発表など
Newsletter from Mavericksをご覧いただきありがとうございます!
今回は、インパクトの大きかったニュースや注目ツールの紹介に加えて、ChatGPT登場以後、論文内でとある英単語の出現確率が急増していることについて解説します!
📚 目次
1. 直近のビッグニュースTop 3
① Adobe Premiere ProでSoraが使用可能になると発表!
② OpenAIが日本語に特化したGPT-4のカスタムモデルを発表
③ 世界最高峰の二足歩行人型ロボットAtlasが完全電動になり大幅進化
2. SNSで話題のAIツールをピックアップ!
① HuggingChat
② OptimizerAI
1. 直近のビッグニュースTop 3
① Adobe Premiere ProでSoraが使用可能になると発表!
Adobeが、動画編集ソフトPremier Proへの生成AI機能の追加を発表し、その中でRunway, Pika, Soraといった動画生成AIが年内に使用可能となることを明らかにしました。特に、Soraはまだ未公開のAIサービスであり、OpenAI CTOのMira氏による「リリースは数ヶ月後から年内」という発言以外、公開に関する有力な情報がなかっただけに、衝撃的な発表となりました。使用感を掴めるデモ動画が公開されているので、是非以下よりご覧ください。
【🚨朗報】AdobeがPremier Proにて、Runway, Pika,そしてSoraを年内に使用可能にすると発表しました!
Pikaを使用してフレームを延長したり、Soraで生成した動画をタイムラインに追加する様子が公開されています!
Adobeのポジションはいよいよ盤石になっていきそうです...
twitter.com/i/web/status/1…— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
4:20 PM • Apr 15, 2024
AIを使って生成した動画を、追加・編集できることはもちろん、Pikaを用いて動画を延長することもできます。他にも、動画への物体の削除・追加が可能になるとのことで、動画編集に必要な実用的な機能が一挙に搭載されることになります。
前回のニュースレターで詳しくお伝えした通り、Adobe社はこれまで、「クリーンな画像生成AI機能」の提供を売りにして、Midjourney社やStablity AI社と差別化を図っていました。一方で、GPT-4の学習にYouTube動画を無断使用したとされているOpenAI社が開発したSoraはクリーンとは言えません。それゆえ今回のSoraの導入は、Adobeのこれまでの方向性に大きく反します。それまでに、Soraのインパクトが凄まじいものであったと言えるでしょう。
② OpenAIが日本語に特化したGPT-4のカスタムモデルを発表
OpenAIが、日本語に特化したGPT-4カスタムモデルを発表しました。抑えておくべきは以下の3点です。
1. 従来のGPT-4より最大3倍高速に動作する上、コストが約50%に
2. 日本語のテキスト翻訳・要約のパフォーマンスが向上
3. 数ヶ月以内にAPIでリリース予定
Artificial Analysisのデータをもとに算出すると、スループット(1トークンあたりの出力時間)は、GPT-3.5に相当するレベルです。
速度・コストパフォーマンス改善の主な要因は、このカスタムモデルが、日本語専用のトークナイザーを備えているからだと考えられます。トークナイザーとは、文章をトークンに分割する機構のことです。
例えば下記のように、英語文献をメインで学習したLlama 2のトークナイザ-は「東京都」を3トークンに分割してしまいますが、これに日本語で学習されたトークナイザーを合体させることで、1トークンで扱うことができます。LLMのスループットや料金は、トークン数に比例することから、今回発表されたモデルはトークン効率が2-3倍になったと考えられます。
元々OpenAIのトークナイザーは英語以外のトークン効率が非常に悪く、日本語の効率は英語の1/3程度とされていましたが、この差が縮まることで、日本語話者が不利な状況が大きく是正されると言えるでしょう。
トークナイザーの最適化は、基盤モデルを一から学習するのに比べると遥かに低コストで行うことができ、国内でもELYZA社が、Llama 2モデルに対して1.8倍の推論速度向上を達成しています。GPT-4に迫る性能を持つオープンLLM「Command R+」を開発するCohere社のGomez氏は「日本語機能の向上を最優先とする」と発言しており、同様のトークナイザー最適化が行われる可能性は大いにあります。
カスタムモデルはAPIで提供される予定で、GPT-4を搭載した国内向けのアプリケーション数が増えていくことが予想されます。速度が重要視される応用先として音声対話の分野があり、国内ではAIと雑談できるアプリ「Cotomo」が有名です。次回のニュースレターにて、この分野におけるGPT-4やオープンソースLLMの適用可能性について考察する予定です。
③ 世界最高峰の二足歩行人型ロボットAtlasが大幅進化し完全電動に
ロボットの研究開発を手がけるBoston Dynamics社は4月18日、油圧式人型ロボットAtlasを大幅にリニューアルし、完全電動式の新たな機体を公開しました。海老反りの姿勢から立ち上がったり、腰を180度回すなど、人間よりも遥かに広い関節可動域を生かした、人間では不可能な動きが大変印象的です。是非、以下の40秒程度のデモ動画をご覧ください。
Boston Dynamics reveals its new, improved all-electric Atlas robot, and @bheater has all the details right here: tcrn.ch/3vKUeeN
— TechCrunch (@TechCrunch)
1:17 PM • Apr 17, 2024
Boston Dynamics社は1992年設立にされており、高い運動能力を有するAtlas等、既存の制御技術をベースとしたロボットを開発してきました。Atlasは2013年より開発が進められており、2017年にはバク宙に成功していますが、結局商業化されることはありませんでした。次いで有名なロボットとして、犬型のSpotがありますが、こちらは2020年に販売され、世界中の警察や軍隊、その他の用途に使われているようです。
生成AIの盛り上がりと共に、人工知能を搭載した汎用人型ロボットにも注目が集まっています。イーロンマスク氏率いるOptimusを開発するTelsa社や、3月にOpenAIなどから1000億円を資金用達し、ChatGPTを搭載したロボットを発表したFigure AI社など、設立10年に満たない新興企業の躍進が目立ちます。
ロボット分野における生成AIの用途としては、VLMを用いて視覚情報を取り込んだり、LLMで対話履歴・行動履歴をもとに、習得済みの複数のアクションの中から、次に実行すべきものを決定するといったものがあります。
ロボット分野では未だ、物を動かす・掴む、障害を避けるといった基本的なアクションの精度を向上させている段階にあるとされますが、それらが実用レベルになってくれば、生成AIとの組み合わせにより、一気に遂行可能なタスク幅が広がると考えられます。
以前のニュースレターで、汎用人型ロボットについてまとめているので、興味のある方は是非こちらよりご覧ください。
2. SNSで話題のAIツールをピックアップ!
HuggingChat (https://huggingface.co/chat/)
HuggingFaceが公式で提供している、同プラットフォームに搭載されている様々なLLMを試すことができるツール
Command R+やLlama 3 70Bなど、今話題のオープンLLMを試せる
ログイン不要・無料で使用可能。iPhoneアプリ版もある
ログインすれば会話履歴を保存できることから、使い勝手も良い
OptimizerAI (https://ideogram.ai/)
テキストから非常に高品質な効果音を生成できるツール
雪をザクザク踏む音、エンジンをふかす音、マリオ風のジャンプ音など多彩な音を生成できる
効果音の長さは0.1秒から10秒の間で指定可能。3秒で指定した場合、5つの効果音が僅か10秒で生成
サインアップするだけで即使用でき、無料でも5回生成可能
3. ChatGPT登場後論文で、ある英単語の出現確率が急増
ChatGPTをはじめとするLLMは今や、多くの文章執筆者が使うツールとなりました。特に、母国語以外で文章を執筆するときには必須のアイテムと言えます。
一方で、LLMは各々が固有の癖をもっており、特定の単語やフレーズを出力しやすい傾向にあります。この裏付けとして先日、論文内における “delve” という単語の出現数・割合が、2022年11月のChatGPT登場以降、爆発的に増加したというデータが示されました。
灰色棒:”delve” という単語を含む論文数
赤線:”delve” という単語を含む論文の割合
Delving into “delve” より抜粋
“delve” という単語は「掘り下げる」といった意味を持ち、例えば以下のような使い方をされます。普段ChatGPTを使用していて英文執筆をしている方は、一度あるいは何度もこの単語に遭遇したことがあるのではないでしょうか。
English: "She decided to delve into her family history to uncover her ancestors' origins."
Japanese: 彼女は自分の家族の歴史を掘り下げて、先祖の起源を明らかにすることにした。
「大枠を示した後に詳細を説明する」という分かりやすい文章の典型的構造と極めて親和性が高い単語であることから、ChatGPTが好んで使う理由にもある程度納得がいきます。
このデータを算出したPhilip Shapira氏は、なぜChatGPTが”delve”という単語を好むのかを知る手がかりとして、「ChatGPTが自身をより権威的に見せたいから」というGeminiの回答を載せたX投稿を紹介しています。
この種の偏りは文章の言い回しにも表れており、ChatGPTやClaudeなど多くのLLMは、倫理やコンプライアンスに細心の注意を払って、無難な文章選びをする傾向にあると感じます。今年の芥川賞受賞作品「東京都同情塔」では、こういった均質化した文章が世に溢れる危険性について、警鐘を鳴らすようなメッセージがあったことを思い出します。
なお、生成AIが出力した文章を検知できるか?というトピックもよく話題に上がりますが、2023年2月に、「十分に優れた言語モデルによる生成文は、最高の検出器であっても検出が困難」という研究結果が出ており、原則不可能であると認識すべきでしょう。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… twitter.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024