- Mavericks AI ニュース
- Posts
- 世界初のAIソフトウェアエンジニア「Devin」が発表!ChatGPT搭載の人型汎用ロボットFigure 01も発表など
世界初のAIソフトウェアエンジニア「Devin」が発表!ChatGPT搭載の人型汎用ロボットFigure 01も発表など
sayhi2.ai Newsletterをご覧いただきありがとうございます!
今回は、インパクトの大きかったニュースや注目ツールに加えて、今話題を集めている汎用人型ロボットを3つ紹介します!
📚 目次
1. 直近のビッグニュースTop 3
① 世界初のAIソフトウェアエンジニア「Devin」が発表
② ChatGPT搭載ロボットFigure 01が発表
③ OpenAI CTOがSoraの詳細とリリース時期について回答
1. 直近のビッグニュースTop 3
① 世界初のAIソフトウェアエンジニア「Devin」が発表
ふわっとしたタスクであっても、自律的に判断を繰り返し、解決できるAIのことを自律型AIエージェントと呼びます。GPT-4登場直後の昨年4月にGodmodeをはじめとするAIエージェントが大きな話題を呼びましたが、タスクの分解こそできるものの、簡単なタスクですら完遂することはほぼ不可能でした。
そんな最中、設立5ヶ月のスタートアップCognition社が「世界初のAIソフトウェアエンジニア」と銘打って自律型AIエージェント「Devin」を発表しました。Devinは「この記事を参考に”Sara”というテキスト入りの画像を生成して」といったようにざっくりとタスクを割り当てるだけで、環境構築からスクリプト実行、デプロイに至るまで、プログラム実装に必要なことを全て行ってくれます。以下のデモ動画にて、タスクをしっかり完遂できていることも確認できます。
①背景に文字が浮かび上がる画像をControlNetで作成する記事を参考にして、「Sara」という文字で実践するようお願いするデモ
記事からGitHubのリンクを抽出し、環境構築、バージョンの違いによるバグのfixを経て、無事生成に成功しています
— マーベリック|生成[email protected] (@sayhi2ai_jp)
8:57 AM • Mar 13, 2024
Devinの特に優れている点は、あたかも本当にソフトウェアエンジニアと共同作業しているかのような体験を提供していることだと考えています。具体例を2つ挙げます。
Devinがタスクを実行している間に、追加で修正の指示を出せる。さらには、認証等でユーザーの助けが必要な場合は、Devinの方から自発的にユーザーに実行を依頼したりもしてくれる。
ターミナル、webブラウザ、コードエディタを通して、Devinの動作をリアルタイムに追ったり、その履歴を確認できたりする。
もちろん完璧ではなく、例えば、LLMとチェスをするゲームの作成をお願いしたところ実行が終わらなかった、といった例 (X) も報告されています。また実行が遅いのも欠点で、先ほどの、記事を参考にした画像生成では40分かかっています。人間のプログラマーが実装した方が早く完了できるでしょう。
それでも、精度やUXの点でこれまでの自律型AIエージェントとは比べものにならないほど優れていることは確かです。生成AIがプログラマーの仕事のどの部分をどれくらい奪うことになるのか、考えるには絶好の機会だと感じました。
こちらの投稿にて、エンジニア目線で、Devinの機能や優れている点について紹介しています。興味がある方は、是非ご覧ください!
② ChatGPT搭載の人型汎用ロボットFigure 01が発表
人型汎用AIロボットの開発を行うFigure AI社が、ChatGPTを搭載したロボット「Figure 01」を発表しました。同社は2019年に設立された新興企業で、先日OpenAI, NVIDIAから1000億円を調達したばかりです。
以下のデモ動画では、Figure 01が人間と対話しながらキッチンの片付けをする様子が紹介されています。現状の技術の組み合わせでここまでできるのか…と驚かされました。音声ONで是非ご覧ください!
With OpenAI, Figure 01 can now have full conversations with people
-OpenAI models provide high-level visual and language intelligence
-Figure neural networks deliver fast, low-level, dexterous robot actionsEverything in this video is a neural network:
— Figure (@Figure_robot)
2:00 PM • Mar 13, 2024
デモ動画で、Figure 01は以下のようなタスクをこなしています。これらは全てAIモデルなしには実現不可能です。
身の回りの状況を人間に言葉で伝える
「何か食べるもの欲しいんだけど」という人間の要求に対し、リンゴを手渡す (曖昧な指示→具体的なアクション)
「次に何をしたらいいと思う?」と聞かれて、「皿を水切りかごに戻すこと」と答えて、実行する (常識→次のアクション)
最後にこれまで自分が行ってきたタスクを、記憶を元に振り返る
ChatGPTとロボットを組み合わせると聞くと、人間との対話に発想を飛ばしがちですが、それだけでなく、視覚情報・対話履歴・行動履歴をもとに次に何をすべきかプランニングするのにもChatGPTは活用できます。Figure AI研究員の解説 (X) によると、ChatGPTの出力をもとに、どの方策ニュ-ラルネットワークの重みを読み込むかを決定しているとのことです。
人型汎用AIロボットの開発でいえば、昨年末にTesla社が公開したOptimus Gen 2も大きく注目を集めました。後のセクションで、今話題を集めている人型ロボットをさらに3つ紹介します!
③ OpenAI CTOがSoraの詳細とリリース時期について回答
OpenAIが今年発表した動画生成AIのSoraは大きな注目を集めていますが、依然としてその詳細は謎に包まれています。そんな中、先週OpenAIのCTOであるMira氏がWSJからのインタビューに応じ、10分以上に渡ってSoraに関する様々な質問に回答しています。
非常に網羅的な内容となっており、Soraの詳細を知らない方にとっても、最新の動向を追っている方にとっても有益な情報が詰まった、必見の動画です。
WSJのOpenAI CTOへのインタビューがSoraに関する知見の宝庫です!
・Soraの公開は数ヶ月後から年内になるだろう (I’m hoping definitely this year, but could be a few months)
・720p, 20秒の動画生成に数分程度
記者が大変鋭く、Soraの学習データや失敗例についてなど、他にも情報満載です↓ twitter.com/i/web/status/1…
— マーベリック|生成[email protected] (@sayhi2ai_jp)
1:58 AM • Mar 14, 2024
このインタビュ-にてMira氏は、Soraの公開は数ヶ月後~年内であり、また、720p, 20秒の動画生成には数分程度かかると述べています。
生成時間に関して、例えばAI動画生成サービスとして有名なPikaでは、1280×720p, 3秒の動画生成に45秒〜1分かかります(生成開始前の待ち時間を除いた場合)。動画1秒あたりの生成時間はPikaと同等かそれ以下ということになり、これは大方の予想を遥かに下回りました。
Soraの発表後、Pika, RunwayといったAI動画生成サービスは、品質を高める方向ではなく、動画編集を容易にする方向で、幾つかの機能を発表しています。例えばPikaは、Lip Sync機能や動画に効果音をつける機能を公開し、Runwayも、画像の動かしたい箇所をブラシでなぞって指定できる「Motion Brush」にセグメンテーション機能を追加しています。
制作活動と結びつきが強い画像生成分野においては、Midjourney, Stable Diffusion, DALLEなど複数のサービスが共存しています。動画生成分野でも、Sora一強になるとは考えづらいですが、それでもSoraの公開がゲームチェンジになることは間違いないでしょう。引き続き動向を注視していく必要があります。
2. SNSで話題のAIツールをピックアップ!
Deepgram (https://sayhi2.ai/ja/product/deepgram_com)
0.25秒以下という驚異の低遅延を誇るText-to-Speech機能を先日発表した音声AIツール。どれだけ自然な会話が実現できるかは、デモ動画にて確認可能
APIの提供がメイン
Text-to-Speechは日本語対応していないが、Speech-to-Textは対応済であり、今後の多言語展開も期待できる
サインアップすると、$200のクレジットを得られる
3Dモデルを作成・編集できるツール
他のAIツールと比ベて機能が豊富。例えば、3Dモデルのテクスチャを貼り替える3D版アップスケール機能や、3D-to-Image機能などがある
さらには、3Dモデルを自動的にリギングした後にtext-to-animationで動かすこともできる。5分程度で完了
サインアップすれば、全機能を無料で体験することが可能
3. 今注目すべき3つの汎用人型ロボット
① Tesla Optimus - 実は世界最高水準には達していない
直近のAI汎用人型ロボットに関する発表で、最も話題になったのはイーロンマスク氏率いるTeslaの「Optimus Gen-2」でしょう。Teslaが人型ロボット開発を始めることを発表したのは2021年であり、競合他社と比べて遅いタイミングでの参入です。以下のデモ動画でOptimus Gen-1, 2の性能を確認できます。
There’s a new bot in town 🤖
Check this out (until the very end)!
tesla.com/ai
— Tesla Optimus (@Tesla_Optimus)
2:04 AM • Dec 13, 2023
しかし、後にあげる2つのロボットと比較すれば分かる通り、実は「Optimus Gen-2」は、汎用人型ロボットの中で、最高レベルに到達しているとは言い難いです。
それでも、開発開始から僅か2年でこのレベルに到達している点、また制御の大部分をAI技術によって行っている点でTeslaは高く評価されています。また、電気自動車開発を行う中で獲得したハードウェア技術やAIによるEnd-to-Endな制御技術は、大きな優位性であるとされています。
※ ちなみに、先日マスク氏が投稿した、人型ロボットがシャツをたたむ動画 (X) も大きな話題となりましたが、この動画では、オペレーターが着用したグローブの動きをロボットにトレースさせており、マスク氏もこれを認めています。Forbesによれば、このトレース技術は1960年台からあった古典的なものです。
② Phoenix - 繊細な作業をこなせるロボット
Sanctuay AI社は、2018年に設立されたカナダの企業で、繊細な作業を行う能力を有した人型ロボットの開発を得意としています。こちらのデモ動画では、Sanctuay AI社が開発した人型ロボット「Phoenix」が「料理を盛り付ける」「ジェンガをプレイする」といった60のタスクをこなしています。
また先月末には、物体を色別に分類するという単純なタスクを、人間と同等の速度でできるようになったという発表もありました。確かに速度感こそ人間レベルですが、手荒で雑な印象も受けます。
Powered by Carbon, Phoenix is now autonomously completing simple tasks at human-equivalent speed. This is an important step on the journey to full autonomy. Phoenix is unique among humanoids in its speed, precision, and strength, all critical for industrial applications.
— Geordie Rose (@realgeordierose)
8:31 PM • Feb 28, 2024
③ Atlas - 高い運動能力を有したロボット
1992年設立の老舗企業Boston Dynamics社が開発している人型ロボット「Atlas」は、高い運動能力を有していることで知られます。以下のように華麗にパルクールを決めたり、動き回ったりする動画をご覧になったことがある方も多いのではないでしょうか。
Atlasは、AIによる制御を主とするTeslaのOptimusとは異なり、既存の制御技術をベースとしています。こちらの動画にてBoston Dynamics社が開発したロボットの進化の軌跡が描かれていますが、2017年にはバク宙に成功しており、かなり前の段階から高い身体能力を獲得していたことが分かります。
既存の制御技術にAIという武器が加わることで、人型ロボットがどのように進化を遂げていくのかはまだまだ未知数ですが、現状はブレイクスルーと言えるような革新が起きているとは言い難いです。引き続き注意深く動向を見守っていきたいところです。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
なお来週に限り、ニュースレターの配信日時を変更する可能性があります。ご了承ください。変更がある場合、Xアカウントにてお知らせする予定です。
運営元の紹介
生成AI特化開発チームMavericksは、sayhi2.ai というサイトを運営しています。5000以上のAIツールを掲載しており、誰もが自身のニーズに合ったツールを効率よく探せるよう、様々な仕掛けが施されています!
さらに、本年より18000以上のGPTsの掲載を開始しました。ぜひご覧ください!
またXでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… twitter.com/i/web/status/1…
— マーベリック|生成[email protected] (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024