- Mavericks AI ニュース
- Posts
- Microsoft Build 2024が開催。AI特化型PCは「鬼に金棒」となるか?ソフトバンクが怒る客の音声をAIで穏やかにする技術を事業化へなど
Microsoft Build 2024が開催。AI特化型PCは「鬼に金棒」となるか?ソフトバンクが怒る客の音声をAIで穏やかにする技術を事業化へなど
Newsletter from Mavericksをご覧いただきありがとうございます!
ChatGPTが公開されたのは2022年11月30日。それから一年半が経過しようとしています。
今回は、インパクトの大きかったAIニュースや注目ツールの紹介に加えて、Stability AIやOpenAIといった企業が立たされている苦境について解説します。
📚 目次
1. 直近のビッグニュースTop 3
① Microsoft Build 2024が開催。AI特化型PCは「鬼に金棒」となるか
② ソフトバンクが怒る客の音声をAIで穏やかにする技術を事業化へ
③ 「AI Pin」で一躍有名となったHumane社が売却を検討
1. 直近のビッグニュースTop 3
① Microsoft Buildが開催。AI特化型PCは「鬼に金棒」となるか
OpenAI, Googleに続く形で、Microsoftが年次の開発者会議Microsoft Build 2024を開催しました。2つの側面から内容をまとめます。
1. CopilotにてGPT-4oを提供
先日OpenAIより発表されたGPT-4oがAIアシスタントCopilotに搭載されることが発表されました。画面録画や音声入力とも連動しており、ユーザーがPCに向かって話しかけながら、Copilotと一緒にMinecraftをプレイするデモも公開されています。やはりレスポンスの速さや音声の自然さ、会話の流暢さには目を見張るものがあります。
Here is a preview of Copilot, powered by @OpenAI GPT-4o. Watch one of our developers have a natural conversation with Copilot as it helps him avoid Zombies in Minecraft.
— Yusuf Mehdi (@yusuf_i_mehdi)
7:04 PM • May 20, 2024
OpenAIと提携関係にあるMicrosoftは、このような形でOpenAIの発表した最高性能のLLM(大規模言語モデル)をWindows PC, Office 365 (Word, Excel, …), Azureなどで即座に提供できるポジションにあります。
一方で、このようなLLMを使用するには外部サーバーとの通信が必要であり、機密情報の入力を伴うような作業は行えない、インターネット接続が必須といった問題点があります。また、機能のカスタマイズにも限度があります。
2. ローカルでAIモデルを実行可能な新PCを発表
Microsoftが新たに発表したAI特化型の「Copilot+ PC」は、関連サービスと合わせて、LLMの弱点を補う機能を有しています。Microsoftにとって「鬼に金棒」となりうる存在です。
Copilot+ PCは、小規模なAIモデルを搭載しており、画像生成や動画のリアルタイム字幕変換(英語のみ)をローカルで実行できます。また、画面のスクリーンショットが数秒ごとに撮影され、ユーザーが過去にPC上で行ったあらゆる動作を検索できるという非常に強力な機能「Recall」も発表されました。このPCは、6月18日より販売が開始される予定です。
さらに、開発者が上述のAI機能を手軽にWindowsアプリに組み込んだり、カスタマイズしてより高度な機能を実装できる「Windows Copilot Runtime」も発表されました。ノーコードによるAI機能の組み込みから、AIモデル・ツールチェーンといった低レベルの実装までサポートしており、幅広い開発ニーズを捉えつつ、Windowsをアプリ開発のプラットフォームとしていく狙いです。
Copilot+ PCに搭載される予定のSLM(小規模言語モデル)「Phi Silica(3.3B)」は、MicrosoftがOpenAIとは別に、独自開発したモデルです。今回の会議でMicrosoftは他にも、言語モデル「Phi-3-medium(14B)」や画像言語モデル「Phi-3-vision(4.2B)」などをMITライセンスでオープンソースとして発表・公開しており、特にPhi-3-mediumは、日本語の生成品質も高いと話題です。LLMの開発はOpenAIに任せつつ、裏ではSLMの開発を着実に進め、あらゆるニーズを満たしにいくMicrosoftの戦略には、さすがと言わざるを得ません。
一方で、ローカル環境で動作するとはいえ、AI機能へ付与されている権限があまりにも大きすぎるとして、Microsoftを批判する声もあります。例えば、Recall機能では、パスワード等の機密情報を入力する際にもスクリーンショットが撮影され、それがローカルに保存される可能性がありますが、Mozillaの最高製品責任者は、保存されたスクリーンショットがサイバー犯罪者にとっての新たな攻撃対象になると懸念を示しています。更なる仕様詳細の発表が待たれるところです。
② ソフトバンクが怒る客の音声をAIで穏やかにする技術を事業化へ
ソフトバンクが、怒っている客の通話音声を穏やかなトーンに変換するAI技術の事業化を目指すと発表しました。コールセンターの電話対応業務での活用を想定し、2025年度中の事業化に向けて東京大学と研究開発・検証を進めていくようです。
国内の大手企業・機関が、AIの生成物を公開することで大きな批判を浴びるという事例は度々発生しています。直近では海上保安庁が、パンフレットに生成AIで作成したイラストを、著作権法に違反しない形で掲載したものの、批判が相次いだため配布を取りやめるといった出来事がありました。一方で、今回の取り組みは、AI音声を聞くのは社員のみであり、顧客目線での体験は変わらないという点で、非常に良い設計だと言えます。
また、要素技術となる音声変換についても、着実に進化を遂げています。GitHubで公開されているボイスチェンジャー「RVC」を使えば、10〜50分の音声データを学習させるだけで、その人の声にリアルタイムで音声変換することが可能です。発音が少し不明瞭になる点を除けば、本人が喋っているかどうか判別が難しいレベルにまで到達しています(RVCの使用感を解説した音声付きの記事(TechnoEdge))。また、遅延時間が僅か47ms以下の無料ボイスチェンジャー「Supertone Shift」も高品質だと話題になりました(以前のニュースレター)。
さらに、AIの生成する音声は、細やかな感情をも捉えられるようになってきています。先日のGPT-4oのデモでは、AIが感情豊かに英語で喋る様子が印象的でした。また、衆議院議員らに向けて日本語のデモも披露されており、かなり自然な日本語で喋ることができています。こうした音声技術をサービスに取りいれる動きは、今後も加速していくでしょう。
OpenAIの本社エンジニアによるGPT-4oの特別デモ。「この会議室を10万円でおしゃれに改装するアイディアは?」と聞くと観葉植物、クッション、室内アートと即答。レスポンスの速さ、OCRの精度、関西弁の上手さ、ラップのリズム感、などなど想像を上回る性能でした。日本が抱える社会課題解決のために、… x.com/i/web/status/1…
— 塩崎あきひさ 【衆議院議員・愛媛1区】 (@AkihisaShiozaki)
6:53 AM • May 24, 2024
③ 「AI Pin」で一躍有名となったHumane社が売却を検討
次世代ウェアラブル端末「AI Pin」を発表したことで知られるHumane社が、売却を検討しているとBloombergが報じました。Humane社は2018年に設立され、2023年11月にAI Pinを発表し、先月に販売を開始したばかりです。
AI Pinは、コートの襟などに装着して使う、手のひらに収まるほどの超小型端末です。音声やジェスチャーで指示を行うことができ、スクリーンを持たない代わりに、手のひらに画面を投影する機能があります。Amazon Alexaとは異なり「目」を持つため、目の前に映るものについて尋ねたり、写真を撮影できる点も特徴的です。699ドルの購入費用に加えて、月24ドルの月額費用がかかるものの、近未来的な体験を提供する次世代端末として、大きな注目を集めていました。
しかし、販売を開始するや否や、使い物にならないと厳しい意見が相次ぎました。LLMや画像認識の精度があまりにも低い、ハルシネーションまみれである、回答までに10秒以上かかるといったAIの性能に関する不満のほか、太陽の元ではスクリーンがほとんど見えない、一日に何度もバッテリーを充電する必要があるといったハード面の問題点もあったようです。
YouTubeで様々なテクノロジー製品を紹介しているMarques Brownlee氏は自身のレビュー動画にて、AI Pinの弱みとしてスマートフォンで実現できる機能しか備わっていない点を指摘していました。まだまだAIの精度が発展途上であり、実用レベルに達していない能力も多い中で、操作方法が真新しくとも、既存のモバイル端末とは異なる新しいユースケースを生み出さない限りは、代替に値しないという指摘は非常に核心をついていると感じます。
今年1月に発表され、同じく次世代モバイル端末として注目を集めたrabbit r1も、AI Pinと同様に酷評を受けています。ガラケーと異なり、すでにあまりにも多くの機能を備えてしまっているスマートフォンを代替するような全く新しい端末を産み出すのは、非常に困難な所業であると感じます。
2. SNSで話題のAIツールをピックアップ!
copainter (https://www.copainter.ai/)
線画と下塗りを上げるとAIが塗り絵をしてくれる日本発のイラスト制作支援サービス
Stable Diffusionで同様の仕組みを実装するよりも、線画や色が上手く維持されると評判
AIによる改変度や書き込み量、生成画像のスタイルもカスタマイズできる
サインアップするだけで即使用でき、無料で30枚の画像を生成可能
Coze (https://www.coze.com/)
チャットボットをノーコードで作成・共有できるプラットフォーム
プラグインが充実しており、Notion, Google Driveなどの外部ツールと簡単に連携できる
さらにBot Storeにて、他のユーザーが作成したチャットボットをプロンプト含めて閲覧できる点も魅力的
現在は完全無料で使用でき、商用利用も可能
3. ChatGPT登場から一年半が経過。苦戦するAI企業
ChatGPT登場から1年半が経とうとしています。今も革新的なAIプロダクトが日々発表されている一方で、基盤AIモデルの開発を推し進める企業の中には、苦境に立たされている企業も出てきています。
その筆頭が、Stable Diffusionの開発元Stability AI社です。同社はテキスト・画像・音楽・3Dといったあらゆるモダリティのモデルを開発し、その多くをオープンにしてきました。しかし、かねてより十分な収益を上げられておらず、資金難に陥っていると報じられてきました。その状況は未だ打開されておらず、今年3月に当時CEOのEmad氏が辞職したほか、5月15日にはThe Information紙によって、買収に向けた話し合いを進めていると報じられています。
他にも、「Attention is All You Need」論文の著者2人によって創業され(現在は2人とも離職)、「ACT-1」をはじめとするAIエージェントの開発に注力していたAdept社についても、買収の可能性があるとThe Information紙が報道しています。
また、フェーズこそ全く異なりますが、ChatGPTもユーザーの新規獲得に苦戦している現状があります。1億人のユーザーを獲得するのに要した期間がわずか2ヶ月であったことはよく話題にあげられますが、
有名アプリがユーザー1億人を達成するまでにかかった期間の比較
実は、ローンチ後半年(GPT-4公開後2ヶ月)を過ぎてからはユーザー数を伸ばせておらず、Bingと同程度に留まっています。Googleと比較すると1/10にも満たないようです。
先週のニュースレターにて、OpenAI Spring Updateは「世界最高レベルのモデルの力を全世界の人々に知らしめるための発表」だったのではないかという見方をお伝えしました。このようなデータを見ると、OpenAIがより広範なユーザーにChatGPTを使用してもらえるよう施策を打つのは、やはり自然に思えます。前回の発表内容の中でも特に、デモで大きな話題を呼んだ音声対話機能は、現状を打破する一手になりうると考えており、公開を待ち遠しく思います。
さいごに
最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。
一番ためになったのは? |
運営元の紹介
生成AI特化開発チームMavericksでは、より高い解像度でAIニュースをキャッチアップしたい方向けに、Xにて日々情報発信しています。是非チェックしてみてください!
Claude 3 OpusのGPT4に対するPros/Consをまとめました!
弊チームでも自分以外全員Claude 3に乗り換えており、かなり優れたモデルだと思っています!
■Pros
①約2倍のトークン長で、2倍前後高速②画像認識能力が格段に高い(電子データなら、装飾が多少あってもほぼ完璧にテキストを読み取れる)… x.com/i/web/status/1…
— マーベリック|生成AI@NoLang (@sayhi2ai_jp)
9:09 AM • Mar 8, 2024