Mavericks AI ニュース
Posts
PC操作で人間超えのGPT-5.4がリリース!スクリーン情報だけからブラウザやアプリを正確に操作できるように

PC操作で人間超えのGPT-5.4がリリース!スクリーン情報だけからブラウザやアプリを正確に操作できるように

他にも...米国防総省がAnthropicを「国家安全保障上のサプライチェーンリスク」に正式指定

マーベリック
March 08, 2026

NoLang運営チームよりお届けしている、Mavericks AIニュースをご覧いただきありがとうございます！

📚 目次

1. 直近のビッグニュースTop 3
① 米国防総省がAnthropicを「国家安全保障上のサプライチェーンリスク」に正式指定
② OpenAIがGPT-5.4をリリース！PC操作能力を測るベンチマークで人間超え
③ みずほFGが金融特化LLMを独自に開発。中国製LLMを使用せざるを得ない理由

2. SNSで話題のAIツールをピックアップ！
① BananaX
② Z.ai

1. 直近のビッグニュースTop 3

① 米国防総省がAnthropicを「国家安全保障上のサプライチェーンリスク」に正式指定

Anthropic社が米国時間3月5日、米国防総省（通称ペンタゴン）から、国家安全保障上のサプライチェーンリスクに正式指定されました。米国企業がこの指定を受けるのは史上初のことであり、それほどまでにAI技術の制御権は切実な問題となっています。事態はOpenAI社をも巻き込みながら急速にエスカレートしており、以下でその経緯を振り返っていきます。

米国防総省から国家安全保障上のサプライチェーンリスクに正式指定されたことを受けての、Anthropic社声明文の冒頭
（Anthropic）

発端は2月26日に遡ります。Anthropic社が、「Claudeをあらゆる合法的目的に使用させよ」という米国防総省の要求を拒否する声明を発表したのです。具体的には「米国市民に対する大規模国内監視」と「完全自律型兵器システムの構築」の2点について、AIを使用することは「良心に照らして受け入れることはできない」と主張しました。

これに米国政府は反発し翌27日、トランプ大統領が全連邦機関にAnthropic社製品の使用停止を命令したほか、ヘグセス国防長官もXにて「Anthropic社を国家安全保障上のサプライチェーンリスクに指定するよう指示した」と投稿しました。

Anthropic CEOのダリオ・アモデイ氏
（CBS Sunday MorningのYouTubeより）

この状況に「割り込む」形で動いたのがOpenAI社です。国防長官の投稿からわずか数時間後、米国防総省との契約締結を発表しました。

しかし同社はすぐに世間から猛烈な批判を浴びることになります。契約にはAnthropic社が要求した2条件への言及こそあったものの、説明文言が曖昧で抜け穴があると広く指摘されました。後日サム・アルトマン氏が「日和見的で杜撰なやり方に見えてしまったと思う」と認め、OpenAI社が契約を修正する事態に至っています。

もっともAI技術はすでに、米国による軍事運用の奥深くまで入り込んでいるようです。実際Bloomberg紙などが3月1日以降、Anthropic社の技術がイランでの軍事作戦における「情報分析」「目標識別」「作戦計画支援」に使われていたと報じています。

この一連の報道を受け、1月末時点でApp Storeトップ100圏外だったClaudeアプリが、無料アプリランキングで一時1位を獲得しました。対してChatGPTは1つ星レビューが775%増加し、米国でのアンインストール率は295%急増しています。

米国でのClaudeとChatGPTのモバイルアプリダウンロード数の推移
（TechCrunch）

国家安全保障リスクへの正式指定を受け、ダリオ・アモデイCEOは「この決定は法的に正当ではないと考えており、法廷で争うしかない」と宣言しました。民間AI企業と国家権力の正面衝突がここまで表面化した前例はなく、事態は深刻化の一途を辿っています。

② OpenAIがGPT-5.4をリリース！PC操作能力を測るベンチマークで人間超え

OpenAI社が米国時間3月5日、新たなAIモデル「GPT-5.4」をリリースしました。GPT-5.3 Codexのリリースからわずか1ヶ月という驚異的なペースでのアップデートとなります。

今回のリリースで最も強調されていたのは、「PC操作能力の向上」です。実際、ブラウザ、ファイル、アプリなどの操作能力を測るベンチマーク「OSWorld-Verified」において、人間のスコア72.4%を上回る75.0%を達成しています。

以下は非常に短いデモですが、メール執筆から送信まで、等倍速とは思えない速度でこなされているのが印象的です。是非ご覧ください。

— (@)

以前のニュースレターでもお伝えした通り、AIにブラウザを操作させる方法には大きく2種類あります。1つ目はWebページの「HTMLプログラムを参照させる方法」、2つ目は「スクリーン情報のみを参照させる方法」で、人間と同じ制約下での操作が求められる後者の方が難易度が高くなります。

HTML参照下での精度が向上していけば、アプリのUIテストを高精度に自動化できる見込みが高まります。そして画像参照のみでPCを高精度に操作できるようになれば、以下のような、より高度な作業まで自動化できる世界線が見えてきます：

Google Driveを開いて、昨日の議事録を探し出してPCのデスクトップフォルダに保存
アプリの使い方をハンズオン形式で解説する動画を作成

OpenAI社はHTML、スクリーンの両方式においてGPTモデルの性能が向上したと述べており、先ほどのOSWorld-Verifiedのスコアは、より難易度の高いスクリーン参照方式に対応したものです。

ただしこの結果の解釈には注意が必要です。Claude Opus 4.6も同ベンチマークで人間を上回るスコア（72.7%）を達成しており、今回の性能向上はあくまでも過去のGPTモデルとの比較に留まります。GPT-5.4が特段優れているというより、フロンティアモデル全体でPC操作能力が着実に向上していると捉えるべきでしょう。

OpenAIのリサーチャーNoam Brown氏が、今回のリリースに際して「We see no wall」とコメントした通り、AIモデルの性能向上にまだ頭打ちの気配はありません。着実な性能向上を積み重ねた結果、今日時点では、Claude Codeが「育成コストの高さ」というAI活用における長年の壁を崩し始めるまでに至っています。

— (@)

そしてAIが実用的なPC操作能力を会得すれば、ソフトウェア空間で完結する定型タスクのほとんどが十分効率的に自動化可能になってきます。これが、我々の業務フローを変革する次のブレイクスルーになるのではないでしょうか。

💡 GPT-5.4 ThinkingはChatGPTの全てのユーザーに向けて提供されています。一方GPT-5.4 ProはPro, Business , Enterpriseプランユーザーのみ利用可能です。

③ みずほFGが金融特化LLMを独自に開発。中国製LLMを使用せざるを得ない理由

みずほフィナンシャルグループが3月5日、金融業務に特化したLLMを独自に開発したことを明らかにしました。銀行の実務テストでは、平均応答時間が60秒のGPT-5.2（推論あり設定）とほぼ同水準の正答率を達成しつつ、回答開始までの平均時間が1秒未満と遥かに短いことが強調されています。

このモデルはアリババ社が昨年4月に公開したオープンLLM「Qwen3-32B」をベースに、金融の基礎知識・法令・社内手続などを幅広く学習させてファインチューニングしたものです。照会応答や資料作成といった一般業務への活用が想定されています。

（Qwen）

いわば「中国製LLM」をファインチューニングして領域特化させた形ですが、一昔前の感覚では、国内大手企業が中国製LLMを基盤モデルとして採用するケースはほとんど見られませんでした。では、なぜそれが現実的な選択となったのでしょうか？

背景にあるのは、オープンAIモデルの開発競争における中国勢の「圧勝」です。Artificial Analysis社による性能評価のトップ15にはオープンAIモデルが6つ名を連ねており、それらすべてが中国製です。NVIDIAの株価を大幅下落させたことで知られるDeepSeek（DeepSeek社）をはじめとして、GLM（Z.ai社）、Kimi（Moonshot AI社）などが、最先端のクローズドモデルに匹敵する性能を達成しています。

性能評価ベンチマーク「Artificial Analysis Intelligence Index」におけるAIモデルのスコア比較。GLM-5が新たにオープンモデルとして一番手に躍り出た
（Artificial Analysis）

中国製のオープンAIモデルの利用に関しては様々な見方がありますが、まず情報漏洩のリスクは基本的にないと言っていいでしょう。モデルの中身がプログラムとして全て公開されているからです。

一方で、クリーンなモデルとは言い難い側面もあります。上記の中国製モデルはGPTやClaudeといったクローズドモデルの出力を学習に用いる「蒸留」が行われていると考えられており、実際OpenAI社とAnthropic社はそれぞれ、DeepSeek社ら中国企業を名指しで警告を発しています。

ただ残念ながら、スクラッチから開発されたクリーンな国産LLMは、現状最先端モデルとの間にあまりに大きい性能差を抱えています。実用性を求めるなら中国製LLMをベースとする選択肢が現実解であることも事実でしょう。

先週は他にも、三菱UFJ銀行とSakana AI社が融資業務支援のAIエージェントシステムの開発に取り組み、半年間の検証を終えたことも発表されました。どちらもまだ「研究段階」での発表であり、定量的な成果を伴うAI活用報告が増えていくことを期待したいところです。

三菱UFJ銀行とSakana AI社は、国内の法人向け融資を対象に、AI融資エキスパート（融資業務支援AI）の実用性を検証したことを発表した
（Sakana AI）

2. SNSで話題のAIツールをピックアップ！

BananaX (https://furoku.github.io/bananaX/projects/infographic-evaluation/index.html?lang=ja)

GoogleのAI画像モデル「Nano Banana」によるテキスト入り図解を作る際に参考になるプロンプト集
シンプルでフォーマルなデザインから目を惹く派手なデザインまで幅広くカバー
簡易的な検索機能があるのも嬉しい
国内の個人開発者により運営されており、無料で利用可能

Z.ai (https://chat.z.ai/)

現在Artificial Analysisによる評価で、DeepSeekを抑えてオープンAIモデルとして最高スコアを達成している「GLM 5」を試せる
モデル開発元である中国企業「Z.ai」が運営する公式サービス
web検索や思考モードも搭載しており、日本語にも対応
Googleアカウントログインにより、無料で試すことが可能

さいごに

最後までお読みいただきありがとうございました。
サービス改善のため、アンケートにご協力いただけると幸いです。「ワンクリック」で完了します。

一番ためになったのは？

運営元の紹介

株式会社Mavericksは2023年、世界に先駆けてリアルタイム動画生成AIサービス「🐬NoLang」をリリースし、現在15万超のユーザーを抱えるまでに成長してきました。法人向けの展開も行い、法人プランのユーザー数は60社を突破しています。また、大手企業との協業や独自開発案件にも着手しており、唯一性の高い価値創出が加速しています。

今後、NoLangを中核に据えながら事業をさらに成長させるべく、エンジニア・デザイナー、営業・マーケティング担当、そして全方位で学生インターンの募集を開始しています。法人営業の担当や、SNS運用などに興味のある方も、ぜひこちらのフォームより一度ご応募ください。

採用ページでは、弊社の実績、求める人物像に加え、メンバーの声をインタビュー形式で掲載しております。興味を持った方はぜひご覧ください。お問い合わせは、[email protected]にて受け付けています。https://

また、私たちはニュースレターだけでなくXやInstagramにおいても、開発プロダクトに関する最新情報について積極的に発信しています。こちらも是非チェックしてみてください！

— (@)