スタンフォード大学人間中心人工知能研究所 (HAI) 9回目の年次報告書をリリースしました AIインデックスレポート — 世界規模での人工知能の最も包括的なデータ駆動型の評価。2025 年版と 2026 年版は、転換点にある業界の姿を描いています。AI 機能はかつてないほど急速に進歩し、コストは急落し、世界的な競争はほぼ同等に達していますが、この分野は信頼、環境の持続可能性、そして巨額の投資から得られる真の価値についての差し迫った疑問に直面しています。
1. AI のパフォーマンスは記録を更新していますが、トップは混雑しつつあります
MMMU (マルチモーダル推論)、GPQA (卒業生の Q&A)、SWE ベンチ (現実世界のコーディング) などの厳密なベンチマークでは、AI のパフォーマンスが飛躍的に向上しました。 18.8、48.9、67.3 パーセント ポイント それぞれわずか1年で。言語モデルは現在、時間に制約のあるコーディング作業において人間のプログラマーと同等かそれを上回っており、高品質のビデオ生成は大きな進歩を遂げています。
しかし、指導力の差は劇的に縮まった。2024 年の初めには、トップランクのモデルは 10 位のモデルに対して最大 12% の優位性を保持していました。2025 年までに、その優位性はわずかに低下します。 5%。状況が平坦化するということは、単一のモデルが長く優位に立つことがなくなることを意味し、ベンチマークの飽和と真のイノベーションが何を意味するのかについての疑問が生じています。
2. 米中のAI格差はほぼ解消
2024年に米国の研究機関は40の注目すべきAIモデルを作成したが、MMLUやHumanEvalなどの主要なベンチマークにおけるパフォーマンス格差は2025年初頭までに2桁からほぼ同等に縮小した。2026年のレポートでは競争がさらに熾烈になっていることが示されており、2026年3月までに米国の主要モデルはわずか1台にとどまった。 2.7%先行 最高の中国モデルであり、トップポジションが何度もハンドを取引しています。
フロンティアモデルの量と民間投資では米国がリードしているが、産業用ロボット(世界の設備の54%)と研究成果では中国が優勢である。競争はベンチマーク スコアを超えて、現実世界の生産性、チップ、エネルギー インフラストラクチャにまで及んでいます。
3. AI コストの急落 – アクセスの民主化
GPT-3.5 レベルのパフォーマンスの推論コストが低下しました 280倍以上 — 2022 年 11 月には 100 万トークンあたり 20 ドルだったのが、2024 年 10 月にはわずか 0.07 ドルに。小規模なモデルが急速に追いついており、2022 年には、MMLU で 60% を超えるスコアを獲得した最小のモデルには 5,400 億のパラメーターがありました (PaLM)。2024 年までに、Microsoft の Phi-3-mini は、わずか 38 億個のパラメータで同じことを達成しました。 142倍縮小。
ハードウェアのコストは毎年約 30% 減少し、エネルギー効率は毎年最大 40% 向上しました。オープンウェイト モデルはクローズドソース モデルとの差をほぼ埋め、主要なベンチマークにおける 1 年間のパフォーマンス差を 8% からわずか 1.7% に縮小しました。
4. 主流の採用が急増しているが、ROI は依然としてとらえどころがない
導入率は急激に上昇しました: 組織の 78% 2024 年には少なくとも 1 つのビジネス機能で AI を使用し、2023 年の 55% から増加しました。ビジネス機能での生成 AI の使用率は 2 倍以上に増加しました (33% → 71%)。しかし、ここに厳粛な現実があります。 AI 投資の 95% は現在、プラスの財務収益をゼロにしています。 、2026年のレポートによると。AI は生産性を著しく向上させますが (顧客サービスでは +14%、ソフトウェア開発では +26%)、これらの向上は広範な収益性には反映されていません。民間の AI 投資は 2024 年に世界で 2,523 億ドル (前年比 26% 増) に達しましたが、ほとんどの企業は依然として ROI の計算式を模索しています。
5. 「鋸歯状インテリジェンス」: 予想外の方法で優れたり失敗したりする
2 つの対照的な例: 主要な AI システムは国際数学オリンピックで金メダルを獲得しました (Gemini Deep Think のスコアは 35/42) が、アナログ時計の読み取りには失敗しました — ClockBench テストの精度はあくまで 50.1% 対人間では90.1%。AI エージェントは現在、サイバーセキュリティの問題を 93% の確率で解決します (2024 年の 15% から増加)。現実世界のタスクの成功率は、2025 年の 20% から 2026 年の 77.3% に向上しました。しかし、物理世界は依然としてハードルとなっています。ロボットはソフトウェア シミュレーションでは 89.4% の確率で成功しますが、それは 89.4% の確率で成功します。 12% 洗濯物をたたむときや食器を洗うとき。
この鋸歯状パターンは、一部の領域では見事ですが、他の領域では不可解ですが、導入者にとっては重大な警告です。AI は一般的に知性を備えておらず、過剰な信頼は依然として危険です。
6. 環境コストは歯止めがかからず増大している
Grok 4 などのモデルのトレーニング排出量が推定値に達しました 72,816 トン CO₂ 換算 — 1 年間 17,000 台の車を運転するのに相当します。AI データセンターは現在、ニューヨーク州のピーク需要と同等の 29.6 GW の電力容量を消費しています。GPT-4o のための年間水使用量だけでも、1,200 万人分の飲料水需要を超える可能性があります。オールイン AI システムの累積電力需要は、スイスやオーストリアの国家電力消費量に匹敵します。
7. 国民の楽観的な見方が高まる – しかし地域間の深い溝は依然として残る
世界的に、AI に対する楽観主義 (害よりも利益のほうが多い) は 2022 年から 2024 年の間に 52% から 55% に上昇しました。ただし、地域的な分裂は顕著です。 83%が中国 AI がより多くの利益をもたらすと信じているが、これに同意する人は米国で 39%、カナダで 40% にすぎません。個人データの保護に対する AI 企業への信頼は 50% から 47% に低下しました。一般の人々は偏見、プライバシー、説明責任のリスクをますます認識しており、透明性があり、倫理的で信頼できる AI ソリューションを求めています。
8. 責任ある AI と規制: 事件の増加、新しい法律
AIAAIC データベースによって追跡された AI インシデントは、 2024 年には 233 件 — 前年比 +56.4% という記録を達成。一方、米国連邦政府機関は2024年に59のAI関連規制(2023年の2倍以上)と131の新しい州法を導入した。AI に関する世界の法律への言及は 75 か国で 21% 以上増加しました。主な資金調達イニシアチブには、カナダ (24 億ドル)、中国 (475 億ドルの半導体ファンド)、サウジアラビアの 1,000 億ドルのプロジェクト・トランセンデンス、インドの 12 億 5 億ドルのコミットメントが含まれます。
📌 意思決定者向けの重要なポイント
ビジネスリーダー向け: AI の導入は今や標準となっていますが、95% はプラスの ROI を達成できていません。AI が得意とする範囲が狭く価値の高いタスク (副操縦士のコーディング、要約) を優先し、実験的なフロンティア モデルへの過剰投資を避けます。規制が複雑になるにつれて、透明性を確保するためにオープンウェイト モデルを使用します。
政策立案者向け: 米中の業績格差は事実上縮まった。大規模なインフラ投資は環境コストと国家安全保障への影響を考慮する必要がある。標準化された安全性評価は、任意ではなく、緊急に必要とされています。
皆様へ: GenAI ツールは、わずか 3 年で世界人口の 53% に普及しました (インターネットや PC よりも早い)。しかし、鋸歯状インテリジェンスは、これらのツールが日常の多くのタスクに対して信頼性が低いままであることを意味します。AI の出力を監査し、人間による監視を維持する方法を学びます。
2025 年から 2026 年の報告書は、AI がもはや単なる可能性の物語ではなく、現在何が起こっているか、そして私たちが集合的に未来をどのように形成しているかについての物語であることを明らかにしています。データは入っています。決定は私たちにあります。