
過去 2 年間、AI に関する議論は、GPU の不足、コンピューティング能力の不足、クラスターの不足など、ほぼ完全にコンピューティング能力を中心に展開してきました。しかし、このレポートでは、重要な点が 1 つ繰り返し強調されています。それは、AI を本当に妨げているのは、計算能力がないことではなく、 データを移動できない。
モデルのサイズが数十メガバイトから数ギガバイトに拡大したため、システム内で最も使用率の高いコンポーネントは、もはやコンピューティング ユニットではなく、メモリとバスになりました。言い換えれば、AI のボトルネックは「コンピューティングの問題」から、より根本的な命題へと静かに移行しつつあります。 ストレージの問題。
これにより、より根本的な方向性が生まれました。データの移動が最大のオーバーヘッドであるなら、計算を行わなくてもよいのではないかということです。 直接保管庫に?
Compute-in-Memory (CIM) と呼ばれるアーキテクチャは、このロジックをルートから書き直そうとしています。それを可能にする鍵は、より高度なプロセス ノードではなく、これまでそれほど「主流」ではなかったタイプのテクノロジーです。アナログメモリ。
この記事は、私たちに重要な質問を再考するよう促します。AI が今日の水準にまで進化するにつれて、その上限を本当に決定するものは、コンピューティング能力とストレージですか?
AI のパフォーマンスのボトルネックは「計算能力」から「ストレージとデータの移動」に移行しており、その解決策は「アナログ メモリ + コンピューティング イン メモリ (CIM)」によるコンピューティング パラダイムの再構築にあります。
ディープ ニューラル ネットワーク (DNN) の中核となる計算はベクトル行列乗算 (VMM) であり、これは本質的に大量の重みの読み取りに依存します。モデルのサイズがメガバイトからギガバイト (10MB ~ 10GB) に増大するにつれて、オンチップ ストレージに多大な要求が生じます。
トレーニングは「書き込み集中型」ですが、推論は「読み取り集中型」で、どちらも重みの保存 (シナプス メモリ) を中心に展開します。
結論: AI は純粋なコンピューティングの問題ではありません。それは本質的に「ストレージ + データ移動の効率」の問題です。
従来の GPU/TPU は単純な原理で動作します。つまり、計算はプロセッシング エレメント (PE) で行われ、データは SRAM/DRAM に保存されるため、データの移動が頻繁になり、効率が非常に低くなります。
エネルギー効率の比較:
核心的な矛盾: 問題は計算能力がないことではなく、データを効率的に移動できないことです。
CIM アーキテクチャは、重みをメモリ アレイに直接保存し、これらのアレイ内で計算 (並列 VMM) を実行するため、「ストレージ ↔ コンピューティング ユニット」間でデータを移動する必要がありません。
根本的な変化:
これは単なる最適化ではなく、アーキテクチャ レベルでのパラダイム シフトです。
CIMを実現するには、新たな「ウエイトキャリア」が必要です。主な候補は次のとおりです。
これらのデバイスの重要な機能は、連続コンダクタンス (アナログ マルチビット) を使用して重みを表現することです。
報告書は「実現できるかどうか」ではなく、実際的なハードルを強調している。
1. トレーニングの課題 (執筆プロセス)
要件: 直線性と対称性
実際的な問題: 非線形性と非対称性により精度が低下する
2. 推論の課題 (読み取りの安定性)
時間の経過とともに重みが変動し、次のような問題が発生します。
- 熱ドリフト
- 読み取り干渉
- 保持の問題
3. 配列レベルの問題
- デバイス間のばらつき
- 精度、ADC パフォーマンス、アレイ サイズ間のトレードオフ
核となる結論:アナログメモリの問題は「精度が足りるか」ではなく「安定性と制御性」です。
今後の方向性は次のとおりです。
エッセンス:これは単一点のブレークスルーではなく、フルスタックの再構築です。
AI のボトルネックはもはやコンピューティング能力ではなく、「ストレージとデータ フロー」です。アナログ CIM は、「ストレージ」をコンピューティングの新しいコアに変え、AI システムの動作方法を根本から再定義します。