AI に最適化されたストレージ アーキテクチャ
AI システムが大規模なコンテキスト メモリとマルチターン推論を処理できるように設計された次世代ストレージ インフラストラクチャは、大規模な推論ワークロードのサポート方法を再構築する予定です。
NVIDIA による新しいクラスの AI 指向ストレージ テクノロジが登場し、現代の AI ワークロードにおける最も厄介な課題の 1 つ、つまり推論中に大量のコンテキスト データを効率的に管理および共有することに取り組みました。AI 固有のニーズではなく汎用コンピューティング向けに構築された従来のストレージとメモリの階層は、モデルが永続的な大容量のコンテキスト メモリを必要とするマルチエージェント、マルチターン推論システムに成長するにつれて、対応するのに苦労しています。
開発の中核となるのは、新しく発表された AI ネイティブ ストレージ アーキテクチャを支える特殊なデータ プロセッサです。これにより、GPU メモリが拡張され、高帯域幅と予測可能なレイテンシでクラスタ間でキーバリュー (KV) 推論キャッシュが共有されます。この変化は、AI が単一のプロンプト処理から継続的なロングコンテキスト推論への移行によって推進されており、応答性と精度には大規模な共有メモリが不可欠です。
主な機能は次のとおりです。
長いコンテキストの推論のために、クラスター スケールのキーと値のキャッシュ容量を使用して GPU メモリを拡張します。
従来のストレージと比較して、1 秒あたりのトークンのスループットが最大 5 倍向上します。
ハードウェア アクセラレーションによる KV キャッシュ配置により、メタデータのオーバーヘッドとデータの移動が削減されます。
高性能イーサネットを介したノード間でのコンテキストの効率的な共有。
従来のストレージ アーキテクチャと比較して最大 5 倍優れた電力効率。
大手ストレージおよびシステムベンダーを含む業界パートナーは、すでにサポートプラットフォームを構築しており、2026 年後半の提供開始を計画しています。初期のベンチマークと予測では、迅速なコンテキストへのアクセスと共有に依存する推論ワークロードのパフォーマンスと効率が大幅に向上することが明らかになりました。新しいインフラストラクチャは、本来のパフォーマンスを超えて、AI ワークロードの急増に伴ってデータセンターにつきまとう 2 つの制約であるスケーラビリティとエネルギー効率に対処します。このアーキテクチャは、ストレージ サービスをホスト CPU から切り離し、ハードウェア アクセラレーションによるキー/バリュー キャッシュ データの配置を可能にすることで、同様の負荷の下で従来のストレージ システムと比較して、1 秒あたりに処理されるトークンと電力効率が最大 5 倍向上することを約束します。
この設計では、高性能ネットワーキング、メモリ、ストレージ機能間の緊密な統合も実現し、高度なイーサネット ファブリックを活用して、サーバー間で低遅延のリモート ダイレクト メモリ アクセスを実現します。その結果、メモリの永続性とノード間のコンテキスト共有が重要となる、進化する推論パラダイムとよりよく調和する基盤が生まれます。AI インフラストラクチャが進化するにつれて、このストレージ層は次世代 AI サービスを実現する重要な要素となり、より複雑な推論タスクを大規模にサポートしながら、レイテンシとエネルギー コストを削減する可能性があります。