まず  ページニュースTaalas は、AI モデル全体をシリコンに直接埋め込むことで、従来のチップ設計に挑戦します

Taalas は、AI モデル全体をシリコンに直接埋め込むことで、従来のチップ設計に挑戦します




まったく異なるプロセッサ設計により AI モデル全体がシリコンに組み込まれ、次世代の推論ワークロードに非常に高い速度とパフォーマンスを提供します。

Taalas の新しい AI プロセッサ アーキテクチャは、AI モデル全体をシリコンに直接埋め込むことで従来のチップ設計に挑戦し、推論のパフォーマンスと効率を劇的に向上させます。このアプローチにより、従来のソフトウェア実装層の必要性がなくなり、即時対応が可能になり、運用コストが大幅に削減されます。


柔軟性を優先する汎用 GPU や AI アクセラレータとは異なり、このアーキテクチャは単一モデルに特化して構築されています。各チップは特定の AI モデル向けにカスタム設計されており、そのパラメーターと重みがシリコン自体に組み込まれています。この変更により、既存のソリューションに比べてパフォーマンスが 1 ~ 2 桁向上します。

主な機能は次のとおりです。

完全な AI モデル (重み + パラメーター) をシリコンに直接接続します。
GPU よりも 10 ~ 100 倍高い推論パフォーマンスを提供します
1 秒あたり 14,000 トークン以上のミリ秒未満のレイテンシ
推論ワークロードのトークンあたりのコストが最大 100 倍削減
迅速なチップ開発サイクル (モデルごとに約 2 か月)**
このプロセッサはモデルのリリースから 2 か月以内に開発できるため、最適化されたハードウェアを迅速に展開できます。初期のデモンストレーションでは、各国のモデルでミリ秒未満のレイテンシと 1 秒あたり 14,000 トークンを超えるスループットが示されており、出力はほぼ瞬時に行われるように見えます。


このパフォーマンスの飛躍は、大きな経済的利益にもつながります。推論コストは 100 万トークンあたり 1% の何分の 1 に削減され、GPU ベースのシステムよりもはるかに低くなり、クラウド プロバイダーがより多くのリクエストをより低コストで処理できるようになる可能性があります。

ただし、設計にはトレードオフが伴います。単一のモデルに焦点を当てることにより、チップはプログラマビリティを犠牲にし、他のワークロードには使用できなくなります。柔軟性が限られていると広範な採用が制限される可能性がありますが、このアーキテクチャは AI ハードウェアの極端な専門化に向けた重要な一歩となります。

この発展は、パフォーマンスと効率の向上が汎用コンピューティングの必要性を上回っている、業界の特定分野向けシリコンへの移行が進んでいることを表しています。このモデル駆動型アプローチが広く使用されれば、特に大量の推論ワークロード向けに AI インフラストラクチャを再構築する可能性があります。