

2025年7月26日、上海万博センターで開催された「2025世界人工知能会議(WAIC)」において、ファーウェイは「昇騰(Ascend)384スーパーノード」、すなわち「Atlas 900 A3 SuperPoD」を初めて実機展示した。これは単一クラスタで300 PFLOPS(ペタフロップス)の演算性能出力を実現する。
同製品はスーパーノードアーキテクチャを基盤とし、全対等(ピアツーピア)のUB(Ultra Bus)バスを採用。384個のNPU(Neural Processing Unit)と192個の「鲲鵬(クンペン)」CPUを、無ブロッキングClosアーキテクチャで相互接続している。これにより、シングルホップ遅延は200ナノ秒未満、帯域幅は392GB/sを達成し、従来のRoCE(RDMA over Converged Ethernet)と比べて15倍の性能向上を実現した。さらに、3168本の光ファイバーと6912個の400G光モジュールを用いて、数百ナノ秒レベルの相互接続を実現。2メートル以上の長距離展開をサポートし、銅線ケーブルの距離制限を突破した。
これらの大帯域幅・低遅延相互接続技術は、Ascend 384スーパーノードクラスタ内における計算リソースやストレージリソース間の通信ボトルネックを解消。システムエンジニアリングの最適化を通じてリソースの効率的なスケジューリングを実現し、スーパーノードをあたかも1台のコンピューターのように機能させる。


具体的な性能面では、Ascend 384スーパーノードの単一クラスタにおけるBF16(Brain Floating Point 16)密度演算性能は300 PFLOPSに達し、これはNVIDIAのGB200 NVL72の約1.7倍に相当する。エネルギー効率比(MFU: Model FLOPs Utilization)は業界平均の30%から45%以上に向上し、7180億パラメータを持つ「盤古(パング)Ultra MoE」大規模モデルの学習に既に活用されている。
特筆すべきは、今年5月の「鲲鵬&昇騰デベロッパーカンファレンス」において、ファーウェイが昇騰スーパーノード「CloudMatrix 384」を発表し、業界最大規模となる384基のカード高速バス相互接続を成功させた点だ。Ascend スーパーノードは超大帯域幅、超低遅延、超高性能という3つの優位性を備え、複数の学習用・推論用製品を含む。このスーパーノードの革新的アーキテクチャに基づき、モデルの学習と推論が要求する低遅延、大帯域幅、長期的な安定性と信頼性に対する要求を、より良く満たすことができる。
今月初旬、ファーウェイクラウド公式Weiboは動画を通じてCloudMatrix 384スーパーノード演算クラスタを公開。同クラスタは業界最大の単一カード推論スループット(2300トークン/秒)、業界最大のクラスタ演算性能(16万カード規模)、高い万カード線形度(95%)、クラウド上の確定的な運用保守(40日間の長期安定学習、10分間の迅速な復旧)を実現すると表明した。
ファーウェイクラウドは、「次世代のAscend AIクラウドサービスは、大規模モデルアプリケーションに最適な演算サービスだ」と強調している。
端的に言えば、ファーウェイのCloudMatrixは単純な「カードの積み上げ」ではなく、大帯域幅の全対等相互接続(Peer-to-Peer)を通じた設計がなされている。これこそがCloudMatrix 384ハードウェアアーキテクチャの大きな革新点だ。
従来のAIクラスタでは、CPUが会社の管理者のような役割を果たし、NPUなどの他のハードウェアは部下に例えられる。データ転送の過程でCPUの承認や署名が必要となり、効率が大幅に低下する問題があった。
しかし、CloudMatrix 384では、CPUとNPUなどのハードウェアは、よりフラットな組織構造を持つチームに例えられる。それらの間の立場は比較的対等であり、UBネットワーク通信を介して直接対話するため、効率が自然と向上するのだ。
今年4月、国際的に著名な半導体調査・コンサルティング機関のSemiAnalysisは特集記事を発表。ファーウェイクラウドが最新で発表したAI演算クラスタソリューション「CloudMatrix 384」(略称:CM384)は、その革新的なシステムアーキテクチャ設計とフルスタックの技術革新により、複数の主要指標でNVIDIAのフラッグシップ製品「GB200 NVL72」を上回り、中国が人工知能インフラストラクチャ分野において画期的なブレークスルーを達成したことを示すと報じた。
SemiAnalysisの開示によれば、ファーウェイクラウドのCM384は384個のAscend チップを基盤に構築され、フルメッシュ型トポロジーアーキテクチャを通じてチップ間の効率的な協調を実現。最大300 PFLOPSの高密度BF16演算性能を提供でき、これはNVIDIAのGB200 NVL72システムのほぼ2倍に相当する。さらに、CM384はメモリ容量と帯域幅の面でも優位性を持ち、総メモリ容量はNVIDIAソリューションの3.6倍、メモリ帯域幅も2.1倍に達し、大規模なAI学習と推論により効率的なハードウェアサポートを提供する。
同報道は分析し、単体のAscend チップの性能はNVIDIAのBlackwellアーキテクチャGPUの約3分の1であるものの、ファーウェイはスケーラブルなシステム設計を通じて、全体の演算性能の飛躍的な向上に成功。超巨大規模モデルの学習やリアルタイム推論といったシナリオにおいて、より強力な競争力を発揮していると指摘した。
SemiAnalysisはまた、ファーウェイのエンジニアリング上の優位性はチップレベルだけでなく、ネットワークアーキテクチャ、光相互接続、ソフトウェア最適化を含むシステムレベルの革新にも現れており、これによりCM384はクラスタの演算能力を最大限に発揮し、超巨大規模なAI計算のニーズを満たすことができると述べている。
今回のファーウェイクラウドCloudMatrix 384の発表は、中国がAI計算システム分野において、国際的な大手企業と正面から競争できる実力を既に備えていることを示すマイルストーンだ。
SemiAnalysisは報道の中で特に、ファーウェイのスケーラブルソリューションは「NVIDIAとAMDが現在市場に提供している製品よりも1世代先行している」と指摘。「中国のAIインフラストラクチャにおけるブレークスルーは、世界のAI産業構造に深遠な影響を与えるだろう」との見解を示した。
(原文:https://www.icsmart.cn/94636/)

