
9月5日、2025重慶世界スマート産業博覧会において、中科曙光(Sugon)は中国国内初のAI計算オーペンソースアーキテクチャ設計に基づく製品「曙光AIスーパークラスタシステム」を発表した。このシステムはGPUを中核とし、「計算・記憶・通信・電力・冷却・管理・ソフトウェア」の一体化された緊密結合設計を実現した。また、「超高性能・超高効率・超高信頼性・全面的なオーペンソース」という4つの特徴を備えており、兆単位パラメータの大規模モデル訓練・推論、業界特化型大規模モデルの微調整、マルチモーダル大規模モデル開発、AI4Sなどのシナリオに高效な計算基盤を提供することができる。

閉鎖システムと比べ、「曙光AIスーパークラスタシステム」は、緊密結合設計によりコンピュータのように高效に動作するだけでなく、複数ブランドのAIアクセラレーターカードをサポートし、CUDAなどの主流ソフトウェアエコシステムとの互換性を備えている。これにより、ユーザーに多くのオープンな選択肢を提供するとともに、ハードウェアコストとソフトウェア開発・適応コストを大幅に削減し、先行投資を保護する。
現在、AI大規模モデルの急速な進化と世界のIT産業エコシステムの調整に伴い、中国国内のAI計算力分野は、高性能計算力の供給不足、中国国産アクセラレーターカードの性能格差、計算コストの高さ、独自のソフトウェア・ハードウェアエコシステムの未成熟といった深刻な課題に直面している。
中国国産単体カードの計算力格差を補い、計算力のボトルネックを突破するために、より大規模で効率的なインテリジェント・コンピューティン・クラスタを発展させ、オープンで標準化され、高効率な計算力クラスタを構築し、インテリジェント・コンピューティン・クラスタの使いやすさとコスト管理を実現することは、産業界の共通認識となっている。

「中科曙光(Sugon)は30年にわたる高性能計算技術の蓄積を有しており、産業パートナーと協力して現在の計算力ボトルネックを突破し、開放的で普遍的な知能計算産業エコシステムの共同構築を目指す」と、中科曙光(Sugon)の知能計算製品事業部総経理の杜夏威(モリ・ナツイー)氏は述べた。また、彼は「中国国内AI計算力の多面的な課題を克服するには、チップ、計算システム、大規模モデルなど産業チェーンの多様な力を結集し、オープンなAI計算アーキテクチャを構築するとともに、産業間の階層を越えた協力を推進し、技術の壁とエコシステムの壁を打破する必要がある」と強調した。
オープンで標準化され、高効率な計算力クラスタのモデルとして、曙光AIスーパークラスタシステムは以下の技術的特徴を備えている:
超高性能:1ラックあたりに96枚のGPUカードを搭載可能、計算能力は100PetaFLOPS級、メモリアクセス総帯域幅は180TB/秒を超える。また、多精度・混合精度演算をサポートし、百万枚規模の超大クラスタ拡張に対応する。
超高効率:千枚GPUクラスタにおける大規模モデル訓練・推論性能は業界主流レベル比2.3倍、開発効率は4倍向上、人日投入は70%削減できる。ストレージ・演算・伝送の連携によりGPU計算効率を55%向上し、先進的な液体コールドプレート技術、394項目の省エネ設計によりPUEは1.12以下を実現する。
超高信頼性:121項目のデバイスとリンクのRAS信頼性設計を備えている。平均故障間隔(MTBF)を2.1倍に向上し、平均修復時間(MTTR)を47%削減する。また、30日以上の長期安定動作クラスタ信頼性テストを実施し、百万部品レベルでの故障自動分析と秒単位の隔離を実現する。
全面的オーペンソース:AI計算オーペンソースアーキテクチャ設計に基づき、ハードウェアは多ブランドAIアクセラレーターカードに対応する。ソフトウェアは主流AI計算エコシステムと互換し、多数の技術能力を開放・共有を実現する。
杜氏は、曙光AIスーパークラスタシステムは単なる製品ではなく、産業界に向けた開放的なイノベーションプラットフォームだと説明した。同システムに基づき、中科曙光(Sugon)はAIストレージ最適化能力、液冷インフラ設計規範、DeepAI基本ソフトウェアスタックの3つの技術能力を開放し、パートナーや重要ユーザーがAIアプリケーションのストレージ性能加速、液冷超ノードシステム設計、GPU開発統一フレームワークなどの分野で、効果的な技術共有、深度カスタマイズ最適化、専門的な技術サポートを得ることを支援するという。
(原文:https://www.icsmart.cn/96089/)

