ファーウェイ「アセンド910C」がNVIDIA H100の60%性能を達成 DeepSeek推論タスクで実証

2025-02-05半导体行业动态AI半导体

0205-3.jpeg



Tom's Hardwareなど複数のメディア報道によると、ファーウェイの最新AIプロセッサ「Ascend 910C」(アセンド910C)の推論性能が、NVIDIAのH100 GPUの60%に達したという。Ascend 910Cの性能は、NVIDIAの最新のAIチップBlackwellシリーズにはまだ遠く及ばないが、中国のNVIDIA GPUへの依存度を下げるのに役立っている。



DeepSeekの研究者によるテストデータによると、Ascend 910Cの性能は、DeepSeekモデルベースの推論タスクの実行において、NVIDIAのH100の性能の最大60%に達することができるという。



これは、TSMCの高度なプロセス技術へのアクセスを禁止する米国の制裁にもかかわらず、ファーウェイのAIプロセッサーの能力が急速に進歩していることを示している。報道によると、Ascend 910Cは約530億個のトランジスタを集積したチップレット・パッケージに収められている。 過去のAscend 910はTSMCのN7+プロセスを使用していたが、Ascend 910CはSMICの第2世代7nmクラス(N+2)プロセスで製造されている。



CUNNコアを手動で最適化すれば、Ascend 910Cの性能はさらに向上する。 さらに、DeepSeekのAscendプロセッサに対するネイティブ・サポートとPyTorchリポジトリにより、CUDAからCUNNへのシームレスな変換が可能になり、ファーウェイのハードウェアをAIワークフローに統合することが容易になる。



DeepSeekのサポートは、ファーウェイのチップに重要な支持を提供し、鍵となる優位性をもたらした。DeepSeekは最初からAscendチップを対応可能で、独自のPyTorchリポジトリを運用し、1行のコードでCUDAコードからファーウェイのCANN(Compute Architecture for Neural Networks)への自動変換を実現。さらに、性能最適化のポテンシャルが大きく、カスタマイズされた最適化による高性能を達することができる。



ファーウェイの公式ウェブサイトによると、CANN(Compute Architecture for Neural Networks)は、AscendがAIシナリオのために導入したヘテロジニアス・コンピューティング・アーキテクチャーで、上方ではさまざまなAIフレームワークをサポートし、下方ではAIプロセッサーとプログラミングを提供し、上下の橋渡し役として重要な役割を果たすとともに、AscendのAIプロセッサーのコンピューティング効率を向上させる重要なプラットフォームとなっている。 一方、CANNは多様なアプリケーションシナリオに効率的で使いやすいプログラミングインターフェースを提供し、ユーザーがRiseプラットフォームに基づいてAIアプリケーションとビジネスを迅速に構築できるようサポートする。



CANNはコミュニティ版と商用版に分かれている。前者は、開発者が事前に試すことができる新機能を迅速に提供する体験版であり、後者は商用基準を満たす安定版である。 現在、コミュニティ版のCANNはバージョン8.0.0.alpha003までアップグレードしており、Ascend C向けの機能拡張が行われている。また、CANNの商用バージョンであるバージョン8.0.RC3もリリースされ、新たに7つのオペレーティングシステムが追加され、CANNのインストールプロセスが簡素化された。



DeepSeekのYuchen Jin氏は、「長いトレーニングサイクルの安定性が、中国製チップの最大の課題だ」と述べている。 これは、エヌビディアのハードウェアとソフトウェアのエコシステムの深い統合に関わる。 推論性能は今後も向上し続ける可能性があるが、持続的なトレーニング作業負荷には、ファーウェイはソフトウェアとハードウェアのスタックをさらに改善する必要がある。



AIモデルが「トランスフォーマーアーキテクチャ」(GPT、BERTなど)に移行するにつれて、CUDAとPyTorchコンパイラの重要性は低くなると予測する専門家もいる。 さらに、ハードウェアとソフトウェアの最適化におけるDeepSeekチームの専門知識は、NVIDIA CUDAへの依存を大幅に減らし、大幅なコスト削減をもたらす可能性もある。



これまでの研究で、DeepSeekはNVIDIAのH800チップを使用し、高水準プログラミング言語CUDAではなく、NVIDIAの基礎となるハードウェア命令PTX(Parallel Thread Execution)言語を使用して学習することが示されており、これはDeepSeekがCUDAをバイパスし、より基礎となるプログラミング言語を使用して最適化を行うことを示唆しているようだ。



プログラム開発者にとって、CUDAはより親しみやすい高水準言語であり、開発者はプログラムとアルゴリズムの最も関連性の高い操作ロジックにのみ集中すればよく、具体的なプログラムがGPUやその他のハードウェア上でどのように計算を実行するかを具体的に考える必要が少ないため、開発の難易度を下げることができる。 一方、PTXはアセンブリ言語に近いレベルで動作するため、レジスタの割り当てやスレッド/ワープレベルのチューニングなど、きめ細かな最適化が可能。 このようなプログラミングは非常に複雑で保守が難しいため、CUDAのような高水準プログラミング言語を使用するのが業界の一般的なやり方だ。



北京航空航天大学の准教授である黄雷(ファン・レイ)氏は、CUDAをバイパスすることで、GPUのドライバ機能に基づいて直接いくつかの新しい開発を行うことで、よりきめ細かい操作が可能になると述べている。 これはまた、DeepSeekがPTX言語を書くのが得意な開発人材を抱えていることを示している。もし今後に中国国産GPUを使用する場合、これらのハードウェアドライバによって提供される基本的な機能インターフェースの一部を理解する限り、ハードウェアの適応においてより快適になり、NVIDIA GPUハードウェアプログラミングインターフェースを模倣して関連コードを記述することができるため、独自のビッグモデルをより簡単に国産ハードウェアに適応させることができる。





(原文:https://www.icsmart.cn/87954/

[注] 新闻内容由AI翻译生成,如有表述不尽完善之处,敬请谅解!
Please note: This news article was translated by AI. We apologize for any imperfections in the translation.
上一篇
中国、半導体の輸出額が14か月連続で増加
下一篇
トヨタ、上海市にレクサスEV車新工場を設立と発表