
2025年8月12日、「2025金融AI推論応用実装・発展フォーラム」が上海で開催された。ファーウェイはこのフォーラムで、AI推論の革新技術「UCM(推論記憶データマネージャー)」を正式に発表した。革新的なアーキテクチャ設計により、高帯域幅メモリ(HBM)への依存を低減し、中国国産大規模言語モデル(LLM)の推論性能を向上させ、AI産業の自律化プロセスを推進する。ファーウェイは9月にもこの技術をオープンソース化する計画だ。
現在、海外の主流モデルの単一ユーザー出力速度はすでに200トークン/秒(遅延5ミリ秒)の範囲に入っているが、中国国内では一般的に60トークン/秒未満(遅延50~100ミリ秒)だ。推論効率とユーザー体験の課題をいかに解決するかが焦眉の急となっている。
「高遅延と高コストが、現在のAI推論分野の発展における主要な課題だ」。ファーウェイ デジタルファイナンス軍団CEOの曹冲(ツァオ・チョン)氏は会議でこう述べた。この問題を解決するため、ファーウェイはUCM推論記憶データマネージャーを開発したのだという。
ファーウェイのUCMは、異なるエンジンとコンピュートリソースに対応する推論エンジンプラグイン(Connector)、多段階KVキャッシュ管理及び高速化アルゴリズムをサポートする機能ライブラリ(Accelerator)、高性能KVキャッシュアクセスアダプター(Adapter)の3大コンポーネントで構成される。推論フレームワーク、コンピュートリソース、ストレージの3層の連携を通じて、「体験の向上」と「コストの低減」を実現するAI推論を可能にする。

初回トークン遅延を90%低減: UCMの階層化・適応型グローバルプレフィックスキャッシュ技術を基盤に、複数回対話や知識検索などのシナリオでは、システムがKVキャッシュデータを直接呼び出し、重複計算を回避できる。これにより、初回トークンの遅延を最大90%削減する。例えば、リアルタイムカスタマーサポート対話では、初回トークンの応答時間を50~100ミリ秒から5ミリ秒以内に短縮できる。
長文シーケンス処理効率を2~22倍向上: UCMは超長文シーケンスのキャッシュを階層化して外部専用ストレージにオフロードし、記憶の「熱度」に応じてHBM、DRAM、SSDなどのストレージメディア間でオンデマンドに移動させる。アルゴリズムの革新によりモデルとリソースの制限を突破し、推論コンテキストウィンドウを10倍に拡張、長文テキスト処理のニーズを満たす。同時に、複数のスパースアテンションアルゴリズムを融合し、ストレージとコンピューティングの深い連携を実現する。これにより、長文シーケンスシナリオでのTPS(1秒あたりのトークン処理数)を2~22倍向上させ、トークンあたりの推論コストを大幅に削減し、企業の負担軽減と効率向上を図る。
より低い推論コスト: UCMの階層化キャッシュ戦略により、単一トークン処理の消費エネルギーを28%削減し、HBMへの依存を減らすことで、ハードウェア調達コストを大幅に低減した。同時に、コンピュートインフラを変更せずに、トークンあたりの推論コストを30%以上削減する。
要約すると、UCMはKVキャッシュを中心とした推論高速化スイートだ。多種多様なキャッシュ高速化アルゴリズムツールを融合し、推論プロセスで生成されるKVキャッシュの記憶データを階層管理する。階層化・適応型グローバルプレフィックスキャッシュ技術により、推論プロセスで生成されるKVデータを熱度に応じてHBM、DRAM、SSDに階層的に格納する。同時に、動的KV階層オフロードと位置符号化拡張技術により、超長文シーケンスのKVキャッシュをGPUメモリから外部専用ストレージに移行させ、ハードウェアのメモリ容量制限を突破する。
中国銀聯(China Unionpay)との共同技術イノベーションパイロットにおいて、UCMの技術的価値は十分に実証された。中国銀聯の「顧客の声(Voice of Customer)」業務シナリオでは、UCM技術とエンジニアリング手法を活用し、大規模モデルの推論速度を125倍向上させ、顧客の頻出問題をわずか10秒で正確に識別し、サービス品質の向上を促進した。今後、中国銀聯は国家人工知能応用パイロットベースを拠点に、ファーウェイなどのエコシステムパートナーと連携し、「AI+金融」のデモンストレーションアプリケーションを共同構築し、技術成果を「実験室での検証」から「規模化された応用」へと推進する計画だ。
ファーウェイは2025年9月にUCMの正式なオープンソース化を計画している。最初に「MoQing(魔擎)コミュニティ」で公開され、その後、順次Hugging Face、TensorRTなどの主流推論エンジンコミュニティに提供される予定だ。また、業界の全ての「ShareEverything(共有アーキテクチャ)」ストレージベンダーおよびエコシステムパートナーと共有される。
(原文:https://www.icsmart.cn/95228/)

