
2025-02-13
エレクトロニクス全般業界動向中国国産化半導体2月12日‐TikTokの親会社であるバイトダンス(ByteDance)のDoubao大規模言語モデル研究チームはこのほど、MoE推論の高アクセスメモリの問題を解決し、MoEアーキテクチャと比較して推論速度を2~6倍向上させ、推論コストを最大83%削減できる新しいスパースモデル・アーキテクチャ「UltraMem」を発表した。
同研究では新アーキテクチャのScaling Law(スケーリング則)を解明。MoEを上回る性能特性を示すとともに、2000万value規模のモデル学習において、同等計算リソース下で推論速度とモデル性能の両立に成功。数十億規模のvalue/expert構築への新たな道筋を開いた。
この画期的な成果は機械学習分野のトップカンファレンスICLR 2025に採録され、大規模言語モデル(LLM)の推論効率と拡張性問題への新たな解決策として注目を集めている。

LLMの推論能力は端末側AIアプリケーションの応答速度に直結するが、モデル規模の拡大に伴う推論コストの急増とメモリアクセス効率の低下が主要なボトルネックとなっていた。
Transformerアーキテクチャ下では、モデル性能がパラメータ数と計算複雑度の対数比例関係に制約される。既存の解決策であるMoEとPKM(Product Key Memory)にはそれぞれ課題があった:
・MoEの効率性課題:MoEアーキテクチャは、計算とパラメータを切り離すことに成功し、エキスパートをまばらに活性化することで、学習段階での計算を効果的に削減するが、推論時には、モデルは推論時に一度に1つの単語しか生成できないため、バッチサイズとシーケンス長は通常小さく、少数のトークンでほぼすべてのエキスパートを活性化できる。 その結果、アクセスが急増し、推論の待ち時間が大幅に増加する。
・PKMの性能限界:PKM アーキテクチャでは、「行ルーティング」と「列ルーティング」メカニズムを導入することで、この効果を犠牲にしている。このメカニズムでは、推論中に各トークンがごく少数の値(キューテンプレート内のコンテンツに関連するデータや情報)のみをアクティブにすることができるため、少数の値に対して推論が実行されることはない。 情報)に対して推論が実行されないため、推論がアクセスのボトルネックになることはありませんが、非常に非効率的であり、大規模なモデルのニーズに対応するためのスケーラビリティには限界がある。
これらの限界により、推論効率、モデル効果、およびスケーラビリティの観点から、MoEとPKMの最適化領域はまださらに探求される必要がある。
紹介によると、UltraMemはPKMの設計を参考にしながらも、PKMの欠点を補完することで、より効率的なアクセスとより質の高い検索を実現し、同時に顕在化と展開のコストを削減するもので、次の改良を実現した:
推論コストの削減:UltraMemは従来のMoEアーキテクチャと比較して最大83%の推論コストの削減を達成。
推論速度の向上: UltraMemは、MoEアーキテクチャと比較して2~6倍の推論速度を達成し、大規模データを処理する際にモデルをより効率的にする。
モデルの有効性の維持:推論コストの削減と推論速度の向上と同時に、UltraMemはモデルの有効性を維持し、モデルの精度と信頼性を確保する。
Doubao研究チームは、151M、680M、1.6Bの3つの異なるサイズのモデルで広範な実験を行った。 実験結果によると、UltraMemはモデル効果と推論速度の点でMoEとPKMアーキテクチャを凌駕し、680Mと1.6Bでは大きな効果優位性を持っている。
学習側であれ推論側であれ、大規模言語モデルベンダーがコストを巻き上げるということは、将来的にAIアプリケーションがより効率的で使いやすくなることを意味する。
推論コストの大幅な削減は、特にエッジコンピューティングやモバイルデバイスのようなリソースに制約のあるシナリオにおいて、より多くの分野でのAI技術の適用を可能にし、より多くの企業や開発者がAIモデルを使用し、展開する能力を持つことを可能にする。
ユーザーにとっては、UltraMemアーキテクチャのブレークスルーと推論速度の向上により、インテリジェントアシスタントや自然言語処理などのAIアプリケーションが、リアルタイムアプリケーションでより迅速に応答し、よりスムーズに対話できるようになり、ユーザーエクスペリエンスが最適化され、コンテンツ作成、日常業務、その他のシナリオの効率が向上することができる。

