Skip to content

MoE

Mixture of Experts

通过把一层拆成多个 expert,并由 router 选择其中少数 expert 参与当前 token 的计算,实现“总参数很多、单次激活较少”的稀疏模型。

核心概念

  • 每个 token 先经过 router 打分,再选择 top-k 个 expert 处理。
  • 总参数量可能很大,但单次前向只激活少量 expert。
  • 为了避免少数 expert 被过度使用,常加入 load balancing losscapacity factor 等约束。
  • MoE 省的是激活计算,不一定省通信。
  • 常见代表包括 Switch Transformer、Mixtral、DeepSeek-MoE 等。