MoE
Mixture of Experts
通过把一层拆成多个 expert,并由 router 选择其中少数 expert 参与当前 token 的计算,实现“总参数很多、单次激活较少”的稀疏模型。
核心概念
- 每个 token 先经过 router 打分,再选择 top-k 个 expert 处理。
- 总参数量可能很大,但单次前向只激活少量 expert。
- 为了避免少数 expert 被过度使用,常加入
load balancing loss、capacity factor等约束。 - MoE 省的是激活计算,不一定省通信。
- 常见代表包括 Switch Transformer、Mixtral、DeepSeek-MoE 等。