MoE

Mixture of Experts

通过把一层拆成多个 expert，并由 router 选择其中少数 expert 参与当前 token 的计算，实现“总参数很多、单次激活较少”的稀疏模型。

核心概念

每个 token 先经过 router 打分，再选择 top-k 个 expert 处理。
总参数量可能很大，但单次前向只激活少量 expert。
为了避免少数 expert 被过度使用，常加入 load balancing loss、capacity factor 等约束。
MoE 省的是激活计算，不一定省通信。
常见代表包括 Switch Transformer、Mixtral、DeepSeek-MoE 等。