Skip to content

Scaling Laws

Scaling Laws 研究的是模型性能如何随参数量、训练数据量和计算量变化。它不是单纯“越大越好”,而是告诉你在哪种资源分配下,提升最划算。

核心概念

  • 核心变量一般包括参数量 N、数据量 D、计算量 C
  • 在资源固定时,模型、数据和训练步数之间存在平衡,不是只堆某一项就能最优。
  • Chinchilla 风格的结论强调:很多模型过去是“参数太多、数据太少”。
  • Scaling 讨论的不仅是 loss,也包括下游任务、泛化、推理成本和部署现实。
  • MoE、量化、蒸馏、检索增强,也都可以看成在 scaling 压力下做的不同折中。