Scaling Laws

Scaling Laws 研究的是模型性能如何随参数量、训练数据量和计算量变化。它不是单纯“越大越好”，而是告诉你在哪种资源分配下，提升最划算。

核心概念

核心变量一般包括参数量 N、数据量 D、计算量 C。
在资源固定时，模型、数据和训练步数之间存在平衡，不是只堆某一项就能最优。
Chinchilla 风格的结论强调：很多模型过去是“参数太多、数据太少”。
Scaling 讨论的不仅是 loss，也包括下游任务、泛化、推理成本和部署现实。
MoE、量化、蒸馏、检索增强，也都可以看成在 scaling 压力下做的不同折中。