Skip to content
Lyirs的小屋
搜索文档
K
Main Navigation
首页
主题
菜单
回到顶部
页面导航
Scaling Laws
Scaling Laws 研究的是模型性能如何随参数量、训练数据量和计算量变化。它不是单纯“越大越好”,而是告诉你在哪种资源分配下,提升最划算。
核心概念
核心变量一般包括参数量
N
、数据量
D
、计算量
C
。
在资源固定时,模型、数据和训练步数之间存在平衡,不是只堆某一项就能最优。
Chinchilla 风格的结论强调:很多模型过去是“参数太多、数据太少”。
Scaling 讨论的不仅是 loss,也包括下游任务、泛化、推理成本和部署现实。
MoE、量化、蒸馏、检索增强,也都可以看成在 scaling 压力下做的不同折中。