Skip to content

量化

量化指的是把模型中的高精度数值表示压缩成更低比特,以节省显存、带宽和部署成本。

核心概念

  • PTQ:训练后直接量化;QAT:训练时就考虑量化误差。
  • GPTQ 是面向 LLM 权重量化的经典后量化方法;AWQ 强调保护重要通道。
  • 量化对象可以是权重、激活值、KV Cache,不同对象带来的收益和损失不同。
  • 常见精度包括 FP16BF16INT8INT4,也会看到 NF4