量化

量化指的是把模型中的高精度数值表示压缩成更低比特，以节省显存、带宽和部署成本。

核心概念

PTQ：训练后直接量化；QAT：训练时就考虑量化误差。
GPTQ 是面向 LLM 权重量化的经典后量化方法；AWQ 强调保护重要通道。
量化对象可以是权重、激活值、KV Cache，不同对象带来的收益和损失不同。
常见精度包括 FP16、BF16、INT8、INT4，也会看到 NF4。