长上下文

长上下文问题关注模型如何看更长的输入。

核心概念

长上下文要回答的是：模型如何处理更长序列，以及超长时性能为什么衰减。
RoPE/ALiBi、attention 复杂度、prefill/decode、paged attention、KV 量化、GQA/MQA 都属于这条链。
现代论文里还会出现 sliding window attention、memory compression、recurrent memory 等替代路线。
真正落地时，长上下文和 KV Cache 会在显存、带宽、吞吐和延迟上共同约束系统设计。

误区

上下文窗口大，不等于模型真的能稳定利用这么长的上下文。