Skip to content

长上下文

长上下文问题关注模型如何看更长的输入。

核心概念

  • 长上下文要回答的是:模型如何处理更长序列,以及超长时性能为什么衰减。
  • RoPE/ALiBi、attention 复杂度、prefill/decode、paged attention、KV 量化、GQA/MQA 都属于这条链。
  • 现代论文里还会出现 sliding window attentionmemory compressionrecurrent memory 等替代路线。
  • 真正落地时,长上下文和 KV Cache 会在显存、带宽、吞吐和延迟上共同约束系统设计。

误区

上下文窗口大,不等于模型真的能稳定利用这么长的上下文。