Skip to content

位置编码

Self-attention 本身对输入顺序不敏感,所以必须额外注入位置信息。现代 LLM 高频出现的 RoPE、ALiBi,正是在解决长上下文和缓存复用时的位置问题。

核心概念

  • 绝对位置编码把位置信息直接加到 embedding 上。
  • 相对位置编码更强调 token 之间的距离关系。
  • RoPE 通过旋转 Query/Key 向量,把位置信息写进 attention 计算。
  • ALiBi 通过距离偏置体现顺序信息,对外推更友好。
  • position interpolationNTK-aware scalingLongRoPE 都是在处理长上下文外推。

误区

位置编码只是长上下文问题的一部分。