位置编码

Self-attention 本身对输入顺序不敏感，所以必须额外注入位置信息。现代 LLM 高频出现的 RoPE、ALiBi，正是在解决长上下文和缓存复用时的位置问题。

核心概念

绝对位置编码把位置信息直接加到 embedding 上。
相对位置编码更强调 token 之间的距离关系。
RoPE 通过旋转 Query/Key 向量，把位置信息写进 attention 计算。
ALiBi 通过距离偏置体现顺序信息，对外推更友好。
position interpolation、NTK-aware scaling、LongRoPE 都是在处理长上下文外推。

误区

位置编码只是长上下文问题的一部分。