主题
Self-attention 本身对输入顺序不敏感,所以必须额外注入位置信息。现代 LLM 高频出现的 RoPE、ALiBi,正是在解决长上下文和缓存复用时的位置问题。
RoPE
ALiBi
position interpolation
NTK-aware scaling
LongRoPE
误区
位置编码只是长上下文问题的一部分。