主题
Gu A, Dao T. Mamba: Linear-time sequence modeling with selective state spaces[J]. arXiv preprint arXiv:2312.00752, 2023.
Transformer 计算成本很高:o(n2)
RNN 只考虑之前的隐藏状态和当前的输入,所以在推理时能够快速响应,但是随着时间的推移,RNN 倾向于遗忘信息。
另一方面,RNN 的这种顺序处理特性还导致了另一个问题:训练无法并行进行。
能否设计一种既能够像 Transformer 那样并行训练,又能在推理时保持与序列长度线性扩展的架构?