Skip to content

Mamba

[2023]

Gu A, Dao T. Mamba: Linear-time sequence modeling with selective state spaces[J]. arXiv preprint arXiv:2312.00752, 2023.

动机

Transformer

Transformer 计算成本很高:o(n2)

RNN

RNN 只考虑之前的隐藏状态和当前的输入,所以在推理时能够快速响应,但是随着时间的推移,RNN 倾向于遗忘信息。

另一方面,RNN 的这种顺序处理特性还导致了另一个问题:训练无法并行进行。

能否设计一种既能够像 Transformer 那样并行训练,又能在推理时保持与序列长度线性扩展的架构?