Mamba

Gu A, Dao T. Mamba: Linear-time sequence modeling with selective state spaces[J]. arXiv preprint arXiv:2312.00752, 2023.

Transformer 计算成本很高： $o (n^{2})$

RNN 只考虑之前的隐藏状态和当前的输入，所以在推理时能够快速响应，但是随着时间的推移，RNN 倾向于遗忘信息。

另一方面，RNN 的这种顺序处理特性还导致了另一个问题：训练无法并行进行。

能否设计一种既能够像 Transformer 那样并行训练，又能在推理时保持与序列长度线性扩展的架构？

Mamba ​