自学内容网 自学内容网

《Mamba 综述》

曲浩浩,中国香港理工大学
宁良波,中国香港理工大学
安瑞,中国香港理工大学
范文琪*,中国香港理工大学
泰勒·德尔,美国范德比尔特大学
刘慧,美国密歇根州立大学
徐鑫,中国香港理工大学
李青,中国香港理工大学
深度学习(DL)作为一项关键技术,在人工智能(AI)领域引发了一场显著变革,极大地改变了人类的生活方式。Transformer架构作为最具代表性的DL技术之一,催生了众多先进模型,尤其是包含数十亿参数的大型语言模型(LLMs),已成为深度学习的基石。尽管取得了令人瞩目的成就,Transformer仍面临固有局限性,尤其是注意力计算的二次计算复杂度导致推理耗时较长。最近,一种受经典状态空间模型(SSM)启发的新型架构——Mamba,作为构建基础模型的有前途的替代方案崭露头角,它提供了与Transformer相当的建模能力,同时保持了关于序列长度的近线性可扩展性。这引发了越来越多的研究,积极探索Mamba在不同领域实现卓越性能的潜力。鉴于这种快速发展,迫切需要一篇系统综述来整合现有的Mamba赋能模型,以全面理解这一新兴模型架构。因此,在本综述中,我们对最近的Mamba相关研究进行了深入调查,涵盖三个方面:基于Mamba的模型的进展、将Mamba应用于不同数据的技术,以及Mamba可以发挥出色作用的应用领域。具体而言,我们首先回顾了各种代表性深度学习模型的基础知识以及Mamba-1和Mamba-2的详细信息,作为预备知识。然后,为了展示Mamba对AI的重要性,我们全面回顾了关于Mamba模型架构设计、数据适应性和应用的相关研究。最后,我们讨论了当前的局限性,并探索了各种有前景的研究方向,为未来研究提供更深入的见解。

CCS 概念: ⋅ \cdot 计算方法 → \rightarrow 神经网络。
补充关键词和短语:状态空间模型,Mamba,序列建模,基础模型,语言模型

ACM 引文格式:
曲浩浩,宁亮波,安锐,范文琪,Tyler Derr,刘慧,徐鑫,李青。2024. Mamba综述。载于《请从您的权限确认电子邮件中输入正确的会议标题》(会议缩写“XX”会议论文集)。美国纽约州纽约市ACM,39页。https://doi.org/XXXXXXX.XXXXXXX

1 引言

在过去的二十年里,深度学习(DL)作为最突出的人工智能(AI)技术,在医疗健康[88]、自动驾驶系统[36, 60]、推荐系统[104, 230]以及金融服务[144, 218]等多个领域引发了革命性的变革。这一时期,众多深度神经网络(DNN)应运而生,极大地改变了人类的生活方式,为个人带来了极大的便利。其中一个显著的例子是U-Net[151, 164],它是视觉领域中的一个稳健的深度学习模型,在医学成像中得到了广泛应用,用于检查如MRI和CT扫描等放射学扫描。其应用有助于疾病的识别和诊断,展示了在这一关键医疗健康领域的有效性[112, 192]。此外,图神经网络(GNN)被用于处理图结构数据,以支持智能服务,如为用户推荐个性化内容、产品或服务的推荐系统[40, 41, 195]。再者,循环神经网络(RNN)因其能够捕捉准确翻译所需的序列和上下文信息的能力,在机器翻译中得到了广泛应用[119, 167],使来自不同语言背景的个人能够有效地沟通和理解彼此的想法、观点和信息。

在各种DL架构中,Transformer近年来脱颖而出,在众多应用中确立了其主导地位[33, 176]。例如,作为最具代表性的大型基础模型,ChatGPT和GPT4等大型语言模型(LLM)从根本上说是建立在Transformer架构之上的[2, 146, 230]。通过将其模型规模扩展到数十亿,并在混合多样的数据源上进行训练,这些基于Transformer的模型在语言理解、常识推理和内容内学习方面展现出了令人印象深刻的能力,达到了人类水平的智能[43, 219]。这一显著的成功得益于注意力机制[175],它使基于Transformer的模型能够专注于输入序列的相关部分,并促进更好的上下文理解。然而,注意力机制也引入了显著的计算开销,该开销随输入大小呈二次方增长[124, 235],在处理长输入时带来了挑战。例如,计算成本的快速增长使得Transformer在处理大量序列时变得不切实际或不可行,从而限制了其在如文档级机器翻译[131]或长文档摘要[94]等任务中的应用。

最近,一种有前景的架构——结构化状态空间序列模型(SSMs)[58]已经出现,它能够高效地捕捉序列数据中的复杂依赖关系,成为Transformer的有力竞争对手。这些模型受到经典状态空间模型[89]的启发,可以看作是循环神经网络和卷积神经网络的融合。它们可以使用递归或卷积操作进行高效计算,实现与序列长度呈线性或接近线性的扩展,从而显著降低计算成本。更具体地说,作为最成功的SSM变体之一,Mamba实现了与Transformer相当的建模能力,同时保持了与序列长度呈线性的可扩展性[55],使其成为关注的焦点。Mamba首先引入了一个简单而有效的选择机制,该机制通过根据输入对SSM参数进行参数化,使模型能够过滤掉无关信息,同时无限期地保留必要和相关数据。然后,Mamba提出了一种硬件感知算法,通过扫描而不是卷积来递归地计算模型,在A100 GPU上实现了高达3倍的计算加速。如图1所示,Mamba对复杂和长序列数据的强大建模能力以及接近线性的可扩展性,使其成为一种新兴的基础模型,有望在计算机视觉[200, 236]、自然语言处理[111, 228]、医疗健康[152, 180, 199]等多个研究和应用领域引发革命性变革。例如,Zhu等人[236]提出的Vim比DeiT[174]快2.8倍,同时在提取高分辨率图像特征时节省了86.8%的GPU内存。Dao和Gu[28]展示了SSM与注意力变体的联系,并提出了一种新的架构来优化选择性SSM,在语言建模上实现了2-8倍的速度提升。

受Mamba强大的长序列建模能力和卓越效率的启发,大量文献涌现,重点关注在各种下游任务中运用和改进Mamba。鉴于与Mamba相关的研究激增,对现有文献进行全面回顾并审慎探讨未来研究的潜在方向至关重要。因此,在本次调查中,我们从多个角度对Mamba进行了全面综述,旨在为新手提供对Mamba内部工作原理的基本理解,同时帮助经验丰富的从业者跟上其最新发展。具体而言,剩余的调查内容组织如下:第2节回顾了各种代表性深度神经网络(包括RNNs、Transformers和状态空间模型)的背景知识,而Mamba的详细信息在第3节中介绍。随后,我们在第4节从模块设计、扫描模式和内存管理的角度总结了基于Mamba研究的最新进展。第5节介绍了将Mamba应用于不同类型数据(包括顺序数据和非顺序数据)的技术。此外,第6节介绍了Mamba模型的代表性应用,而挑战和未来方向在第7节中介绍。最后,我们在第8节对整个调查进行了总结。

与我们的调查同时,已经发布了几个相关调查,纯粹聚焦于状态空间模型[137, 184]和Vision Mamba[120, 200, 220]。与这些调查不同,本文围绕与Mamba相关的研究展开。它从一个新颖的角度系统地分析了现有文献,以探索Mamba架构的演变和在基于Mamba的模型中所使用的数据适应方法。

2 预备知识

Mamba与循环神经网络(RNNs)的循环框架、Transformers的并行计算和注意力机制以及状态空间模型(SSMs)的线性特性紧密相连。因此,本节旨在概述这三种突出架构。

2.1 循环神经网络(RNNs)

RNNs因具有内部记忆能力而在处理顺序数据方面表现出色[54]。这类网络在分析和预测序列涉及的多种任务中展现出了非凡的有效性,例如语音识别、机器翻译、自然语言处理和时间序列分析[69, 170]。为了掌握循环模型的基础,本节将简要概述标准RNN的公式。

具体而言,在每个离散时间步 k k k ,标准RNN专门处理一个向量 x k ∈ R D x_{k} \in \mathbb{R}^{D} xkRD 以及上一步的隐藏状态 h k − 1 ∈ R N h_{k-1} \in \mathbb{R}^{N} hk1RN ,以产生一个输出向量 o k ∈ R O o_{k} \in \mathbb{R}^{O} okRO 并更新隐藏状态为 h k ∈ R N h_{k} \in \mathbb{R}^{N} hkRN 。隐藏状态作为网络的记忆,保留了它所见过的过去输入的信息。这种动态记忆允许RNNs处理不同长度的序列。形式上,它可以写为

h k = tanh ⁡ ( W h x x k + W h h h k − 1 + b h ) o k = W o h h k + b o \begin{array}{l} h_{k}=\tanh \left(\mathbf{W}_{h x} x_{k}+\mathbf{W}_{h h} h_{k-1}+b_{h}\right) \\ o_{k}=\mathbf{W}_{o h} h_{k}+b_{o} \end{array} hk=tanh(Whxxk+Whhhk1+bh)ok=Wohhk+bo

其中, W h x ∈ R N × D \mathbf{W}_{h x} \in \mathbb{R}^{N \times D} WhxRN×D 是负责将模型输入处理成隐藏状态的权重矩阵, W h h ∈ R N × N \mathbf{W}_{h h} \in \mathbb{R}^{N \times N} WhhRN×N 是隐藏状态之间的循环连接, W o h ∈ R O × N \mathbf{W}_{o h} \in \mathbb{R}^{O \times N} WohRO×N 表示用于从隐藏状态生成输出的权重, b h ∈ R N b_{h} \in \mathbb{R}^{N} bhRN b o ∈ R O b_{o} \in \mathbb{R}^{O} boRO 分别对应偏置,tanh表示双曲正切激活函数,它为RNN模型引入了非线性。换句话说,RNNs是非线性循环模型,通过利用存储在隐藏状态中的历史知识来有效捕获时间模式。

然而,循环神经网络(RNNs)存在几个局限性。首先,RNNs在有效提取输入序列中的长距离动态特征方面能力有限。随着信息在连续的时间步长中传递,网络中权重的重复相乘会导致信息稀释或丢失。因此,RNNs在预测时保留和回忆早期时间步长的信息变得具有挑战性。其次,RNNs逐步处理序列数据,这限制了它们的计算效率,因为每个时间步长都依赖于前一个时间步长。这使得它们难以进行并行计算。此外,传统的RNNs缺乏内置的注意力机制,这种机制允许网络捕获输入序列中的全局信息。注意力机制的缺失阻碍了网络选择性地建模数据关键部分的能力。为了克服这些限制,Transformer和状态空间模型应运而生,它们从不同的角度解决了这些挑战。这两种方法将在后续小节中进一步阐述。

2.2 Transformer

Transformer[175]是深度学习领域的一个开创性模型,彻底改变了各种人工智能应用。它通过采用自注意力机制,促进了模型输入内全局依赖关系的捕获,从而标志着与传统序列到序列模型的重大偏离。例如,在自然语言处理中,这种自注意力能力使模型能够理解序列中不同位置之间的关系。它通过根据每个位置相对于其他位置的重要性为其分配权重来实现这一点。更具体地说,输入向量序列 x \mathbf{x} x首先通过原始输入的线性变换转换为三种类型的向量:查询(Query) Q Q Q、键(Key) K K K和值(Value) V V V,定义如下:

Q = x ⋅ W Q , K = x ⋅ W K , V = x ⋅ W V Q=\mathbf{x} \cdot \mathbf{W}^{Q}, K=\mathbf{x} \cdot \mathbf{W}^{K}, V=\mathbf{x} \cdot \mathbf{W}^{V} Q=xWQ,K=xWK,V=xWV

其中, W Q \mathbf{W}^{Q} WQ W K \mathbf{W}^{K} WK W V \mathbf{W}^{V} WV是可训练参数。注意力分数是通过计算 Q Q Q K K K的点积,然后将结果除以 d K \sqrt{d_{K}} dK (其中 d K d_{K} dK是键向量的维度)来计算的。这些过程然后通过Softmax函数传递,以规范化分数 S S S并产生注意力权重,定义如下:

S = Softmax ⁡ ( Q K T d K ) V S=\operatorname{Softmax}\left(\frac{Q K^{T}}{\sqrt{d_{K}}}\right) V S=Softmax(dK QKT)V

除了执行单个注意力函数外,还引入了多头注意力来增强模型捕获不同类型关系的能力,并为输入序列提供多个视角。在多头注意力中,输入序列由多组自注意力模块并行处理。每个头独立操作,执行与标准自注意力机制中完全相同的计算。然后,将每个头的注意力权重组合起来,以创建值向量的加权和。此聚合步骤允许模型利用来自多个头的信息,并捕获输入序列中的不同模式和关系。数学上,多头注意力计算如下:

 MultiHead  ( Q , K , V ) = ( S 1 ⊕ S 2 ⊕ … ⊕ S m ) ⋅ W O  其中  S i = Softmax ⁡ ( Q i K i T d K ) V i , i ∈ [ 1 , m ] \begin{array}{c} \text { MultiHead }(Q, K, V)=\left(S_{1} \oplus S_{2} \oplus \ldots \oplus S_{m}\right) \cdot \mathbf{W}^{O} \\ \text { 其中 } S_{i}=\operatorname{Softmax}\left(\frac{Q_{i} K_{i}^{T}}{\sqrt{d_{K}}}\right) V_{i}, i \in[1, m] \end{array}  MultiHead (Q,K,V)=(S1S2Sm)WO 其中 Si=Softmax(dK QiKiT)Vi,i[1,m]

其中, m m m是注意力头的数量, ⊕ \oplus 是拼接操作, W O \mathbf{W}^{O} WO是将多头注意力分数投影到最终值的线性变换。

2.3 状态空间模型

状态空间模型(SSMs)是一种传统的数学框架,用于描述系统随时间变化的动态行为[89]。近年来,状态空间模型在控制理论、机器人技术和经济学等多个领域得到了广泛应用[58, 59]。其核心在于,状态空间模型通过一组称为“状态”的隐变量来体现系统的行为,使其能够有效地捕捉时间数据依赖性。与循环神经网络(RNNs)不同,状态空间模型是以其关联特性为特征的线性模型。具体而言,在经典的状态空间模型中,制定了两个基本方程,即状态方程和观测方程,以通过 N N N维隐状态 h ( t ) ∈ R N h(t) \in \mathbb{R}^{N} h(t)RN来模拟当前时间 t t t时输入 x ( t ) ∈ R x(t) \in \mathbb{R} x(t)R和输出 y ( t ) ∈ R y(t) \in \mathbb{R} y(t)R之间的关系。该过程可以表示为

\begin{aligned}
h^{\prime}(t) &= \mathrm{A} h(t) + \mathrm{B} x(t) \
y(t) &= \mathrm{C} h(t) + \mathrm{D} x(t)
\end{aligned}

其中, h ′ ( t ) h^{\prime}(t) h(t)是当前状态 h ( t ) h(t) h(t)的导数, A ∈ R N × N \mathrm{A} \in \mathbb{R}^{N \times N} ARN×N是状态转移矩阵,描述状态如何随时间变化, B ∈ R N × 1 \mathrm{B} \in \mathbb{R}^{N \times 1} BRN×1是输入矩阵,控制输入如何影响状态变化, C ∈ R 1 × N \mathrm{C} \in \mathbb{R}^{1 \times N} CR1×N是输出矩阵,表示如何基于当前状态生成输出, D ∈ R \mathbf{D} \in \mathbb{R} DR是命令系数,决定输入如何直接影响输出。一般来说,大多数状态空间模型会省略观测方程中的第二项,即设置 D x ( t ) = 0 \mathrm{D} x(t)=0 Dx(t)=0,这可以看作深度学习模型中的跳跃连接。

2.3.1 离散化。 为了适应各种现实场景中机器学习设置的要求,状态空间模型必须经过离散化过程,将连续参数转换为离散参数。离散化方法通常旨在将连续时间划分为 K K K个尽可能具有相等积分面积的离散区间。为实现这一目标,作为最具代表性的解决方案之一,零阶保持( Z O H \mathrm{ZOH} ZOH)[138, 225]成功应用于状态空间模型中,它假设函数值在区间 Δ = [ t k − 1 , t k ] \Delta=\left[t_{k-1}, t_{k}\right] Δ=[tk1,tk]内保持不变。经过零阶保持离散化后,状态空间模型方程可以重写为

\begin{aligned}
h_{k} &= \overline{\mathbf{A}} h_{k-1} + \overline{\mathbf{B}} x_{k} \
y_{k} &= \mathbf{C} h_{k}
\end{aligned}

其中, A ˉ = exp ⁡ ( Δ A ) \bar{A}=\exp (\Delta \mathbf{A}) Aˉ=exp(ΔA) B ‾ = ( Δ A ) − 1 ( exp ⁡ ( Δ A ) − I ) ⋅ Δ B \overline{\mathbf{B}}=(\Delta \mathbf{A})^{-1}(\exp (\Delta \mathbf{A})-\mathbf{I}) \cdot \Delta \mathbf{B} B=(ΔA)1(exp(ΔA)I)ΔB k k k是离散时间步。从这些公式中可以清楚地看出,离散状态空间模型具有与循环神经网络相似的结构,因此,与在每个自回归解码迭代中对所有输入计算注意力的基于Transformer的模型相比,离散状态空间模型能够以更高的效率完成推理过程。

2.3.2 卷积计算。 离散状态空间模型(SSM)作为线性系统,具有关联属性,因此与卷积计算能够无缝集成。更具体地说,它可以独立计算每个时间步的输出,如下所示:

\begin{aligned}
y_{0} &= \mathbf{C} \overline{\mathbf{A}}^{0} \overline{\mathbf{B}} x_{0} \
y_{1} &= \mathbf{C} \overline{\mathbf{A}}^{1} \overline{\mathbf{B}} x_{0} + \mathbf{C} \overline{\mathbf{A}}^{0} \overline{\mathbf{B}} x_{1} \
y_{2} &= \mathbf{C} \overline{\mathbf{A}}^{2} \overline{\mathbf{B}} x_{0} + \mathbf{C} \overline{\mathbf{A}}^{1} \overline{\mathbf{B}} x_{1} + \mathbf{C} \overline{\mathbf{A}}^{0} \overline{\mathbf{B}} x_{2} \
& \ldots \ldots \
y_{k} &= \mathbf{C} \overline{\mathbf{A}}^{k} \overline{\mathbf{B}} x_{0} + \mathbf{C} \overline{\mathbf{A}}^{k-1} \overline{\mathbf{B}} x_{1} + \ldots + \mathbf{C} \overline{\mathbf{A}}^{1} \overline{\mathbf{B}} x_{k-1} + \mathbf{C} \overline{\mathbf{A}}^{0} \overline{\mathbf{B}} x_{k}
\end{aligned}

通过创建一组卷积核 K ‾ = ( C B ‾ , … , C A ‾ k B ‾ , … ) \overline{\mathbf{K}}=\left(\mathbf{C} \overline{\mathbf{B}}, \ldots, \mathbf{C} \overline{\mathbf{A}}^{k} \overline{\mathbf{B}}, \ldots\right) K=(CB,,CAkB,),可以将递归计算转换为卷积形式,即:

y = x ∗ K ‾ \mathbf{y} = \mathbf{x} * \overline{\mathbf{K}} y=xK

其中, x = [ x 0 , x 1 , … ] \mathbf{x} = \left[x_{0}, x_{1}, \ldots\right] x=[x0,x1,] y = [ y 0 , y 1 , … ] ∈ R L \mathbf{y} = \left[y_{0}, y_{1}, \ldots\right] \in \mathbb{R}^{L} y=[y0,y1,]RL分别表示输入和输出序列, L L L是序列长度。这种卷积计算使SSM能够充分利用现代矩阵计算硬件(如GPU)在训练过程中实现并行计算,而使用非线性激活函数的RNN则无法实现这一点。值得注意的是,对于具有 D D D维的输入 x ( k ) x(k) x(k),SSM计算将针对每个维度分别进行,以产生 D D D维输出 y ( t ) y(t) y(t)。在这种情况下,输入矩阵 B ∈ R N × D \mathbf{B} \in \mathbb{R}^{N \times D} BRN×D,输出矩阵 C ∈ R D × N \mathrm{C} \in \mathbb{R}^{D \times N} CRD×N,命令矩阵 D ∈ R D × D \mathrm{D} \in \mathbb{R}^{D \times D} DRD×D,而状态转移矩阵保持不变,即 A ∈ R N × N \mathrm{A} \in \mathbb{R}^{N \times N} ARN×N

2.3.3 RNN、Transformer和SSM之间的关系。 RNN、Transformer和SSM的计算算法如图2所示。一方面,传统的RNN在非线性递归框架内运行,其中每个计算仅依赖于前一个隐藏状态和当前输入。虽然这种格式使RNN能够在自回归推理期间快速生成输出,但它阻碍了其充分利用GPU并行计算的能力,导致模型训练速度较慢。另一方面,Transformer架构能够在多个查询-键对上并行执行矩阵乘法,这些操作可以高效地分布在硬件资源上,从而实现基于注意力的模型的更快训练。然而,当从基于Transformer的模型生成响应或预测时,推理过程可能会很耗时。例如,语言模型的自回归设计需要顺序生成输出序列中的每个标记,这需要在每个步骤中重复计算注意力分数,从而导致较慢的推理时间。如表1所示,与仅支持一种计算类型的RNN和Transformer不同,由于离散SSM具有线性属性,因此它们具有支持递归和卷积计算两种计算的灵活性。这种独特的能力使SSM不仅能够实现高效的推理,还能实现并行训练。然而,应该注意的是,最传统的SSM是时不变的,这意味着它们的A、B、C和 Δ \Delta Δ与模型输入 x x x无关。这将限制上下文感知建模,从而导致SSM在某些任务(如选择性复制[55])中的性能较差。

3 曼巴(Mamba)

为了解决传统状态空间模型(SSM)在上下文感知能力方面的不足,[55]提出了曼巴(Mamba)作为潜在的替代方案,有望成为通用的序列基础模型骨干。最近,Mamba-2 [28]提出了结构空间状态对偶性(SSD),建立了连接结构化SSM和各种形式注意力机制的稳健理论框架,使我们能够将原本为Transformer开发的算法和系统优化转移到SSM上。在本节中,我们将对曼巴(Mamba)和曼巴-2(Mamba-2)进行简洁明了的介绍。

3.1 曼巴-1(Mamba-1):具有硬件感知算法的选择性状态空间模型

传统的SSM在建模文本和其他信息密集型数据方面表现出有限的有效性[55],阻碍了它们在深度学习领域的进步。为了追求使SSM具备Transformer的建模能力,Gu和Dao [55]基于结构化状态空间模型引入了三项创新技术,即基于高阶多项式投影算子(HiPPO)的记忆初始化、选择机制和硬件感知计算,如图3所示。这些技术旨在增强SSM在长距离线性时间序列建模方面的能力。特别是,初始化策略建立了一个连贯的隐藏状态矩阵,有效地促进了长距离记忆。然后,选择机制使SSM能够获得内容感知的表示。最后,曼巴设计了两种硬件感知计算算法,即并行关联扫描和记忆重计算,以提高训练效率。
3.1.1 基于HiPPO的记忆初始化。 从序列数据中建模和学习是当代机器学习中的基础挑战,为包括语言建模、语音识别和视频处理在内的各种任务奠定了基础。建模复杂和长期时间依赖性的基本组成部分在于记忆,包括存储和整合来自先前时间步信息的能力[73]。与循环神经网络(RNN)类似,在SSM中保留和遗忘历史隐藏状态(即矩阵A)对于实现令人满意的性能至关重要。在之前的结构化状态空间序列模型(SSM)中,已有关于特殊初始化的建议,特别是在复值模型的情况下。这些特殊初始化在各种场景中证明是有益的,包括数据可用性有限的情况。同样,曼巴主要关注隐藏状态矩阵A的初始化,以捕获复杂的时间依赖性。这是通过使用HiPPO理论[56]和创新的缩放勒让德测度(LegS)来实现的,确保了对完整历史上下文的仔细考虑,而不仅仅是有限的滑动窗口。具体而言,HiPPO-LegS为所有历史数据点分配了均匀的权重,可以表示为:

A n k HiPPO  = − { ( 2 n + 1 ) 1 2 ( 2 k + 1 ) 1 2  if  n > k n + 1  if  n = k 0  if  n < k A_{n k}^{\text {HiPPO }}=-\left\{\begin{array}{ll}(2 n+1)^{\frac{1}{2}}(2 k+1)^{\frac{1}{2}} & \text { if } n>k \\n+1 & \text { if } n=k \\0 & \text { if } n<k\end{array}\right. AnkHiPPO = (2n+1)21(2k+1)21n+10 if n>k if n=k if n<k

其中, n n n是多项式的数量, k k k表示特定的离散时间步。在HiPPO理论的基础上,曼巴为复数和实数情况引入了两种简单的初始化方法,即S4D-Lin和S4D-Real [57],如下所示:

A d n = − { 1 2 − n i  S4D-Lin  n + 1  S4D-Real  A_{d n}=-\left\{\begin{array}{ll}\frac{1}{2}-n i & \text { S4D-Lin } \\n+1 & \text { S4D-Real }\end{array}\right. Adn={21nin+1 S4D-Lin  S4D-Real 

其中, n n n是A的第 n n n个元素,适用于所有输入维度 d = 1 , 2 , … , D d=1,2, \ldots, D d=1,2,,D。给定这样的初始化,模型可以通过压缩和重构输入信息信号来学习长距离依赖记忆,其中较新的步骤经历较小的退化,而较旧的步骤经历较大的退化。根据公式,HiPPO-LegS具有有利的理论性质:它在输入时间尺度上保持一致,并提供快速计算[56]。此外,它有界梯度和近似误差,促进了参数学习过程。

3.1.2 选择机制。 由于时不变性,传统的状态空间模型(SSM)无法根据特定的模型输入产生个性化输出(即内容感知建模能力)。为了给SSM提供类似于注意力机制的这种能力,Mamba设计了一个时变选择机制,该机制根据模型输入对权重矩阵进行参数化。这种创新使SSM能够过滤掉无关信息,同时无限期地保留相关细节。形式上,选择机制涉及设置间隔 Δ \Delta Δ,以及将矩阵 B \mathbf{B} B C \mathrm{C} C设为输入 x ∈ R B × L × D \mathbf{x} \in \mathbb{R}^{B \times L \times D} xRB×L×D的函数,可以表示为:

B →   S B = W B x C →   S C = W C x Δ →   S Δ = τ Δ ⋅ Broadcast ⁡ D (   W Δ x ) \begin{array}{l} \mathrm{B} \rightarrow \mathrm{~S}^{\mathrm{B}}=\mathrm{W}^{\mathrm{B}} \mathbf{x} \\ \mathrm{C} \rightarrow \mathrm{~S}^{\mathrm{C}}=\mathrm{W}^{\mathrm{C}} \mathbf{x} \\ \Delta \rightarrow \mathrm{~S}^{\Delta}=\tau_{\Delta} \cdot \operatorname{Broadcast}_{D}\left(\mathrm{~W}^{\Delta} \mathbf{x}\right) \end{array} B SB=WBxC SC=WCxΔ SΔ=τΔBroadcastD( WΔx)

其中, S B ∈ R B × L × N \mathrm{S}^{\mathrm{B}} \in \mathbb{R}^{B \times L \times N} SBRB×L×N   S C ∈ R B × L × N \mathrm{~S}^{\mathrm{C}} \in \mathbb{R}^{B \times L \times N}  SCRB×L×N,和 S Δ ∈ R B × L × D \mathrm{S}^{\Delta} \in \mathbb{R}^{B \times L \times D} SΔRB×L×D是选择空间矩阵,它们作为输入的函数以实现内容感知建模。 B B B L L L D D D N N N分别表示批量大小、输入长度、输入特征大小和隐藏通道数。值得注意的是, W B ∈ R N × D \mathbf{W}^{\mathbf{B}} \in \mathbb{R}^{N \times D} WBRN×D W C ∈ R N × D \mathbf{W}^{\mathbf{C}} \in \mathbb{R}^{N \times D} WCRN×D,和 W Δ ∈ R D × 1 \mathbf{W}^{\Delta} \in \mathbb{R}^{D \times 1} WΔRD×1是对应组件的选择权重(即线性参数化投影),而 Broadcast ⁡ D \operatorname{Broadcast}_{D} BroadcastD表示将结果广播到所有维度 d = 1 , 2 , … , D d=1,2, \ldots, D d=1,2,,D。随后,选择性SSM使用一种常见的统计技术——零阶保持(Zero-Order Hold,ZOH)[138]进行离散化,如下所示:

A ‾ → S A ‾ = exp ⁡ ( S Δ A ) B ‾ → S B ‾ = ( S Δ A ) − 1 ( exp ⁡ ( S Δ A ) − I ) ⋅ S Δ S B \begin{array}{l} \overline{\mathbf{A}} \rightarrow S^{\overline{\mathbf{A}}}=\exp \left(S^{\Delta} A\right) \\ \overline{\mathbf{B}} \rightarrow S^{\overline{\mathbf{B}}}=\left(S^{\Delta} \mathbf{A}\right)^{-1}\left(\exp \left(S^{\Delta} A\right)-\mathrm{I}\right) \cdot S^{\Delta} S^{B} \end{array} ASA=exp(SΔA)BSB=(SΔA)1(exp(SΔA)I)SΔSB

其中, S A ‾ ∈ R B × L × D × N \mathrm{S}^{\overline{\mathbf{A}}} \in \mathbb{R}^{B \times L \times D \times N} SARB×L×D×N S B ‾ ∈ R B × L × D × N \mathrm{S}^{\overline{\mathbf{B}}} \in \mathbb{R}^{B \times L \times D \times N} SBRB×L×D×N分别是选择性的状态转移矩阵和输入矩阵,它们成为输入 x \mathbf{x} x的函数。通过这种方式,离散SSM已从时不变变为时变(即内容感知),表示为

y = SSM ⁡ ( A ,   B , C ) ( x ) \mathrm{y}=\operatorname{SSM}(\mathrm{A}, \mathrm{~B}, \mathrm{C})(\mathrm{x}) y=SSM(A, B,C)(x)

该表达式根据输入 x \mathbf{x} x生成输出 y ∈ R B × L × D \mathbf{y} \in \mathbf{R}^{B \times L \times D} yRB×L×D。值得注意的是,Mamba中的时变选择机制与Transformer中的注意力机制具有类似的结构,即它们都基于输入及其投影执行操作,这使得Mamba的SSM能够实现灵活的内容感知建模。然而,它失去了与卷积的等价性,这对效率产生了负面影响。

3.1.3 硬件感知计算。 选择机制旨在超越线性时不变模型的限制。然而,它仍然对高效训练构成挑战:SSM的卷积核变得依赖于输入,导致无法进行并行计算。为了解决这个问题,Mamba采用了两种计算技术,即并行关联扫描(也称为并行前缀和)[64]和内存重新计算。首先,并行关联扫描利用线性关联计算的特性和现代加速器(GPU和TPU)的并行性,以内存高效的方式计算选择性SSM。更具体地说,并行关联扫描将模型训练的计算复杂度从 O ( N 2 d ) \mathrm{O}\left(N^{2} d\right) O(N2d)降低到 O ( N / t ) \mathrm{O}(N / t) O(N/t)。其核心在于在给定的输入上构建一个平衡二叉树,并对其进行从根到叶和从叶到根的扫描。换句话说,并行关联扫描首先从叶节点遍历到根节点(即Sweep-Up),在树的内部节点上创建部分和。然后,它反转遍历,从根节点向上移动,利用部分和构建整个扫描(即Sweep-Down)。

另一方面,Mamba利用传统的重新计算方法,来减少训练选择性SSM(状态空间模型)层时的总体内存需求。特别是,在并行关联扫描的前向传递过程中,Mamba避免存储大小为( B , L , D , N B, L, D, N B,L,D,N)的中间状态,以防止内存扩展。相反,它在反向传递中重新计算这些中间状态,以便进行梯度计算。这样做,重新计算避免了在GPU内存单元之间读取 O ( B L N D ) O(BLND) O(BLND)个元素的必要性。除了优化扫描操作的内存需求外,Mamba-1还将重新计算的应用扩展到提高整个SSM层的效率。这种优化涵盖了投影、卷积和激活操作,这些操作通常需要大量的内存资源,但可以快速重新计算。

3.2 Mamba-2:状态空间对偶性

在各种领域的深度学习中发挥关键作用的Transformer,启发了多种技术的发展,如参数高效的微调[95]、灾难性遗忘缓解[96]和模型量化[196],这些技术旨在从不同角度提高模型性能。为了使状态空间模型能够访问并利用最初为Transformer开发的宝贵技术,Mamba-2[28]引入了一个名为结构化状态空间对偶性(SSD)的综合框架,该框架在SSM和不同形式的注意力之间建立了理论联系。形式上,

y = SSD ⁡ ( A , B , C ) ( x ) = M x y=\operatorname{SSD}(A, B, C)(x)=Mx y=SSD(A,B,C)(x)=Mx

其中, M M M表示使用顺序半可分离表示的SSM的矩阵形式,且 M j i = C j T A j : i B i M_{ji}=C_{j}^{\mathrm{T}} \mathbf{A}_{j: i} \mathbf{B}_{i} Mji=CjTAj:iBi。值得注意的是, C j \mathbf{C}_{j} Cj B i \mathbf{B}_{i} Bi分别表示与输入标记 x j \mathbf{x}_{j} xj x i \mathbf{x}_{i} xi相关联的选择性空间状态矩阵。 A j : i \mathrm{A}_{j: i} Aj:i表示对应于从 j j j i i i的输入标记的隐藏状态的选择性矩阵。本质上,SSD证明了Transformer使用的注意力机制和SSM中采用的线性时变系统都可以看作是半可分离矩阵变换。此外,Dao和Gu[28]还证明,选择性SSM相当于使用半可分离掩码矩阵实现的结构化线性注意力机制。

基于SSD,Mamba-2通过块分解矩阵乘法算法设计了一种更高效的硬件计算。具体来说,通过将状态空间模型视为通过矩阵变换的半可分离矩阵,Mamba-2将计算分解为矩阵块,其中对角块表示块内计算,而非对角块表示通过SSM的隐藏状态分解的块间计算。这种方法使Mamba-2实现了比Mamba-1的并行关联扫描快 2 − 8 2-8 28倍的训练过程,同时仍与Transformer保持竞争力。

3.3 Mamba块

在本小节中,我们总结了Mamba-1和Mamba-2的块设计。图4展示了这两种架构的比较。Mamba-1的动机是从以SSM为中心的角度出发,其中选择性SSM层负责将输入序列 X \mathbf{X} X映射到 Y Y Y。在这种设计中,在创建 X \mathbf{X} X的初始线性投影之后,应用( A , B , C A, B, C A,B,C)的线性投影。然后,输入标记和状态矩阵通过选择性SSM单元,利用并行关联扫描,生成输出 Y Y Y。之后,Mamba-1使用跳跃连接来鼓励特征重用,并缓解模型训练过程中经常出现的退化问题。最后,通过将此块与标准归一化和残差连接交替堆叠,构建Mamba模型。

至于Mamba-2,它引入了SSD层,旨在从 [ X , A , B , C ] [X, A, B, C] [X,A,B,C]映射到 Y Y Y。这是通过在块开始时使用单个投影同时处理 [ X , A , B , C ] [X, A, B, C] [X,A,B,C]来实现的,这与标准注意力架构如何并行生成 Q \mathbf{Q} Q K \mathrm{K} K V \mathrm{V} V投影的方式类似。换句话说,Mamba-2块通过移除顺序线性投影简化了Mamba-1块。与Mamba-1中的并行选择性扫描相比,这能够实现更快的SSD结构计算。此外,在跳跃连接之后添加了一个归一化层,旨在提高训练稳定性。

4 Mamba模型的进展

状态空间模型(State Space Models)和Mamba最近得到了广泛研究,已成为一种有前景的基础模型骨干。如表2所示,基于Mamba的大规模模型不仅在学术研究中蓬勃发展,而且在工业界也取得了重大进展,如Falcon Mamba 7B和Mistral 7B,它们通过在GPU上的成功训练证明了其有效性。尽管如此,Mamba架构仍然面临挑战,如记忆丧失、对多样化任务的泛化能力以及相较于基于Transformer的语言模型,在捕捉复杂模式方面的能力较差。为了克服这些挑战,已经做出了大量努力来改进Mamba架构。现有研究主要集中在修改块设计、扫描模式和内存管理方面。本节将从这三个方面介绍几项关键技术,并在表3中总结了相关研究。

4.1 块设计

Mamba块的设计和结构对Mamba模型的整体性能有着重大影响,因此成为了一个新兴的研究焦点。如图5所示,根据构建新Mamba块的不同方法,现有研究可分为三类:a) 集成方法旨在将Mamba块与其他知名模型集成,以在有效性和效率之间取得平衡;b) 替代方法尝试将Mamba块作为高级模型框架中主要层的替代;c) 修改方法专注于修改经典Mamba块内的组件。因此,我们将在以下小节中详细回顾这些方法。

4.1.1 集成
鉴于Mamba在捕捉长期动态方面的卓越能力,它已被广泛集成到其他模型中,利用其优势来构建一个针对特定场景量身定制的稳健框架。集成特别涵盖了像Transformer、图神经网络(Graph Neural Networks,GNNs)、循环神经网络(Recurrent Neural Networks,RNNs)、卷积神经网络(Convolutional Neural Networks,CNNs)和脉冲神经网络(Spiking Neural Networks,SNNs)这样的高级模型。下面将描述一些具体示例。

  • 基于Transformer的模型在众多任务中表现出了卓越的性能,但其二次计算复杂度仍在推理过程中阻碍了其发展[58]。为了追求高效的生成,一些研究人员提出了将Mamba块与基于Transformer的模型相结合。例如,Jamba[111]结合了Transformer块和Mamba层来处理长内容的自然语言处理任务,充分利用了两个模型家族的优势。与独立的Transformer和Mamba模型相比,Attention-Mamba混合模型表现出了更优的性能,实现了比原始Transformer模型更高的吞吐量。Mambaformer[201]利用混合框架来预测多个时间序列,包括汇率、小时用电量和电力负荷,该框架内部结合了Mamba块和Transformer层,分别用于捕捉长期和短期依赖关系。由于Mamba和Transformer的集成,Mambaformer在长短范围时间序列预测方面优于基于Transformer的预测器。
  • GNN通过消息传递机制在连接图上传播信息,在捕捉邻接关系方面展现出了巨大的潜力。然而,这些模型面临着一个被称为过平滑的重大限制[20],特别是在试图捕捉高阶邻接信号时。为了解决这一挑战,Mamba已被用于图表示学习[103, 115, 179, 205]。例如,Graph Mamba[9]将图结构数据按特定顺序重新排列为序列令牌,并利用Mamba块内的选择性SSM层构建了一种新型的图Mamba网络(Graph Mamba Network,GMN)架构,该架构在需要节点间高阶依赖的数据集中实现了更优的图表示学习能力。
  • 基于RNN的模型在捕捉时间动态方面取得了出色的结果。然而,RNN仍然面临重大挑战,包括耗时的循环训练和隐藏状态内存容量有限。受最近基于Mamba架构的启发,一些研究人员开发了Mamba块和RNN的融合。例如,VMRNN[171]在时空预测方面实现了最先进的性能,同时与基于循环和无循环的方法相比,最小化了浮点运算(Floating-Point Operations,FLOPs)。它通过引入一种将Mamba块与长短期记忆(Long Short-Term Memory,LSTM)相结合的新型循环单元来实现这一点。
  • 基于CNN的方法受局部感受野的限制,在捕捉全局和长距离语义方面的性能次优[55]。由于状态空间模型在学习长距离模式方面具有卓越的能力,一些研究[107, 188, 206]探索了利用Mamba块来增强基于CNN的模型的潜力,特别是在计算机视觉领域。例如,MedMamba[216]和nnMamba[53]展示了如何将视觉Mamba块集成到CNN中,从而提高图像分析任务的性能。
  • SNN是最近提出的一种有前途的网络架构,它受到大脑中生物神经元行为(通过离散脉冲在神经元之间传递知识)的启发。SNN的主要优势之一在于其低功耗实现的潜力,因为它们可以利用神经活动的稀疏性和事件驱动特性。受SNN低功耗实现和SSM卓越的长距离学习能力所激励,先驱研究已深入探索了这两种方法的集成。例如,SpikeMba[106]将它们结合起来,以处理对显著对象的置信度偏差,并捕捉视频序列中的持久依赖关系。通过广泛的评估,作者声称这两种模型的集成提高了时间视频定位任务的有效性,特别是在精确时刻检索和亮点检测方面。

4.1.2 替代
受选择性SSM在高效计算和长序列学习方面出色能力的启发,采用Mamba模块替代U-Net[151]和Diffusion Model[70]等传统建模框架中的关键组件引起了广泛关注。通过引入选择性SSM层,这些方法实现了针对其特定任务的长距离学习和高效计算。下面,我们将展示使用Mamba模块进行替代的实例,特别是针对U-Net和Diffusion模型等高级框架。

  • U-Net。许多研究[110, 163, 180, 181]致力于将U-Net与Mamba在捕捉复杂和广泛语义方面的能力相结合,以提高计算机视觉任务中模型的性能。例如,MambaUNet[180]仅利用视觉Mamba块构建了一个类似U-Net的模型(即融入了跳跃连接的编码器-解码器模型),用于医学图像分割。其评估结果表明,Mamba-UNet超越了多种U-Net变体,这可以归因于Mamba块在处理长距离补丁序列时的有效性和效率。
  • Diffusion Model。一些研究[46, 48, 136]致力于构建一种新型扩散模型,即扩散状态空间模型(Diffusion State Space Model,DiS),该模型用状态空间主干替代了典型主干(如CNNs、Attentions、U-Nets)。鉴于Mamba块在容纳长距离依赖方面的卓越效率和有效性,DiS通过扩散模型生成更长序列而脱颖而出[46]。例如,Oshima等人[136]提出了一种基于Mamba的扩散模型,该模型显著降低了长视频序列的内存消耗,同时与基于Transformer的模型相比,仍保持了具有竞争力的性能指标。此外,MD-Dose[48]和P-Mamba[211]在扩散模型的逆向过程中使用Mamba块构建噪声预测器,最终为医学图像处理生成特定目标。
  • 其他方法。除了U-Net和扩散模型外,还有一些替代方案。例如,Res-VMamba[19]在残差学习框架中采用了Visual Mamba块来进行食物类别分类。此外,SPMamba[101]采用了最近开发的时间频率模型TF-GridNet[190]作为其基础架构,随后用双向Mamba块继承了Transformer组件。这种改编使模型能够高效地包含更广泛的上下文信息,以完成语音分离任务。
    4.1.3 改进。
    除了直接采用Mamba块的集成和替代方法外,还有一些工作致力于改进Mamba块,以提高其在不同场景下的性能。例如,Jamba[111]借鉴了专家混合(Mix-of-Experts,MoE)[45, 82]的概念,使其混合(Transformer-Mamba)仅解码器模型能够以更少的计算量进行预训练,并允许灵活的目标特定配置。值得注意的是,Jamba模型(560亿个可用参数,120亿个活跃参数,4GB键值缓存)与基于Transformer的语言模型LLaMA-2-7B(67亿个可用参数,120亿个活跃参数,128GB键值缓存)相比,需要的键值缓存小32倍,同时提供了更广泛的可用参数和活跃参数。这使得Jamba能够在单个A100 GPU(80GB)上处理140K的上下文长度,是LLaMA-2-70B支持长度的七倍。除了MoE之外,一些研究还提出将SSM层修改为K路结构,这涉及使用并行SSM单元处理模型输入,从而能够从多个角度捕获信息和知识。例如,Sigma[178]开发了一种基于Mamba的新型视觉编码器,该编码器通过利用并行SSM层来处理多模态输入。UltraLight VM-UNet[194]提出了一种具有并行SSM单元的视觉Mamba层,用于处理不同通道中的深层特征。总之,通过实现这些改进(即K路、MoE),这些基于Mamba的模型获得了更强的学习能力,特别是在处理多模态输入和快速适应多尺度任务方面。此外,一项开创性研究Mamba { }^{\circledR} 提出了一种新方法,建议将寄存器均匀地融入到视觉输入标记中,然后再将输入传递给SSM层。这种改进旨在增强图像块序列方向的表示,从而使Mamba块的单向推理范式适用于视觉任务。尽管取得了这些成功,但探索改进Mamba块仍然是一个有前景但尚未充分探索的领域。

4.2 扫描模式

并行关联扫描操作是Mamba模型中的关键组件,旨在解决选择机制引起的计算问题,加速训练过程,并减少内存需求。它利用时变SSM的线性属性,在硬件级别设计内核融合和重新计算来实现这一目标。然而,Mamba的单向序列建模范式阻碍了图像和视频等各种数据的全面学习过程。为了缓解这个问题,一些研究致力于设计高效的扫描方法来提高模型性能,并促进Mamba模型的训练过程。如图6所示,现有研究中专注于开发扫描模式技术的可以分为两类:1) 扁平扫描方法从标记序列的平面角度处理模型输入;2) 立体扫描方法跨维度、通道或尺度扫描模型输入。
4.2.1 展平扫描。展平扫描是指将模型输入展平为标记序列,并据此从不同方向对其进行扫描的过程。这种扫描类型通常用于一维(例如,时间序列)和二维(例如,图像)数据。在本节中,我们进一步将其分为四类,即双向扫描、清扫扫描、连续扫描和高效扫描。

  • 双向扫描。借鉴双向循环神经网络(Bi-RNNs)[155]的概念,Visual Mamba[236]引入了一种针对视觉数据的扫描方法,称为双向扫描(Bi-Scan),它使用同时的前向和后向SSM处理输入标记,从而增强了模型在空间感知处理方面的能力。最近,一些研究利用Bi-Scan方法提高了其基于Mamba的模型的学习能力[105]。例如,DPMamba[87]和SPMamba[101]都利用了一对双向(前向和后向)选择性SSM来建模语音信号的依赖性,实现了语音分离的双向知识处理。这些显著的成功可以归因于Bi-Scan的有效性和易于部署的特点。
  • 清扫扫描。如图6所示,清扫扫描技术以特定方向处理模型输入,类似于清洁工仔细清扫地板[189, 216]。例如,Cross-Scan[121]需要将输入图像划分为多个块,然后沿四条不同路径将其展平,这被视为两个双向扫描的融合。通过采用这些互补的遍历路径,Cross Scan使图像中的每个块都能有效地整合来自不同方向邻居的信息,从而有助于建立信息丰富的感受野。Omni-Scan[163, 229]结合了从多个方向(例如,2(前向和后向)× 4(左右、上下、右上左下、左上右下))对图像信息流的建模。这种策略增强了各个方向上下文信息的全局建模能力,能够提取全面的全局空间特征。
  • 连续扫描。为确保输入序列的连续性,连续扫描技术会扫描列或行之间的相邻标记[66],如图6所示。例如,为了更好地应对二维空间输入,PlainMamba[203]引入了一种称为连续扫描的连续扫描方法,该方法扫描列(或行)之间的相邻标记,而不是像Cross Scan那样跳到相对的标记。此外,Hilbert Scan[66]基于希尔伯特矩阵沿曲折路径移动。根据其评估结果可以推断,增强输入标记的语义连续性会使基于Mamba的模型在各种视觉识别任务中表现更佳。
  • 高效扫描。与上述关注实现更全面的输入建模的扫描方法不同,高效扫描方法旨在加速训练和推理过程。通常,高效扫描将给定输入分成几个部分并并行处理,从而减少计算时间。例如,Efficient-2D Scan[139]通过跳过块来处理图像,从而在保留全局特征图的同时减少了四倍的计算需求。此外,Gao等人[50]在其Mamba框架内引入了一种有效的双向子空间扫描方案。该方案旨在高效捕获4D光场超分辨率任务中的长期空间-角度对应关系。具体而言,它将块序列分解为两部分,并通过两个双向扫描方案进行处理。通过这种方式,扫描方法降低了输入长度,解决了长期记忆问题,同时保留了完整的4D全局信息。

4.2.2 立体扫描。 通过对来自其他视角的输入进行建模,与扁平化扫描方法相比,立体扫描方法在扫描过程中能够捕获更广泛的知识。这种增强的能力使得对模型输入的理解更为透彻。具体来说,这些方法可以分为三个主要类别:层次扫描、时空扫描和混合扫描。层次扫描从不同层次处理输入,而时空扫描则从时间和空间两个角度考虑输入模式。此外,混合扫描结合了多种扫描方法,以利用不同扫描技术的优势。

  • 层次扫描方法涉及使用不同大小的扫描核,以从全局到局部或从宏观到微观的角度捕获语义知识[ 26 , 63 , 162 , 181 26,63, 162, 181 26,63,162,181]。例如,[ 24 24 24]提出了一种用于红外小目标检测的Mamba-in-Mamba层次编码器,结合了内部和外部选择性SSM块。内部块专门用于捕获视觉补丁之间的相互作用,以进行局部模式提取。相反,外部块旨在表征视觉句子之间的关系,以捕获全局特征。HiSS[ 12 12 12]将输入序列分成块,并层次化地对块特征进行建模,以实现连续序列预测。这些块首先由低级SSM单元处理,然后处理后的特征由高级SSM块映射到输出序列中。
  • 时空扫描。受现实世界中动态系统普遍存在的驱动,人们对时空扫描方法越来越感兴趣,以提高Mamba块的性能[ 207 , 209 207, 209 207,209]。例如,VideoMamba[ 102 102 102]将原始的2D图像扫描扩展为两个3D扫描:空间优先扫描和时间优先扫描。结合这两种扫描方法,VideoMamba在处理长时间、高分辨率视频时表现出色。此外,ChangeMamba[ 21 21 21]集成了三种时空扫描机制(顺序建模、交叉建模和并行建模),以实现多时态特征之间的上下文信息交互,用于遥感变化检测。
  • 混合扫描。为了追求全面的特征建模,许多研究致力于结合不同扫描方法的优势[ 29 , 32 , 53 , 163 , 231 29,32, 53, 163, 231 29,32,53,163,231],即所谓的混合扫描。例如,Mambamixer[ 10 10 10]提出了扫描切换,动态地使用一组图像扫描方法,即交叉扫描、之字形扫描和局部扫描,来遍历图像补丁。Mambamixer还引入了一种双重选择机制,以跨标记和通道混合信息。通过这种方式,它们表现出与其他视觉模型相当的性能。Pan-Mamba[ 68 68 68]在Mamba架构的基础上引入了两种扫描方法:通道交换扫描和跨模态扫描。通过结合这两种扫描方法,Pan-Mamba增强了其在图像全色锐化中高效跨模态信息交换和融合的能力。

4.3 内存管理

与循环神经网络(RNN)类似,状态空间模型中的隐藏状态内存有效地存储了来自先前步骤的信息,从而在SSM的整体功能中发挥着至关重要的作用。虽然Mamba已经引入了基于HiPPO的方法进行内存初始化[ 55 55 55],但在SSM单元的内存管理方面仍然存在挑战,包括层间隐藏信息的传递和实现无损内存压缩。为此,一些开创性研究提出了不同的解决方案,包括内存初始化、压缩和连接。例如,Ezoe和Sato[ 35 35 35]尝试在模型再训练期间使用平衡截断方法来改进选择性SSM的初始化过程。此外,DGMamba[ 123 123 123]引入了一种隐藏状态抑制方法,以增强状态空间模型中隐藏状态的域泛化能力。该方法旨在减轻这些隐藏状态带来的负面影响,从而缩小不同域之间隐藏状态的差距。类似地,DenseMamba[ 67 67 67]提出了一种密集连接方法,以增强SSM中层间隐藏信息的传播。该策略旨在通过选择性地将较浅层的隐藏状态集成到较深层中,来减轻内存退化并保留用于输出生成的详细信息。

5 将Mamba适应于多种数据

Mamba架构是对选择性状态空间模型(Selective State Space Models)的扩展,它拥有循环模型(Recurrent Models)的基本特性,使其非常适合作为处理文本、时间序列、语音等序列数据的一般基础模型。同时,最近的一些开创性研究已经将Mamba架构的应用范围扩展到序列数据之外,涵盖了图像和图等领域,如图7所示。这些研究旨在利用Mamba在捕获远程依赖方面的卓越能力,同时利用其在学习和推理过程中的效率。因此,在本节中,我们旨在研究使Mamba适应各种类型数据的新兴技术。相关研究总结如表4所示。

5.1 序列数据

序列数据是指按特定顺序收集或组织的数据,其中数据点的顺序具有重要意义。为了探索将Mamba作为处理序列数据任务的基础模型的潜力,我们在后续部分中提供了一项全面的综述,涵盖了包括自然语言、视频、时间序列、语音和人类运动在内的各种序列数据。

5.1.1 自然语言。 作为最具代表性的架构之一,Mamba在进行基于内容的推理的同时确保了效率,这被认为是大型语言模型主干的一个有前景的替代方案,可以解决Transformer在处理长序列时的计算效率低下问题。基于这一见解,许多研究探索了Mamba在自然语言处理(NLP)中各种下游任务的潜力[10, 12, 67, 134]。例如,MambaByte[182]提出在字节序列上使用Mamba,旨在利用Mamba在捕获远程依赖方面的优势,为无标记语言模型服务。他们的评估表明,MambaByte避免了子词标记化的归纳偏差,并在长期语言建模任务上优于最先进的子词Transformer。此外,Jamba[111]和BlackMamba[5]结合了专家混合(Mix-of-Experts, MoE)的概念,通过将SSM的线性复杂度生成与MoE提供的快速且经济高效的推理能力相结合,来增强Mamba在语言处理方面的性能。

5.1.2 视频。 视频理解和生成的核心目标在于学习时空表示,这本身带来了两个巨大的挑战:短视频片段内存在大量的时空冗余,以及长上下文之间存在复杂的时空依赖[6,122]。为了同时解决这两个挑战,Mamba凭借其区分短期行为和解释长视频的能力脱颖而出[51,106,136,237]。例如,VideoMamba[102]首先通过3D卷积将输入视频投影到一组非重叠的时空块中,然后利用堆叠的双向Mamba块将这些块编码为向量化表示,用于视频理解和生成等下游任务。此外,Vivim[207]提出了一种新颖的时空Mamba块,以有效地将广泛的时空表示压缩为多尺度序列,用于医学视频分割。

5.1.3 时间序列。 作为典型的序列数据,时间序列数据在我们的生活中无处不在,包括股票市场分析、交通建模和天气预报[147, 232]。受Mamba在建模长序列方面最近进展的启发,许多研究致力于探索其在时间序列数据方面的潜力[3, 4, 108, 201]。例如,TimeMachine[3]利用Mamba捕获多元时间序列数据中的持久模式,确保线性复杂度计算和最小内存占用,以实现精简的时间序列处理。此外,Mambaformer[201]结合了选择性SSM和注意力层,用于天气、交通流量等的长期和短期预测。

5.1.4 语音。 语音特指人类使用特定语音、单词、语法和语调模式发出的交流形式[1]。最近,在语音相关任务领域,研究人员[27]在开发基于Mamba的模型以应对现有模型架构(如RNN和Transformer)遇到的新兴挑战方面取得了显著进展。例如,SPMamba[101]和DPMamba[87]利用双向Mamba模块捕获更广泛的上下文信息,用于语音分离,与基于Transformer的基线相比,在处理语音分离任务时,模型性能提高了13%,计算复杂度降低了566%。
5.1.5 运动。 人类运动的理解和生成在众多实际应用中是一项重要的追求,包括计算机动画、游戏开发和机器人操控等。然而,在漫长的运动序列中不常出现的语义动作使得远程运动建模变得困难。为了解决这个问题,一些研究提出了使用Mamba来捕捉运动序列中的时空模式[183]。例如,Motion Mamba[227]提出了一个混合Mamba模型,该模型利用分层SSM层来捕捉时间模式,并引入了一个双向SSM层来学习空间知识,以保持帧之间的运动一致性。基于综合实验,基于Mamba的模型在人类运动生成任务中优于典型的基于扩散的方法,实现了 50 % 50\% 50%的FID改进,并且性能提高了四倍。此外,MambaMOS[217]设计了一个运动感知状态空间模型,该模型专注于捕捉连续时间步长之间运动的变化,这进一步强调了Mamba在实现高质量、长序列运动建模方面的卓越能力。

5.2 非序列数据

非序列数据与序列数据不同,它不遵循特定的顺序。其数据点可以按任何顺序组织或访问,而不会显著影响数据的意义或解释[80]。这种缺乏固有顺序的特点给专门为捕捉数据中的时间依赖性而设计的循环模型(如RNN和SSM)带来了困难。令人惊讶的是,代表SSM的Mamba在最近的发展中显示出在高效处理非序列数据方面的出色表现。在本节中,我们将回顾关于Mamba如何有效处理非序列数据(包括图像、图和点云)的相关研究。

5.2.1 图像。 作为最普遍的模态之一,图像数据构成了各种计算机视觉应用的基础,例如人脸识别、医学视觉[216]和遥感[21, 23]。从Mamba在序列建模中取得的成功中汲取灵感,将这一成就从文本处理转移到图像分析中存在一个诱人的机会。这涉及将图像视为一系列图像块,可能为计算机视觉领域的新探索途径铺平道路。因此,最近开发了许多基于Mamba的视觉模型,以减轻沉重的计算资源和内存压力,同时表现出具有竞争力的建模能力[114, 152, 180, 180](注意:原文中180重复了两次,可能是笔误,但在此保留原样)。例如,Vision Mamba[236]结合了双向SSM来促进全局视觉语义建模,并引入了位置嵌入来实现位置感知的视觉理解。Vision Mamba不需要注意力机制,其建模能力与Vision Transformers相当,同时将计算时间大幅减少到次二次水平,并保持线性内存复杂度。具体而言,它在速度方面优于最先进的基线DeiT[174],速度提高了 2.8 2.8 2.8倍,并且在高分辨率图像( 1248 × 1248 1248\times1248 1248×1248)的特征提取批量推理期间,GPU内存使用量显著减少了 86.8 % 86.8\% 86.8%。此外,VMamba[121]引入了二维选择性扫描(SS2D),它作为一维数组扫描和二维平面遍历之间的桥梁,使Mamba能够有效地处理视觉数据。

5.2.2 图结构数据。 图建模在管理复杂结构和关系方面发现了广泛的实用性,包括社交网络[40, 41]、推荐系统[39]和分子相互作用[77]等领域的应用。由于Mamba在远程建模和高效率方面的强大能力,一些开创性的研究采用了选择性状态空间模型(SSM)来处理非序列图数据[115]。这些研究利用状态空间模型在循环扫描期间通过隐藏状态编码上下文,从而实现输入流控制,这类似于图上的注意力稀疏化,在图建模上下文中呈现数据依赖的节点选择过程[210]。此外,预计Mamba将提高大型图训练任务中的模型效率。例如,Graph-Mamba[179]引入了一个新颖的基于Mamba的块作为图建模的基础组件。该块将图展平机制与Mamba提供的选择机制相结合,分别将子图转换为节点序列并促进输入依赖的上下文过滤。在最近的工作中,Behrouz和Hashemi[9]提出了图Mamba网络(GMN),这是一种基于选择性SSM的新型图神经网络格式。作者将选择性SSM重新表述为图学习格式,并为所提出网络的强大功能提供了理论证明。通过解决图消息传递关键步骤中出现的新挑战,GMN在各个方面取得了显著的性能,在具有不同图规模的多个基准数据集中超越了GNN和基于Transformer的模型。此外,Huang等人[81]引入了图状态空间卷积(GSSC)作为针对图结构数据量身定制的SSM的系统扩展。具体而言,GSSC将基于距离的图卷积核融入SSM单元中,旨在增强表达能力并捕捉远程依赖关系。通过对十个基准数据集进行评估,研究[81]强调了GSSC作为图机器学习领域强大且可扩展模型的潜力。
5.2.3 点云。 点云是计算机视觉中的一个重要模态,在机器人、自动驾驶和增强现实等领域有着众多实际应用[62]。与图像处理和图学习不同,点云的分析因其固有的不规则性和稀疏性(一种3D非结构化数据)而面临独特挑战。为了应对这些挑战,基于深度学习的方法取得了显著进展,特别是基于Transformer的模型[213]。然而,注意力机制的复杂性是二次方的,会带来巨大的计算成本,这对资源有限的设备并不友好。鉴于状态空间模型(SSM)在处理1D序列(如语言和语音)和2D数据(如图像和图)方面的最新进展,已有研究尝试将Mamba的应用扩展到3D点云[212]。总体而言,这些基于Mamba的点云分析方法采用两步过程[63, 234]。首先,使用特定的扫描方法将点云数据标记为离散的标记。然后,利用Mamba来捕捉这些标记中的潜在模式。例如,PointMamba[109]提出了一种分层扫描策略来编码3D点云的局部和全局信息,然后利用纯Mamba作为主干网络,从序列化的点标记中提取特征,而无需引入额外的复杂技术。点云Mamba[222]将Mamba作为基础模型主干,显著减少了内存使用,与基于Transformer的同类模型相比,表现出相当(或更优)的性能。

5.3 多模态数据

整合多种模态,如语言(序列数据)和图像(非序列数据),为人工智能感知和场景理解提供了有价值且互补的信息。最近,关于多模态大型语言模型(MLLM)的研究受到了广泛关注,这些模型继承了大型语言模型的先进能力[193],包括强大的语言表达和逻辑推理能力。虽然Transformer一直是该领域的主导方法,但Mamba通过展示其在对齐混合来源数据和实现序列长度上线性复杂度扩展方面的出色性能,已成为强有力的竞争对手,使Mamba成为多模态学习中Transformer的有前途的替代方案[117, 208]。例如,Qiao等人[145]提出了VL-Mamba,探索利用Mamba的高效架构来解决视觉-语言任务,利用预训练的Mamba模型进行语言理解,并引入连接模块来对齐视觉补丁和语言标记。Wang等人[183]提出了文本控制的运动Mamba[183],该模型利用Mamba根据文本查询动态捕捉全局时间信息,以增强对人体运动的理解。此外,Fusion-Mamba[32]和Sigma[178]尝试融合来自不同模态(如热成像、深度和RGB)的互补信息。Fusion-Mamba侧重于提高目标检测性能,而Sigma旨在增强语义分割。

6 应用

在本节中,我们介绍了几种基于Mamba模型的显著应用。为了提供一个全面的概述,我们将这些应用分为以下几类:自然语言处理、计算机视觉、语音分析、药物发现、推荐系统以及机器人和自主系统。

6.1 自然语言处理

在自然语言处理领域,最近,一些基于Mamba的模型已成为基于Transformer的模型在语言建模方面的替代品[5, 14, 67, 111, 177, 202, 228],特别是在涉及广泛上下文的应用中,如问答系统和文本摘要。

6.1.1 问答系统。 问答(QA)涉及AI模型利用广泛的知识库进行理解、推理和回应,从而实现连贯且上下文丰富的对话,广泛应用于聊天机器人和虚拟助手。在多轮对话中,结合之前的交互上下文对于准确回答后续问题至关重要。然而,现有模型在推理速度和计算效率方面面临挑战,特别是在复杂的推理任务中。这导致显著的内存使用和计算开销,限制了可扩展性和实时应用效率。为了解决这些限制,最近的研究探索了基于Mamba的模型来改善问答系统中的长期对话管理[111, 111, 132](注:原文中111重复了两次,可能是笔误,但在此保留原样)。例如,Mamba-Chat[132]是第一个利用状态空间框架的聊天语言模型。该模型通过采用状态空间表示来维护和更新其对对话的理解,确保上下文感知。Jamba[111]在Transformer和Mamba层之间进行了战略交替,结合了混合专家(Mixture of Experts, MoE)来增强模型容量,同时优化参数利用。在常识推理和阅读理解任务中,Jamba的性能可与更大的Llama-2模型相媲美,但参数更少,展示了效率和有效性。同样,DenseMamba[67]引入了一种新方法,通过选择性地将浅层层的隐藏状态融入更深的层中,来丰富状态空间模型(SSM)中隐藏信息在层间的传播。与传统基于Transformer的模型相比,这保留了关键的细粒度信息,从而在问答任务中实现了更优的性能。总体而言,整合基于Mamba的模型显示出在改进对话管理和提升复杂推理任务性能方面推动问答系统发展的巨大潜力。

6.1.2 文本摘要。 文本摘要旨在通过保留关键信息来压缩长文本。在这个任务中,保持连贯性和相关性至关重要。基于Transformer的模型在处理长序列依赖时常常遇到困难,可能会损害连贯性和相关性。相比之下,基于Mamba的模型利用强大的长序列处理能力,使其非常适合处理连贯且上下文丰富的文本。其稳健的架构使它们能够在摘要任务中通过准确捕捉和浓缩大量文档的本质而表现出色。例如,基于状态空间模型的LOCOST[14]可以处理比稀疏注意力模型显著更长的序列。在长文档抽象摘要中,LOCOST的性能可与同等维度的最高性能稀疏Transformer相媲美,同时在训练和推理期间分别减少了高达50%和87%的内存使用。此外,SAMBA[149]将Mamba与滑动窗口注意力相结合,使选择性序列压缩成循环隐藏状态成为可能,同时通过注意力机制保留了精确的记忆召回。在处理128K输入长度时,SAMBA的吞吐量比Transformer高出3.73倍,在需要长上下文摘要的任务中展现了卓越的性能。

6.2 计算机视觉

除了自然语言处理应用外,基于Mamba的模型在计算机视觉领域也展现出潜力,代表性应用如疾病诊断和动作识别与生成。

6.2.1 疾病诊断。 在临床实践中,医学图像和视频为器官或组织的形态学提供了关键见解。对生物医学对象(如大规模2D/3D图像或视频中的病灶)进行高效分析,能显著提升疾病诊断和临床治疗效果。然而,基于卷积神经网络(CNN)的模型(如UNet)因其感受野受限,在处理长距离依赖关系时面临挑战。与自然图像相比,医学图像通常尺寸更大、分辨率更高,这进一步加剧了这一挑战。同时,基于Transformer的算法计算密集,限制了其在资源受限的临床环境中的实用性。为克服这些局限,众多研究在真实医疗环境中采用了基于Mamba的模型[110, 127, 152, 188]。例如,U-Mamba[127]和SegMamba[199]都集成了混合CNN-SSM模块,将卷积层的局部特征提取能力与SSM提供的长距离依赖建模相结合。这种混合方法在诸如CT和MR图像中腹部器官的3D分割、内镜图像中器械的分割以及显微镜图像中细胞的分割等任务上,优于现有模型。同样,CMViM[204]通过跨模态利用掩码Vim自编码器和对比学习,解决了阿尔茨海默病(AD)诊断成像中的挑战,在AD诊断成像分类中取得了最佳性能。此外,ProMamba[197]专门用于息肉分割。通过融入VisionMamba架构和提示技术,该模型比以往方法具有更高的准确性和更好的泛化能力。对于视频中的动态医学对象分割,Vivim[207]利用Temporal Mamba Block有效地将不同尺度的长期时空表示压缩成序列。该方法在疾病诊断(如超声乳腺病灶分割和结肠镜检查视频中的息肉分割)中表现出增强的性能和计算效率。

6.2.2 动作识别与生成。 动作识别与生成在运动监测[52]、计算机动画[165]、游戏开发[133]和电影制作[185]中至关重要。然而,基于Transformer的模型在计算和内存需求方面面临挑战,限制了其在资源受限环境中的适用性。此外,基于Transformer和图卷积网络(GCN)的模型在有效捕获视频和4D点云中长运动序列和复杂时空模式方面存在困难。近期研究探索了使用Mamba来解决这些挑战,利用其出色的性能和较低的计算需求[18, 105, 226, 227]。例如,HARMamba[105]利用双向SSM架构处理可穿戴传感器数据,在显著降低计算负载和内存使用的同时,保持了实时人体动作识别的高准确性。同样,Simba[18]在U-ShiftGCN框架中集成了Mamba,有效处理了更长序列和复杂的时空交互,在视频中的骨骼动作识别方面取得了最佳结果。此外,Motion Mamba[227]和InfiniMotion[226]都用于动作生成。具体而言,Motion Mamba[227]利用分层时域Mamba块处理时序数据,利用双向空间Mamba块处理潜在姿态,确保帧间动作一致性,并提升时域帧内动作生成的准确性。InfiniMotion[226]引入了具有双向Mamba内存的Motion Memory Transformer,提升了Transformer的内存能力,使其能够高效地生成连续、长时间的人类动作(长达一小时和80,000帧),而不会过度消耗计算资源。

6.3 语音分析

语音信号本身由成千上万的样本组成。虽然这种广泛的时序背景提供了丰富的声学特征,但也对计算提出了很高的要求。为了有效处理语音信号,多种基于Mamba的模型已成功应用于不同的语音领域,特别是在语音分离与标注和语音增强方面。

6.3.1 语音分离与标注。 语音分离涉及从多说话人环境中分离出单个语音信号。这对于提高音频通信的可懂度和质量至关重要。同时,音频标注或分类涉及将音频样本映射到其对应的类别。这两项任务都依赖于捕获短距离和长距离的音频序列模式。尽管基于Transformer的模型一直是这些应用的主流架构,但由于其自注意力机制,它们在二次计算和内存成本方面面临重大挑战。最近,语音分离[87, 101]和音频标注[11, 224]领域开始转向使用状态空间模型。具体而言,DPMamba[87]利用选择性状态空间来捕获语音信号中的动态时序依赖关系,包括短期和长期的前向和后向依赖关系。SPMamba[101]集成了TF-GridNet模型,用双向Mamba模块替换了其Transformer组件。DASS[11]将知识蒸馏与状态空间模型相结合,可以对长达2.5小时的音频文件中的声音事件进行标注。同时,MAMCA[224]通过引入选择性状态空间模型作为其主干,专注于自动调制分类(AMC),有效解决了长序列AMC相关的准确性和效率挑战。通过采用状态空间模型,这些模型在捕获更广泛的上下文信息和提高整体有效性方面表现出定性改进,从而证明了状态空间模型(SSM)在处理长时间序列时的优越可扩展性。

6.3.2 语音增强。 语音增强(SE)旨在从失真信号中提取清晰的语音成分,产生具有改进声学特性的增强信号。作为前端处理器,SE在包括助听技术[98]、说话人识别[7]和自动语音识别[129]在内的众多语音应用中发挥着关键作用。移动音频设备由于资源有限而面临挑战。最近的研究探索了Mamba的应用,利用其在SE任务中的强大性能和降低的计算需求[17, 148, 159, 168, 223]。例如,TRAMBA[168]利用结合了Transformer和Mamba的混合架构,提高了移动和可穿戴平台的语音质量,特别是针对声学和骨传导。与当前的主流模型相比,它的内存消耗实现了惊人的十倍减少。此外,oSpatialNet-Mamba[148]利用Mamba进行长期多通道语音增强,为静态和移动说话者取得了出色的结果。

6.4 药物发现

蛋白质设计、分子设计和基因组分析在推动药物发现和生物技术方面发挥着关键作用[100, 156]。利用基于Mamba的模型显著降低了这些领域中长序列建模的复杂性[61, 140, 140, 154, 154]。具体而言,PTM-Mamba[140]和ProtMamba[158]是基于Mamba架构的蛋白质语言模型。PTM-Mamba利用双向门控Mamba块和结构化状态空间模型,有效处理长序列的同时降低了计算需求。ProtMamba设计为同源感知但无需对齐,擅长处理跨越数百个蛋白质序列的广泛上下文。这两个模型即使在处理大型数据集时也能保持高效和准确,为蛋白质设计提供了关键工具。同时,生成性分子设计旨在从特定分布中模拟具有定制属性特征的分子。然而,当前模型缺乏优化高保真度oracle所需的效率,直接导致成功率较低。应用Mamba架构的Saturn[61]利用其线性复杂度和计算效率,在药物发现方面超越了22个竞争模型。此外,理解基因组对于深入了解细胞生物学至关重要。基因组建模的挑战包括捕获远距离标记之间的相互作用、考虑上游和下游区域的影响以及确保DNA序列的互补性。利用Mamba模型的Caduceus[154]和MSAMamba[173]在解决这些挑战方面表现出色。Caduceus是一个DNA基础模型,通过为双向建模和确保反向互补等变性而增强Mamba架构,在长距离基因组任务中显著优于现有模型。同样,MSAMamba[173]通过沿序列维度实现选择性扫描操作,解决了基于Transformer的模型在DNA多序列比对方面的局限性。这种设计将先前方法的训练上下文长度延长了八倍,从而能够对广泛的DNA序列进行更全面的分析。

6.5 推荐系统

推荐系统被广泛应用于电子商务[25, 221, 233]和社交网络[37, 38, 42],旨在捕捉用户不断变化的偏好及其过去行为之间的相互依赖关系[39, 230]。尽管基于Transformer的模型在推荐系统中已展现出有效性[169],但由于注意力机制的二次复杂度,特别是在处理较长行为序列时,它们面临着计算效率方面的挑战。最近,已有多种基于Mamba的模型被用于分析长期用户行为,以实现个性化推荐[16, 115, 166, 186, 205]。例如,Mamba4Rec[115]率先使用选择性状态空间模型进行高效序列推荐,在提升模型性能的同时保持推理效率。同样,RecMamba[205]探索了Mamba在终身序列推荐场景(即序列长度$ \geq 2k $)中的有效性,实现了与基准模型相当的性能,同时训练时间减少了 70 % 70\% 70%,内存成本降低了 80 % 80\% 80%。此外,EchoMamba4Rec[186]结合了双向Mamba模块和频域滤波,以准确捕捉用户交互数据中的复杂模式和相互依赖关系。它相较于现有模型表现出更优越的性能,提供了更精确和个性化的推荐。另外,Mamba4KT[16]是专为智能教育中的知识追踪而设计的,利用Mamba模型捕捉练习与学生知识水平之间持久的相关性。随着教育数据集的扩大,该方法为提高知识追踪研究中的预测准确性、模型效率和资源利用率提供了一条有前景的途径。

6.6 机器人与自主系统

机器人与自主系统的主要目标是开发能够理解视觉环境并执行复杂动作的模型。目前,机器人领域中使用的多模态大型语言模型(MLLMs)在两个主要方面面临重大挑战:1) 处理需要高级推理的复杂任务的能力有限;2) 微调和推理任务需要巨大的计算成本。由于Mamba模型在推理速度、内存利用率和整体效率方面的优势,基于Mamba的模型正成为自主和智能系统有前景的基础[15, 85, 117],有望提供卓越的性能和巨大的可扩展潜力。例如,RoboMamba[117]将视觉编码器与Mamba结合,创建了一个端到端的机器人MLLM。该方法通过联合训练将视觉数据与语言嵌入对齐,增强了模型的视觉常识和机器人特有的推理能力,同时确保了高效的微调和推理能力。同样,Jia等人[85]介绍了MaIL,一种使用Mamba作为主干的模仿学习(IL)策略架构。MaIL在处理观察序列时在效率和性能之间架起了一座桥梁。对真实机器人实验的大量评估表明,MaIL为传统、大型且复杂的基于Transformer的IL策略提供了一种有竞争力的替代方案。

7 挑战与机遇

前面的部分已全面调研了与Mamba相关的最新先进技术和多样化应用。然而,对Mamba的研究仍处于初级阶段,未来面临着诸多挑战和机遇。

7.1 基于Mamba的基础模型

通过在大规模混合源语料库上将模型规模扩展到十亿级别,基础模型(FMs)展现出了令人印象深刻的零样本学习能力,这使得基础模型能够在广泛的通用任务中脱颖而出[13]。作为代表性示例,近年来,基于Transformer的大型语言模型,尤其是ChatGPT,取得了巨大成功,激发了人们探索各个领域基础模型的热情。尽管Transformer是成功的主要驱动力,但它们面临着紧迫的计算和内存效率问题[172],这些问题随着基于注意力模型的规模呈指数增长的训练内存和在推理期间繁琐的自回归解码而产生。为了应对这些问题,最近出现了一种有前景的替代主干,即用于基础模型的Mamba[28, 55]。Mamba提供了与Transformer相同的内容感知学习能力,同时计算量随输入长度线性增长,使其能够有效捕捉长距离依赖关系,并在训练和推理过程中提高效率。鉴于这些优势,为特定领域开发基于Mamba的基础模型具有巨大潜力,这为解决基于Transformer模型所面临的问题提供了机会。

7.2 硬件感知计算

基础模型以其庞大的规模和密集的矩阵运算(如矩阵乘法和卷积)为特征,需要GPU和TPU等尖端硬件来进行高通量的训练和推理。这些先进硬件使研究人员能够处理更大的数据集,并在各个领域实现最先进的性能。然而,现有的基础模型仍未能充分利用硬件的计算能力,导致模型效率有限[172]。作为提高计算效率的一种有前景的替代方案,Mamba-1[55]和Mamba-2[28]提出了硬件感知计算算法,即并行关联扫描和块分解矩阵乘法。这些算法考虑了GPU和TPU的固有特性,包括设备之间的消息传输等因素,为解决计算效率问题提供了新的视角。受此启发,探索新型硬件高效算法,如FlashButterfly[47],以优化硬件利用率,为节约资源和加速计算提供了一条有前景的途径,这不仅有利于SSM(大型基础模型),也有利于Transformer和RNN等其他架构。

7.3 可信赖的Mamba模型

SSM(大型基础模型)的发展有望为电子商务、医疗保健和教育等各行各业带来巨大利益。同时,作为像许多现有架构一样依赖数据的模型,Mamba模型可能会对用户和社会构成严重威胁[130]。这些威胁源于诸如决策失误、隐私担忧等多种因素。因此,在四个关键维度[116](安全性与稳健性、公平性、可解释性和隐私性)上确保Mamba模型的可靠性至关重要。

7.3.1 安全性与稳健性。 大型基础模型已被证明极易受到对抗性扰动的影响,当部署在安全性至关重要的应用中时,会危及这些模型的安全性和稳健性[44, 135, 191]。同时,基于Mamba的模型也未能免受这些漏洞的影响[128]。在追求成为Transformer的可靠替代品的过程中,研究和提高基于Mamba的模型的安全性和稳健性至关重要。具体而言,模型输出应对其输入的小扰动具有鲁棒性。一种可能的解决方案是在将提示输入基于Mamba的模型之前,自动对其进行预处理。此外,作为一种代表性技术,对抗性机器训练[78]可用于增强Mamba模型的安全性和稳健性。

7.3.2 公平性。 在大型数据集上训练的大型基础模型往往会无意中接触到广泛训练语料库中存在的偏见和刻板印象,这些偏见和刻板印象会体现在生成的输出中。例如,在LLM(大型语言模型)领域,这些偏见可能会导致受用户属性(如性别和年龄)影响的歧视性回应,从而强化刻板印象并对特定用户群体造成不公平对待[86]。虽然最近已有一些努力来解决LLM中的公平性问题,但在Mamba模型的无歧视性和公平性方面的研究仍存在差距。因此,需要进一步的探索和研究来弥补这一差距。

7.3.3 可解释性。 深度学习模型因其“黑盒”特性而经常受到批评,而深度学习模型的可解释性已成为研究界的一个热门话题,这表明理解并解释模型生成的决策或预测的能力[34]。通过解释模型预测,用户可以根据模型的输出做出更明智的决策。为此,已提出几种技术来为基于注意力机制的神经架构提供合理的内在解释[74]。此外,研究人员还研究了基于Transformer的语言模型生成自然语言描述来解释其答案的能力[214]。尽管越来越多的研究试图充分利用Mamba,但对理解Mamba模型工作原理的研究仍处于初级阶段,仍需进一步研究。

7.3.4 隐私性。 隐私保护在用户与基于Mamba的模型之间建立信任。当用户确信其隐私受到尊重时,他们更有可能与AI系统互动、分享相关信息并寻求帮助,而不用担心其数据被滥用。因此,这种信任对于Mamba模型的广泛采用和接受至关重要。减轻隐私风险的一种有效策略是交叉验证Mamba模型的输出并筛选敏感内容[93]。此外,联邦学习有望在训练Mamba模型期间加强隐私保护,其中模型在包含本地数据样本的众多分散边缘设备或服务器上训练,而无需数据交换。这种方法有助于保持数据的本地化和隐私性。此外,在训练期间整合注重隐私的正则化技术,如差分隐私约束,显示出在防止对敏感数据过拟合方面的潜力。

7.4 将Transformer中的新兴技术应用于Mamba

Transformer作为主流支柱,引领了AI界开发出众多旨在提升基于注意力模型性能的独特工具。幸运的是,通过连接SSM(稀疏自注意力机制)和注意力,Mamba-2[28]引入的SSD(稀疏敏感解码器)框架使我们能够为Transformer和Mamba开发共享的技术词汇表和库。鉴于此,出现了一个重要的未来研究方向,即探索如何有效地将为基于Transformer的模型设计的新兴技术应用于基于Mamba的模型。

7.4.1 参数高效的微调。 大型基础模型通过将其参数扩展到数十亿,已在多个领域取得了突破性进展。然而,当为特定的下游任务定制这些模型时,它们庞大的规模和计算需求带来了巨大的挑战。为此,提出了几种参数高效的微调(PEFT)技术,包括LoRA[72]和Adapter系列[49, 91],这些技术涉及在微调过程中最小化参数调整或减少对大量计算资源的需求。受近期在为使用Transformer层构建的大型语言模型中应用PEFT所取得成果的启发,将PEFT应用于Mamba模型已成为一个引人入胜的话题,旨在拓宽其在下游任务中的应用范围。例如,预计LoRA(低秩自适应)的部署将促进SSD模型的快速微调,从而使Mamba能够在各个领域得到广泛应用。然而,将这些PEFT技术应用于基于Mamba模型的具体实施细节尚未确定,需要进一步研究。

7.4.2 缓解灾难性遗忘。 灾难性遗忘,也称为灾难性干扰,是指在机器学习模型中观察到的一种现象,即当模型在新任务上进行训练时,它们在先前学习任务上的性能会显著下降[92]。这个问题对基础模型构成了挑战,因为它们需要保留预训练任务中的知识,并在不同的下游领域中表现出一致的性能。作为基础模型的一种有前景的架构,Mamba需要对缓解灾难性遗忘问题进行深入研究。最近的研究建议通过奖励最大化和分布匹配策略[96, 97]来封装任务特定需求,以解决这一挑战。此外,还开发了持续学习方法来减轻基于Transformer的语言模型中的灾难性遗忘[90, 187]。通过连接SSM和注意力,这些技术也可以应用于Mamba模型,但尚待深入探索。

7.4.3 检索增强的生成(RAG)。 作为AI中最复杂的技术之一,RAG可以提供可靠且最新的外部知识,为众多任务提供巨大效用[30, 99]。尽管大型语言模型最近展示了突破性的语言理解和生成能力,但它们仍面临幻觉和过时内部知识等固有限制。鉴于RAG提供当前和有价值补充信息的强大能力,检索增强的大型语言模型(LLM)应运而生,它们利用外部知识数据库来提高LLM的生成质量[22]。同样,RAG可以与Mamba语言模型相结合,帮助它们生成高质量的输出,这是一个有前景的未来研究方向。

8 结论

Mamba作为一种新兴的深度学习架构,凭借其强大的建模能力和计算效率,在语言生成、图像分类、推荐系统和药物发现等多个领域均取得了显著成功。近期,越来越多的研究致力于开发具有更强表征学习能力和更低计算复杂度的基于Mamba的深度学习模型。鉴于Mamba的快速发展,迫切需要对其进行系统性的概述。为了填补这一空白,本文全面回顾了Mamba,重点介绍了其架构进展、数据适应性和应用领域,为研究人员提供了对Mamba最新发展的深入理解和概览。此外,鉴于Mamba的研究仍处于起步阶段,我们还讨论了当前的局限性,并指出了未来研究的有前景的方向。


原文地址:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142713147

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!