Mamba(Gu & Dao, 2024)是基于选择性状态空间模型(SSM) 的序列模型,核心优势是线性时间 / 内存复杂度(O (L)),通过输入依赖的选择性扫描(Selective Scan)实现长序列建模,原本设计用于 NLP 任务。其核心机制与局限如下:

  • 核心机制:通过动态调整 SSM 参数(Δ、B、C),选择性传播 / 遗忘序列信息,避免 Transformer 的二次复杂度;

  • 局限

    1. 仅支持 1D 序列处理,无法直接适配 2D 图像(图像无固有 “顺序”,需空间感知);

    2. 无位置嵌入,缺乏视觉任务必需的空间位置信息;

    3. 单向建模,难以捕捉图像中双向全局上下文(如目标与背景的双向依赖)。

三个改进模型均以 “适配视觉任务” 为目标,围绕2D 数据处理、空间感知、全局上下文三大痛点优化,但技术路径差异显著

1. VMamba(Liu et al., 2024):纯 SSM 的 2D 适配

核心改动:解决 “1D SSM→2D 图像” 的维度鸿沟
  • 2D 选择性扫描(SS2D)
    通过四向 Cross-Scan(左上→右下、右上→左下、水平、垂直)将 2D 图像拆分为 4 个 1D 序列,每个序列用独立 S6 块(Mamba 核心)处理,再通过 Cross-Merge 合并为 2D 特征图,实现全局空间信息覆盖(图 1);

  • 简化 VSS 块
    去除 Mamba 的乘法分支(SS2D 已实现选择性门控),改为 “单分支 + 残差” 结构,加入 MLP 和 Depthwise Conv(DWConv)增强空间局部建模;

  • 层级架构
    4 个 stage 逐步下采样(输入→1/4→1/8→1/16→1/32 分辨率),适配视觉任务的多尺度需求(如小目标依赖高分辨率,语义依赖低分辨率);

  • 工程优化
    用 Triton 重写 Cross-Scan/Merge、替换 einsum 为线性变换、采用 (B,C,H,W) 数据格式减少维度变换,吞吐量提升至 1686 img/s(A100,224×224)。

关键优势:纯 SSM 架构,无额外模块(如 Transformer),吞吐量最高。
(1)四向扫描存在冗余计算,边缘设备算力承压

VMamba 的SS2D 四向扫描(水平 / 垂直 / 双对角线) 虽覆盖空间信息,但在无人机低空飞行(目标以水平 / 垂直分布为主,如农田作物行、电力线)或车载前视场景(目标多沿水平方向排列,如前车、行人)中,对角线扫描的信息增益有限,却增加 30%+ 计算量。例如在 Jetson Nano(低端嵌入式 GPU)上,四向扫描导致 VMamba-Tiny 延迟从 28ms→45ms,超出实时跟踪需求(<50ms)。

(2)依赖 DWConv 补空间信息,低算力设备效率低

VMamba 通过Depthwise Conv(3×3) 强化局部建模,但 DWConv 的 “逐通道卷积 + 1×1 融合” 在嵌入式设备上缺乏硬件加速支持(如 Jetson 系列对普通 Conv 优化更好,对 DWConv 加速比仅为 1.2×,远低于普通 Conv 的 2.5×)。在车载实时检测中,DWConv 占 VSS 块总延迟的 40%,成为瓶颈。

(3)无位置嵌入,小目标定位精度不足

VMamba 未设计位置编码,仅靠 SS2D 的空间扫描隐含位置信息,导致小目标(如无人机巡检的绝缘子、车载远距离行人)定位偏差。实验中,VMamba-Tiny 在 COCO 小目标(<32×32 像素)AP 仅为 26.1%,比带位置嵌入的 Vim 低 5.2 个百分点,无法满足无人机精细检测需求。

(4)工程优化依赖 Triton,嵌入式部署兼容性差

VMamba 的 Cross-Scan/Merge 依赖 Triton 框架优化,但无人机 / 车载常用的嵌入式系统(如 NVIDIA JetPack、QNX)对 Triton 支持有限,需额外移植适配,且移植后吞吐量下降 20%(从 1686 img/s→1350 img/s),增加部署成本。

2. Vim(Zhu et al., 2024):纯 SSM 的双向与位置感知

核心改动:解决 “单向建模→空间位置敏感” 的视觉需求
  • 双向 SSM
    每个 Vim 块同时处理 “正向(左→右、上→下)” 和 “反向(右→左、下→上)” 序列,融合双向上下文,解决 Mamba 单向建模的全局信息缺失;

  • 位置嵌入(E_pos)
    借鉴 ViT 的类 token(class token)和位置嵌入,补充图像的空间位置信息,提升密集预测任务(检测 / 分割)性能;

  • 长序列微调
    预训练后用 “stride=8 的 patch 提取” 微调,增强高分辨率图像(如 1248×1248)处理能力,内存复杂度仍保持线性;

  • 纯 SSM 设计
    无卷积 / 注意力模块,保持模态无关性(可扩展多模态),高分辨率下(1248×1248)比 DeiT 快 2.8 倍、省 86.8% GPU 内存。

关键优势:内存效率最优,适合超高分率目标跟踪。
(1)双向 SSM 双倍序列处理,延迟偏高

Vim 的 “正向 + 反向” 双向扫描需对同一图像处理两次序列,虽内存省,但延迟比同规模 VMamba 高 40%。例如 Vim-S 在 Jetson AGX Orin 上处理 1248×1248 图像延迟达 65ms,超出车载 AEB(自动紧急制动)的 50ms 实时阈值,易导致决策滞后。

(2)纯 SSM 缺乏局部细节建模,小目标特征模糊

Vim 无任何卷积 / 局部模块,仅靠 SSM 的序列建模捕捉空间细节,导致小目标(如无人机检测的鸟类、车载的交通标志)特征提取不充分。在 ADE20K 小目标分割(如路灯、井盖)中,Vim-S 的 mIoU 仅为 38.7%,比带 DWConv 的 VMamba 低 6.3 个百分点。

(3)长序列微调模型体积大,嵌入式存储不足

Vim 的长序列微调(stride=8)需保留更多 SSM 状态参数,导致模型体积从 26M→38M,而无人机 / 车载嵌入式设备的存储通常有限(如 Jetson Nano 仅 16GB eMMC),若同时部署检测 + 跟踪模型,易出现存储溢出。

(4)位置嵌入固定,动态分辨率适配差

Vim 的位置嵌入是预定义的固定尺寸(如 224×224→56×56),当无人机高度变化导致输入分辨率从 1248×1248→640×640 时,需对位置嵌入插值缩放,导致位置信息失真,跟踪精度下降 8.5%(如车载跟踪前车时,分辨率骤降导致目标框漂移)。

3. MambaVision(Hatamizadeh & Kautz, 2025):Mamba+Transformer 混合架构

核心改动:解决 “纯 SSM→全局上下文捕捉不足”
  • 混合架构设计
    4 个 stage 分阶段优化:

    1. 前两阶段:CNN 残差块(3×3 Conv+BN+GELU)快速下采样,高分辨率特征提取比纯 SSM 更高效;

    2. 后两阶段:MambaVision Mixer(改进 Mamba 块)+ Transformer 注意力

      • Mixer:替换 Mamba 的因果卷积为普通卷积,新增 “非 SSM 对称分支”(Conv+SiLU),两分支 concatenate 融合,避免 SSM 的序列约束丢失空间信息;

      • 注意力:最后 N/2 层用窗口自注意力(stage3 窗口 14,stage4 窗口 7),补充纯 SSM 缺失的全局上下文;

  • 大规模预训练
    首推 Mamba 类模型在 ImageNet-21K 预训练,支持大模型(L3 达 739.6M 参数),512×512 分辨率 Top1 精度达 88.1%;

  • 动态窗口适配
    窗口大小随分辨率调整,平衡局部细节与全局依赖,下游任务(如 COCO 检测)AP 比 Swin-B 高 0.9%。

关键优势:精度最高,混合架构兼顾 SSM 效率与 Transformer 全局建模能力。
(1)混合架构复杂,嵌入式算力难以承载

MambaVision 融合 CNN、SSM、Transformer,参数多(L3 模型 739M),在 Jetson AGX Orin 上推理延迟达 90ms,远超无人机 / 车载的实时需求;且内存占用达 12GB,接近 Jetson AGX Orin 的 16GB 内存上限,无法同时处理多帧序列(如跟踪的 3 帧滑动窗口)。

(2)Transformer 注意力计算冗余,高速场景不适用

Stage3-4 的窗口注意力虽补全局信息,但每个窗口的计算仍为 O (W²D)(W 为窗口大小),在车载高速场景(如 120km/h,需处理高帧率 30fps)中,注意力占总延迟的 45%,导致整体帧率降至 22fps,目标跟踪易丢帧。

(3)BatchNorm 在单帧推理时效果差

MambaVision 前两阶段用 BatchNorm,但无人机 / 车载多为单帧推理(batch=1),BatchNorm 的移动平均统计与真实单帧分布偏差大,导致低层级特征提取精度下降,COCO 检测 AP 从 51.2%→47.8%(单帧 vs 批量)。

Logo

智能硬件社区聚焦AI智能硬件技术生态,汇聚嵌入式AI、物联网硬件开发者,打造交流分享平台,同步全国赛事资讯、开展 OPC 核心人才招募,助力技术落地与开发者成长。

更多推荐