arxiv VSSD: Vision Mamba with Non-Causal State Space Duality

名称
VSSD: Vision Mamba with Non-Causal State Space Duality
首页
https://yiyibooks.cn/arxiv/2407.18559v2/index.html
原始地址
https://arxiv.org/pdf/2407.18559
描述
视觉转换器极大地推进了计算机视觉领域的发展,提供了强大的建模能力和全局感受野。然而,它们的高计算要求限制了它们在处理长序列方面的适用性。为了解决这个问题,状态空间模型(SSM)在视觉任务中获得了突出的地位,因为它们提供了线性计算复杂性。最近,Mamba2 中引入了状态空间对偶 (SSD),这是 SSM 的改进变体,以增强模型性能和效率。然而,SSD/SSM 固有的因果性质限制了它们在非因果视觉任务中的应用。为了解决这个限制,我们引入了视觉状态空间对偶(VSSD)模型,它具有 SSD 的非因果格式。具体来说,我们建议丢弃隐藏状态和 Token 之间相互作用的大小,同时保留它们的相对权重,这减轻了 Token 贡献对先前 Token 的依赖性。再加上多扫描策略的参与,我们表明可以整合扫描结果以实现非因果关系,这不仅提高了SSD在视觉任务中的性能,而且还提高了其效率。我们对各种基准进行了广泛的实验,包括图像分类、检测和分割,其中 VSSD 超越了现有最先进的基于 SSM 的模型。代码和权重可在 \url{此 https URL} 中找到 ...