arxiv UniFormer: Unifying Convolution and Self-attention for Visual Recognition

名称
UniFormer: Unifying Convolution and Self-attention for Visual Recognition
首页
https://yiyibooks.cn/arxiv/2201.09450v3/index.html
原始地址
https://arxiv.org/pdf/2201.09450
描述
由于这些视觉数据中存在大量的局部冗余和复杂的全局依赖性,从图像和视频中学习判别性表示是一项具有挑战性的任务。卷积神经网络(CNN)和视觉变换器(ViT)是过去几年的两个主要框架。尽管 CNN 可以通过小邻域内的卷积有效地减少局部冗余,但有限的感受野使其难以捕获全局依赖性 ...