- 名称
- UniFormer: Unifying Convolution and Self-attention for Visual Recognition
- 描述
由于这些视觉数据中存在大量的局部冗余和复杂的全局依赖性,从图像和视频中学习判别性表示是一项具有挑战性的任务。卷积神经网络(CNN)和视觉变换器(ViT)是过去几年的两个主要框架。尽管 CNN 可以通过小邻域内的卷积有效地减少局部冗余,但有限的感受野使其难以捕获全局依赖性 ...
由于这些视觉数据中存在大量的局部冗余和复杂的全局依赖性,从图像和视频中学习判别性表示是一项具有挑战性的任务。卷积神经网络(CNN)和视觉变换器(ViT)是过去几年的两个主要框架。尽管 CNN 可以通过小邻域内的卷积有效地减少局部冗余,但有限的感受野使其难以捕获全局依赖性 ...