结构神经网络(ConvNet)通常是在固定的资源预算下开发的,然后在有更多资源可用时进行扩展以获得更高的精度。在论文中,我们系统地研究了模型缩放,并仔细发现平衡网络深度、宽度和分辨率可以带来更好的性能。基于这一观察,我们提出了一种高效的新的缩放方法,使用简单而复合的方法来统一缩放深度/宽度/分辨率的所有维度... ...
超分辨率生成对抗网络(SRGAN)是一项开创性的工作,能够在单图像超分辨率期间生成逼真的纹理。然而,幻觉的细节常常伴随着令人不快的伪影。为了进一步提高视觉质量,我们深入研究了 SRGAN 的三个关键组成部分 - 网络架构、对抗性损失和感知损失,并对它们进行改进以得出增强型 SRGAN(ESRGAN) ...
尽管使用更快、更深的卷积神经网络在单图像超分辨率的准确性和速度方面取得了突破,但一个核心问题在很大程度上仍未解决:当我们以大的放大因子进行超分辨率时,如何恢复更精细的纹理细节?基于优化的超分辨率方法的行为主要由目标函数的选择驱动。最近的工作主要集中在最小化均方重建误差。由此产生的估计具有较高的峰值信噪比,但它们通常缺乏高频细节,并且在感知上不令人满意,因为它们无法匹配更高分辨率下预期的保真度... ...
人们普遍认为,深度网络的成功训练需要数千个带注释的训练样本。在本文中,我们提出了一种网络和策略,该策略依赖于数据增强的强力使用来更有效地使用可用的带注释样本。该架构由捕获上下文的收缩路径和实现精确定位的精确扩展路径组成... ...
在本文中,我们描述了一种新的移动架构 MobileNetV2,它提高了移动模型在多个任务和基准测试以及各种不同模型大小上的最先进性能。我们还描述了在我们称为 SSDLite 的新颖框架中将这些移动模型应用于对象检测的有效方法。此外,我们还演示了如何通过 DeepLabv3 的简化形式(我们称之为 Mobile DeepLabv3)构建移动语义分割模型 ...
我们提出了一种新颖的联结文本提示网络(CTPN),可以准确定位自然图像中的文本行。CTPN直接在结构特征中检测一系列精细文本提示中的文本行。我们开发了一种垂直图像锚点机制,可以联合预测每个固定宽度模板的位置和文本/非得分文本,从而显着提高定位精度... ...
基于图像的序列识别一直是计算机视觉领域的一个长期研究课题。在本文中,我们研究了场景文本识别问题,这是基于图像的序列识别中最重要和最具挑战性的任务之一。提出了一种新颖的神经网络架构,它将特征提取、序列建模和转录集成到一个统一的框架中 ...
特征金字塔是用于检测不同尺度的物体的识别系统的基本组成部分。但最近的深度学习目标检测器已经避免了金字塔表示,部分原因是它们是计算和内存密集型的。在本文中,我们利用深度卷积网络固有的多尺度金字塔层次结构以边际额外成本构建特征金字塔... ...
我们提出了基于区域的全地形网络,用于准确有效的目标检测。与之前的基于区域的检测器(例如Fast/Faster R-CNN)相比,它应用了数百次昂贵的每个区域在网络上,我们基于区域的检测器是完全的,几乎所有计算都在整个图像上共享。为了实现这个目标,我们提出了位置敏感的分数图来解决图像分类中的平移不变性和对象检测中的平移之间的困境... ...
由于其构建模块中的固定几何结构,卷积神经网络(CNN)本质上仅限于建模几何变换。在这项工作中,我们引入了两个新模块来增强 CNN 的变换建模能力,即可变形卷积和可变形 RoI 池化。两者都基于这样的想法:通过额外的偏移量来增强模块中的空间采样位置,并从目标任务中学习偏移量,而无需额外的监督 ...