受益于强大的卷积神经网络(CNN),基于学习的图像修复方法多年来取得了重大突破。然而,CNN 的某些性质(例如 ...
重建退化图像是图像处理中的一项关键任务。尽管基于 CNN 和 Transformer 的模型在该领域很普遍,但它们表现出固有的局限性,例如远程依赖建模不足和计算成本较高。为了克服这些问题,我们引入了通道感知 U 形 Mamba (CU-Mamba) 模型,它将双状态空间模型 (SSM) 框架合并到 U-Net 架构中 ...
扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,特别是在基于 Transformer 的结构中。在本研究中,我们的目标是利用称为 Mamba 的状态空间模型的长序列建模功能,将其适用性扩展到视觉数据生成。首先,我们发现大多数当前基于 Mamba 的视觉方法存在一个关键的疏忽,即 Mamba 扫描方案中缺乏对空间连续性的考虑 ...
永乐宫壁画作为宝贵的文化遗产,遭受了不同程度的破坏,修复具有重要意义。然而,永乐宫壁画的巨大体量和独特的数据对现有的基于深度学习的修复方法提出了挑战:1)独特的风格在传统的基于迁移学习的修复方法中引入了领域偏差,而壁画数据的稀缺进一步限制了其适用性这些方法。 2)此外,这些壁画的巨大尺寸导致了更广泛的缺陷类型和尺寸,需要具有更大适应性的模型 ...
受编码器-解码器架构的限制,基于学习的边缘检测器通常难以预测同时满足正确性和清晰度的边缘图。随着扩散概率模型(DPM)最近的成功,我们发现它特别适合精确和清晰的边缘检测,因为去噪过程直接应用于原始图像尺寸。因此,我们提出了第一个用于一般边缘检测任务的扩散模型,我们称之为 DiffusionEdge ...
我们提出了一种基于离散潜在代码生成框架的大掩模多元图像修复方法。我们的方法通过仅在图像的可见位置执行计算来学习潜在先验,离散化为标记。这是通过一个限制性部分编码器来实现的,该编码器预测每个可见块的 Token 标签,一个双向变换器,仅通过查看这些 Token 来推断丢失的标签,以及一个专用合成网络,该网络将 Token 与部分图像先验耦合以生成相干的即使在极端的掩模设置下也能获得多元化的完整图像 ...
图像增强算法对于现实世界的计算机视觉任务非常有用,其中图像分辨率通常受到传感器尺寸的物理限制。虽然最先进的深度神经网络在图像增强方面显示出令人印象深刻的结果,但它们通常难以增强现实世界的图像。在这项工作中,我们解决了一个现实世界的场景:敦煌石窟图像的修复 ...
现有的图像修复方法利用基于卷积的下采样方法来减少空间维度。这可能会导致损坏图像中的信息丢失,其中可用信息本质上是稀疏的,特别是对于大面积缺失区域的情况。 Transformer 内自注意力机制的最新进展导致了包括修复在内的许多计算机视觉任务的显着改进 ...
基于 Transformer 的方法最近在图像修复方面取得了巨大的成功。然而,我们发现这些解决方案将每个像素视为一个 Token ,因此存在两个方面的信息丢失问题:1)出于效率考虑,它们将输入图像下采样为更低的分辨率。 2) 它们将 $256^3$ RGB 值量化为少量(例如 512)个量化颜色值 ...
近年来,《变形金刚》在多元图像修复方面取得了巨大成功。然而,我们发现现有的基于 Transformer 的解决方案将每个像素视为一个 Token ,因此存在两个方面的信息丢失问题:1)出于效率考虑,它们将输入图像下采样到更低的分辨率,从而导致信息丢失和边界的额外未对准。屏蔽区域。 2) 它们将 $256^3$ RGB 像素量化为少量(例如 512)个量化像素 ...