鉴于自动机器翻译系统最近取得的突破,我们提出了一种称为“面对面翻译”的新颖方法。随着当今的数字通信变得越来越视觉化,我们认为需要一种能够自动将使用语言 A 说话的人的视频翻译成目标语言 B 并具有逼真的唇形同步的系统。在这项工作中,我们为这个问题创建了一个自动管道,并展示了它对多个实际应用程序的影响 ...
sean(sean),这是一种简单但有效的生成对抗网络构建块,以描述所需输出图像中语义区域的分割掩模为条件。使用,sean标准化,我们可以构建一个可以单独控制每个语义区域的风格的网络架构 ...
我们提出了一个基于样本的图像翻译的通用框架,在给定样本图像的情况下,该框架根据不同域(例如语义分割掩模、边缘图或姿势关键点)中的输入合成逼真的图像 ...
随着最近在学习深度生成模型方面取得的显着进展,开发用于从可重构输入进行可控图像合成的模型变得越来越有趣。本文重点关注最近出现的一项任务,即布局到图像,以学习能够从空间布局(即空间布局)合成照片级真实感图像的生成模型 ...
尽管最近取得了成功,但用于语义图像合成的 GAN 模型在仅使用对抗性监督进行训练时仍然存在图像质量较差的问题。从历史上看,额外采用基于 VGG 的感知损失有助于克服这个问题,显着提高合成质量,但同时限制了 GAN 模型在语义图像合成方面的进展。在这项工作中,我们提出了一种新颖、简化的 GAN 模型,该模型只需要对抗性监督即可获得高质量的结果 ...
我们提出了空间自适应布局,这是一个简单但有效的层,用于在给定输入语义布局的情况下合成感知真实图像。以前的方法直接将语义布局作为深度网络的输入,然后通过我们表明,这是次优的,因为规范化层往往会“冲走”语义信息... ...
野外面部表情识别(FER)是一项极具挑战性的任务。最近,一些视觉 Transformer (ViT)被探索用于 FER,但与卷积神经网络(CNN)相比,大多数表现较差。这主要是因为新提出的模块由于缺乏归纳偏差而很难从头开始很好地收敛,并且容易集中在遮挡和噪声区域 ...
面部表情识别(FER)在计算机视觉领域受到越来越多的关注。我们提出了 TransFER 模型,它可以学习丰富的关系感知局部表示。它主要由三个组件组成:Multi-Attention Dropping (MAD)、ViT-FER 和 Multi-head Self-Attention Dropping (MSAD) ...
重建个性化的可动画头部头像在 AR/VR 领域具有重大意义。实现 3D 可变形模型 (3DMM) 的显式面部控制的现有方法通常依赖于单个主题的多视图图像或视频,使得重建过程变得复杂。此外,传统的渲染管道非常耗时,限制了实时动画的可能性 ...
计算机视觉中的一个经典问题是从少量图像中推断出 3D 场景表示,这些图像可用于以交互速率渲染新颖的视图。之前的工作重点是重建预定义的 3D 表示,例如 ...