对于音频驱动的视觉配音来说,在合成准确的唇形同步的同时维护和突出演讲者的角色仍然是一个相当大的挑战。现有方法无法捕捉说话者独特的说话风格或保留面部细节。在本文中,我们提出了 PersonaTalk,一个基于注意力的两阶段框架,包括几何构造和面部渲染,用于高保真和个性化的视觉配音 ...
随着基于扩散的视频生成技术的引入,音频调节的人类视频生成最近在运动的自然度和肖像细节的合成方面取得了重大突破。由于对驱动人体运动的音频信号的控制有限,现有方法经常添加辅助空间信号来稳定运动,这可能会损害运动的自然性和自由度。在本文中,我们提出了一种名为 Loopy 的端到端纯音频条件视频扩散模型 ...
音频驱动的说话面孔生成在数字人类研究领域引起了极大的兴趣。现有的方法受到复杂模型架构的阻碍,这些模型架构相互依赖,使重新编辑图像或视频输入的过程变得复杂。在这项工作中,我们提出了 ControlTalk,一种基于驱动音频控制面部表情变形的说话面部生成方法,它可以以统一的方式为单个图像或顺序视频输入构建头部姿势和面部表情,包括嘴唇运动 ...
鉴于自动机器翻译系统最近取得的突破,我们提出了一种称为“面对面翻译”的新颖方法。随着当今的数字通信变得越来越视觉化,我们认为需要一种能够自动将使用语言 A 说话的人的视频翻译成目标语言 B 并具有逼真的唇形同步的系统。在这项工作中,我们为这个问题创建了一个自动管道,并展示了它对多个实际应用程序的影响 ...
sean(sean),这是一种简单但有效的生成对抗网络构建块,以描述所需输出图像中语义区域的分割掩模为条件。使用,sean标准化,我们可以构建一个可以单独控制每个语义区域的风格的网络架构 ...
我们提出了一个基于样本的图像翻译的通用框架,在给定样本图像的情况下,该框架根据不同域(例如语义分割掩模、边缘图或姿势关键点)中的输入合成逼真的图像 ...
随着最近在学习深度生成模型方面取得的显着进展,开发用于从可重构输入进行可控图像合成的模型变得越来越有趣。本文重点关注最近出现的一项任务,即布局到图像,以学习能够从空间布局(即空间布局)合成照片级真实感图像的生成模型 ...
尽管最近取得了成功,但用于语义图像合成的 GAN 模型在仅使用对抗性监督进行训练时仍然存在图像质量较差的问题。从历史上看,额外采用基于 VGG 的感知损失有助于克服这个问题,显着提高合成质量,但同时限制了 GAN 模型在语义图像合成方面的进展。在这项工作中,我们提出了一种新颖、简化的 GAN 模型,该模型只需要对抗性监督即可获得高质量的结果 ...
我们提出了空间自适应布局,这是一个简单但有效的层,用于在给定输入语义布局的情况下合成感知真实图像。以前的方法直接将语义布局作为深度网络的输入,然后通过我们表明,这是次优的,因为规范化层往往会“冲走”语义信息... ...
野外面部表情识别(FER)是一项极具挑战性的任务。最近,一些视觉 Transformer (ViT)被探索用于 FER,但与卷积神经网络(CNN)相比,大多数表现较差。这主要是因为新提出的模块由于缺乏归纳偏差而很难从头开始很好地收敛,并且容易集中在遮挡和噪声区域 ...