扩散模型的最新进展彻底改变了音频驱动的头部说话合成。除了精确的唇形同步之外,基于扩散的方法还擅长生成与音频信号良好匹配的微妙表情和自然头部运动。然而,这些方法面临着推理速度慢、对面部运动的细粒度控制不足以及偶尔出现视觉伪影的问题,这主要是由于变分自动编码器(VAE)衍生的隐式潜在空间,这阻碍了它们在实时交互应用中的采用 ...

0 0 0 0 2025/01/15 arXiv:2411.19509v2 bnexx

规模是构建强大的基础模型的主要因素,该模型可以很好地推广到各种下游任务。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频掩码自动编码器(VideoMAE)是一种可扩展的通用自监督预训练器,用于构建视频基础模型 ...

0 0 0 0 2025/01/09 arXiv:2303.16727v2 bnexx

说话脸部生成 (TFG) 旨在使目标身份的脸部动画化,以创建逼真的说话视频。个性化TFG是一种强调合成结果的感知身份相似性的变体(从外表和说话风格的角度)。虽然以前的工作通常通过为每个身份学习单独的神经辐射场(NeRF)来隐式存储其静态和动态信息来解决这个问题,但我们发现由于每个身份每个训练框架和有限的训练数据 ...

0 0 0 0 2024/12/11 arXiv:2410.06734v2 bnexx

最近的人类动画工作通常涉及音频、姿势或运动映射条件,从而实现生动的动画质量。然而,由于额外的控制条件、繁琐的条件注入模块或头部区域驱动的限制,这些方法经常面临实际挑战。因此,我们想知道是否有可能在简化不必要的条件的同时实现引人注目的半身人体动画 ...

0 0 0 0 2024/11/22 arXiv:2411.10061v1 bnexx

在这项工作中,我们提出了一种高保真脸部交换方法,称为 HifiFace,它可以很好地保留源脸部的脸部形状并生成照片般逼真的结果。与其他现有的仅使用人脸识别模型来保持身份相似性的人脸交换工作不同,我们提出了 3D 形状感知身份,通过 3DMM 和 3D 人脸重建方法的几何监督来控制人脸形状。同时,我们引入了语义面部融合模块来优化编码器和解码器特征的组合并进行自适应混合,这使得结果更加逼真 ...

0 0 0 0 2024/11/09 arXiv:2106.09965v1 bnexx

对于音频驱动的视觉配音来说,在合成准确的唇形同步的同时维护和突出演讲者的角色仍然是一个相当大的挑战。现有方法无法捕捉说话者独特的说话风格或保留面部细节。在本文中,我们提出了 PersonaTalk,一个基于注意力的两阶段框架,包括几何构造和面部渲染,用于高保真和个性化的视觉配音 ...

0 0 0 0 2024/10/29 arXiv:2409.05379v1 bnexx

随着基于扩散的视频生成技术的引入,音频调节的人类视频生成最近在运动的自然度和肖像细节的合成方面取得了重大突破。由于对驱动人体运动的音频信号的控制有限,现有方法经常添加辅助空间信号来稳定运动,这可能会损害运动的自然性和自由度。在本文中,我们提出了一种名为 Loopy 的端到端纯音频条件视频扩散模型 ...

0 0 0 0 2024/10/23 arXiv:2409.02634v2 bnexx

音频驱动的说话面孔生成在数字人类研究领域引起了极大的兴趣。现有的方法受到复杂模型架构的阻碍,这些模型架构相互依赖,使重新编辑图像或视频输入的过程变得复杂。在这项工作中,我们提出了 ControlTalk,一种基于驱动音频控制面部表情变形的说话面部生成方法,它可以以统一的方式为单个图像或顺序视频输入构建头部姿势和面部表情,包括嘴唇运动 ...

0 0 0 0 2024/10/23 arXiv:2406.02880v1 bnexx

鉴于自动机器翻译系统最近取得的突破,我们提出了一种称为“面对面翻译”的新颖方法。随着当今的数字通信变得越来越视觉化,我们认为需要一种能够自动将使用语言 A 说话的人的视频翻译成目标语言 B 并具有逼真的唇形同步的系统。在这项工作中,我们为这个问题创建了一个自动管道,并展示了它对多个实际应用程序的影响 ...

0 0 0 0 2024/09/24 arXiv:2003.00418v1 bnexx

我们提出语义区域自适应归一化(SEAN),这是一种简单但有效的生成对抗网络构建块,以描述所需输出图像中语义区域的分割掩模为条件。使用 SEAN 标准化,我们可以构建一个可以单独控制每个语义区域的风格的网络架构,例如 ...

0 0 0 0 2024/08/20 arXiv:1911.12861v2 bnexx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)