在这项工作中,我们提出了一个保留ID的头部说话生成框架,该框架在两个方面改进了以前的方法。首先,与稀疏流中插值相反,指定密集的地标以实现准确其次,受人脸交换方法的启发,我们在合成过程中自适应地融合源恒等式,使网络更好地保留图像肖像的关键特征... ...
一次性视频驱动的说话脸部生成旨在通过将面部运动从视频转移到任意肖像图像来生成合成说话视频。头部姿势和面部表情总是与面部运动纠缠在一起并同时转移。然而,这种纠缠为这些方法直接用于视频人像编辑设置了障碍,可能需要在保持姿势不变的情况下仅修改表情 ...
实现对多种面部动作的分离控制并适应不同的输入方式极大地增强了头部说话一代的应用和娱乐性。这就需要深入探索面部特征的解耦空间,确保它们a)独立运行而不会相互干扰,b)可以保留以与不同的模态输入共享,这两方面在现有方法中经常被忽视。为了解决这一差距,本文提出了一种新颖的对话头生成高效解缠框架(EDTalk) ...
生成对抗网络 (GAN) 可以生成高质量的图像,但训练起来却很困难。它们需要仔细的正则化、大量的计算和昂贵的超参数扫描。通过将生成的样本和真实的样本投影到固定的预训练特征空间中,我们在这些问题上取得了重大进展 ...
通过视觉信号动画化的头部头像已经很受欢迎,特别是在所有权与动画角色不同的该交叉操作合成中,这是一种具有挑战性但非常实用的方法。最近推出的 MegaPortraits 模型展示了我们对该模型进行了深入的审视和评估,特别关注其面部表情动作的潜在空间,并揭示了其表达强烈面部运动能力的一些制约... ...
我们提出了一种新颖的一次性头部说话合成方法,可以实现对嘴唇运动、眼睛注视和眨眼、头部姿势和情绪表达的解开和细粒度控制。我们通过解开的潜在表示来表示不同的运动,并利用图像生成器从它们中合成会说话的头像。为了有效地解开每个运动因素,我们通过以从粗到细的方式分离因素,提出了一种渐进式解开表示学习策略,其中我们首先从驱动信号中提取统一的运动特征,然后将每个细粒度的运动从驱动信号中分离出来。统一的功能 ...
为了生成逼真的头部说话,在保持准确的嘴唇同步的同时创建自然的头部运动至关重要。为了完成这项具有挑战性的任务,我们提出了 DisCoHead,这是一种无需监督即可解开和控制头部姿势和面部表情的新颖方法。 DisCoHead 使用单个几何变换作为瓶颈,从头部驱动视频中分离和提取头部运动 ...
Transformer 和多层感知器 (MLP) 模型的最新进展为计算机视觉任务提供了新的网络架构设计。尽管这些模型被证明在图像识别等许多视觉任务中是有效的,但将它们适应低级视觉仍然存在挑战。支持高分辨率图像的不灵活性和局部注意力的限制可能是主要瓶颈 ...
修饰图像是增强照片视觉吸引力的重要方面。尽管用户通常具有共同的审美偏好,但他们的修饰方法可能会根据个人喜好而有所不同。因此,需要一种白盒方法来产生令人满意的结果,并使用户能够同时方便地编辑图像 ...
几乎所有先进的面部交换方法都使用重建作为代理任务,即仅当目标和源属于同一个人时才存在监督 ...