音频驱动的人脸识别最近引起了学术界和工业界的广泛兴趣。然而,音频驱动的说话面孔中的数据采集和标记是劳动密集型且成本高昂的。数据资源缺乏导致合成效果不佳 ...
0 0 0 2024/05/04 arXiv:2303.05322v1 ForrestPi
对于少镜头学习来说,在高分辨率视频上实现逼真的人脸视觉配音仍然是一个严峻的挑战。以往的作品未能产生高保真的配音效果。为了解决上述问题,本文提出了一种用于高分辨率人脸视觉配音的变形修复网络(DINet) ...
0 0 0 2024/05/04 arXiv:2303.03988v1 ForrestPi
协同语音手势如果以生动的视频形式呈现,可以在人机交互中达到优异的视觉效果。虽然之前的作品大多生成结构性人体骨骼,导致外观信息的遗漏,但我们在本作品中专注于直接生成音频驱动的协同语音手势视频。存在两个主要挑战:1)需要合适的运动特征来描述具有关键外观信息的复杂人体运动 ...
0 0 0 2024/05/04 arXiv:2404.01862v1 ForrestPi
基于 NeRF 的 3D 感知生成对抗网络 (GAN)(例如 EG3D 或 GIRAFFE)在大量表征多样性下表现出了非常高的渲染质量。然而,使用神经辐射场进行渲染给 3D 应用带来了挑战:首先,NeRF 渲染的巨大计算需求阻碍了其在低功耗设备上的使用,例如手机和 VR/AR 耳机。其次,基于神经网络的隐式表示很难融入显式 3D 场景,例如 VR 环境或视频游戏 ...
0 0 0 2024/05/04 arXiv:2404.10625v1 ForrestPi
图是表示社会和自然中各种实体及其复杂关系的基本数据模型,例如社交网络、交通网络、金融网络和生物医学系统。最近,大型语言模型(LLM)表现出了强大的泛化能力,可以处理各种自然语言处理和多模式任务,以回答用户的任意问题和特定领域的内容生成。与图学习模型相比, LLM 通过消除训练图学习模型的需要并降低手动注释的成本,在解决泛化图任务的挑战方面具有优越的优势 ...
0 0 0 2024/05/04 arXiv:2404.14809v1 huang_k
近年来,音频驱动的 3D 面部动画受到了广泛关注,特别是在虚拟现实、游戏和视频会议等应用中。然而,准确地建模复杂而微妙的面部表情动态仍然是一个挑战。大多数现有研究将面部动画任务视为单一回归问题,往往无法捕获语音信号和 3D 面部动画之间内在的模态间关系,并忽视它们固有的一致性 ...
0 0 0 2024/05/04 arXiv:2311.04766v2 ForrestPi
我们提出了一种新方法,可以将量子计算的规模扩展到单个设备上可用的物理量子位的数量之外。这是通过随机插入测量和准备通道来将大型电路的输出状态表示为跨不同设备的可分离状态来实现的。我们的方法采用随机测量,导致样本开销为 $\widetilde{O}(4^k / \varepsilon ^2)$,其中 $\varepsilon $ 是计算的准确性,$k$ 是并行数量被“切割”以获得更小的子电路的电线 . ...
0 0 0 2024/05/04 arXiv:2207.14734v2 oracle
有限的量子存储器是近期量子设备最重要的限制之一。了解小型量子计算机是否可以模拟更大的量子系统,或者执行需要比可用量子位更多的算法,具有重要的理论和实践意义。在这封信中,我们介绍了量子电路的簇参数 $K$ 和 $d$ ...
0 0 0 2024/05/04 arXiv:1904.00102v2 oracle

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)