我们提出了一种新的测试时间优化方法,用于估计视频序列中的密集和长距离运动。现有的光流或粒子视频跟踪算法通常在有限的时间窗口内运行,难以通过遮挡进行跟踪并保持估计运动轨迹的全局一致性。我们提出了一种完整且全局一致的运动表示,称为 OmniMotion,它可以对视频中的每个像素进行准确、全长的运动估计 ...
0 0 0 2024/05/05 arXiv:2306.05422v2 Eny530
尽管最近取得了成功,但基于深度学习的预测身体运动下 3D 服装变形的方法仍面临着服装和身体之间的相互渗透问题。为了解决这个问题,我们提出了一种新颖的碰撞处理神经网络层,称为斥力单元(ReFU)。基于底层身体的有符号距离函数 (SDF) 和当前服装顶点位置,ReFU 可以预测每个顶点的偏移量,从而将任何互穿顶点推向无碰撞配置,同时保留精细的几何细节 ...
0 0 0 2024/05/05 arXiv:2207.13871v2 ForrestPi
Radiance fields 在合成逼真的 3D 头部说话方面表现出了令人印象深刻的性能。然而,由于难以拟合陡峭的外观变化,通过直接修改点外观来呈现面部运动的流行范例可能会导致动态区域的扭曲。为了应对这一挑战,我们引入了 TalkingGaussian,这是一种基于变形的辐射场框架,用于高保真头部说话合成 ...
0 0 0 2024/05/05 arXiv:2404.15264v1 ForrestPi
音频驱动的人脸识别最近引起了学术界和工业界的广泛兴趣。然而,音频驱动的说话面孔中的数据采集和标记是劳动密集型且成本高昂的。数据资源缺乏导致合成效果不佳 ...
0 0 0 2024/05/04 arXiv:2303.05322v1 ForrestPi
对于少镜头学习来说,在高分辨率视频上实现逼真的人脸视觉配音仍然是一个严峻的挑战。以往的作品未能产生高保真的配音效果。为了解决上述问题,本文提出了一种用于高分辨率人脸视觉配音的变形修复网络(DINet) ...
0 0 0 2024/05/04 arXiv:2303.03988v1 ForrestPi
协同语音手势如果以生动的视频形式呈现,可以在人机交互中达到优异的视觉效果。虽然之前的作品大多生成结构性人体骨骼,导致外观信息的遗漏,但我们在本作品中专注于直接生成音频驱动的协同语音手势视频。存在两个主要挑战:1)需要合适的运动特征来描述具有关键外观信息的复杂人体运动 ...
0 0 0 2024/05/04 arXiv:2404.01862v1 ForrestPi
基于 NeRF 的 3D 感知生成对抗网络 (GAN)(例如 EG3D 或 GIRAFFE)在大量表征多样性下表现出了非常高的渲染质量。然而,使用神经辐射场进行渲染给 3D 应用带来了挑战:首先,NeRF 渲染的巨大计算需求阻碍了其在低功耗设备上的使用,例如手机和 VR/AR 耳机。其次,基于神经网络的隐式表示很难融入显式 3D 场景,例如 VR 环境或视频游戏 ...
0 0 0 2024/05/04 arXiv:2404.10625v1 ForrestPi
图是表示社会和自然中各种实体及其复杂关系的基本数据模型,例如社交网络、交通网络、金融网络和生物医学系统。最近,大型语言模型(LLM)表现出了强大的泛化能力,可以处理各种自然语言处理和多模式任务,以回答用户的任意问题和特定领域的内容生成。与图学习模型相比, LLM 通过消除训练图学习模型的需要并降低手动注释的成本,在解决泛化图任务的挑战方面具有优越的优势 ...
0 0 0 2024/05/04 arXiv:2404.14809v1 huang_k

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)