最近,多人视频生成开始受到关注。虽然一些初步工作已经探索了音频驱动的多人谈话视频生成,但由于多样化多人数据收集的高成本以及通过连贯的交互性驱动多个身份的困难,它们经常面临挑战。为了应对这些挑战,我们提出了 AnyTalker,一个多人生成框架,具有可扩展的多流处理架构。具体来说,我们用一种新颖的身份感知注意力机制扩展了 Diffusion Transformer 的注意力模块,该机制迭代地处理身份音频对,从而允许任意缩放可驾驶的身份。此外,训练多人生成模型需要大量多人数据。我们提出的训练流程仅依赖于单人视频来学习多人说话模式,并仅通过一些真实的多人剪辑来改进交互性。此外,我们提供了一个有针对性的指标和数据集,旨在评估生成的多人视频的自然度和交互性。大量实验表明,AnyTalker 实现了卓越的唇形同步、视觉质量和自然交互性,在数据成本和身份可扩展性之间取得了良好的平衡 ...
用户生成内容 (UGC) 视频的快速增长需要开发有效的视频质量评估 (VQA) 算法。然而,UGC-VQA问题的目标仍然不明确,可以从两个角度来看:技术角度,衡量扭曲的感知;审美视角,涉及对内容的偏好和推荐。为了了解这两种观点如何影响 UGC-VQA 中的整体主观意见,我们进行了大规模主观研究,收集人类对视频整体质量的质量意见以及从美学和技术角度的看法。收集的解开视频质量数据库 (DIVIDE-3k) 证实,人类对 UGC 视频的质量意见普遍且不可避免地受到审美和技术角度的影响。有鉴于此,我们提出了解缠结客观视频质量评估器(DOVER),以基于两个角度来学习 UGC 视频的质量。 DOVER 在非常高的效率下证明了 UGC-VQA 中最先进的性能。结合 DIVIDE-3k 中的观点意见,我们进一步提出了 DOVER++,这是第一种从单一美学或技术角度提供可靠、清晰的质量评估的方法。此 https URL 处的代码 ...
端到端的人类动画,例如音频驱动的人类一代,在最近几年中取得了显着的进步。但是,现有的方法仍然很难扩大作为大型一般视频生成模型的扩展,从而限制了它们在实际应用中的潜力。在本文中,我们提出了Omnihuman,这是一种基于扩散 Transformer 的框架,可通过将与运动相关条件混合到训练阶段来扩展数据 ...
使用扩散 Transformer (DiT)生成长视频的瓶颈是完全注意力与序列长度的二次缩放。由于注意力高度冗余,输出由一小部分查询密钥对主导。现有的稀疏方法依赖于分块粗略估计,其精度-效率权衡受到块大小的限制 ...
扩散模型在文本到视频(T2V)生成方面取得了巨大成功。然而,现有方法在处理涉及多个对象或对象数量动态变化的复杂(长)视频生成场景时可能面临挑战。为了解决这些限制,我们提出了 VideoTetris,这是一种能够生成组合 T2V 的新颖框架 ...
唇部同步(称为与新输入音频的现有视频中对齐唇部动作的任务)通常被构成更简单的音频驱动面部动画变体。但是,除了遇到谈话时代的常规问题(例如 ...
虽然现有的根据野外图像进行3D面部整形的方法能够很好地恢复面部形状,但它们通常会错过微妙、极端、不及时或很少观察到的表情。我们使用SMIRK(基于图像的运动学重建空间构建)模)改进了这些方法,它忠实地从图像中重建了丰富的3D表现力。我们确定了现有方法的两个关键局限性:自监督训练公式的缺陷以及训练图像丰富表达多样性。 .. ...
我们研究了图像超分辨率(SR),该图像旨在从低分辨率(LR)图像中恢复逼真的纹理。最新的进展是通过将高分辨率图像作为参考(参考)(参考)取得的,因此可以将相关纹理传输到LR图像。但是,现有的SR方法忽略了使用注意机制从参考图像转移高分辨率(HR)纹理的方法,这限制了这些方法在有挑战性的情况下 ...
许多甲骨文 (OBS) 起源于大约 3000 年前的中国商代,是语言史史上的基石,早于已建立的书写系统。 尽管发现了数千个铭文,但大量 OBS 未破译,给了这种古老的语言蒙上了一层神秘的面纱。现代人工智能技术的出现为OBS解密提供了一个新的前沿,挑战了严重依赖大规模文本语言资料库的传统NLP方法,这是历史语言无法提供的奢侈。 ...
作为面部识别的一个新兴主题,设计基于保证金的损失功能可以增加不同类别之间的特征范围,以增强可区分性。最近,采用了基于采矿的策略来强调错误分类的样本,从而取得了令人鼓舞的结果。但是,在整个培训过程中,先前的方法要么根据样本的重要性明确强调样本,从而使硬样品无法完全利用。或明确强调半硬样品的影响,即使在早期训练阶段也可能导致收敛问题 ...