深度生成模型在各种计算机视觉应用中表现出了令人印象深刻的性能,包括图像合成、视频生成和医学分析。尽管取得了显着的进步,但这些模型可能会被用于恶意目的,例如错误信息、欺骗和侵犯版权。在本文中,我们对人工智能生成的视觉媒体的防御研究工作进行了系统而及时的回顾,涵盖检测、破坏和身份验证 ...
最近在理解紫外线摄动理论的性质上取得了很大的进步,并与$ 2D $的$ 2D $ intectable Field Theories借助肾小球奇异性。多亏了Bethe Ansatz和大型$ N $技术,还可以计算非扰动校正,并导致在存在化学势能的情况下自由能重建自由能。这是测试QFT中复兴的理想舞台,并确定仅从扰动序列的知识中重建确切结果是否以及如何重建 ...
近年来,在音频驱动的人类动画方面取得了重大进展。但是,(i)在保持角色一致性的同时,(ii)实现角色和音频之间的精确情感一致性,以及(iii)启用多字符音频驱动的动画。为了应对这些挑战,我们提出了HunyuanVideo-Avatar,这是一种多模式扩散 Transformer (MM-DIT)的模型,能够同时产生动态,情感控制和多个视频对话视频 ...
尽管视频生成模型取得了重大进展,但现有的最新方法只能制作持续5-16秒的视频,通常标记为“长格式视频”。此外,超过16秒的视频难以在整个叙述中保持一致的角色外观和场景布局。特别是,多主题长的视频仍然无法保持角色的一致性和运动连贯性 ...
AI生成的内容(AIGC)方法旨在使用AI算法生成文本,图像,视频,3D资产和其他媒体。由于其广泛的应用和最近作品的潜力,AIGC的开发(尤其是机器学习(ML)和深度学习(DL))引起了极大的关注,该调查的重点是全面审查ML/DL中的此类进步。 AIGC方法已经针对各种数据模式开发,例如图像,视频,文本,3D形状,3D场景,3D人类头像,3D运动和音频 - 每个人都呈现独特的特征和挑战 ...
\ textit {sora}之类的下一代视频生成模型的出现对AI生成的内容(AIGC)视频质量评估(VQA)构成了挑战。这些模型大大减轻了在先前模型中普遍存在的闪烁伪影,启用更长和复杂的文本提示并生成更长的视频,并具有复杂的,多样化的运动模式。专为简单文本和基本运动模式而设计的常规VQA方法难以评估这些内容丰富的视频 ...
近年来,由于稳定扩散和大语言模型技术的进步,人工智能(AI)驱动的视频生成引起了广泛关注。因此,迫切需要准确的视频质量评估(VQA)模型来测量人工智能生成内容(AIGC)视频的感知质量并优化视频生成技术。然而,评估 AIGC 视频的质量非常具有挑战性,因为它们表现出高度复杂的失真(例如,失真) ...
现代文本对图像(T2I)扩散模型可以生成具有非凡的现实主义和创造力的图像。这些进步引发了虚假图像检测和归因方面的研究,但先前的研究并未完全探讨该任务的实践和科学维度。除了将图像归因于12个最先进的T2I发电机外,我们还提供了有关哪些推理阶段超参数和图像修改的广泛分析 ...