大型视频扩散和流动模型在高质量视频生成方面取得了显着的成功,但由于其低效的多步采样过程,它们在实时交互应用中的使用仍然受到限制。在这项工作中,我们提出了过渡匹配蒸馏(TMD),这是一种将视频扩散模型蒸馏为高效的少步生成器的新颖框架。 TMD 的中心思想是将扩散模型的多步去噪轨迹与几步概率转移过程相匹配,其中每个转移都被建模为轻量级条件流。为了实现有效的蒸馏,我们将原始扩散主干分解为两个部分:(1)主干,包括大多数早期层,在每个外部转换步骤提取语义表示; (2) 流头,由最后几层组成,利用这些表示来执行多个内部流更新。给定一个预训练的视频扩散模型,我们首先向模型引入一个流头,并将其调整为条件流图。然后,我们将分布匹配蒸馏应用于学生模型,并在每个过渡步骤中推出流头。对提取 Wan2.1 1.3B 和 14B 文本到视频模型的大量实验表明,TMD 在生成速度和视觉质量之间提供了灵活且强大的权衡。特别是,在视觉保真度和即时依从性方面,TMD 在相当的推理成本下优于现有的蒸馏模型。项目页面:此 https URL ...

0 0 0 0 2026/01/20 arXiv:2601.09881v1 bnexx

为实时、无限持续时间、音频驱动的化身生成部署大规模扩散模型提出了重大的工程挑战,这主要是由于计算负载和严格的延迟限制之间的冲突。现有方法经常通过强制执行严格的单向注意力机制或降低模型容量来损害视觉保真度。为了解决这个问题,我们引入了 \textbf{SoulX-LiveTalk},这是一个针对高保真实时流媒体优化的 14B 参数框架。与传统的单向范例不同,我们使用 \textbf{自校正双向蒸馏} 策略来保留视频块内的双向注意力。这种设计保留了关键的时空相关性,显着增强了运动连贯性和视觉细节。为了确保无限生成过程中的稳定性,我们采用了\textbf{多步回顾性自我修正机制},使模型能够从累积的错误中自主恢复并防止崩溃。此外,我们设计了一个包含混合序列并行性、并行 VAE 和内核级优化的全栈推理加速套件。广泛的评估证实,SoulX-LiveTalk 是第一个实现 \textbf{亚秒级启动延迟(0.87s)}同时达到 \textbf{32 FPS} 实时吞吐量的 14B 规模系统,为高保真交互式数字人合成树立了新标准 ...

0 0 0 0 2026/01/15 arXiv:2512.23379v3 bnexx

为实时、无限持续时间、音频驱动的化身生成部署大规模扩散模型提出了重大的工程挑战,这主要是由于计算负载和严格的延迟限制之间的冲突。现有方法经常通过强制执行严格的单向注意力机制或降低模型容量来损害视觉保真度。为了解决这个问题,我们引入了 \textbf{SoulX-LiveTalk},这是一个针对高保真实时流媒体优化的 14B 参数框架。与传统的单向范例不同,我们使用 \textbf{自校正双向蒸馏} 策略来保留视频块内的双向注意力。这种设计保留了关键的时空相关性,显着增强了运动连贯性和视觉细节。为了确保无限生成过程中的稳定性,我们采用了\textbf{多步回顾性自我修正机制},使模型能够从累积的错误中自主恢复并防止崩溃。此外,我们设计了一个包含混合序列并行性、并行 VAE 和内核级优化的全栈推理加速套件。广泛的评估证实,SoulX-LiveTalk 是第一个实现 \textbf{亚秒级启动延迟(0.87s)}同时达到 \textbf{32 FPS} 实时吞吐量的 14B 规模系统,为高保真交互式数字人合成树立了新标准 ...

0 0 0 0 2026/01/04 arXiv:2512.23379v2 bnexx

我们推出 TurboDiffusion,这是一种视频生成加速框架,可以将端到端扩散生成速度提高 100-200 倍,同时保持视频质量。 TurboDiffusion主要依靠几个组件来进行加速:(1)注意力加速:TurboDiffusion使用低位SageAttention和可训练的稀疏线性注意力(SLA)来加速注意力计算。 (2) 分级蒸馏:TurboDiffusion采用rCM进行高效的分级蒸馏。 (3) W8A8量化:TurboDiffusion将模型参数和激活量化到8位,以加速线性层并压缩模型。此外,TurboDiffusion 还结合了其他一些工程优化。我们在Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P和Wan2.1-T2V-14B-480P模型上进行了实验。实验结果表明,即使在单个 RTX 5090 GPU 上,TurboDiffusion 也能实现 100-200 倍的视频生成加速,同时保持相当的视频质量。 GitHub 存储库包含模型检查点和易于使用的代码,可从此 https URL 获取 ...

0 0 0 0 2025/12/25 arXiv:2512.16093v1 bnexx

视频生成是通往世界模型的关键途径,其中高效的长视频推理是一项关键功能。为此,我们推出了 LongCat-Video,这是一种具有 13.6B 参数的基础视频生成模型,可在多个视频生成任务中提供强大的性能 ...

0 0 0 0 2025/12/18 arXiv:2510.22200v2 bnexx

最近,多人视频生成开始受到关注。虽然一些初步工作已经探索了音频驱动的多人谈话视频生成,但由于多样化多人数据收集的高成本以及通过连贯的交互性驱动多个身份的困难,它们经常面临挑战。为了应对这些挑战,我们提出了 AnyTalker,一个多人生成框架,具有可扩展的多流处理架构。具体来说,我们用一种新颖的身份感知注意力机制扩展了 Diffusion Transformer 的注意力模块,该机制迭代地处理身份音频对,从而允许任意缩放可驾驶的身份。此外,训练多人生成模型需要大量多人数据。我们提出的训练流程仅依赖于单人视频来学习多人说话模式,并仅通过一些真实的多人剪辑来改进交互性。此外,我们提供了一个有针对性的指标和数据集,旨在评估生成的多人视频的自然度和交互性。大量实验表明,AnyTalker 实现了卓越的唇形同步、视觉质量和自然交互性,在数据成本和身份可扩展性之间取得了良好的平衡 ...

0 0 0 0 2025/12/08 arXiv:2511.23475v1 bnexx

用户生成内容 (UGC) 视频的快速增长需要开发有效的视频质量评估 (VQA) 算法。然而,UGC-VQA问题的目标仍然不明确,可以从两个角度来看:技术角度,衡量扭曲的感知;审美视角,涉及对内容的偏好和推荐。为了了解这两种观点如何影响 UGC-VQA 中的整体主观意见,我们进行了大规模主观研究,收集人类对视频整体质量的质量意见以及从美学和技术角度的看法。收集的解开视频质量数据库 (DIVIDE-3k) 证实,人类对 UGC 视频的质量意见普遍且不可避免地受到审美和技术角度的影响。有鉴于此,我们提出了解缠结客观视频质量评估器(DOVER),以基于两个角度来学习 UGC 视频的质量。 DOVER 在非常高的效率下证明了 UGC-VQA 中最先进的性能。结合 DIVIDE-3k 中的观点意见,我们进一步提出了 DOVER++,这是第一种从单一美学或技术角度提供可靠、清晰的质量评估的方法。此 https URL 处的代码 ...

0 0 0 0 2025/11/20 arXiv:2211.04894v3 bnexx

端到端的人类动画,例如音频驱动的人类一代,在最近几年中取得了显着的进步。但是,现有的方法仍然很难扩大作为大型一般视频生成模型的扩展,从而限制了它们在实际应用中的潜力。在本文中,我们提出了Omnihuman,这是一种基于扩散 Transformer 的框架,可通过将与运动相关条件混合到训练阶段来扩展数据 ...

0 0 0 0 2025/11/14 arXiv:2502.01061v3 bnexx

使用扩散 Transformer (DiT)生成长视频的瓶颈是完全注意力与序列长度的二次缩放。由于注意力高度冗余,输出由一小部分查询密钥对主导。现有的稀疏方法依赖于分块粗略估计,其精度-效率权衡受到块大小的限制 ...

0 0 0 0 2025/10/24 arXiv:2510.18692v1 bnexx

扩散模型在文本到视频(T2V)生成方面取得了巨大成功。然而,现有方法在处理涉及多个对象或对象数量动态变化的复杂(长)视频生成场景时可能面临挑战。为了解决这些限制,我们提出了 VideoTetr​​is,这是一种能够生成组合 T2V 的新颖框架 ...

0 0 0 0 2025/10/15 arXiv:2406.04277v2 bnexx