扩散模型的最新进展彻底改变了音频驱动的头部说话合成。除了精确的唇形同步之外,基于扩散的方法还擅长生成与音频信号良好匹配的微妙表情和自然头部运动。然而,这些方法面临着推理速度慢、对面部运动的细粒度控制不足以及偶尔出现视觉伪影的问题,这主要是由于变分自动编码器(VAE)衍生的隐式潜在空间,这阻碍了它们在实时交互应用中的采用 ...
规模是构建强大的基础模型的主要因素,该模型可以很好地推广到各种下游任务。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频掩码自动编码器(VideoMAE)是一种可扩展的通用自监督预训练器,用于构建视频基础模型 ...