bnexx的文档

bnexx

个性签名 ...

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

唇部同步（称为与新输入音频的现有视频中对齐唇部动作的任务）通常被构成更简单的音频驱动面部动画变体。但是，除了遇到谈话时代的常规问题（例如 ...

0 0 0 0 2025/05/06 arXiv:2505.00497v1 bnexx

SMIRK: 3D Facial Expressions through Analysis-by-Neural-Synthesis

虽然现有的根据野外图像进行3D面部整形的方法能够很好地恢复面部形状，但它们通常会错过微妙、极端、不及时或很少观察到的表情。我们使用SMIRK（基于图像的运动学重建空间构建）模）改进了这些方法，它忠实地从图像中重建了丰富的3D表现力。我们确定了现有方法的两个关键局限性：自监督训练公式的缺陷以及训练图像丰富表达多样性。 .. ...

0 0 0 0 2025/04/13 arXiv:2404.04104v2 bnexx

Learning Texture Transformer Network for Image Super-Resolution

我们研究了图像超分辨率（SR），该图像旨在从低分辨率（LR）图像中恢复逼真的纹理。最新的进展是通过将高分辨率图像作为参考（参考）（参考）取得的，因此可以将相关纹理传输到LR图像。但是，现有的SR方法忽略了使用注意机制从参考图像转移高分辨率（HR）纹理的方法，这限制了这些方法在有挑战性的情况下 ...

0 0 0 0 2025/04/08 arXiv:2006.04139v2 bnexx

Deciphering Oracle Bone Language with Diffusion Models

许多甲骨文 (OBS) 起源于大约 3000 年前的中国商代，是语言史史上的基石，早于已建立的书写系统。尽管发现了数千个铭文，但大量 OBS 未破译，给了这种古老的语言蒙上了一层神秘的面纱。现代人工智能技术的出现为OBS解密提供了一个新的前沿，挑战了严重依赖大规模文本语言资料库的传统NLP方法，这是历史语言无法提供的奢侈。 ...

0 0 0 0 2025/03/21 arXiv:2406.00684v2 bnexx

CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition

作为面部识别的一个新兴主题，设计基于保证金的损失功能可以增加不同类别之间的特征范围，以增强可区分性。最近，采用了基于采矿的策略来强调错误分类的样本，从而取得了令人鼓舞的结果。但是，在整个培训过程中，先前的方法要么根据样本的重要性明确强调样本，从而使硬样品无法完全利用。或明确强调半硬样品的影响，即使在早期训练阶段也可能导致收敛问题 ...

0 0 0 0 2025/02/16 arXiv:2004.00288v1 bnexx

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

扩散模型的最新进展彻底改变了音频驱动的头部说话合成。除了精确的唇形同步之外，基于扩散的方法还擅长生成与音频信号良好匹配的微妙表情和自然头部运动。然而，这些方法面临着推理速度慢、对面部运动的细粒度控制不足以及偶尔出现视觉伪影的问题，这主要是由于变分自动编码器（VAE）衍生的隐式潜在空间，这阻碍了它们在实时交互应用中的采用 ...

0 0 0 0 2025/01/15 arXiv:2411.19509v2 bnexx

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

规模是构建强大的基础模型的主要因素，该模型可以很好地推广到各种下游任务。然而，训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明，视频掩码自动编码器（VideoMAE）是一种可扩展的通用自监督预训练器，用于构建视频基础模型 ...

0 0 0 0 2025/01/09 arXiv:2303.16727v2 bnexx

MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

说话脸部生成 (TFG) 旨在使目标身份的脸部动画化，以创建逼真的说话视频。个性化TFG是一种强调合成结果的感知身份相似性的变体（从外表和说话风格的角度）。虽然以前的工作通常通过为每个身份学习单独的神经辐射场（NeRF）来隐式存储其静态和动态信息来解决这个问题，但我们发现由于每个身份每个训练框架和有限的训练数据 ...

0 0 0 0 2024/12/11 arXiv:2410.06734v2 bnexx

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

最近的人类动画工作通常涉及音频、姿势或运动映射条件，从而实现生动的动画质量。然而，由于额外的控制条件、繁琐的条件注入模块或头部区域驱动的限制，这些方法经常面临实际挑战。因此，我们想知道是否有可能在简化不必要的条件的同时实现引人注目的半身人体动画 ...

0 0 0 0 2024/11/22 arXiv:2411.10061v1 bnexx

HifiFace: 3D Shape and Semantic Prior Guided High Fidelity Face Swapping

在这项工作中，我们提出了一种高保真脸部交换方法，称为 HifiFace，它可以很好地保留源脸部的脸部形状并生成照片般逼真的结果。与其他现有的仅使用人脸识别模型来保持身份相似性的人脸交换工作不同，我们提出了 3D 形状感知身份，通过 3DMM 和 3D 人脸重建方法的几何监督来控制人脸形状。同时，我们引入了语义面部融合模块来优化编码器和解码器特征的组合并进行自适应混合，这使得结果更加逼真 ...

0 0 0 0 2024/11/09 arXiv:2106.09965v1 bnexx