单目深度估计的成功依赖于大量且多样化的训练集。由于在不同环境中大规模获取密集的地面实况深度所面临的挑战,出现了许多具有不同特征和偏差的数据集。我们开发的工具可以在训练期间混合多个数据集,即使它们的注释不兼容 ...

0 0 0 0 2024/05/15 arXiv:1907.01341v3 happy

人工智能 (AI) 系统感知和理解音频信号的能力对于许多应用至关重要。尽管自 AudioSet 开发以来该领域已经取得了重大进展,但大多数现有模型都旨在将音频输入映射到预定义的离散声音标签集。相比之下,人类不仅有能力将声音分为一般类别,而且有能力聆听声音的细节,解释预测的原因,思考声音推断什么,理解场景和需要采取什么行动被采取,如果有的话 ...

0 0 0 0 2024/05/14 arXiv:2305.10790v3 lishaojun412

受益于强大的卷积神经网络(CNN),基于学习的图像修复方法多年来取得了重大突破。然而,CNN 的某些性质(例如 ...

0 0 0 0 2024/05/14 arXiv:2305.07239v2 ycx962464

近年来,面向任务的对话(TOD)模型取得了重大进展。然而,之前的研究主要集中在注释者编写的数据集上,这导致了学术研究与现实世界口语对话场景之间的差距。虽然提出了几个小规模口语 TOD 数据集来解决 ASR 错误等鲁棒性问题,但它们忽略了口语对话中的独特挑战 ...

0 0 0 0 2024/05/14 arXiv:2305.13040v5 xx

富有表现力的人体姿势和形状估计 (EHPS) 将身体、手和面部运动捕捉与众多应用相结合。尽管取得了令人鼓舞的进展,但当前最先进的方法仍然在很大程度上依赖于一组有限的训练数据集。在这项工作中,我们研究了将 EHPS 扩展到第一个通用基础模型(称为 SMPLer-X),以 ViT-Huge 作为骨干,并进行最多 4 个训练 ...

0 0 0 0 2024/05/14 arXiv:2309.17448v2 admin大赛爱打

可学习的提示调整已经超越了单纯的视觉语言模型(VLM)微调,成为一种有前景、资源高效的替代方案。尽管有潜力,但有效的学习提示面临以下挑战:(i)在低样本场景中进行训练会导致过度拟合,限制适应性并在新类别或数据集上产生较弱的性能; (ii) 提示调整的功效在很大程度上依赖于标签空间,在大类空间中性能下降,表明桥接图像和类概念方面存在潜在差距。在这项工作中,我们提出一个问题:更好的文本语义是否可以帮助解决这些问题 ...

0 0 0 0 2024/05/14 arXiv:2405.07921v1 关注嘉然

我们提出了一种新颖的角色控制框架,该框架有效地利用运动扩散概率模型来生成高质量和多样化的角色动画,实时响应用户提供的各种动态控制信号。我们方法的核心是基于 Transformer 的条件自回归运动扩散模型(CAMDM),它将角色的历史运动作为输入,并可以根据高级、粗略的用户控制生成一系列不同的潜在未来运动。为了满足实时控制器对多样性、可控性和计算效率的要求,我们结合了几种关键的算法设计 ...

0 0 0 0 2024/05/14 arXiv:2404.15121v1 ForrestPi

人体运动合成是计算机图形学和计算机视觉中的一项重要任务。虽然关注文本、动作类或音频等各种条件信号来指导生成过程,但大多数现有方法都利用基于骨架的姿势表示,需要额外的蒙皮来生成可渲染的网格。鉴于人体运动是骨骼、关节和肌肉的复杂相互作用,仅考虑生成骨骼可能会忽略它们固有的相互依赖性,这会限制生成结果的可变性和精度 ...

0 0 0 0 2024/05/14 arXiv:2405.06778v1 ForrestPi

基于文本的图像字幕是一项重要但尚未充分探索的任务,旨在生成包含视觉对象和场景文本的描述。最近的研究取得了令人鼓舞的进展,但仍然缺乏对场景的整体理解并产生不准确的字幕。一个可能的原因是,目前的研究主要集中在构建场景文本的平面几何关系,而没有深度信息 ...

0 0 0 0 2024/05/14 arXiv:2302.01540v3 可乐

本研究的重点是改进 COMICS 数据集中面板的光学字符识别 (OCR) 数据,该数据集是包含漫画书中文本和图像的最大数据集。为此,我们开发了一个用于漫画书 OCR 处理和标签的管道,并创建了第一个西方漫画文本检测和识别数据集,称为“COMICS Text+:检测”和“COMICS Text+:识别”。我们评估了这些数据集上最先进的文本检测和识别模型的性能,发现与 COMICS 中的文本相比,单词准确性和标准化编辑距离有了显着提高 ...

0 0 0 0 2024/05/14 arXiv:2212.14674v1 可乐

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)