准确的作用推断对于基于视觉的机器人操作至关重要。现有的方法通常遵循视觉行动(V-A)范式,直接从视觉输入中预测动作,或者愿景到3D-TO-TO-TO-TO-ECTION(V-3D-A)范式,利用中间3D表示。但是,由于操纵场景的复杂性和动态性质,这些方法通常在行动不准确的情况下困难 ...

0 0 0 0 2025/07/04 arXiv:2506.14135v2 rommelcyzyb

在单标签分类的背景下,尽管深度学习取得了巨大的成功,但常用的跨透明损失函数忽略了经常存在于现实生活任务(例如年龄分类)中的复杂的阶层间关系。在这项工作中,我们建议通过用精确的平方地球移动器的距离(也称为Wasserstein距离)来利用类之间的这些关系,以进行单标签分类。平方EMD损失使用所有类别的预测概率,并根据地面距离矩阵量化了量化阶级之间差异的地面距离矩阵 ...

0 0 0 0 2025/07/04 arXiv:1611.05916v4 欧K

图像自适应查找表(LUTS)由于对颜色变换进行建模的高效率,在实时图像增强任务中取得了巨大的成功。但是,他们以耦合方式将完整的变换嵌入了仅颜色组件独立于颜色的部分和与组件相关的部分,仅以1D或3D的形式嵌入到单一类型的LUT中。由于两个因素,该方案提高了改善模型表现力或效率的困境 ...

0 0 0 0 2025/07/04 arXiv:2207.08351v1 howieeyang

来自单眼视频的人类网格重建(HMR)在人类机器人的互动与协作中起着重要作用。但是,现有的基于视频的人网状重建方法在准确的重建和平稳运动之间面临着权衡。这些方法基于RNN或注意机制设计网络,以提取本地时间相关性或全球时间依赖性,但是缺乏互补的长期信息和本地细节会限制其性能 ...

0 0 0 0 2025/07/04 arXiv:2412.01179v1 momohu

已经提出了许多关键点检测和描述方法用于图像匹配或注册。尽管这些方法证明了单模性图像匹配的有希望的性能,但它们通常在多模式数据上挣扎,因为对单模式数据训练的描述符往往缺乏针对多模式数据中存在的非线性变化的鲁棒性。将这种方法扩展到多模式图像匹配通常需要良好的多模式数据来学习模态不变的描述符 ...

0 0 0 0 2025/07/04 arXiv:2501.11299v3 xxxx

用嘈杂的标签进行深度学习是弱监督学习的一个有趣挑战。尽管具有很高的学习能力,但CNN仍具有在带有嘈杂标签的样品的情况下过度合适的趋势。减轻此问题,众所周知的共同培训框架被用作我们工作的基本基础 ...

0 0 0 0 2025/07/04 arXiv:2503.03042v1 snowpigppp

文本到歌曲的生成是通过文本输入创建人声和伴奏的任务,由于域的复杂性和数据稀缺而构成了重大挑战。现有方法通常采用多阶段生成程序,从而导致繁琐的培训和推理管道。在本文中,我们提出了Songgen,这是一种完全开源的,单阶段的自动回归 Transformer ,专为可控歌曲的生成而设计 ...

0 0 0 0 2025/07/04 arXiv:2502.13128v2 wkw1220632

幽默在日常语言交流中起着重要作用。随着大型语言模型(LLM)的快速发展,自然语言处理在理解和生成各种流派的文本方面取得了重大进步。但是,大多数LLM在产生和处理中国幽默方面表现出色 ...

0 0 0 0 2025/07/04 arXiv:2503.20417v1 kk1943

大型语言模型(LLMS)的最新进展已大大提高了文本到SQL任务的性能。但是,先前的方法通常依赖于推理时间提供的静态,预处理的数据库信息,这限制了模型充分理解数据库内容的能力。如果没有动态交互,LLM将被限制为固定的,人为提供的上下文,并且无法自主探索基础数据 ...

0 0 0 0 2025/07/04 arXiv:2506.07245v2 qzw

在文本到SQL任务的上下文中,表和列描述对于弥合自然语言和数据库架构之间的差距至关重要。本报告提出了一种方法,用于自动生成有效数据库描述时,当显式描述不可用时。所提出的方法采用双处理方法:一种粗到五个过程,然后进行精细到核的过程 ...

0 0 0 0 2025/07/04 arXiv:2502.20657v1 qzw

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)