组成的图像检索(CIR)旨在使用参考图像和修改文本作为查询的组合搜索感兴趣的图像。尽管有最近的进步,但由于培训数据和费力的三胞胎注释过程,该任务仍然具有挑战性。为了解决这个问题,本文提议合成培训三胞胎,以增加CIR问题的培训资源 ...
0 0 0 2025/05/07 arXiv:2504.05316v1 Archer
当前3D形状数据集的有限规模阻碍了3D形状理解的进步,并激发了多模式学习方法,这些方法将学习知识从数据丰富的2D图像和语言模式转移到3D形状。但是,即使图像和语言表示已被剪辑(例如剪辑)等跨模型对齐,我们发现图像模态未能在现有多模式3D表示方法中的语言中贡献尽可能多的贡献。这归因于2D图像中的域移动以及每种模式的独特焦点 ...
0 0 0 2025/05/07 arXiv:2402.18490v2 18832252926
RSFM(RSFM)的研究揭示了地球观测通用模型的巨大潜力。然而,这些工作主要关注单一模式,没有时间和地理环境建模,从而限制了它们执行不同任务的能力。在这项研究中,smysense,这是一个通用的十亿级模型,在精心策划的多模态遥感图像,(rsi)数据集上进行了预训练 ...
0 0 0 2025/05/07 arXiv:2312.10115v2 nnyyyyy
在离线增强学习中,加权回归是确保学习政策与行为策略保持接近并防止选择样本外动作的常见方法。在这项工作中,我们表明,由于政策模型的分布表达有限,以前的方法仍可能在培训期间选择看不见的动作,这会偏离其最初动机。为了解决这个问题,我们通过将学习的政策分解为两个部分:表达生成行为模型和动作评估模型,采用生成方法 ...
0 0 0 2025/05/07 arXiv:2209.14548v2 lihongchen
从非结构化和未经准备的数据中学习已成为语言和视觉生成方法的主要范式。这种非结构化和未指导的行为数据(通常称为游戏)也更容易在机器人技术中收集,但由于其固有的多模式,嘈杂和次优的性质,因此更难学习。在本文中,我们研究了从非结构化播放数据中学习目标指导的技能政策的问题,该数据在事后用语言标记 ...
0 0 0 2025/05/07 arXiv:2312.04549v1 kavin
大型语言模型(LLMS)可以以高准确性解决算术单词问题,但对它们对更复杂的问题的推广程度知之甚少。这很难研究,因为(i)在培训期间,最有能力的模型已经看到了许多可用的评估数据,并且(ii)现有的基准并未捕获如何以各种方式任意问题。在本文中,我们提出了一个数据生成框架,用于评估具有任意复杂算术证明的问题的LLM,称为MathGap ...
0 0 0 2025/05/07 arXiv:2410.13502v3 cky
二重性优化在许多机器学习任务中起着至关重要的作用,范围从高参数优化到元学习。然而,现有关于双杆优化的研究集中在集中式或同步分布式设置上。集中式的双层优化方法需要向单个服务器收集大量数据,这不可避免地会产生巨大的通信费用,并可能引起数据隐私风险 ...
0 0 0 2025/05/07 arXiv:2212.10048v3 yio
大多数现有的多跳数据集都是提取答案数据集,可以直接从提供的上下文中提取问题的答案。这通常会导致模型使用启发式或快捷方式,而不是执行真正的多跳推理。在本文中 ...
0 0 0 2025/05/07 arXiv:2406.13397v1 liuweitang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)