尽管看似性能的Web代理在任务完成基准测试中,但大多数现有方法还是基于预设的代理来评估代理:Web导航任务由具有标记任务完成的最终状态的线性操作序列组成。相比之下,我们的工作着重于网络导航以进行信息汇总,其中代理必须探索不同的网站以收集信息以进行复杂的查询。我们从两个不同的角度考虑Web信息聚合:(i)直接API驱动的访问依赖于网络的文本视图,利用外部工具(例如Google Search API) ...
0 0 0 2025/05/08 arXiv:2410.19054v1 arthur
过渡视频在媒体生产中起着至关重要的作用,增强了视觉叙事的流程和连贯性。诸如变形之类的传统方法通常缺乏艺术吸引力,需要专业技能,从而限制了它们的有效性。基于扩散模型的视频生成的最新进展为创造过渡提供了新的可能性,但面临诸如较差的框架间关系建模和突然内容变化之类的挑战 ...
0 0 0 2025/05/08 arXiv:2408.13413v1 kevinson
在某些神经网络中,单个神经元对应于输入中的自然``特征''。这样的\ emph {单语义}神经元在可解释性研究方面具有很大的帮助,因为它们可以清晰地理解。在这项工作中,我们报告了初步尝试在玩具模型中设计单位气质的尝试 ...
0 0 0 2025/05/08 arXiv:2211.09169v1 Jasper1
Vision语言导航(VLN)旨在通过利用语言说明和视觉提示,在体现的AI中发挥关键作用来指导代理商度过环境。室内VLN已经进行了广泛的研究,而户外空中VLN仍然没有被忽略。潜在的原因是,户外空中视图涵盖了广阔的区域,使数据收集更具挑战性,从而导致缺乏基准测试 ...
0 0 0 2025/05/08 arXiv:2502.18041v4 zw
通过可验证的奖励(RLVR)的增强学习已通过直接从基于结果的奖励中学习来增强大语言模型的推理能力的希望。最近在零设置下运行的RLVR工作避免在标记推理过程时进行监督,但仍取决于手动策划的问题和答案的培训收集。高质量,人类制作的例子的稀缺性引起了人们对依靠人类监督的长期可扩展性的担忧,这是在预处理语言模型领域已经明显的挑战 ...
0 0 0 2025/05/08 arXiv:2505.03335v2 quziyan
对比性语言图像的预训练受益于大规模未标记的文本图像对,在开放世界的视觉理解任务中表现出了出色的表现。但是,由于文本3D数据对有限,因此将2D视觉模型(VLM)的成功调整为3D空间仍然是一个空旷的问题。利用VLM进行3D理解的现有作品通常求助于为3D数据构建中间2D表示形式,但以丢失3D几何信息为代价 ...
0 0 0 2025/05/08 arXiv:2303.12417v2 18832252926
行为克隆(BC)是机器人操纵中广泛采用的视觉模仿学习方法。当前的BC方法通常通过利用大型数据集并结合其他视觉和文本方式来捕获更多多样化的信息来增强概括。但是,这些方法忽略了学习的表示形式是否包含冗余信息,并且缺乏指导学习过程的扎实理论基础 ...
0 0 0 2025/05/08 arXiv:2502.02853v3 Langston
预训练的视频大语模型(视频LLM)具有显着的推理功能,但是将这些模型调整为涉及其他模式或数据类型(例如,音频或3D信息)的新任务仍然具有挑战性 ...
0 0 0 2025/05/08 arXiv:2503.19794v1 Sm0ggy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)