我们介绍了猴子,这是一种文档解析的视觉模型,通过利用结构识别关系(SRR)三重态范式来推动最新技术的状态。这种设计简化了否则将是一条复杂的多工具管道(如Mineru的模块化方法),并避免使用巨大的端到端模型处理完整页面的效率低下(例如, ...
0 0 0 2025/06/10 arXiv:2506.05218v1 mjtree
模仿学习在机器人的操作中表现出了很大的希望,但是由于人类操作员通常收集的拖延示威游行,该政策的执行通常不令人满意。在这项工作中,我们提出了Demospeedup,这是一种通过熵引导的示范加速加速视觉运动策略执行的自我监督方法。 Demospeedup始于培训任意生成政策(e ...
0 0 0 2025/06/10 arXiv:2506.05064v1 xiewende
最近,自我监督的预训练在W.R.T.的各种任务上具有先进的视觉 Transformer  ...
0 0 0 2025/06/10 arXiv:2207.10228v1 DamnMan
推理的最新进展显着增强了大语模型(LLM)和多模式大型语言模型(MLLM)的能力。但是,过度依赖对经营链(COT)推理会损害模型性能,并带来不必要的延长产出,从而降低效率。我们的工作表明,延长推理并不能普遍提高准确性,甚至无法在更简单的任务上降低绩效 ...
0 0 0 2025/06/10 arXiv:2505.15154v1 jiangnan
该模型生成修补程序来修复现实世界错误的问题已成为评估大语言模型(LLMS)功能的关键基准。尽管SWE-Bench及其变体已成为该领域的标准配置,但它们受到关键限制:自初次发行以来,它们尚未进行更新,涵盖了狭窄的存储库,并严重依赖手动努力,例如建筑和环境设置。这些因素阻碍可伸缩性并引入过度拟合和数据污染的风险 ...
0 0 0 2025/06/10 arXiv:2505.23419v2 leec
Biological brains demonstrate complex neural activity, where the timing and interplay between neurons is critical to how brains process information. Most deep learning architectures simplify neural ac ...
0 0 0 2025/06/10 arXiv:2505.05522v3 leec
Biological brains demonstrate complex neural activity, where the timing and interplay between neurons is critical to how brains process information. Most deep learning architectures simplify neural ac ...
0 0 0 2025/06/10 arXiv:2505.05522v2 leec
大型语言模型(LLM)在代码生成任务中表现出了有效性。为了使LLMS能够应对更复杂的编码挑战,现有的研究集中在用代理工作流程制作多代理系统,其中复杂的编码任务被分解为分配给专用代理的子任务。尽管它们有效,但当前的方法在很大程度上依赖于手动拓扑和提示手动设计的手工制作的代理工作流程,这限制了它们自动适应不同类型的编码问题的能力 ...
0 0 0 2025/06/10 arXiv:2505.18646v1 leec

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)