推理能力已显着提高了视觉模型(VLM)在数学解决问题,编码和视觉提问等领域中的性能。但是,它们对现实世界应用的影响尚不清楚。本文介绍了有关启用推理VLM在移动GUI代理的有效性的首次实证研究,该域需要解释复杂的屏幕布局,了解用​​户指令并执行多转交互 ...
0 0 0 2025/05/07 arXiv:2503.16788v1 404805854
指导性操作(IA)数据对对于培训机器人系统,尤其是自动驾驶汽车(AV)很有价值,但是手动注释这些数据是昂贵且耗时的。本文探讨了使用移动应用程序全局定位系统(GPS)引用和自然语言处理(NLP)自动生成大量IA命令和响应的潜力,而无需使人类生成或追溯标记数据。在我们的试点数据收集中,通过开车到各种目的地并从GPS应用程序中收集语音说明,我们演示了一种收集和分类各种说明集的方法,并进一步伴随着视频数据 ...
0 0 0 2025/05/07 arXiv:2505.03174v1 蔡明方
通过稀疏激活大语模型(LLMS)的专家来降低推理成本的混合物(MOE)。尽管减少了这种减少,但MOE的大量专家仍然使他们的服务昂贵。在本文中,我们通过修剪Moes来研究如何解决这个问题 ...
0 0 0 2025/05/07 arXiv:2409.06211v1 haiyao
由于大型语言模型(LLMS)在各种应用程序中都显示出它们的功能,因此培训定制的LLMS已成为现代企业至关重要的。但是,由于LLM培训的复杂性(需要大量的计算资源和大量培训时间)在培训过程中是不可避免的。这些故障导致大量浪费资源和时间,强调了有效,有效的失败诊断以降低LLM培训成本的关键需求 ...
0 0 0 2025/05/07 arXiv:2503.20263v1 imp1984
修剪包含一系列旨在增加神经网络(NNS)稀疏性的技术。通常可以将这些技术构建为最小化损失功能,但受$ L_0 $纳入约束的约束。本文介绍了Connect,这是一种用于稀疏NN训练的新型可区分正规化程序,可确保输入层和输出层之间的连通性 ...
0 0 0 2025/05/07 arXiv:2502.00744v1 haiyao
体现的基础模型正在通过几次训练后训练来越来越关注其零射门的概括,可伸缩性和对新任务的适应性。但是,现有模型在很大程度上依赖于现实世界中的数据,这是昂贵且劳动密集型的收集数据。合成数据提供了一种具有成本效益的替代方案,但其潜力在很大程度上仍未得到充满异常 ...
0 0 0 2025/05/07 arXiv:2505.03233v1 蔡明方
基于高斯 - 拼图的新型视图合成的最新努力可以实现逼真的渲染。但是,由于初始化和过度拟合的浮点数,这种能力在稀疏视图方案中受到限制。最新的深度估计和一致性进展可以为密集的点云提供很少的视图。但是,所产生的姿势准确性是次优的。在这项工作中,我们提出了SPARS3R,它结合了从深度估计中从结构上估计和致密点云中准确姿势估计的优势 ...
0 0 0 2025/05/07 arXiv:2411.12592v1 zhifeiji
(MHA)是 Transformer 的关键组件。在mha中,注意力头独立工作,dcmha),这是一种参数和计算高效的注意力架构 ...
0 0 0 2025/05/07 arXiv:2405.08553v2 Kayin

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)