将大型语言模型(LLM)与人类价值观和安全限制保持一致,尤其是当诸如帮助,真实性和避免伤害冲突之类的目标时。从人类反馈中学习(RLHF)在转向模型中取得了显着的成功,但很复杂,可能是不稳定的。诸如直接偏好优化(DPO)之类的最新方法简化了基于偏好的微调,但可能引入偏见或权衡某些目标〜\ cite {dpo} ...
0 0 0 2025/07/10 arXiv:2503.21819v1 SourceRoc
视觉和语言导航(VLN)是体现AI的关键任务,要求代理在遵循自然语言说明的同时导航多样化和看不见的环境。传统方法在很大程度上依赖于历史观察作为决策的时空环境,从而导致大量的存储和计算开销。在本文中,我们介绍了MapNav,这是一种新颖的端到端VLN模型,该模型利用注释的语义图(ASM)代替历史框架 ...
0 0 0 2025/07/10 arXiv:2502.13451v3 gavin218
典型的深度视觉识别模型能够执行它们所训练的一项任务。在本文中,我们解决了一个极其困难的问题,即将具有不同初始化的不同模型(每个模型解决一个单独的任务),组合成一个多任务模型,而无需任何额外的训练。模型合并中的先前工作将一个模型排列到另一个模型的空间,然后将它们平均在一起... ...
0 0 0 2025/07/10 arXiv:2305.03053v3 myzeng
在本文中,我们介绍了 FAMMA,这是一个金融多语言多模态问答 (QA) 的开源基准。我们的基准旨在评估多模态大语言模型 (MLLM) 回答需要高级金融知识和复杂推理的问题的能力。它包含从大学教材和考试中精心收集的 1,758 个问答对,涵盖公司金融、资产管理和金融工程等 8 个主要金融子领域 ...
0 0 0 2025/07/10 arXiv:2410.04526v4 baibaili
机器人过程自动化(RPA)系统在处理复杂过程和需要先进类似人类的决策能力的各种屏幕布局方面面临挑战。这些系统通常依靠像素级通过拖放或自动化框架(例如硒)来编码来创建导航工作流,而不是对屏幕元素的视觉理解。在这种情况下,我们提出了SmartFlow,这是一种基于AI的RPA系统,该系统使用预训练的大型语言模型(LLMS)以及基于深度学习的图像理解 ...
0 0 0 2025/07/10 arXiv:2405.12842v1 plum
第三代合作伙伴项目开始研究2021年的第18版。人工智能(AI)空气界面是第18版的关键特征之一,其中选择了用于渠道状态信息(CSI)反馈增强的AI作为代表性用途案例。本文概述了5G助长中CSI反馈增强的AI ...
0 0 0 2025/07/10 arXiv:2206.15132v2 mmc
机器人操纵系统在不同的动态环境中运行,必须具有三个关键能力:多任务相互作用,对看不见的场景的概括和空间记忆。尽管在机器人操作中已经取得了重大进展,但现有方法通常在复杂的环境变化和解决内存依赖性任务的概括方面通常缺乏。为了弥合这一差距,我们介绍了SAM2ACT,这是一种基于多视图的机器人 Transformer 策略,利用大型基础模型的视觉表示来利用多分辨率提升 ...
0 0 0 2025/07/10 arXiv:2501.18564v3 uu2222
现在,多头自我引入(MSA)对于计算机视觉的成功是无可争议的。但是,对于MSA的工作方式知之甚少。我们提出了基本的解释,以帮助更好地理解MSA的性质 ...
0 0 0 2025/07/10 arXiv:2202.06709v4 aweek15

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)