基于规则的奖励提供了一种有前途的策略来改善从人类反馈(RLHF)中学习的强化学习,但是当前的方法通常依赖于手动规则工程。我们提出自动化,这是一种完全自动化的方法,用于从偏好反馈中提取规则并将其提出为基于规则的奖励。自动提取分为三个阶段:它利用推理模型来解释用户偏好,从这些解释的推理链中识别候选规则,并将其合成为统一规则集 ...
0 0 0 2025/06/20 arXiv:2506.15651v1 Barca
在这项工作中,我们提出了一个沿现代Hopfield网络(MNH)线的能量功能,其固定点与由于Vaswani等人[12]引起的注意力相对应,从而统一了两个框架。该景观的最小值形成了“上下文井”  - 稳定的配置,封装了 Token 之间的上下文关系 ...
0 0 0 2025/06/20 arXiv:2506.11043v1 odenkkk
从车内摄像机捕获的拥挤观察中揭示一条空旷的街道对于自动驾驶至关重要。但是,删除所有暂时的静态物体,例如停止的车辆和站立行人,提出了重大挑战。与以对象为中心的3D插入式介绍不同,这依赖于在一个小场景中进行详尽的观察,街道场景案例涉及与以前3D授课任务不同的长轨迹 ...
0 0 0 2025/06/20 arXiv:2405.18416v4 zhanguanglun
随着视觉模型(VLM)的不断增长,移动代理现在被广泛用于UI自动化和基于相机的用户帮助等任务。这些代理通常会在有限的用户生成的数据集上进行微调,使它们在培训过程中容易受到秘密威胁的影响。在这项工作中,我们提出了Ghost,这是第一次专为基于VLMS的移动代理而设计的清洁标签后门攻击 ...
0 0 0 2025/06/20 arXiv:2506.13205v1 hhhhh
鉴于由于计算限制,对所有候选人的微调不切实际,开源大型语言模型(LLM)和多样化的下游任务的扩散需要有效的模型选择。尽管LLM选择最近取得了进步,但基本的研究问题基本上仍然是新生的:我们如何在微调过程中对LLM的动态行为进行建模,从而增强我们对它们在各种下游任务中的概括性能的理解?在这项工作中,我们提出了一个新颖的理论框架,该框架提供了适当的镜头来评估LLM的概括能力,从而为下游应用提供了准确有效 ...
0 0 0 2025/06/20 arXiv:2505.03793v3 瓶子
多模式大语言模型(MLLM)的最新进步在视觉问题回答中的性能显着提高。但是,他们经常患有幻觉。在这项工作中,幻觉分为两种主要类型:初始幻觉和雪球幻觉 ...
0 0 0 2025/06/20 arXiv:2505.16652v2 18811558339
我们考虑了从商品手持设备中获得的单个RGB(-d)帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先,我们确定现有数据集对对象的规模,准确性和多样性有重大限制 ...
0 0 0 2025/06/20 arXiv:2412.04458v1 王辉
材料科学和工程等领域应用领域应用的大型语言模型(LLM)的进步取决于制定适应专业技术能力的微调策略。在这项工作中,我们探讨了持续预处理(CPT),监督微调(SFT)以及各种基于偏好的优化方法,包括直接偏好优化(DPO)和优势比偏好优化(ORPO)对微型LLM绩效的影响。我们的分析表明,这些策略如何影响模型的结果,并揭示了多个微调模型的合并可以导致超过父模型的个人贡献的能力的出现 ...
0 0 0 2025/06/20 arXiv:2409.03444v1 liuweitang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)