一译 —— 文档和论文翻译、对照阅读、讨论和社区

Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study

尽管大型语言模型（LLM）（主要通过在线强化学习（RL）方法）在长期文化推理方面取得了重大进展，但这些方法仍会引起实质性的计算成本和复杂性。相比之下，更简单，更经济的离线RL方法仍未得到充实。为了解决这一差距，我们研究了离线RL方法的有效性，特别是直接偏好优化（DPO）及其长度敏感的变体LD-DPO，在增强了LLMS的推理能力方面 ...

0 0 0 2025/06/03 arXiv:2505.02142v1 mingyu

GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

大型语言模型（LLM）具有令人印象深刻的功能，但需要仔细地与人类偏好保持一致。传统的培训时间方法使用人类偏好数据集使用Finetune LLMS，但会产生大量的培训成本，并需要重复培训以应对多样化的用户偏好。测试时间对齐方法通过使用奖励模型（RMS）来解决此问题，以指导冷冻LLM而不进行重新培训 ...

0 0 0 2025/06/03 arXiv:2410.08193v3 liukai

Inference-Time Scaling for Generalist Reward Modeling

强化学习（RL）在大规模语言模型（LLMS）的训练后广泛采用。最近，RL从LLM中激励推理能力表明$ \ textit {正确的学习方法可以启用有效的推理时间可伸缩性} $。 RL的关键挑战是在可验证的问题或人造规则之外，在各个领域中获得LLM的准确奖励信号 ...

0 0 0 2025/06/03 arXiv:2504.02495v2 liukai

Unveiling the Significance of Toddler-Inspired Reward Transition in Goal-Oriented Reinforcement Learning

幼儿从稀疏反馈的自由探索中演变为利用先前的经验，以通过浓密的奖励进行目标指导学习。从这个幼儿启发的奖励过渡中汲取灵感，我们着手探索当纳入强化学习（RL）任务中时各种奖励过渡的含义。我们询问的核心是从稀疏到潜在的密集奖励的过渡，无论奖励变化如何，它们都具有最佳策略 ...

0 0 0 2025/06/03 arXiv:2403.06880v2 zhongzh

Scaling Laws for Native Multimodal Models

建立可以通过多模式信号有效地感知世界的通用模型是一个长期的目标。当前的方法涉及分别整合预训练的组件，例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率，但仍然是一个悬而未决的问题，这是否本质上是优越的 ...

0 0 0 2025/06/03 arXiv:2504.07951v2 liangmin0020

Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings

计算机辅助手术过程的进步在很大程度上依赖于手术过程中使用的相机系统的准确视觉数据解释。关注外科手术程序的传统开放式数据集通常受其小尺寸的限制，通常由少于100个视频组成，图像少于100K。为了解决这些限制，使用新颖的聚合管道编制了一个名为Surg-3M的新数据集，该数据集收集了从在线来源收集高分辨率视频的新型聚合管道 ...

0 0 0 2025/06/03 arXiv:2503.19740v1 663138597

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

我们日常生活中有丰富的同步音频和视觉事件。在事件中，音频场景与相应的视觉对象相关联；同时，发声对象可以指示并帮助在音轨中分离其单个声音。基于这一观察结果，在本文中，我们提出了一个循环共学习（CCOL）范式，该范式可以在统一的框架中共同学习声音的视觉接地和视听声音分离 ...

0 0 0 2025/06/03 arXiv:2104.02026v1 argbunint256

Improving Multi-Domain Task-Oriented Dialogue System with Offline Reinforcement Learning

面向任务的对话（TOD）系统旨在通过对话完成用户定义的任务。 TOD系统通过利用预先训练的大语言模型来朝着端到端的建模发展。仅使用监督的学习对预训练的语言模型进行微调会导致曝光偏见和 Token 损失问题，并且它使模型偏离完成用户的任务 ...

0 0 0 2025/06/03 arXiv:2411.05340v1 zhongzh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）