大型语言模型(LLMS)已经证明了通过高级推理,长形成内容生成和工具使用来解决日益复杂的任务的能力。解决这些任务通常涉及长时间的推理时间计算。在人类问题解决中,加快工作的共同策略是协作:将问题分为子任务,同时探索不同的策略,等等 ...
0 0 0 2025/07/01 arXiv:2504.06261v3 remaper
自我纠正是大型语言模型(LLM)的高度理想能力,但一直发现它在现代LLM中基本上是无效的。当前的训练自校正方法通常取决于多个模型,更高级的模型或其他形式的监督。为了解决这些缺点,我们开发了一种多转弯的在线增强学习方法(RL)方法,该方法得分可显着提高LLM使用完全自我生成的数据的自我纠正能力 ...
0 0 0 2025/07/01 arXiv:2409.12917v2 syhhh
在加强学习(RL)中,设计精确的奖励功能仍然是一个挑战,尤其是在与人类意图保持一致时。引入了基于偏好的RL(PBRL),以通过从人类反馈中学习奖励模型来解决这个问题。但是,现有的PBRL方法具有局限性,因为它们经常忽略表明偏好相对强度的二阶偏好 ...
0 0 0 2025/07/01 arXiv:2408.04190v1 zengyanxiang
顺序推荐旨在通过对类似用户或项目的历史行为进行协作过滤(CF)信号进行建模来预测用户的未来交互。传统的顺序推荐器主要依赖于基于ID的嵌入,该嵌入方式通过高阶共发生模式捕获CF信号。但是,这些嵌入完全取决于过去的相互作用,缺乏可转移的知识来推广到看不见的领域 ...
0 0 0 2025/07/01 arXiv:2506.21579v1 18746307039
多模式建议主要集中于有效利用行为和多模式信息来进行推荐任务。但是,大多数现有模型在从两个不同域中融合信息时都会遇到以下问题:(1)以前的作品仅通过仅使用直接串联,添加或简单的线性图层来提取模态信息提取而充分注意对模态信息的充分利用。 (2)以前的作品将模态特征视为可学习的嵌入,这会导致模态嵌入在学习过程中逐渐偏离原始模态特征 ...
0 0 0 2025/07/01 arXiv:2404.11119v2 CoooolTu
当前的多模式顺序推荐模型通常无法有效地探索和捕获不同模态的用户和项目之间的行为序列之间的相关性,要么忽略了序列表示之间的相关性,要么在其表示中忽略了多模态数据和序列数据之间的关联。为了解决这个问题,我们在顺序建议的背景下探索了多模式的预训练,以增强多模式信息的融合和利用。我们为顺序推荐(MP4SR)框架提出了一种新颖的多模式预训练,该框架利用对比度损失来捕获用户不同模态序列之间的相关性,以及用户和 ...
0 0 0 2025/07/01 arXiv:2303.11879v2 CoooolTu
有效,准确的运动预测对于确保自主驾驶中的安全性和明智的决策至关重要,尤其是在需要多模式预测的动态现实世界中。我们介绍了Trajflow,这是一种基于流动匹配的新型运动预测框架,该框架解决了现有生成轨迹预测方法的可扩展性和效率挑战。与采用i的常规生成方法不同 ...
0 0 0 2025/07/01 arXiv:2506.08541v1 sda
非政策评估(OPE)旨在仅使用离线记录的数据准确评估反事实策略的性能。尽管已经开发了许多估计器,但没有单个估计器主导其他估计器,因为估计器的准确性可能会大大差异,具体取决于给定的OPE任务,例如评估策略,操作数量和噪声水平。因此,数据驱动的估计器选择问题变得越来越重要,并且可能对OPE的准确性产生重大影响 ...
0 0 0 2025/07/01 arXiv:2211.13904v2 naristlia

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)