扩散模型由于能够表示动作和轨迹的多模态分布,因此在规划和控制任务中显示出巨大的潜力。然而,确保约束下的安全仍然是扩散模型的一个关键挑战。本文提出了约束扩散器,这是一种新颖的框架,它将约束纳入预先训练的扩散模型中,无需重新训练或架构修改 ...
0 0 0 2025/11/05 arXiv:2506.12544v1 user
强化学习(RL)是提高 LLM 在长期、奖励稀少的代理任务上的战略工具使用能力的主导范式,但它面临着探索与利用权衡的根本挑战。现有研究通过策略熵的视角来刺激探索,但这种机械熵最大化很容易由于多轮分布偏移而导致强化学习训练不稳定。在本文中,我们的目标是在智能体自身经验的指导下实现渐进的探索-利用平衡,而不屈服于熵崩溃或失控发散 ...
0 0 0 2025/11/05 arXiv:2509.22601v2 Milen
电子健康记录(EHR)和医学图像的结合对于临床医生进行诊断和预测预后至关重要。战略性地融合这两种数据模式对于提高临床预测任务中机器学习模型的准确性具有巨大的潜力。然而,电子病历和医学图像的异步和互补性质提出了独特的挑战 ...
0 0 0 2025/11/05 arXiv:2403.06197v1 JackWang
生成推荐 (GR) 模型将每个操作标记为几个离散的标记(称为语义 ID),并自回归生成下一个标记作为预测,显示出内存效率、可扩展性以及统一检索和排名的潜力等优势。尽管有这些好处,但现有的标记化方法是静态的且非个性化的。他们通常仅从项目特征中派生语义 ID,假设项目具有普遍相似性,而忽略了特定于用户的观点 ...
0 0 0 2025/11/05 arXiv:2510.21276v1 ksWGQ
多模态大语言模型(MLLM)的视频推理能力对于视频问答和时间基础等下游任务至关重要。虽然最近的方法已经探索了基于文本的 MLLM 思维链 (CoT) 推理,但这些方法通常会受到有限的跨模式交互和增加的幻觉的影响,尤其是对于较长的视频或推理链。为了应对这些挑战,我们提出了通过工具增强学习(VITAL)的视频智能,这是一种新颖的端到端代理视频推理框架 ...
0 0 0 2025/11/05 arXiv:2508.04416v2 Archer
随着深度学习的快速发展,传统的验证码方案越来越容易受到深度神经网络(DNN)驱动的自动攻击。现有的对抗性攻击方法通常依赖于原始图像特征,导致扭曲,阻碍人类解释并限制在缺乏初始输入图像的场景中的适用性。为了应对这些挑战,我们提出了无源对抗性验证码(UAC),这是一种新颖的框架,可在攻击者指定的文本提示的指导下生成高保真对抗性示例 ...
0 0 0 2025/11/05 arXiv:2506.10685v3 sr
大型语言模型(LLM)最近在复杂的多步骤任务中取得了显着的成果,例如数学推理和代理软件工程。然而,他们常常难以在多次解决方案尝试中保持一致的性能。缩小平均情况和最佳情况性能之间差距的一种有效方法是引导测试时搜索,它探索多种解决方案路径来识别最有希望的路径 ...
0 0 0 2025/11/05 arXiv:2505.13652v1 leec
当前的车辆到所有设施(V2X)系统使用LIDAR和相机数据显着增强了3D对象检测。但是,这些方法在不利天气条件下遭受性能降解。天气风光4D雷达提供多普勒和其他几何信息,从而提高了应对这一挑战的可能性 ...
0 0 0 2025/11/05 arXiv:2411.08402v5 hanzhi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)