标准RL世界模型是马尔可夫决策过程(MDP)。 MDP的基本前提是奖励仅取决于最后一个状态和行动。然而,许多现实世界的奖励都是非马克维亚人 ...
0 0 0 2025/06/22 arXiv:1912.02552v1 sealaes
具有大型多模型模型的文本到图像生成AI的进步正在扩展到图像压缩领域,从而以极低的比特速率形成了图像的高质量表示。这项工作将新颖的组成部分引入了现有的多模式图像语义压缩(MISC)方法,从而增强了生成图像的质量,从PSNR和感知度量指标方面。新组件包括生成解码器的语义分割指南以及内容自适应扩散,该分解器基于图像特征控制扩散步骤的数量 ...
0 0 0 2025/06/21 arXiv:2505.24015v1 1150501302
时间序列预测(TSF)是一项基本且经过广泛研究的任务,涵盖了从经典统计方法到现代深度学习和多模式建模的方法。尽管它们有效,但这些方法通常遵循快速思考的范式,强调模式提取和直接价值映射,同时忽略了时间动态和上下文依赖性的明确推理。同时,出现了缓慢思考的LLM(e ...
0 0 0 2025/06/21 arXiv:2505.24511v2 jeremychou
跨模式的对比度学习预处理(VLP)面临着(部分)假否定的挑战。在本文中,我们从相互信息(MI)优化的角度研究了这个问题。常识是,在对比学习中使用的Infonce损失将最大程度地提高锚及其积极因素之间MI的下限,而理论上我们证明,当噪声通常存在时,涉及负面因素的MI也很重要 ...
0 0 0 2025/06/21 arXiv:2305.04474v3 LittleHenry
大型视觉模型(LVLM)中的幻觉极大地破坏了它们的可靠性,激发了研究人员探索幻觉的原因。但是,大多数研究主要集中于语言方面,而不是视觉方面。在本文中,我们解决了LVLMS如何处理视觉信息以及此过程是否引起幻觉 ...
0 0 0 2025/06/21 arXiv:2411.16724v3 18811558339
近期大型视觉语言模型(LVLM)提出了具有多模式查询的显着零拍对性和推理功能。然而,它们遭受了对象幻觉的困扰,这是一种现象,其中lvlms容易产生与图像输入不符的文本响应。我们的试点研究表明,物体幻觉与旋转位置编码(绳索)紧密相关,这是现有LVLM中广泛采用的位置依赖建模设计 ...
0 0 0 2025/06/21 arXiv:2410.15926v1 18811558339
大型视觉模型(LVLM)在多模式任务中取得了重大成功,多模式链(MCOT)进一步提高了性能和可解释性。最近的MCOT方法分为两类:(i)Textual-MCOT(T-MCOT),它采用多模式输入并产生文本输出; (ii)交织的mcot(i-mcot),生成交织的图像文本输出。尽管两种方法都取得了进步,但推动这些改进的机制尚未完全理解 ...
0 0 0 2025/06/21 arXiv:2505.15510v1 X.K
图形卷积网络(GCN)在培训推荐系统(RECSYS)中的效率和可扩展性一直是持续关注的问题,阻碍了其在现实世界中的部署。本文对训练阶段的图形卷积的必要性进行了批判性检查,并引入了创新的替代方案:光后训练图普通差异方程式(LightGode)。我们的调查表明,在测试过程中而不是培训期间,GCN的好处更为明显 ...
0 0 0 2025/06/21 arXiv:2407.18910v2 readpapers

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)