大型语言模型(LLM)的最新进展激发了人们对将语言驱动技术整合到轨迹预测中的越来越兴趣。通过利用其语义和推理能力,LLM正在重塑自主系统如何感知,模型和预测轨迹。这项调查提供了对这个新兴领域的全面概述,将最近的工作分为五个方向:(1)通过语言建模范式进行轨迹预测,(2)使用预读的语言模型的直接轨迹预测,(3)语言指导的场景理解轨迹预测的场景理解,(4)基于语言预测的语言驱动数据,用于轨迹预测性,以 ...
这项工作解决了流视频深度估计的挑战,该估计不仅期望人均准确性,而且更重要的是跨框架的一致性。我们认为,框架或剪辑之间共享上下文信息对于培养时间一致性至关重要。因此,我们将深度预测重新调整为有条件的一代问题,以在剪辑和整个剪辑中提供上下文信息 ...
单目深度估计对于众多下游视觉任务和应用至关重要。目前解决这个问题的判别方法由于模糊伪像而受到限制,而最先进的生成方法由于其 SDE 性质而受到采样缓慢的困扰。我们不是从噪声开始,而是寻求从输入图像到深度图的直接映射 ...
标准RL世界模型是马尔可夫决策过程(MDP)。 MDP的基本前提是奖励仅取决于最后一个状态和行动。然而,许多现实世界的奖励都是非马克维亚人 ...
具有大型多模型模型的文本到图像生成AI的进步正在扩展到图像压缩领域,从而以极低的比特速率形成了图像的高质量表示。这项工作将新颖的组成部分引入了现有的多模式图像语义压缩(MISC)方法,从而增强了生成图像的质量,从PSNR和感知度量指标方面。新组件包括生成解码器的语义分割指南以及内容自适应扩散,该分解器基于图像特征控制扩散步骤的数量 ...
时间序列预测(TSF)是一项基本且经过广泛研究的任务,涵盖了从经典统计方法到现代深度学习和多模式建模的方法。尽管它们有效,但这些方法通常遵循快速思考的范式,强调模式提取和直接价值映射,同时忽略了时间动态和上下文依赖性的明确推理。同时,出现了缓慢思考的LLM(e ...
跨模式的对比度学习预处理(VLP)面临着(部分)假否定的挑战。在本文中,我们从相互信息(MI)优化的角度研究了这个问题。常识是,在对比学习中使用的Infonce损失将最大程度地提高锚及其积极因素之间MI的下限,而理论上我们证明,当噪声通常存在时,涉及负面因素的MI也很重要 ...
大型视觉模型(LVLM)中的幻觉极大地破坏了它们的可靠性,激发了研究人员探索幻觉的原因。但是,大多数研究主要集中于语言方面,而不是视觉方面。在本文中,我们解决了LVLMS如何处理视觉信息以及此过程是否引起幻觉 ...