大语言模型(LLMS)中的视觉幻觉,该模型会产生与视觉输入不一致的响应,对其可靠性构成了重大挑战,尤其是在精确和值得信赖的输出至关重要的情况下。当前的研究在很大程度上强调了事后校正或特定于模型的微调策略,并且对在输入阶段解决幻觉问题的预处理技术的探索有限。这项研究提出了一种新型的基于整体的预处理框架,可自适应地选择最合适的过滤方法 - 降低噪声(NR),Edge增强(EE)或未更换的输入(ORG) ...
诸如DeepSeek-R1之类的大语言模型的推理能力的最新爆炸性兴趣通过基于强化学习的微调框架表现出了显着的成功,这是通过诸如组相对策略优化(GRPO)之类的方法举例的。但是,在视觉基础模型中,此类推理能力仍然没有充满激发,并且在包括Dino系列之类的表示模型中不存在。在这项工作中,我们提出了\ textbf {dino-r1},这是第一次尝试使用增强学习来激励视觉中的视觉上下文推理能力 ...
多模式大语言模型(MLLM)中的多模式幻觉限制了MLLM的正确性。然而,多模式幻觉是多源的,是由多种原因引起的。现有的基准无法充分区分感知引起的幻觉和推理引起的幻觉 ...
大型语言模型表现出了令人印象深刻的推理能力,但本质上受其知识库的限制。通过允许LLM查询外部资源来检索启动的推理可以减轻这种限制,但是现有方法通常会检索无关紧要或嘈杂的信息,从而阻碍了准确的推理。在本文中,我们提出了AutoreFine,这是一种增强培训后的培训后框架,采用了新的``搜索''d-Refine-distring-Inkink''范式 ...
理解由运动定律,空间关系和因果关系控制的物理世界,对多模式大语言模型(MLLM)提出了根本挑战。尽管OpenAI O3和GPT-4O等最近的进步表现出令人印象深刻的知觉和推理能力,但我们的调查揭示了这些模型在视觉物理推理的深刻努力,无法掌握基本的物理定律,空间相互作用,并在复杂场景中的因果效应。更重要的是,他们通常无法遵循以视觉证据为基础的连贯推理链,尤其是当需要多个步骤来得出正确的答案时 ...
大型语言模型和对大规模机器人数据集的访问的最新进展激发了机器人技术模型的范式转变,使它们转变为能够适应各种任务,场景和机器人模式的通才。社区的巨大一步是开放视觉语言动作模型,这些模型在各种任务中展示了出色的表现。在这项工作中,我们研究了三个现有机器人基础模型的视觉概括功能,并提出了相应的评估框架 ...
导航研究中的一个难以捉摸的目标是建立一个智能代理,该智能代理可以理解包括自然语言和图像在内的多模式说明,并执行有用的导航。为了实现这一目标,我们研究了带有示范旅行(MINT)的多模式指令导航的广泛有用的导航任务类别,其中通过先前记录的演示视频提供了先验的环境。视觉语言模型(VLM)的最新进展在实现这一目标方面表现出了有希望的途径,因为它展示了感知和推理多模式输入的能力 ...
基于扩散的大语言模型(扩散LLM)已显示出具有并行解码功能的非自动回归文本生成的希望。但是,由于缺乏键值(KV)缓存和质量降解,开源扩散LLM的实际推理速度通常会落后于自回归模型。为了弥合这一差距,我们引入了一种针对双向扩散模型量身定制的新颖的块近似KV缓存机制,从而使缓存可重复使用,而性能降低可忽略不计 ...