我们提出了一种单发方法,用于同时检测RGB图像中的对象,并预测其6D姿势而无需多个阶段或必须检查多个假设。与最近提出的针对此任务的单发技术(KEHL等人,ICCV'17)不同,该技术仅预测了必须进行完善的大约6D姿势,因此我们的操作非常准确,不需要其他后处理 ...
深度神经网络(DNN)在现实世界中的动态设置中通常表现不佳,其中数据分布会随着时间而变化。域增量学习(DIL)通过启用连续模型适应来提供解决方案,而参数 - 隔离DIL(PIDIL)作为减少知识冲突的有前途的范式出现。但是,现有的PIDIL方法与参数选择的精度相加困难,尤其是随着域和相应类的数量的增长 ...
MLLM推理因其出色的解决问题的能力而引起了广泛的研究。当前的推理方法分为两种类型:PRM,该方法监督了中间推理步骤,而ORM则是监督最终结果。最近,DeepSeek-R1挑战了传统观点,即PRM优于ORM,该观点使用ORM方法证明了强大的概括性能(i ...
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation
零射击对象导航(ZSON)任务要求体现的代理通过在不熟悉的环境中导航来查找以前看不见的对象。这种面向目标的探索在很大程度上依赖于根据环境的空间信息感知,理解和理性的能力。但是,当前基于LLM的方法将视觉观察转换为语言描述和语言空间中的理由,从而导致空间信息的丢失 ...
多模式大语言模型(MLLM)的最新进步在2D视觉任务上的性能显着提高。但是,改善其空间情报仍然是一个挑战。现有的3D MLLM始终依赖其他3D或2 ...
多模式大语言模型(MLLM)的最新进展已在视觉任务中表现出了显着的功能,但是他们经常在以视觉为中心的情况下挣扎,在这些方案中,需要精确的视觉焦点以进行准确的推理。在本文中,我们介绍了Argus,以一种新的视觉注意接地机制来解决这些局限性。我们的方法采用以对象为中心的基础作为视觉链信号,从而在多模式推理任务中实现了更有效的目标条件的视觉注意力 ...
生成的AI搜索通过提供复杂查询的端到端答案来重塑信息检索,从而减少用户对手动浏览的依赖并汇总多个网页。但是,尽管此范式增强了便利性,但它破坏了反馈驱动的改进循环,该循环历史上为传统网络搜索的演变提供了动力。 Web搜索可以通过收集大规模,细粒度的用户反馈(e ...
通用时间序列的出现预测模型已彻底改变了跨不同领域的零射击预测,但是数据多样性在训练这些模型中的关键作用仍然没有得到充实。现有的大规模时间序列数据集通常会遭受固有的偏见和不平衡分布的损失,从而导致次优模型性能和概括。为了解决这一差距,我们引入了BLAST,这是一种新型的预训练语料库,旨在通过平衡的采样策略来增强数据多样性 ...