我们提出了一种单发方法,用于同时检测RGB图像中的对象,并预测其6D姿势而无需多个阶段或必须检查多个假设。与最近提出的针对此任务的单发技术(KEHL等人,ICCV'17)不同,该技术仅预测了必须进行完善的大约6D姿势,因此我们的操作非常准确,不需要其他后处理 ...
0 0 0 2025/05/30 arXiv:1711.08848v5 hanzhuo
深度神经网络(DNN)在现实世界中的动态设置中通常表现不佳,其中数据分布会随着时间而变化。域增量学习(DIL)通过启用连续模型适应来提供解决方案,而参数 - 隔离DIL(PIDIL)作为减少知识冲突的有前途的范式出现。但是,现有的PIDIL方法与参数选择的精度相加困难,尤其是随着域和相应类的数量的增长 ...
0 0 0 2025/05/30 arXiv:2505.23744v1 19396386025
MLLM推理因其出色的解决问题的能力而引起了广泛的研究。当前的推理方法分为两种类型:PRM,该方法监督了中间推理步骤,而ORM则是监督最终结果。最近,DeepSeek-R1挑战了传统观点,即PRM优于ORM,该观点使用ORM方法证明了强大的概括性能(i ...
0 0 0 2025/05/30 arXiv:2503.23905v1 dm616703
零射击对象导航(ZSON)任务要求体现的代理通过在不熟悉的环境中导航来查找以前看不见的对象。这种面向目标的探索在很大程度上依赖于根据环境的空间信息感知,理解和理性的能力。但是,当前基于LLM的方法将视觉观察转换为语言描述和语言空间中的理由,从而导致空间信息的丢失 ...
0 0 0 2025/05/30 arXiv:2411.16425v2 dm616703
多模式大语言模型(MLLM)的最新进步在2D视觉任务上的性能显着提高。但是,改善其空间情报仍然是一个挑战。现有的3D MLLM始终依赖其他3D或2 ...
0 0 0 2025/05/30 arXiv:2505.23747v1 dm616703
多模式大语言模型(MLLM)的最新进展已在视觉任务中表现出了显着的功能,但是他们经常在以视觉为中心的情况下挣扎,在这些方案中,需要精确的视觉焦点以进行准确的推理。在本文中,我们介绍了Argus,以一种新的视觉注意接地机制来解决这些局限性。我们的方法采用以对象为中心的基础作为视觉链信号,从而在多模式推理任务中实现了更有效的目标条件的视觉注意力 ...
0 0 0 2025/05/30 arXiv:2505.23766v1 dm616703
生成的AI搜索通过提供复杂查询的端到端答案来重塑信息检索,从而减少用户对手动浏览的依赖并汇总多个网页。但是,尽管此范式增强了便利性,但它破坏了反馈驱动的改进循环,该循环历史上为传统网络搜索的演变提供了动力。 Web搜索可以通过收集大规模,细粒度的用户反馈(e ...
0 0 0 2025/05/30 arXiv:2505.14680v1 zjwbr
通用时间序列的出现预测模型已彻底改变了跨不同领域的零射击预测,但是数据多样性在训练这些模型中的关键作用仍然没有得到充实。现有的大规模时间序列数据集通常会遭受固有的偏见和不平衡分布的损失,从而导致次优模型性能和概括。为了解决这一差距,我们引入了BLAST,这是一种新型的预训练语料库,旨在通过平衡的采样策略来增强数据多样性 ...
0 0 0 2025/05/30 arXiv:2505.17871v2 徐小五

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)