在未知环境中的视觉导航对于移动机器人至关重要。在家庭援助和救援等情况下,移动机器人需要了解人类的命令,例如“找到一个穿黑色的人”。我们提出了一种新颖的视觉导航(VL-NAV)系统,该系统在低功率机器人上集成了有效的空间推理 ...
现实世界中的家庭任务对移动操纵机器人面临着重大挑战。对现有机器人技术基准的分析表明,成功的任务绩效取决于三个关键的全身控制功能:双层协调,稳定且精确的导航以及广泛的最终效果可达性。实现这些功能需要仔细的硬件设计,但是由此产生的系统复杂性进一步使视觉运动策略学习变得复杂 ...
线段在我们的人类世界中无处不在,并且越来越多地用于视觉任务。由于它们的空间范围及其提供的结构信息,它们对特征点具有补充。基于图像梯度的传统线探测器非常快速,准确,但在嘈杂的图像和具有挑战性的条件下缺乏健壮性 ...
在本文中,我们提出了一种基于学习的方法,以自动提取杂乱的人造环境图像的“线框”表示。线框(见图1)包含所有显着的直线及其在有效,准确地编码大型几何形状和对象形状的场景的连接处 ...
本文提出了一种快速和简约的解析方法,可准确稳健地检测出具有单个正向通行证的输入图像中的矢量线框。所提出的方法是端到端训练,由三个组件组成:(i)线段和交界提案生成,(ii)线段和连接匹配,以及(iii)线段和连接验证。为了计算线段建议,提出了一种新颖的双重表示,该提议利用了线段的片状几何重新聚集化,并形成了输入图像的整体4维吸引场图 ...
高分辨率图像和详尽的局部注释成本的良好成本阻碍了数字病理学的进展。用于对病理图像进行分类的常用范式是基于斑块的处理,该处理通常包含多个实例学习(MIL)以汇总局部斑块级表示,从而产生图像级预测。但是,诊断相关的区域只能占整个组织的一小部分,而当前的基于MIL的方法通常会统一地处理图像,从而丢弃相互作用的相互作用 ...
DUST3R提出了一个模型,该模型可以提供密集且无约束的立体3D重建任意图像集合,而没有有关摄像机校准或观点姿势的事先信息,从而引入了几何计算机视觉的新范式。但是,在引擎盖下,DUST3R处理图像对,回归需要在全球坐标系中对齐的本地3D重建。对二次生长的对数是一个固有的限制,在大型图像集合的情况下,它特别关注可靠和快速优化 ...
在本文中,我们提出了一种高效的视觉 SLAM 系统,旨在解决短期和长期的照明挑战。我们的系统采用混合方法,将用于特征检测和匹配的深度学习技术与传统的后端优化方法相结合。具体来说,我们提出了一个统一的卷积神经网络(CNN),可以同时提取关键点和结构线 ...
我们提出了Light3R-SFM,这是一种从无约束的图像收集中从无约束的图像收集中有效的大规模结构(SFM)的端到端学习框架。与现有的SFM解决方案依靠昂贵的匹配和全球优化来实现准确的3D重建,Light3R-SFM通过一种新型的潜在全球对齐模块来解决这一限制。该模块用可学习的注意机制代替了传统的全局优化,从而有效地捕获了图像跨图像的多视图约束,从而获得了稳健和精确的相机姿势估计 ...
多视图3D重建仍然是计算机视觉中的核心挑战,尤其是在需要各种视角的准确和可扩展表示的应用中。当前的领先方法(例如DUST3R)采用了基本的成对方法,成对处理图像,并需要昂贵的全球对齐程序从多个视图中重建。在这项工作中,我们提出了快速的3D重建(FAST3R),这是一种对DUST3R的新型多视图概括,通过并行处理许多视图来实现有效且可扩展的3D重建 ...