方形平面标记是一种流行的快速、准确和稳健的相机定位工具,但其使用通常仅限于单个标记,或者最多仅限于预先已知其相对姿势的一小部分标记。从大量平面标记进行映射和定位仍然是一个很少被处理的问题,有利于基于关键点的方法。然而,虽然关键点检测器对于快速运动、视点的较大变化或外观的显着变化不稳健,但可以在更广泛的条件下稳健地检测基准标记 ...
特征匹配是一项具有挑战性的计算机视觉任务,涉及查找 3D 场景的两个图像之间的对应关系。在本文中,我们考虑密集方法而不是更常见的稀疏范式,从而努力找到所有对应关系。也许与直觉相反,密集方法之前在双视图几何估计方面表现出比稀疏和半稀疏方法差的性能 ...
我们提出了 STORM,一种时空重建模型,旨在从稀疏观测中重建动态室外场景。现有的动态重建方法通常依赖于每个场景的优化、跨空间和时间的密集观察以及强运动监督,导致优化时间过长,对新视图或场景的泛化有限,以及动态噪声伪标签导致的质量下降。为了应对这些挑战,STORM 利用数据驱动的 Transformer 架构,在一次前向传递中直接推断动态 3D 场景表示(由 3D 高斯及其速度参数化) ...
人类自然地依赖平面图在不熟悉的环境中导航,因为它们容易获得、可靠,并提供丰富的几何指导。然而,现有的视觉导航设置忽视了这一宝贵的先验知识,导致效率和准确性有限。为了消除这一差距,我们引入了一种新颖的导航任务:平面图视觉导航(FloNa),这是将平面图纳入具体视觉导航的首次尝试 ...
地点识别是机器人导航的关键模块。现有的研究主要集中在视觉地点识别上,仅根据外观来识别以前访问过的地点。在本文中,我们通过基于结构外观(即距离传感器)识别位置来解决结构位置识别问题 ...
我们引入了一种新颖的 3D 生成方法,用于创建多功能且高质量的 3D 资产。其基础是统一的结构化 LATent (SLAT) 表示,它允许解码为不同的输出格式,例如辐射场、3D 高斯和网格。这是通过将稀疏的 3D 网格与从强大的视觉基础模型中提取的密集多视图视觉特征相集成来实现的,全面捕获结构(几何)和纹理(外观)信息,同时保持解码过程中的灵活性 ...
我们提出了一种实时 LiDAR-惯性相机 SLAM 系统,以 3D Gaussian Splatting 作为映射后端。本文利用我们的激光雷达惯性相机里程计 Coco-LIC 的稳健姿态估计,提出了一种增量真实感测绘系统。我们从彩色 LiDAR 点初始化 3D 高斯,并使用由 3D 高斯 Splatting 提供支持的可微渲染来优化它们 ...
本文针对室内场景提出了一种低漂移单目 SLAM 方法,其中单目 SLAM 经常因缺乏纹理表面而失败。我们的方法将跟踪过程的旋转和平移估计解耦,以减少室内环境中的长期漂移。为了充分利用场景中可用的几何信息,卷积神经网络根据每个输入 RGB 图像实时预测表面法线 ...
立体匹配旨在估计立体图像对中匹配像素之间的差异,这对于机器人、自动驾驶和其他计算机视觉任务非常重要。尽管近年来开发了许多令人印象深刻的方法,但确定最适合实际应用的架构仍然具有挑战性。为了解决这一差距,我们的论文引入了一个全面的基准测试,重点关注实际适用性,而不是仅仅关注单个模型以优化性能 ...
在本文中,我们提出了一种新颖的密集面元映射系统,只需 CPU 计算即可在不同环境中很好地扩展。使用稀疏 SLAM 系统来估计相机位姿,所提出的地图系统可以将强度图像和深度图像融合成全局一致的模型。该系统经过精心设计,可以使用 RGB-D 相机、立体相机甚至单目相机的深度图像构建从房间规模的环境到城市规模的环境 ...