在本文中,我们提出了一种高效的视觉 SLAM 系统,旨在解决短期和长期的照明挑战。我们的系统采用混合方法,将用于特征检测和匹配的深度学习技术与传统的后端优化方法相结合。具体来说,我们提出了一个统一的卷积神经网络(CNN),可以同时提取关键点和结构线 ...
我们提出了Light3R-SFM,这是一种从无约束的图像收集中从无约束的图像收集中有效的大规模结构(SFM)的端到端学习框架。与现有的SFM解决方案依靠昂贵的匹配和全球优化来实现准确的3D重建,Light3R-SFM通过一种新型的潜在全球对齐模块来解决这一限制。该模块用可学习的注意机制代替了传统的全局优化,从而有效地捕获了图像跨图像的多视图约束,从而获得了稳健和精确的相机姿势估计 ...
多视图3D重建仍然是计算机视觉中的核心挑战,尤其是在需要各种视角的准确和可扩展表示的应用中。当前的领先方法(例如DUST3R)采用了基本的成对方法,成对处理图像,并需要昂贵的全球对齐程序从多个视图中重建。在这项工作中,我们提出了快速的3D重建(FAST3R),这是一种对DUST3R的新型多视图概括,通过并行处理许多视图来实现有效且可扩展的3D重建 ...
在本文中,我们介绍了Splatt3R,这是一种无姿势的,馈送的方法,用于野外3D重建,并从立体声配对中介绍了新型视图合成。给定未校准的自然图像,Splatt3R可以预测3D高斯夹板,而无需任何相机参数或深度信息。为了概括性,我们通过将其扩展以处理3D结构和外观来构建``基础''3D几何重建方法MAST3R ...
我们提出了一个实时的单眼密集大满贯系统,该系统由MAST3R(两视图3D重建和匹配之前)设计为自下而上。配备了这种强大的先验,我们的系统在野外视频序列上虽然没有在唯一的相机中心之外的固定或参数摄像头模型上做出假设。我们介绍了用于指数匹配,相机跟踪和本地融合,图形结构和循环闭合以及二阶全局优化的有效方法 ...
以视觉为中心的占用网络代表具有语义均匀体素的周围环境,已成为安全驾驶仅相机自动驾驶感知系统的新趋势,因为它们能够检测到障碍物,无论其形状和闭塞如何。现代占用网络主要集中于从对象表面重建具有体素语义预测的对象表面的可见体素。通常,它们对一个对象的预测不一致,并且对相邻对象的预测混合了预测 ...
我们提出了X-Decoder,这是一个通用的解码模型,可以无缝预测像素级分段和语言 Token 。 x-decodert作为输入的两种查询:(i)从文本输入引起的通用非语义查询以及(ii)语义查询,以解码在同一语义空间中的不同像素级和 Token 级输出。借助如此新颖的设计,X-Decoder是第一部提供统一方法来支持所有类型的图像分割和各种视觉语言(VL)任务的作品 ...
姿势回归网络可以预测查询图像相对于已知环境的相机姿势。在这种方法家族中,绝对姿势回归(APR)最近显示出有望的精度,在几厘米的位置误差的范围内。 APR网络在其权重中隐含地编码场景几何形状 ...
功能匹配是一项重要的计算机视觉任务,涉及估计3D场景的两个图像之间的对应关系,并且密集方法估计所有这些对应关系。目的是学习一个健壮的模型,即 ...
图像匹配旨在识别图像之间相应的像素位置,在广泛的科学学科中至关重要,有助于图像注册,融合和分析。近年来,基于深度学习的图像匹配算法在迅速,准确地找到大量对应方面的人类表现显着优于人类。但是,当处理在不同成像方式下捕获的图像会导致出现重大变化时,这些算法的性能通常由于带注释的跨模式训练数据的稀缺而恶化 ...