在本文中,我们介绍了Splatt3R,这是一种无姿势的,馈送的方法,用于野外3D重建,并从立体声配对中介绍了新型视图合成。给定未校准的自然图像,Splatt3R可以预测3D高斯夹板,而无需任何相机参数或深度信息。为了概括性,我们通过将其扩展以处理3D结构和外观来构建``基础''3D几何重建方法MAST3R ...
我们提出了一个实时的单眼密集大满贯系统,该系统由MAST3R(两视图3D重建和匹配之前)设计为自下而上。配备了这种强大的先验,我们的系统在野外视频序列上虽然没有在唯一的相机中心之外的固定或参数摄像头模型上做出假设。我们介绍了用于指数匹配,相机跟踪和本地融合,图形结构和循环闭合以及二阶全局优化的有效方法 ...
以视觉为中心的占用网络代表具有语义均匀体素的周围环境,已成为安全驾驶仅相机自动驾驶感知系统的新趋势,因为它们能够检测到障碍物,无论其形状和闭塞如何。现代占用网络主要集中于从对象表面重建具有体素语义预测的对象表面的可见体素。通常,它们对一个对象的预测不一致,并且对相邻对象的预测混合了预测 ...
我们提出了X-Decoder,这是一个通用的解码模型,可以无缝预测像素级分段和语言 Token 。 x-decodert作为输入的两种查询:(i)从文本输入引起的通用非语义查询以及(ii)语义查询,以解码在同一语义空间中的不同像素级和 Token 级输出。借助如此新颖的设计,X-Decoder是第一部提供统一方法来支持所有类型的图像分割和各种视觉语言(VL)任务的作品 ...
姿势回归网络可以预测查询图像相对于已知环境的相机姿势。在这种方法家族中,绝对姿势回归(APR)最近显示出有望的精度,在几厘米的位置误差的范围内。 APR网络在其权重中隐含地编码场景几何形状 ...
功能匹配是一项重要的计算机视觉任务,涉及估计3D场景的两个图像之间的对应关系,并且密集方法估计所有这些对应关系。目的是学习一个健壮的模型,即 ...
图像匹配旨在识别图像之间相应的像素位置,在广泛的科学学科中至关重要,有助于图像注册,融合和分析。近年来,基于深度学习的图像匹配算法在迅速,准确地找到大量对应方面的人类表现显着优于人类。但是,当处理在不同成像方式下捕获的图像会导致出现重大变化时,这些算法的性能通常由于带注释的跨模式训练数据的稀缺而恶化 ...
强大而准确的视觉定位是许多应用程序(例如自动驾驶,移动机器人技术或增强现实)的基本功能。但是,这仍然是一项具有挑战性的任务,尤其是对于大规模环境和存在重大外观变化的任务。最先进的方法不仅在这种情况下挣扎,而且对于某些实时应用程序而言,资源通常太大 ...
最近稀疏的多视图场景重建的进步如Dust3R和MAST3R不再需要相机校准和相机姿势估计。但是,他们只一次处理一对视图来推断与像素对齐的指数。在处理两个以上的视图时,通常会出现昂贵的全局优化的误差prone的组合数量,通常无法纠正成对的重建错误 ...
自动驾驶是一项具有挑战性的任务,需要感知和了解安全轨迹计划的周围环境。尽管现有的基于视觉的端到端模型已取得了令人鼓舞的结果,但这些方法仍面临视觉理解,决策推理和场景概括的挑战。为了解决这些问题,提出了一种名为GPVL的3D视频语言预训练模型的生成计划,用于端到端自动驾驶 ...