强大而准确的视觉定位是许多应用程序(例如自动驾驶,移动机器人技术或增强现实)的基本功能。但是,这仍然是一项具有挑战性的任务,尤其是对于大规模环境和存在重大外观变化的任务。最先进的方法不仅在这种情况下挣扎,而且对于某些实时应用程序而言,资源通常太大 ...
最近稀疏的多视图场景重建的进步如Dust3R和MAST3R不再需要相机校准和相机姿势估计。但是,他们只一次处理一对视图来推断与像素对齐的指数。在处理两个以上的视图时,通常会出现昂贵的全局优化的误差prone的组合数量,通常无法纠正成对的重建错误 ...
自动驾驶是一项具有挑战性的任务,需要感知和了解安全轨迹计划的周围环境。尽管现有的基于视觉的端到端模型已取得了令人鼓舞的结果,但这些方法仍面临视觉理解,决策推理和场景概括的挑战。为了解决这些问题,提出了一种名为GPVL的3D视频语言预训练模型的生成计划,用于端到端自动驾驶 ...
最近,非常深的卷积神经网络(CNN)在对象识别方面表现出了出色的性能,并且也是诸如语义分割等密集分类问题的首选。但是,重复的子采样操作,例如在深CNN中碰撞的合并或卷积会导致初始图像分辨率显着下降。在这里,我们提出了一种通用的多条约修补网络,该网络明确利用沿下采样过程可用的所有信息,以使用长期残差连接来启用高分辨率预测 ...
最近已将蒙版图像建模(MIM)确定为有效的预训练范例。借口任务是通过在输入图像中掩盖斑块来构建的,然后使用可见的贴片作为唯一输入来预测这种掩盖的内容。这种预训练会导致高级语义任务进行填补时,e ...
通过人均微调在基准数据集上在基准数据集上表现出色,已经取得了巨大的进步。但是,实现强大的零弹性概括 - 其他计算机视觉任务中基础模型的标志 - 对于立体声匹配仍然具有挑战性。我们介绍了基础TEREO,这是一个基础模型,用于立体声深度估计,旨在实现强烈的零光概括 ...
我们推出了 MeshAnything V2,这是一种自回归转换器,可生成与给定形状对齐的艺术家创建的网格 (AM)。它可以与各种3D资产制作流程集成,以实现高质量、高度可控的AM生成。 MeshAnything V2 使用相同尺寸的模型在效率和性能上都超越了以前的方法 ...
方形平面标记是一种流行的快速、准确和稳健的相机定位工具,但其使用通常仅限于单个标记,或者最多仅限于预先已知其相对姿势的一小部分标记。从大量平面标记进行映射和定位仍然是一个很少被处理的问题,有利于基于关键点的方法。然而,虽然关键点检测器对于快速运动、视点的较大变化或外观的显着变化不稳健,但可以在更广泛的条件下稳健地检测基准标记 ...
特征匹配是一项具有挑战性的计算机视觉任务,涉及查找 3D 场景的两个图像之间的对应关系。在本文中,我们考虑密集方法而不是更常见的稀疏范式,从而努力找到所有对应关系。也许与直觉相反,密集方法之前在双视图几何估计方面表现出比稀疏和半稀疏方法差的性能 ...
我们提出了 STORM,一种时空重建模型,旨在从稀疏观测中重建动态室外场景。现有的动态重建方法通常依赖于每个场景的优化、跨空间和时间的密集观察以及强运动监督,导致优化时间过长,对新视图或场景的泛化有限,以及动态噪声伪标签导致的质量下降。为了应对这些挑战,STORM 利用数据驱动的 Transformer 架构,在一次前向传递中直接推断动态 3D 场景表示(由 3D 高斯及其速度参数化) ...