姿势回归网络可以预测查询图像相对于已知环境的相机姿势。在这种方法家族中,绝对姿势回归(APR)最近显示出有望的精度,在几厘米的位置误差的范围内。 APR网络在其权重中隐含地编码场景几何形状 ...
功能匹配是一项重要的计算机视觉任务,涉及估计3D场景的两个图像之间的对应关系,并且密集方法估计所有这些对应关系。目的是学习一个健壮的模型,即 ...
图像匹配旨在识别图像之间相应的像素位置,在广泛的科学学科中至关重要,有助于图像注册,融合和分析。近年来,基于深度学习的图像匹配算法在迅速,准确地找到大量对应方面的人类表现显着优于人类。但是,当处理在不同成像方式下捕获的图像会导致出现重大变化时,这些算法的性能通常由于带注释的跨模式训练数据的稀缺而恶化 ...
强大而准确的视觉定位是许多应用程序(例如自动驾驶,移动机器人技术或增强现实)的基本功能。但是,这仍然是一项具有挑战性的任务,尤其是对于大规模环境和存在重大外观变化的任务。最先进的方法不仅在这种情况下挣扎,而且对于某些实时应用程序而言,资源通常太大 ...
最近稀疏的多视图场景重建的进步如Dust3R和MAST3R不再需要相机校准和相机姿势估计。但是,他们只一次处理一对视图来推断与像素对齐的指数。在处理两个以上的视图时,通常会出现昂贵的全局优化的误差prone的组合数量,通常无法纠正成对的重建错误 ...
自动驾驶是一项具有挑战性的任务,需要感知和了解安全轨迹计划的周围环境。尽管现有的基于视觉的端到端模型已取得了令人鼓舞的结果,但这些方法仍面临视觉理解,决策推理和场景概括的挑战。为了解决这些问题,提出了一种名为GPVL的3D视频语言预训练模型的生成计划,用于端到端自动驾驶 ...
最近,非常深的卷积神经网络(CNN)在对象识别方面表现出了出色的性能,并且也是诸如语义分割等密集分类问题的首选。但是,重复的子采样操作,例如在深CNN中碰撞的合并或卷积会导致初始图像分辨率显着下降。在这里,我们提出了一种通用的多条约修补网络,该网络明确利用沿下采样过程可用的所有信息,以使用长期残差连接来启用高分辨率预测 ...
最近已将蒙版图像建模(MIM)确定为有效的预训练范例。借口任务是通过在输入图像中掩盖斑块来构建的,然后使用可见的贴片作为唯一输入来预测这种掩盖的内容。这种预训练会导致高级语义任务进行填补时,e ...
通过人均微调在基准数据集上在基准数据集上表现出色,已经取得了巨大的进步。但是,实现强大的零弹性概括 - 其他计算机视觉任务中基础模型的标志 - 对于立体声匹配仍然具有挑战性。我们介绍了基础TEREO,这是一个基础模型,用于立体声深度估计,旨在实现强烈的零光概括 ...
我们推出了 MeshAnything V2,这是一种自回归转换器,可生成与给定形状对齐的艺术家创建的网格 (AM)。它可以与各种3D资产制作流程集成,以实现高质量、高度可控的AM生成。 MeshAnything V2 使用相同尺寸的模型在效率和性能上都超越了以前的方法 ...