障碍物检测和跟踪是机器人自主导航的关键组成部分。在本文中,我们提出了 ODTFormer,这是一种基于 Transformer 的模型,用于解决障碍物检测和跟踪问题。对于检测任务,我们的方法利用可变形注意力来构建 3D 成本体积,该成本体积以体素占用网格的形式逐步解码 ...
我们提出了一种具有透视监督功能的新型鸟瞰(BEV)检测器,它的收敛速度更快,更适合现代图像主干。现有最先进的BEV检测器通常与VoVNet等某些深度预训练主干网绑在一起定,阻止了吸收发展的图像主干网和BEV检测器之间的良好作用。为了解决这个限制,我们优先通过引入透视空间监督来简化BEV吸收的优化... ...
基于鸟瞰图( bev)的方法最近在多视图3dbe,be,基于稀疏的方法在性能上落后,但仍然具有许多不可忽视的优点。为了进一步推动稀疏,3d检测,在这项工作中 ...
稀疏算法为多视图时间感知任务提供了极大的灵活性。在本文中,我们提出了 Sparse4D 的增强版本,其中我们通过实现多帧特征采样的递归形式来改进时间融合模块。通过有效解耦图像特征和结构化锚点特征,Sparse4D能够实现时间特征的高效变换,从而仅通过稀疏特征的逐帧传输来促进时间融合 ...
3D 物体检测中的漏报 (FN)(例如,缺少对行人、车辆或其他障碍物的预测)可能会导致自动驾驶中出现潜在的危险情况 ...
来自多个摄像头的准确且一致的3d跟踪是基于视觉的自动驾驶系统的关键组成部分。它涉及跨多个摄像机对复杂场景中的3d动态对象进行建模。由于深度估计、视觉遮挡、外观模糊等,这个问题本质上是具有挑战性的... ...
在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换 (PETR)。 PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测 ...
虽然最近仅使用相机的 3D 检测方法利用了多个时间步长,但它们使用的有限历史记录极大地阻碍了时间融合改善对象感知的程度。观察现有作品的多帧图像融合是时间立体匹配的实例,我们发现性能受到 1) 匹配分辨率的低粒度和 2) 有限的多视图设置产生的次优多视图设置之间的相互作用的阻碍。历史使用情况。我们的理论和实证分析表明,对于不同的像素和深度,视图之间的最佳时间差异显着变化,因此有必要融合长期历史上的许多时间步长 ...
随着激光雷达传感器在自动驾驶中的普及,3D 物体跟踪受到越来越多的关注。在点云序列中,3D 对象跟踪旨在预测给定对象模板的连续帧中对象的位置和方向。受 Transformer 成功的激励,我们提出了点跟踪 TRansformer (PTTR),它借助 Transformer 操作以从粗到细的方式有效地预测高质量的 3D 跟踪结果 ...
大多数最先进的 3D 物体检测器严重依赖 LiDAR 传感器,因为基于图像的方法和基于 LiDAR 的方法之间存在很大的性能差距。这是由在 3D 场景中形成预测表示的方式引起的。我们的方法称为深度立体几何网络 (DSGN),通过在可微分体积表示(3D 几何体积)上检测 3D 对象,显着缩小了这种差距,该方法可以有效地编码 3D 规则空间的 3D 几何结构 ...