表示和渲染动态场景一直是一项重要但具有挑战性的任务。特别是,要准确地模拟复杂的运动,通常很难保证高效率。为了实现实时动态场景渲染,同时享受高训练和存储效率,我们提出 4D 高斯分布(4D-GS)作为动态场景的整体表示,而不是对每个单独的帧应用 3D-GS ...
本文旨在解决利用单目视频对动态城市街道场景进行建模的问题。最近的方法通过将履带式车辆姿态与动画车辆相结合来扩展 NeRF,从而实现动态城市街道场景的照片级真实感视图合成。然而,其显着的局限性是训练和渲染速度慢,加上对跟踪车辆姿态的高精度的迫切需求 ...
机器人感知需要对 3D 几何和语义进行建模。现有方法通常侧重于估计 3D 边界框,忽略更精细的几何细节,并且难以处理一般的、词汇外的对象。 3D 占用预测可估计场景的详细占用状态和语义,是克服这些限制的一项新兴任务 ...
本技术报告总结了 3D 占用预测挑战赛的获奖解决方案,该挑战赛与 CVPR 2023 端到端自动驾驶研讨会和 CVPR 23 以视觉为中心的自动驾驶研讨会联合举办。我们提出的解决方案 FB-OCC 以 FB-BEV 为基础,FB-BEV 是一种基于相机的尖端鸟瞰感知设计,使用前后投影。在 FB-BEV 之上,我们进一步研究针对 3D 占用预测任务的新颖设计和优化,包括联合深度语义预训练、联合体素 BEV 表示、模型放大和有效的后处理策略 ...
尽管神经辐射场 (NeRF) 在物体和小空间有限区域上展示了令人印象深刻的视图合成结果,但它们在“无界”场景中表现不佳,在“无界”场景中,相机可能指向任何方向,内容可能存在于任何距离。在这种情况下,现有的类似 NeRF 的模型通常会产生模糊或低分辨率的渲染(由于附近和远处物体的细节和比例不平衡),训练速度很慢,并且由于任务的固有模糊性可能会出现伪影。从一小组图像重建大场景。我们提出了 mip-NeRF(一种解决采样和混叠问题的 NeRF 变体)的扩展,它使用非线性场景参数化、在线蒸馏和新颖的基于失真的正则化器来克服无界场景带来的挑战 ...
在本技术报告中,我们介绍了名为 UniOCC 的解决方案,用于 CVPR 2023 的 nuScenes 开放数据集挑战赛中以视觉为中心的 3D 占用预测赛道。现有的占用预测方法主要侧重于使用 3D 占用优化 3D 体积空间上的投影特征标签。然而,这些标签的生成过程复杂且昂贵(依赖于3D语义注释),并且受体素分辨率的限制,它们无法提供细粒度的空间语义 ...
严格测试自主系统对于使安全的自动驾驶车辆 (SDV) 成为现实至关重要。它需要生成超出世界上可以安全收集的安全关键场景,因为许多场景很少发生在公共道路上。为了准确评估性能,我们需要在闭环中测试这些场景中的 SDV,其中 SDV 和其他参与者在每个时间步相互交互 ...
如今,自动驾驶汽车可以在普通情况下平稳行驶,人们普遍认识到,真实的传感器模拟将在通过模拟解决剩余的极端情况方面发挥关键作用。为此,我们提出了一种基于神经辐射场(NeRF)的自动驾驶模拟器。与现有作品相比,我们的作品具有三个显着特点:(1)实例感知 ...
构建高清语义地图是自动驾驶的核心组成部分。然而,传统的管道需要大量的人力和资源来注释和维护地图中的语义,这限制了其可扩展性。在本文中,我们介绍了高清语义地图学习的问题,它根据机载传感器观测动态构建局部语义 ...
三维物体检测是自动驾驶的关键任务之一。为了降低实践成本,建议使用用于 3D 物体检测的低成本多视角相机来取代庞大的 LiDAR 传感器。然而,仅仅依靠相机很难实现高精度和鲁棒的3D物体检测 ...