轨迹预测中跨数据集性能的不确定性估计

Thomas Gilles1,2, Stefano Sabatini1, Dzmitry Tsishkou1, Bogdan Stanciulescu2, Fabien Moutarde2
1Huawei Technologies France 2 Mines ParisTech
thomas.gilles@mines-paristech.fr
摘要

虽然在开发轨迹预测方法方面已经进行了大量的工作,并且已经提出了各种数据集来对这项任务进行基准测试,但迄今为止,对于这些方法在数据集上的通用性和可转移性的研究还很少。 在本文中,我们观察了两种最新最先进的轨迹预测方法在四个不同数据集(Argoverse、NuScenes、Interaction、Shifts)中的性能。 通过这种分析,可以深入了解最新轨迹预测模型的通用性,并分析哪个数据集更能代表真实驾驶场景,从而实现更好的可迁移性。 此外,我们提出了一种估计预测不确定性的新方法,并展示了如何使用它来跨数据集实现更好的性能。

关键字:轨迹预测、自动驾驶、运动预测

1简介

轨迹预测是自动驾驶流程的重要步骤,并且需要对自动驾驶车辆可能遇到的任何情况保持鲁棒性。 未能正确预测相邻车辆的未来可能会导致危险情况甚至碰撞。 然而,随着学习方法的性能和流行度的提高[1,2,3],通过扩展现有的传统方法[4]或完全替换它们[5] ,对这些模型训练的数据覆盖范围的依赖性也如此。 由于地理或天气条件的变化,此类方法可能会遇到分布变化[6] 因此,研究这些方法在不同分布上的适应性和性能变得至关重要。

多个轨迹预测数据集[7,8,9,6]已分别用于训练和评估运动估计模型,但很少有工作真正研究其模型在多个数据集上的性能有一段时间,更重要的是,尚未进行任何研究来评估数据集之间的代表性覆盖范围和泛化潜力。

帮助分配转移的一项反复出现的建议是使用不确定性估计。 然而,虽然这种不确定性以偏移检测器[6,10,11]的形式呈现,但尚未提出该值的实际用途来实际消除分布偏移的影响。

这项工作有两个主要贡献:

  • 我们实现了车辆轨迹预测中的第一个跨数据集研究,并评估哪些数据集最好地转移到其他数据集。

  • 我们引入了一种通过训练预测模型来输出热图来估计模型不确定性的新方法。 模型不确定性是通过评估预测热图的分布来测量的。 我们证明,利用这种不确定性来控制预测的未来轨迹的多样性可以在单个数据集和跨数据集评估上带来更好的性能。

2相关工作

为了详尽无遗,轨迹预测模型需要是多模态的,以便它可以代表所有可能的未来。 常见的方法是让模型预测k可能的轨迹,并且仅训练最接近地面实况的轨迹[12,13,14],或者使用混合训练的高斯模型其可能性 [15, 16] 还可以应用变分方法[17, 18, 19, 20, 21, 22, 23, 24]对多个结果进行采样。 更明确的方法是利用明确的现有模式,例如集群 [25, 26] 或地图元素 [27, 28, 29, 30] 来构建可能的轨迹。 Transformer 架构还特别适合从单独学习的嵌入中解码多种模态[31,32,33,10,11] 获得详尽结果的另一种方法是使用热图作为模型的输出。 此热图可以表示单个代理的未来分布 [34, 35, 36, 37, 38] 或所有当前车辆的占用情况 [39, 40, 41, 42]

一些方法使用基于不确定性的损失来改进其预测训练 [33, 43] 或将其作为输入来提高对感知错误 [44, 45] 的鲁棒性,并且很少有人应用它来预测分布变化[10, 11] 但到目前为止,除了用真实情况 [6] 替换高不确定性案例进行评估之外,关于如何实际利用这种不确定性的工作还很少。

最近,人们对评估这些轨迹预测方法的方式进行了更多的反思。 一些人认为应该根据其对规划器的下游影响来评估运动估计[46,47,48],而其他人则关注其缺乏对新场景的泛化[49]. 对于人类意图[50]或检测[51]等与自动驾驶相关的领域也进行了类似的跨数据集研究。

3轨迹预测中的跨数据集分析

在本文的第一部分中,我们重点分析最近最先进的轨迹预测方法的跨数据集性能。 我们首先定义轨迹预测任务,并提出两种最新的轨迹预测方法,从不同的角度解决该问题。 随后,我们描述了分析中使用的数据集,最后我们展示了两种预测方法的跨数据集性能。

3.1 任务定义

给定一个目标智能体、其过去的历史及其由邻居智能体和道路图组成的周围环境,轨迹预测模型的目标是预测目标智能体在时间范围内的未来轨迹 T.更准确地说,我们将在这里简化轨迹预测问题来预测预测范围 T 末端的最终目的地点,如 [27, 29, 36, 38] 中通常所做的那样t2>。 由于未来是不确定的并且可能包含多种可能性,因此预测模型需要是多模态的,并预测最多 k=6 的轨迹模态,并具有匹配的概率。

3.2轨迹预测方法

为了代表现有轨迹预测方法的广泛范围,我们实现了两个最先进的基线,它们都代表输出公式的不同可能性,即标量坐标输出或概率热图输出。

3.2.1 场景转换器

SceneTransformer [33] 是使用变换架构回归多个标量轨迹的最新轨迹预测模型之一。 在编码阶段,它保留场景中存在的所有代理的时间维度,并跨代理或时间应用因子化自注意力,以及对地图上下文的交叉注意力。 它使用模态 one-hot 嵌入和 Transformer 解码器来预测多种模态,以便它可以共享使用赢家通吃损失进行训练的多个未来的解码权重,就像大多数标量输出方法[12 、26、13、14、43]

我们重新实现了一个类似的架构,其层数与原始论文中的层数相同,但隐藏维度 D=128 更小,以使其适合单个 GPU,并且在参数大小和训练时间方面与我们的第二个基线更具可比性。

3.2.2GOHOME

GOHOME [37] 是越来越多使用占用网格 [39, 40, 34, 35, 52, 53, 36, 54, 38, 55, 41, 42] 的方法的一部分 占用网格通常以热图的形式表示概率分布,描述车辆在预测范围T结束时可能的未来位置。给定预测的热图,对一组最终的未来位置进行采样。 在最后一步中,对于每个采样位置,对完整轨迹进行回归[37] 为了从热图中采样未来可能的位置,通常应用非极大值抑制(NMS)方法[38,36,41] 此 NMS 需要采样半径参数 r 来确定采样端点彼此之间应相距多远。

我们对 GOHOME 架构进行了一些细微的修改,以使其适应我们的案例分析。 首先,由于某些数据集不提供通道之间的连接信息 [6],我们用全局注意力替换图卷积,以类似 VectorNet 的方式,如 [38, 33, 11 ] 我们还用 [55] 中的分层稀疏网格解码器替换基于车道的热图解码器,以实现更快的推理并再次独立于高清地图连接信息

3.3 数据集和指标

我们评估了广泛使用的轨迹数据集 Argoverse [8]、Interaction [7]、NuScenes [9] 和 Shifts [ 的性能6],全部关注汽车轨迹。 这些基准测试的初始设置略有不同,如表 1 中所述。 1. 即,历史和预测范围并不总是相同,并且可以以不同的速率采样。 为了公平评估和可转移性,我们将这些数据集标准化为始终使用 1 秒的历史记录并预测未来的 3 秒。 我们还对轨迹进行插值,以每个 10Hz 的频率对它们进行重新采样。

表格1: 数据集设置
Dataset Argoverse Interaction NuScenes Shifts
History (s) 2 1 2 5
Prediction horizon (s) 3 3 6 5
Frequency (Hz) 10 10 2 5
Training size 200k 400k 30k 5M

在我们的分析中,我们考虑了完善的多模态指标 minFDEl 和 MRl [7, 8] minFDEl 表示时间范围 Tl 顶级轨迹的最小最终位移误差。 MRl 表示数据集中目标代理在时间范围 T 的真实未来位置距离任何 l

Refer to caption
Refer to caption
Refer to caption
Refer to caption
图1: 跨数据集评估设置中的预测性能。

3.4 跨数据集评估

我们在这里分析了 3.2 节中介绍的两种模型在一个数据集的训练分割上进行训练并在所有数据集的验证分割上进行测试时的轨迹预测性能。

3.4.1 培训详情

我们对每个模型进行 50 个 epoch,每个 2000 次迭代,批量大小为 64。 与采样半径相关的 GOHOME 超参数 r 在训练数据集的训练分割上进行了优化,并在测试数据集上保持不变。 很少采用数据增强方案来优化泛化性能。 首先,所有模型都经过随机旋转训练,以防止对当前汽车航向测量的过度拟合。 此外,我们注意到 Argoverse 数据集不存在任何要预测的目标智能体速度低于 1 m/s 的情况。 相反,其他数据集包括在整个预测范围内静止或速度值非常低的待预测车辆。 因此,有必要使用与场景中缓慢移动或停在预定义目标之外的车辆相关的预测样本来扩充 Argoverse 数据集。 如果没有这种增强过程,在普通 Argoverse 上训练的模型最终在其他数据集上的泛化性能很差。

3.4.2结果

我们在图 1 上报告了两种预测模型的 minFDE6 和 MR6 的跨数据集性能矩阵。 行上的标签表示用于训练的数据集,而列上的标签表示目标测试数据集。 矩阵中的数字对应于在相应目标数据集的验证分割上测量的性能。 正如预期的那样,最佳性能在对角线上可见,因为在对来自相同训练分布的数据进行测试时,两个模型都表现更好。

我们观察到,在其他数据集上进行测试时,Argoverse 训练表现出最小的性能损失。 我们还观察到,尽管其规模相对较小(仅 30k 样本),但 NuScenes 上的训练在其他数据集上也表现良好,而当在 Interaction 上训练时,模型在其他所有领域上表现不佳。 我们将 Interaction 的糟糕性能归因于其不同的数据收集和处理,这些数据收集和处理是使用无人机的顶视图图像而不是自动驾驶车辆的通常感知管道来完成的。 因此,Interaction 是在几乎完美的对象检测和跟踪上进行训练的,而在其他充满检测不准确和由遮挡引起的跟踪跳跃的数据集上表现不佳。 令人惊讶的是,尽管样本量较大,但与 Argoverse 和 NuScenes 相比,Shifts 训练并没有提供更好的可迁移性能。

为了评估理想的跨数据集性能,为了完整性,我们还展示了同时在所有可用数据集上训练模型时获得的结果。 为了实现这一目标,训练期间加载的每个样本都是从 4 个数据集之一中以相同的概率随机抽取的。 读者可参考本分析的补充材料。

我们可以从这种跨数据集性能中得出的第一个主要结论是,重要的不是数据的大小,而是其忠实表示真实条件的能力。

在比较基于热图和基于标量的模型之间的性能时,我们可以注意到热图输出如何在训练数据集(NuScenes 除外)上提供最佳 MR,而标量输出如何提供最佳 minFDE。 在可转移性能方面,在其他数据集上进行测试时,与 GOHOME 相比,SceneTransformer 的性能损失最小。

Refer to caption
Refer to caption
图2: 左侧:根据热图的不确定性以不同半径对最终位置进行采样的示例。 右侧:估计不确定性的每个值的最佳采样半径。

4 基于热图的不确定性估计

在本节中,我们提出了一种利用 GOHOME 等模型的热图输出公式来估计模型在执行轨迹预测时的不确定程度的方法。 我们首先提出不确定性估计的公式,然后在第二步中展示如何利用不确定性来提高预测性能。

4.1 不确定性公式

所提出的不确定性公式基于以下事实:旨在生成热图的预测方法在其输出的分布中提供了自然的内在不确定性估计器。 我们使用预测空间概率分布的方差作为模型不确定性的指标U

U=pH(p)pE2withE=pH(p)p (1)

我们迭代热图的位置 p ,并用 H(p) 指示给定位置的概率值。 E对应于热图描述的概率分布的期望值。 通过这个公式,我们声称热图免费提供了一种无约束和非参数的不确定性测量,而不需要添加和训练特定于不确定性预测的模型部分,如 [11][10]

4.2控制具有不确定性的预测多样性

我们利用所提出的不确定性估计来控制预测范围内预测的未来位置的多样性T。直观上,当网络更加不确定时,为了最小化预测误差,需要增加预测的多样性以覆盖更广泛的可能性。 在实践中,我们通过调整 3.2.2 节中介绍的采样半径 r 来控制这种行为,以根据热图的分布调整采样位置的多样性。 这种行为如图 9 所示,其中左侧示例采用了更大的采样半径,以应对热图中更大的分布所证明的更不确定的预测。

4.3结果

4.3.1 作为预测误差估计器的不确定性

为了激发我们的不确定性定义,我们首先展示通过方程 1 估计的不确定性如何与模型最终产生的预测误差相关。 3显示了GOHOME模型对于分组为整数仓的不确定性值的平均预测误差minFDE1 对于 GOHOME,minFDE1 表示对热图突出显示的最可能位置进行单个预测所产生的误差。 预测误差是根据所考虑的每个数据集的验证分割来计算的。 我们可以清楚地看到不确定性和预测误差之间存在很强的相关性,证明基于热图的方法在进行预测推断时本质上带有其性能的概念。 有趣的是,即使在跨数据集进行分析时,即在与训练数据集不同的数据集上评估模型时,如何保持相似的趋势也是如此。

Refer to caption

图3: 跨数据集设置中不确定性与预测误差之间的相关性分析。

4.3.2 不确定性增强了跨数据集性能

在本节中,我们展示了使用所呈现的不确定性通过采样半径r来适应预测位置的多样性的好处。首先,我们通过实验表明,最小化预测误差的最佳采样半径 ropt 相对于估计的不确定性遵循线性趋势。 9 描绘了在 Argoverse 数据集上计算的平均最佳采样半径与按整数值箱分组的估计不确定性。 请读者检查其他数据集上的图的补充材料。

此外,我们使用自适应采样半径报告跨数据集结果,以根据不确定性调整预测多样性。 4中的左图显示了当模型在行标签中表示的数据集上进行训练并在列中表示的数据集上进行评估时的minFDE6跨数据集性能标签。 在这一实验的每一个实验中,半径都按照在用于训练的数据集上校准的线性模型进行调整,并在目标数据集上的评估中保持不变。 我们可以在4的中间图像中看到,与图1中所示的恒定半径采样相比,自适应采样策略在几乎所有情况下都明显更好。

Refer to caption
Refer to caption
Refer to caption
图4: 在左侧: 使用基于不确定性的采样策略时的绝对跨数据集性能 在中间: 与固定半径采样相比,使用不确定性时跨数据集 minFDE6 的相对改进 在右侧: 与学习的不确定性基线相比,使用基于热图的不确定性时,跨数据集 minFDE6 的相对改进

我们通过将预测不确定性与学习到的高斯分布方差 V 进行比较(如 [56, 57, 33, 58] 中)来对计算预测不确定性的方法进行基准测试。 正如 [56] 中一样,我们直接预测 s=log(V) 的数值稳定性,但会带来以下损失:

L(s)=Eexp(s)+swithE=minFDE6 (2)

我们报告图 4 的右图,与学习的基线相比,使用方程 1 的不确定性定义时 minFDE6 的改进方程2来适应采样半径。 虽然它在相同的训练测试对角线上产生类似的结果,但学习到的不确定性往往会过度拟合其训练数据,并且在分布外数据上表现不佳。 我们在图 5 中显示了定性预测示例。 每一行是一个数据集的示例样本,每一列是在相应数据集上训练的模型的预测结果。 我们还报告每个样本的不确定性数字,以观察不确定性如何与热图分布以及由此产生的适应端点采样相匹配

Refer to caption

图5: 跨数据集的定性结果。 采样端点以蓝色显示,地面实况以洋红色显示。 热图方差显示在每个示例的顶部

5结论

在这项工作中,我们在自动驾驶车辆轨迹预测领域进行了首次跨数据集分析。 我们分析了两种最先进的轨迹预测模型的跨数据集可转移性性能。 我们还提出了一种新的方法来估计基于热图的轨迹预测方法的不确定性,该方法不需要任何进一步的训练,并且比传统学习的不确定性效果更好。 我们展示了如何在跨数据集设置中使用基于热图的方法的不确定性提高轨迹预测性能。

6 弱点

该分析仅限于汽车轨迹预测,对自行车和行人等不同类型的交通参与者进行类似的分析也很有趣。 此外,虽然这项研究表明,使用热图方差进行不确定性估计和采样半径自适应为热图输出方法带来了显着的性能改进,但与 SceneTransformer 等标量输出方法的比较显示出不太明显的趋势。 富含不确定性的热图基础方法与 SceneTransformer 具有相似的可转移性能。 SceneTransformer 经过端到端训练,可以直接预测一组多模态坐标,并以某种方式在内部学习适应预测的多样性,而无需显式输出不确定性值。 另一方面,我们坚信,具有明确的不确定性输出对于自动驾驶堆栈中的其他下游任务也很有用。

参考

  • Liu et al. [2021] J. Liu, X. Mao, Y. Fang, D. Zhu, and M. Q.-H. Meng. A survey on deep-learning approaches for vehicle trajectory prediction in autonomous driving. arXiv preprint arXiv:2110.10436, 2021.
  • Gomes and Wolf [2022] I. Gomes and D. Wolf. A review on intention-aware and interaction-aware trajectory prediction for autonomous vehicles. 2022.
  • Karle et al. [2022] P. Karle, M. Geisslinger, J. Betz, and M. Lienkamp. Scenario understanding and motion prediction for autonomous vehicles-review and comparison. IEEE Transactions on Intelligent Transportation Systems, 2022.
  • Jouaber et al. [2021] S. Jouaber, S. Bonnabel, S. Velasco-Forero, and M. Pilte. Nnakf: A neural network adapted kalman filter for target tracking. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 4075–4079. IEEE, 2021.
  • Mercat [2021] J. Mercat. Motion forecasting of the objects in road scenes. PhD thesis, Université Paris-Saclay, 2021.
  • Malinin et al. [2021] A. Malinin, N. Band, G. Chesnokov, Y. Gal, M. J. Gales, A. Noskov, A. Ploskonosov, L. Prokhorenkova, I. Provilkov, V. Raina, et al. Shifts: A dataset of real distributional shift across multiple large-scale tasks. arXiv preprint arXiv:2107.07455, 2021.
  • Zhan et al. [2019] W. Zhan, L. Sun, D. Wang, H. Shi, A. Clausse, M. Naumann, J. Kummerle, H. Konigshof, C. Stiller, A. de La Fortelle, et al. Interaction dataset: An international, adversarial and cooperative motion dataset in interactive driving scenarios with semantic maps. arXiv:1910.03088, 2019.
  • Chang et al. [2019] M.-F. Chang, J. Lambert, P. Sangkloy, J. Singh, S. Bak, A. Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan, et al. Argoverse: 3d tracking and forecasting with rich maps. In CVPR, 2019.
  • Caesar et al. [2020] H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom. nuscenes: A multimodal dataset for autonomous driving. In CVPR, 2020.
  • Postnikov et al. [2021] A. Postnikov, A. Gamayunov, and G. Ferrer. Transformer based trajectory prediction. arXiv preprint arXiv:2112.04350, 2021.
  • Pustynnikov and Eremeev [2021] A. Pustynnikov and D. Eremeev. Estimating uncertainty for vehicle motion prediction on yandex shifts dataset. arXiv preprint arXiv:2112.08355, 2021.
  • Cui et al. [2019] H. Cui, V. Radosavljevic, F.-C. Chou, T.-H. Lin, T. Nguyen, T.-K. Huang, J. Schneider, and N. Djuric. Multimodal trajectory predictions for autonomous driving using deep convolutional networks. In ICRA, 2019.
  • Liang et al. [2020] M. Liang, B. Yang, R. Hu, Y. Chen, R. Liao, S. Feng, and R. Urtasun. Learning lane graph representations for motion forecasting. In ECCV, 2020.
  • Narayanan et al. [2021] S. Narayanan, R. Moslemi, F. Pittaluga, B. Liu, and M. Chandraker. Divide-and-conquer for lane-aware diverse trajectory prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 15799–15808, 2021.
  • Deo and Trivedi [2018] N. Deo and M. M. Trivedi. Convolutional social pooling for vehicle trajectory prediction. In CVPR, 2018.
  • Mercat et al. [2020] J. Mercat, T. Gilles, N. El Zoghby, G. Sandou, D. Beauvois, and G. P. Gil. Multi-head attention for multi-modal joint vehicle motion forecasting. In ICRA, 2020.
  • Lee et al. [2017] N. Lee, W. Choi, P. Vernaza, C. B. Choy, P. H. Torr, and M. Chandraker. Desire: Distant future prediction in dynamic scenes with interacting agents. In CVPR, 2017.
  • Rhinehart et al. [2018] N. Rhinehart, K. M. Kitani, and P. Vernaza. R2p2: A reparameterized pushforward policy for diverse, precise generative path forecasting. In ECCV, 2018.
  • Tang and Salakhutdinov [2019] Y. C. Tang and R. Salakhutdinov. Multiple futures prediction. In NeurIPS, 2019.
  • Mangalam et al. [2020] K. Mangalam, H. Girase, S. Agarwal, K.-H. Lee, E. Adeli, J. Malik, and A. Gaidon. It is not the journey but the destination: Endpoint conditioned trajectory prediction. In ECCV, 2020.
  • Salzmann et al. [2020] T. Salzmann, B. Ivanovic, P. Chakravarty, and M. Pavone. Trajectron++: Dynamically-feasible trajectory forecasting with heterogeneous data. In ECCV, 2020.
  • Alahi et al. [2016] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In CVPR, 2016.
  • Sadeghian et al. [2019] A. Sadeghian, V. Kosaraju, A. Sadeghian, N. Hirose, H. Rezatofighi, and S. Savarese. Sophie: An attentive gan for predicting paths compliant to social and physical constraints. In CVPR, 2019.
  • Casas et al. [2020] S. Casas, C. Gulino, S. Suo, K. Luo, R. Liao, and R. Urtasun. Implicit latent variable model for scene-consistent motion forecasting. In ECCV, 2020.
  • Phan-Minh et al. [2020] T. Phan-Minh, E. C. Grigore, F. A. Boulton, O. Beijbom, and E. M. Wolff. Covernet: Multimodal behavior prediction using trajectory sets. In CVPR, 2020.
  • Chai et al. [2020] Y. Chai, B. Sapp, M. Bansal, and D. Anguelov. Multipath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction. In CoRL, 2020.
  • Zhao et al. [2020] H. Zhao, J. Gao, T. Lan, C. Sun, B. Sapp, B. Varadarajan, Y. Shen, Y. Shen, Y. Chai, C. Schmid, et al. Tnt: Target-driven trajectory prediction. CoRL, 2020.
  • Zhang et al. [2020] L. Zhang, P.-H. Su, J. Hoang, G. C. Haynes, and M. Marchetti-Bowick. Map-adaptive goal-based trajectory prediction. In CoRL, 2020.
  • Zeng et al. [2021] W. Zeng, M. Liang, R. Liao, and R. Urtasun. Lanercnn: Distributed representations for graph-centric motion forecasting. In IROS, 2021.
  • Deo et al. [2021] N. Deo, E. M. Wolff, and O. Beijbom. Multimodal trajectory prediction conditioned on lane-graph traversals. In CoRL, 2021.
  • Yuan et al. [2021] Y. Yuan, X. Weng, Y. Ou, and K. Kitani. Agentformer: Agent-aware transformers for socio-temporal multi-agent forecasting. arXiv:2103.14023, 2021.
  • Girgis et al. [2022] R. Girgis, F. Golemo, F. Codevilla, M. Weiss, J. A. D’Souza, S. E. Kahou, F. Heide, and C. Pal. Latent variable sequential set transformers for joint multi-agent motion prediction. In International Conference on Learning Representations, 2022.
  • Ngiam et al. [2021] J. Ngiam, B. Caine, V. Vasudevan, Z. Zhang, H.-T. L. Chiang, J. Ling, R. Roelofs, A. Bewley, C. Liu, A. Venugopal, et al. Scene transformer: A unified multi-task model for behavior prediction and planning. arXiv:2106.08417, 2021.
  • Hong et al. [2019] J. Hong, B. Sapp, and J. Philbin. Rules of the road: Predicting driving behavior with a convolutional model of semantic interactions. In CVPR, 2019.
  • Kurbiel et al. [2020] T. Kurbiel, A. Sachdeva, K. Zhao, and M. Buehren. Prognosenet: A generative probabilistic framework for multimodal position prediction given context information. arXiv preprint arXiv:2010.00802, 2020.
  • Gilles et al. [2021a] T. Gilles, S. Sabatini, D. Tsishkou, B. Stanciulescu, and F. Moutarde. Home: Heatmap output for future motion estimation. In ITSC, 2021a.
  • Gilles et al. [2021b] T. Gilles, S. Sabatini, D. Tsishkou, B. Stanciulescu, and F. Moutarde. Gohome: Graph-oriented heatmap output forfuture motion estimation. arXiv preprint arXiv:2108.09640, 2021b.
  • Gu et al. [2021] J. Gu, C. Sun, and H. Zhao. Densetnt: End-to-end trajectory prediction from dense goal sets. In ICCV, 2021.
  • Kim et al. [2017] B. Kim, C. M. Kang, J. Kim, S. H. Lee, C. C. Chung, and J. W. Choi. Probabilistic vehicle trajectory prediction over occupancy grid map via recurrent neural network. In 2017 IEEE 20th International Conference on Intelligent Transportation Systems (ITSC), pages 399–404. IEEE, 2017.
  • Park et al. [2018] S. H. Park, B. Kim, C. M. Kang, C. C. Chung, and J. W. Choi. Sequence-to-sequence prediction of vehicle trajectory via lstm encoder-decoder architecture. In 2018 IEEE Intelligent Vehicles Symposium (IV), pages 1672–1678. IEEE, 2018.
  • Schäfer et al. [2022] M. Schäfer, K. Zhao, M. Bühren, and A. Kummert. Context-aware scene prediction network (caspnet). arXiv preprint arXiv:2201.06933, 2022.
  • Mahjourian et al. [2022] R. Mahjourian, J. Kim, Y. Chai, M. Tan, B. Sapp, and D. Anguelov. Occupancy flow fields for motion forecasting in autonomous driving. IEEE Robotics and Automation Letters, 2022.
  • Varadarajan et al. [2021] B. Varadarajan, A. Hefny, A. Srivastava, K. S. Refaat, N. Nayakanti, A. Cornman, K. Chen, B. Douillard, C. P. Lam, D. Anguelov, et al. Multipath++: Efficient information fusion and trajectory aggregation for behavior prediction. arXiv preprint arXiv:2111.14973, 2021.
  • Weng et al. [2021] X. Weng, B. Ivanovic, and M. Pavone. Mtp: Multi-hypothesis tracking and prediction for reduced error propagation. arXiv preprint arXiv:2110.09481, 2021.
  • Ivanovic et al. [2022] B. Ivanovic, Y. Lin, S. Shrivastava, P. Chakravarty, and M. Pavone. Propagating state uncertainty through trajectory forecasting. In ICRA, 2022.
  • Ivanovic and Pavone [2021a] B. Ivanovic and M. Pavone. Rethinking trajectory forecasting evaluation. arXiv preprint arXiv:2107.10297, 2021a.
  • Ivanovic and Pavone [2021b] B. Ivanovic and M. Pavone. Injecting planning-awareness into prediction and detection evaluation. arXiv preprint arXiv:2110.03270, 2021b.
  • McAllister et al. [2022] R. McAllister, B. Wulfe, J. Mercat, L. Ellis, S. Levine, and A. Gaidon. Control-aware prediction objectives for autonomous driving. arXiv preprint arXiv:2204.13319, 2022.
  • Bahari et al. [2022] M. Bahari, S. Saadatnejad, A. Rahimi, M. Shaverdikondori, A. H. Shahidzadeh, S.-M. Moosavi-Dezfooli, and A. Alahi. Vehicle trajectory prediction works, but not everywhere. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 17123–17133, 2022.
  • Gesnouin et al. [2022] J. Gesnouin, S. Pechberti, B. Stanciulescu, and F. Moutarde. Assessing cross-dataset generalization of pedestrian crossing predictors. arXiv preprint arXiv:2201.12626, 2022.
  • Hasan et al. [2022] I. Hasan, S. Liao, J. Li, S. U. Akram, and L. Shao. Pedestrian detection: Domain generalization, cnns, transformers and beyond. arXiv preprint arXiv:2201.03176, 2022.
  • Ridel et al. [2020] D. Ridel, N. Deo, D. Wolf, and M. Trivedi. Scene compliant trajectory forecast with agent-centric spatio-temporal grids. IEEE Robotics and Automation Letters, 2020.
  • Mangalam et al. [2020] K. Mangalam, Y. An, H. Girase, and J. Malik. From goals, waypoints & paths to long term human trajectory forecasting. arXiv:2012.01526, 2020.
  • Casas et al. [2021] S. Casas, A. Sadat, and R. Urtasun. Mp3: A unified model to map, perceive, predict and plan. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14403–14412, 2021.
  • Gilles et al. [2022] T. Gilles, S. Sabatini, D. Tsishkou, B. Stanciulescu, and F. Moutarde. Thomas: Trajectory heatmap output with learned multi-agent sampling. In ICLR, 2022.
  • Kendall and Cipolla [2017] A. Kendall and R. Cipolla. Geometric loss functions for camera pose regression with deep learning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5974–5983, 2017.
  • Meyer and Thakurdesai [2020] G. P. Meyer and N. Thakurdesai. Learning an uncertainty-aware object detector for autonomous driving. In 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 10521–10527. IEEE, 2020.
  • Moreau et al. [2022] A. Moreau, N. Piasco, D. Tsishkou, B. Stanciulescu, and A. de La Fortelle. Coordinet: uncertainty-aware pose regressor for reliable vehicle localization. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 2229–2238, 2022.

附录A数据集之间的数据分布比较以及数据增强的影响

A.1 速度分布

我们在第二节提到。 3.4.1 需要在 Argoverse 的训练数据中包含非目标代理,以正确推广到其他数据集。 我们在图 6 中说明了这种分布差距,其中我们显示了目标智能体在未来预测期间的平均速度。 因此,我们可以观察到,与其他数据集相比,Argoverse 几乎没有或没有保持静止的代理

Refer to caption

图6: 初始代理位置和最后一个未来位置之间的平均速度分布。 平移达到 0 m/s 平均速度的 40% 个样本以上,因此该 bin 超出了比例,以便于跨数据集比较。

这导致了图7(a)中观察到的性能差距,其中严格在Argoverse上训练的模型在其他数据集上的错误率更高,特别是在比例非常高的Shifts数据集上固定样本。 然而,当我们对预定义目标之外的 30% 个代理进行随机抽样时,图 7(b) 中报告的结果速度分布更能代表较低的速度。速度案例,并且可以更好地传输到其他数据集,而不会损失 Argoverse 本身的性能。

Refer to caption
(a) Performance difference
Refer to caption
(b) Speed distribution after augmentation
图7: 在 Argoverse 中纳入非目标代理以展示缓慢移动行为的影响

A.2 噪声分布

为了估计每个数据集中的感知噪声,我们使用卡尔曼滤波器过滤每个轨迹,并报告原始轨迹和过滤轨迹之间的最大位移。 我们在图 8 中报告了所得的噪声分布,并注意到交互分布比其他数据集向更低的噪声移动,而 Argoverse 达到了更高的噪声值。 这些差异可能解释了交互训练模型在其他数据集上表现不佳的原因。

Refer to caption

图8: 每个数据集的感知噪声分布

附录B端点采样的自适应半径

GOHOME 输出一个估计目标代理位置概率分布的热图,我们在该热图上应用非极大值抑制(NMS)方法来对所需数量的端点模态进行采样。 此 NMS 需要采样半径参数 r 来确定采样端点彼此之间应相距多远。 我们在图9中说明了该半径对采样的影响。

Refer to caption

图9: 左栏:高不确定性热图。 右栏:低不确定性热图。 顶线:高采样半径。 底线:低采样半径。 如左下角所示,对非常分散的热图使用低半径会导致未覆盖的区域,这可能会导致错过预测。 另一方面,在非常集中的热图上设置高半径会使采样端点的分布超出必要范围,并且如果地面实况位于两个采样点之间,则可能会产生更高的误差。

如上图 9 所示,给定固定数量的未来模态,这些未来点之间的距离应根据热图的分布情况进行调整,这与模型的不确定性相关。 我们在图 10 中进一步证明了这种相关性,其中我们为每个数据集绘制了在此数据集上训练的模型的平均最佳半径(根据 minFDE6 指标) )对于分组到整数箱中的不确定性值。

10 强调了对于大多数不确定性值范围,这种自适应采样的直觉存在于每个样本范围内。 因此,我们应用普通最小二乘法来查找估计的不确定性与给定情况的最佳半径之间的回归系数。 结果曲线绘制在图 10 中,我们在表 1 中报告了结果回归系数。 2,以及每个数据集无需自适应的最佳固定半径。

Refer to caption

图10: 考虑到不确定性的平均最佳半径。 我们将每个相等的整数值对不确定性值进行分箱,并对分箱中每种情况的最佳半径进行平均。 我们用橙色绘制通过对点应用最小二乘回归获得的线性曲线。
表2: 每个数据集的最佳半径和线性回归参数
Dataset Argoverse Interaction NuScenes Shifts
Radius 1.5 0.6 1.1 1.5
Affine 0.020x+0.78 0.026x+0.96 0.014+1.32 0.022x+0.91

附录 C 所有数据集上的训练表现

为了更好地估计理想的泛化跨数据集性能,我们同时在所有数据集上训练一个模型,每个样本均以 25% 概率从其中一个数据集抽取。 我们在选项卡中报告。 3 GOHOME(具有固定或自适应半径)和 SceneTransformer 模型在此设置下训练的结果。

表3: 混合数据集设置中的预测性能 minFDE6 训练
Argoverse Interaction NuScenes Shifts
GOHOME (fixed r=1.5m) 1.34 0.66 0.88 0.70
GOHOME (adaptive radius) 1.24 0.63 0.85 0.66
SceneTransformer 1.33 0.58 0.81 0.58

我们在图 11 中显示了 GOHOME 模型每个数据点的预测不确定性的平均预测误差。 与单数据集训练的模型相比,我们观察到,虽然方差较低,但在所有数据集上训练并达到相似的范围时,误差曲线显示出相似的趋势。

Refer to caption

图11: 针对在所有数据集的混合上联合训练的模型,分析跨数据集的不确定性和预测误差之间的相关性。

我们还在图12中报告了 GOHOME 模型关于不确定性的最佳采样半径。 我们用不同的颜色突出显示不同数据集中的数据点,并注意到每个数据集的范围略有不同,但线性相关趋势相似。

Refer to caption

图 12: 在所有数据集的混合上联合训练的模型的估计不确定性的每个值的最佳采样半径。

附录D不成功的试验

继第二节中进行的噪声观察之后。 A.2,我们尝试使用合成感知噪声来增强交互的训练数据,以弥补与其他数据集的差距。 然而,我们无法通过这种方式获得任何显着的性能。 这种失败可能是由于我们对感知噪声(每个时间步长的独立高斯噪声)进行建模的方式可能不合适,或者是由于性能差距是由于输入噪声以外的其他因素造成的。

我们还注意到图 6 中速度分布的差异,达到了较低的上限(大约 12.5 m/s)在Interaction中与其他数据集相比(虽然NuScenes也有类似的有限分布),并尝试全局随机缩放来模拟更高的速度,但这也没有带来太大的改进。

我们假设,在 Interaction 上训练时剩余的性能差距可能是由于在有限数量的地图上过度拟合,因为与缩放更接近城市规模的其他数据集地图相比,Interaction 有一组离散的相对较小的交叉路口地图,但并没有进一步探索这个假设。