arxiv Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases

名称
Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases
首页
https://yiyibooks.cn/arxiv/2404.10595v1/index.html
原始地址
https://arxiv.org/abs/2404.10595
描述
大视觉语言模型(LVLM)由于具有理解图像和视频的卓越视觉推理能力,在自动驾驶领域受到了广泛关注,极大地推动了可解释的端到端自动驾驶的发展。然而,目前对LVLM的评估主要集中在常见场景下的多方面能力,缺乏自动驾驶环境下的可量化和自动化评估,更不用说即使是最先进的自动驾驶感知系统也难以应对的严峻路况。处理。在本文中,我们提出了 CODA-LM,一种新颖的自动驾驶视觉语言基准,它为可解释的自动驾驶提供了第一个对 LVLM 的自动定量评估,包括一般感知、区域感知和驾驶建议 ...