ICCV‘25开源 | 新一代自动驾驶标配视觉语言大模型？DriveBench全面揭示视觉语言大模型在退化图像下的「幻觉」问题！

最新推荐文章于 2025-07-15 10:39:21 发布

3Ｄ视觉工坊

最新推荐文章于 2025-07-15 10:39:21 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

文章标签：自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247730527&idx=2&sn=63e4e9745c0869de57a340e6ad698327&chksm=fad364d7cbc198813ce91527d7ea2739566030690709e0dca86065d8ad9ca3dd8976b7448ce4&scene=126&sessionid=0

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

3D视觉工坊很荣幸邀请到加州大学尔湾分校计算机系在读博士生谢少远，为大家着重分享他们团队的工作：DriveBench。如果您有相关工作需要分享，欢迎文末联系我们。

Are VLMs Ready for Autonomous Driving?An Empirical Study from the Reliability, Data, and Metric Perspectives
论文：https://arxiv.org/abs/2501.04003
Code & Demo：https://drive-bench.github.io/
Dataset & Benchmark：https://huggingface.co/datasets/drive-bench/arena

直播信息

时间

2025年07月04日(周五)10：30

主题

ICCV’25开源|新一代自动驾驶标配视觉语言大模型？DriveBench全面揭示视觉语言大模型在退化图像下的“幻觉”问题！

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

谢少远
加州大学尔湾分校计算机系在读博士生

加州大学尔湾分校计算机系在读博士生，本科毕业于华中科技大学。曾于上海人工智能实验室，奔驰北美研发中心进行科研实习。研究方向为AI安全，自动驾驶。相关研究成果发表于ICCV、TPAMI、ICLR、NDSS、NeurIPS、TMLR等国际期刊和会议中。

个人主页：https://daniel-xsy.github.io/

直播大纲

本次分享介绍 DriveBench，一个专为自动驾驶设计的视觉语言模型（VLMs）基准测试框架，旨在评估VLMs在不同环境和任务下的可靠性。DriveBench 涵盖感知、预测、规划和行为四大核心任务，并引入 15 种OoD类型，以系统性测试 VLMs 在复杂驾驶场景中的可靠性。

DriveBench 的研究发现当前 VLMs 在视觉信息缺失或受损情况下仍能生成“合理”但缺乏视觉支撑的回答，暴露出数据偏差和评估指标的局限性。为提升 VLMs 在自动驾驶中的可信度，研究提出 Robust Agentic Utilization（RAU）框架，利用 VLMs 的OoD感知能力，引导外部去噪模型增强感知稳健性。RAU 方案不仅改善了 BEV 目标检测模型在复杂场景下的表现，也为未来更可靠、可解释的自动驾驶决策系统提供了新的思路。

自动驾驶中的视觉语言模型（VLMs）概述
DriveBench: 自动驾驶VLMs的可靠性基准
VLMs 可靠性评估分析
提升VLMs在自动驾驶中的可靠性
未来展望与应用前景

参与方式

注：3D视觉工坊很荣幸邀请到加州大学尔湾分校计算机系在读博士生谢少远，为大家着重分享他们团队的工作：DriveBench。。如果您有相关工作需要分享，欢迎联系微信：cv3d009 请备注：宣传工作，则不予通过。