ICCV‘25开源 | 新一代自动驾驶标配视觉语言大模型?DriveBench全面揭示视觉语言大模型在退化图像下的「幻觉」问题!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

3D视觉工坊很荣幸邀请到加州大学尔湾分校计算机系在读博士生谢少远,为大家着重分享他们团队的工作:DriveBench。如果您有相关工作需要分享,欢迎文末联系我们。

Are VLMs Ready for Autonomous Driving?An Empirical Study from the Reliability, Data, and Metric Perspectives
论文https://arxiv.org/abs/2501.04003
Code & Demohttps://drive-bench.github.io/
Dataset & Benchmarkhttps://huggingface.co/datasets/drive-bench/arena

直播信息

时间

2025年07月04日(周五)10:30

主题

ICCV’25开源|新一代自动驾驶标配视觉语言大模型?DriveBench全面揭示视觉语言大模型在退化图像下的“幻觉”问题!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

谢少远
加州大学尔湾分校计算机系在读博士生

加州大学尔湾分校计算机系在读博士生,本科毕业于华中科技大学。曾于上海人工智能实验室,奔驰北美研发中心进行科研实习。研究方向为AI安全,自动驾驶。相关研究成果发表于ICCV、TPAMI、ICLR、NDSS、NeurIPS、TMLR等国际期刊和会议中。

个人主页https://daniel-xsy.github.io/

直播大纲

本次分享介绍 DriveBench,一个专为自动驾驶设计的视觉语言模型(VLMs)基准测试框架,旨在评估VLMs在不同环境和任务下的可靠性。DriveBench 涵盖感知、预测、规划和行为四大核心任务,并引入 15 种OoD类型,以系统性测试 VLMs 在复杂驾驶场景中的可靠性。

DriveBench 的研究发现当前 VLMs 在视觉信息缺失或受损情况下仍能生成“合理”但缺乏视觉支撑的回答,暴露出数据偏差和评估指标的局限性。为提升 VLMs 在自动驾驶中的可信度,研究提出 Robust Agentic Utilization(RAU) 框架,利用 VLMs 的OoD感知能力,引导外部去噪模型增强感知稳健性。RAU 方案不仅改善了 BEV 目标检测模型在复杂场景下的表现,也为未来更可靠、可解释的自动驾驶决策系统提供了新的思路。

  1. 自动驾驶中的视觉语言模型(VLMs)概述

  2. DriveBench: 自动驾驶VLMs的可靠性基准

  3. VLMs 可靠性评估分析

  4. 提升VLMs在自动驾驶中的可靠性

  5. 未来展望与应用前景

参与方式

:3D视觉工坊很荣幸邀请到加州大学尔湾分校计算机系在读博士生谢少远,为大家着重分享他们团队的工作:DriveBench。。如果您有相关工作需要分享,欢迎联系微信:cv3d009  请备注:宣传工作,则不予通过。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值