>>直播和内容获取转到→自动驾驶之心知识星球
当前自动驾驶系统在城市和高速公路等结构化环境中取得了显著进展,但面对乡村小路、临时施工区、非标准交通规则以及恶劣路况等“非结构化场景”时,其鲁棒性和安全性仍面临严峻挑战。现有大规模自动驾驶数据集主要侧重于常规交通状况 ,导致在这些复杂多变的非结构化环境中缺乏专门的、大规模且精细标注的数据。为了弥补这一关键空白,清华AIR联合博世中央研究院 提出并构建了 Impromptu VLA 框架,旨在提供一个开放权重和开放数据的驾驶视觉-语言-动作模型。Impromptu VLA 是一个完全端到端、无中间感知表征的“纯血VLA”系统,其从驾驶视频片段中直接提取多模态特征,并生成自然语言格式的驾驶命令,无需手工设计感知模块、行为先验或中间BEV表达。在NeuroNCAP闭环安全评测体系中,Impromptu VLA 展现出强大的决策稳健性与泛化能力,显著超越 CVPR 2025 最新提出的 BridgeAD 系统(2.15 v.s. 1.60)。
论文链接:https://arxiv.org/abs/2505.23757v1
项目主页:https://github.com/ahydchh/Impromptu-VLA
今天自动驾驶之心很荣幸邀请到清华大学计算机系本科生 - 迟浩瀚,为大家分享这篇最新的VLA框架!今晚七点半,自动驾驶之心直播间不见不散~
对于想入门的同学,建议扎实深度学习和计算机视觉基础,逐步了解自动驾驶各模块。多阅读前沿论文,并通过开源项目动手实践,熟悉数据处理和模型训练流程。希望能为大家带来启发,期待与大家交流。

数据集pipeline:
