重磅直播！清华&博世开源SOTA性能纯血VLA：Impromptu-VLA告别双系统~

自动驾驶之心

于 2025-07-02 07:31:17 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247669815&idx=1&sn=177ad3355f5bbb749e7fbe86bdfcc7c8&chksm=cf00a7a35cd0551dbdac91953dad8968622ad9cc55b4a6124d2f7cbf90774179da9b16661a66&scene=126&sessionid=0

>>直播和内容获取转到→自动驾驶之心知识星球

当前自动驾驶系统在城市和高速公路等结构化环境中取得了显著进展，但面对乡村小路、临时施工区、非标准交通规则以及恶劣路况等“非结构化场景”时，其鲁棒性和安全性仍面临严峻挑战。现有大规模自动驾驶数据集主要侧重于常规交通状况，导致在这些复杂多变的非结构化环境中缺乏专门的、大规模且精细标注的数据。为了弥补这一关键空白，清华AIR联合博世中央研究院提出并构建了 Impromptu VLA 框架，旨在提供一个开放权重和开放数据的驾驶视觉-语言-动作模型。Impromptu VLA 是一个完全端到端、无中间感知表征的“纯血VLA”系统，其从驾驶视频片段中直接提取多模态特征，并生成自然语言格式的驾驶命令，无需手工设计感知模块、行为先验或中间BEV表达。在NeuroNCAP闭环安全评测体系中，Impromptu VLA 展现出强大的决策稳健性与泛化能力，显著超越 CVPR 2025 最新提出的 BridgeAD 系统（2.15 v.s. 1.60）。

论文链接：https://arxiv.org/abs/2505.23757v1
项目主页：https://github.com/ahydchh/Impromptu-VLA

今天自动驾驶之心很荣幸邀请到清华大学计算机系本科生 - 迟浩瀚，为大家分享这篇最新的VLA框架！今晚七点半，自动驾驶之心直播间不见不散~

对于想入门的同学，建议扎实深度学习和计算机视觉基础，逐步了解自动驾驶各模块。多阅读前沿论文，并通过开源项目动手实践，熟悉数据处理和模型训练流程。希望能为大家带来启发，期待与大家交流。

数据集pipeline：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。