自动驾驶一直是新能源车讲故事的底牌,也是对付燃油车最具杀伤力的“秘密武器”。随着自动驾驶从高端车型向大众车型快速普及,智能化是提升用户付费的关键因素。
数据显示,2019-2022年,中国的自驾域控市场规模从1亿元增长到98亿元,年均复合增速达341.0%;预计2026年将达到645亿元,2028年有望站上千亿台阶。随着自动驾驶日益强大,安全成为制约其进一步发展的重要因素。
自动驾驶充满各种安全风险
在过去的几十年中,受解决安全高效地导航复杂驾驶场景的追求所推动,自动驾驶系统经历了显著的进步。自动驾驶技术的发展从传统基于规则的系统,过渡到更先进的基于学习的方法。
由于预定义的规则难以泛化到不可预测的真实世界的情况,因此人们将深度学习方法整合到驾驶系统的各个组件中,开发了大量的自动驾驶模型,并以监督方式训练,依赖于人工标注的数据集。但这些数据集通常缺乏多样性,限制了适应和应对不常见驾驶场景的能力,突出了追求完全自动驾驶解决方案中的关键长尾挑战。
大型语言模型(LLMs)的兴起,如GPT-3.5 等为自动驾驶中的长尾挑战提供了有前景的解决方案,可有效提升自动驾驶系统决策制定的潜力。但这些工作在处理和理解视觉数据方面存在固有的限制,这对于准确感知驾驶环境和确保安全操作至关重要。
与此同时,视觉-大型语言模型(VLMs) 领域正在迅速发展。例如研究人员开始研究将视觉-大型语言模型(VLMs)应用于复杂场景理解和决策制定,这通常遵循视觉答案问答(VQA)框架。例如,DriveLM drivelm 通过连接的图形风格VQA对来促进决策制定,而DriveVLM drivevlm 采用链式思考(CoT) VQA方法来应对驾驶规划挑战。但很明显,