1 背景
随着自动驾驶大模型技术的不断发展,VLA路线也逐渐走进车里。本次笔者主要引用小鹏自动驾驶产品经理的观点,也给各位感兴趣的读者朋友跟进小鹏汽车的自动驾驶大模型的研发状态。
最近各家基本都在放话:VLA大模型上车。虽然此次出来说明的是小鹏的产品经理而不是研发的同学,能认识到一些模型蒸馏的细节,同时通过CVPR会议论文的内容,可以看到模型相关更细节的东西。
在2025年6月份,小鹏汽车也作为国内唯一的车企在CVPR Workshop on Autonomous Driving 会议上(早几届都是特斯拉的自动驾驶技术分享,可见含金量还是比较足的)分享了其在大模型领域的研究进展。
2 大模型
从总体情况来看,模型的训练思路基本和理想相同,都是通过云端大模型的蒸馏,变成一个车端可以部署的轻量化小模型。希望通过小鹏汽车CVPR会议内容及小鹏汽车产品经理的介绍,读者朋友们能对小鹏汽车的自动驾驶大模型有更深的了解。
2.1 模型架构
整体的模型架构和现有不少方案大同小异,目前各家基本趋于稳定,除非有下一代的大模型架构,类似CNN,Transformer的出现。
- Encoder: Encode information including videos and instructions
- Backbone: LLM as an example, the decoder instead of language output
- Reinforcement Learning: Reward scheme and policy gradient
(1)Input
- Ego Tasks
- Video Stream
- Text Prompt / Instruction
(2)Encoder
- Encode instructions (e.g. Text, Voice)
- Encode videos (e.g. Camera, etc.)
(3)LLM Backbone
- LLM as Language Decoder (e.g. GPT, LLaMA, etc.)
- Multi - turn interaction
(4)Reinforcement Learning
- Reward
- Human AI Feedback (e.g. Preference)
- Simulated
- Modeled
- Policy Gradient
2.2 大模型蒸馏
小鹏的技术路线选择的是超大型云端模型蒸馏,而不是仅仅云端小型训练后直接部署到车端。小鹏汽车正在云上训练72B参数的超大规模VLA模型,未来会通过蒸馏方法,生产出小尺寸的车端模型。蒸馏最大的好处,是让车端小模型尽可能承袭云端大模型的能力,把72B超级大脑的智能“推云入端”。这比直接训练一个车端小模型更难,但上限也更高。
- 更强的规模法则效应。
模型参数的利用率是有限的,通过云端更大的模型,有更多的数据,能学到更多的东西,涌现效应更强。再蒸馏到车端的小模型上,可以让小模型有更强的表现。
- 解决“模态不统一”的困境。
自动驾驶本身就是多解的(也就是所谓的多模态的),会遇到“模态不统一”的困境。模态不统一,指的是,面对同一个驾驶场景,驾驶者的表现会不同,且每一条路径选择都是对的,面对输出的多模态,如果让模型直接通过模仿学习去学这个,就会造成模态的不统一,甚至会出现模态坍塌,而且这个负面作用会随着数据量增大而越来越明显。
当数据量较小的时候(如只有100w or 200w训练数据),比如,在一个驾驶场景里,只会学到1-2种驾驶路径,这并不会产生明显的问题。
当数据量变得越来越大的时候,会看到越来越多重复的场景,且驾驶员的解法是不同的,这就会造成模型的confusion,会造成模态坍塌,最终模型学习到一个平均态。带来的结果就是模型并没有通过数据的增加实现 scaling law,产生更强的模型效果。
但如果本身云端训练了更大的模型,使模型有更大的参数量,更强的能力,这个模型作为老师,去教车端的模型学习,就会有“模态统一”的优势。小鹏的技术路线,用同一个模态,对于不同场景都用这个方式去训练,继而提升车端小模型的性能。
- 更大的云端模型,强化学习的效果更好。
更大的模型,后训练的效果会更好,能力会更强。通过更大的云端模型后训练,再向车端小模型去蒸馏,得到的结果,比直接车端的小模型直接去做强化后训练要好得多。
2.3 车端VLA
VLA是新一代辅助驾驶的基础模型能力,是正确的方向,但是VLA必须都放在车端。(再过1~2个月,理想汽车也会在纯电品牌的发布会上公布其VLA量产上车)
如果放在云端,会有极大的安全风险,因为在地库,高速等区域,网络延迟和网络丢失都会导致用户语言控车无法及时响应,可能导致严重后果。云端VLA适合的场景只有在没有延时顾虑的脱困场景,如L4场景下,车已经靠边停车了,或者车已经卡死了,在这种情形下,云端可以来做协同判断决策,2秒或者3秒的延迟都不是大问题。
所有跟控车相关的VLA都必须放在车端。别说是1-2秒的延迟,超过300毫秒的延迟,就会导致控车的风险。举例来说,车现在想要左转,已经进入十字路口一段时间了,再去发起左转决策,那么路径显然是错的。越小的延时,越可以降低安全风险,尤其是在车速较快的情况下和繁忙的城区场景。
通过云端交互的VLA,可以演示,但是不建议拿来物理世界真实使用。
小鹏的物理世界模型+本地VLA体系,直接在本地部署,不光可以在中国使用,而且在全球范围内(因为很多国家车端网络很慢)都可以使用。
3 算力+芯片
有了模型,相当于厨师做菜,有好的食材,没有好的厨具,也很难做出顶级美食。因此算力和芯片对于模型落地是非常重要的。
3.1 车端芯片
自动驾驶的核心除了模型和数据外,核心在于本地端芯片。而为什么特斯拉、苹果、华为、小米都自研芯片,因为芯片对一家AI企业,对于一家硬件企业,都太重要了。
当小鹏汽车在云端的大模型解决了最困难的问题后,剩下的核心问题,就是工程部署问题。工程部署问题在软件和模型层面,是蒸馏、剪枝、量化;在硬件层面,核心芯片算力做大,芯片和模型的耦合优化变强。
车端芯片的强大,是一家AI企业能不能把模型用好的分水岭。
小鹏汽车研发了一颗可顶三颗主流车端芯片算力的图灵芯片,并且通过芯片、模型、编译等团队的紧密合作,追求模型和芯片的无缝藕合。小鹏的自研芯片,算力大,适合跑大模型,小鹏汽车能让软件模型和芯片做联合设计,能最大程度的发挥出模型和芯片的协同效果。而且只有全栈自研才能联合设计硬件、软件、编译器和模型结构从而最大化全链路的效果。
小鹏汽车应用自研芯片的量产车,马上就要与大家见面了,敬请期待。
3.2 算力方案
在”让大脑更聪明”或者“戴上夜视眼镜”的选项中,小鹏汽车选择了让大脑更聪明,来全面提高智驾的安全系数。轻雷达+重算力方案是物理世界模型+VLA的最佳组合?小鹏逐渐再靠近纯视觉方案。
(1)反应更敏捷
去激光雷达后节约了20%的感知算力,升级了视觉感知模型的容量、参数量和推理的频率。计算简化让端到端的延时大幅降低,视觉的响应速度是激光雷达的近2倍,意味着响应时间几乎减半,能够明显提升整车的安全性和流畅性;综合大模型的能力和车端算力,小鹏汽车的视觉信息处理帧率,可以达到业界主流激光雷达的处理帧率的12 倍,能够大幅度提高城市辅助驾驶的安全级别。
(2)脑容量更大,脑神经更发达
“聪明的大脑”需要脑容量足够大(小鹏汽车自研芯片的算力是行业内pro车型的4-5倍),也需要脑子里的神经网络足够发达(小鹏汽车的云端基座大模型有720亿的参数,是行业最高)。摄像头提供的输入信号更丰富,信息量更大,配合更强大的“大脑”可以更有效地利用上千倍信息量的输入信号,从而提高整个系统的上限。
(3)眼睛更雪亮
小鹏汽车的AI摄像头(鹰眼视觉),是前向+后向800万像素,结合Lofic技术,行业内车规级最高精的摄像头,看的比人类远,在夜间、大逆光、雨雪天等看的比人眼更清楚。
4 总结
小鹏汽车正通过云端大模型蒸馏技术,将72B参数的VLA大模型轻量化后部署到车端,以提升自动驾驶系统的智能和安全性。这种技术路线不仅解决了“模态不统一”的问题,还通过强化学习增强了模型的表现。
小鹏汽车所有与控车相关的VLA功能必须部署在车端,以减少网络延迟带来的安全风险。此外,小鹏自研的图灵芯片和轻雷达+重算力的方案,进一步提升了视觉感知模型的处理能力和响应速度,确保了自动驾驶系统的高效和安全。小鹏的物理世界模型+本地VLA体系,不仅适用于中国,也适应全球市场,展示了其在自动驾驶领域的全面布局和技术实力。
参考论文:
CVPR 2025---《Scaling up Autonomous Driving via Large Foundation Models》