自动驾驶论文速递 | 世界模型、VLA综述、端到端等

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

世界模型Epona

地平线、清华、北大等团队ICCV'25中稿的自回归扩散世界模型工作,同时可以不依赖视频预测独立输出轨迹规划。

  • 论文标题:Epona: Autoregressive Diffusion World Model for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2506.24113

  • 项目主页:https://kevin-thu.github.io/Epona/

主要贡献:

  • 长时序生成。Epona可以实现长达2分钟的长时间生成,显著优于现有的世界模型;

  • 实时轨迹规划。独立的多模态生成架构能够在视频预测不可用的情况下独立输出轨迹规划,从而显著降低了推理FLOPS。这实现了高质量甚至实时的轨迹规划,高达20Hz的帧率;

  • 视觉细节的保存。Epona的自回归公式采用连续视觉标记器而不是离散标记器,从而保留了丰富的场景细节;

算法框架:

实验结果:

可视化:

欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~最新技术第一时间掌握!

图片

加入后如果不满意,三天内(72h)可全额退款!

图片

A Survey on Vision-Language-Action Models

麦吉尔大学、小米等团队的VLA综述

  • 论文标题:A Survey on Vision-Language-Action Models for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2506.24044

  • 项目主页:https://github.com/JohnsonJiang1996/Awesome-VLA4AD

StyleDrive

清华AIR、曼彻斯特大学和港大团队的端到端Bench工作

  • 论文标题:StyleDrive: Towards Driving-Style Aware Benchmarking of End-To-End Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2506.23982

动机:

与当前已有bench的对比:

算法框架:

实验结果:

可视化:

最后欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~

图片

我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的

加入后如果不满意,三天内(72h)可全额退款!

图片

### 自动驾驶技术详解 #### 大型语言模型自动驾驶中的应用 当前,学术界和工业界的研讨会上鼓励研究人员探索如何利用大型语言模型来改进自动驾驶系统[^1]。这类研究旨在开发更加智能化的决策机制和服务功能。 #### 动作预测与轨迹规划 对于未来的驾驶行为建模而言,重要的是要避免让模型简单地重复过去的行为模式;相反,应该专注于基于实时观测来进行有效的路径规划。具体来说,通过预测帧间的相对移动而非长时间跨度内的绝对位置变化,可以更好地适应动态交通状况并提高安全性。这种做法涉及到了对车辆运动参数(如纵向位移、侧向位移及方向角改变量)进行离散化处理,并将其转换成一系列可被机器理解的操作令牌[^2]。 #### 视觉语言模型的发展及其影响 随着ViT (Vision Transformer) 和 CLIP 的推出,视觉语言模型成为了一个热门话题,在计算机视觉领域引发了深刻变革。特别是在最近举办的 CVPR '24 自动驾驶挑战赛期间,众多团队提交了关于增强环境感知能力的新颖解决方案。值得注意的是,“PromptKD” 提供了一种新颖的知识蒸馏方式,它能够在保持原有性能水平的同时显著减小 VLMs 的规模[^3]。 #### 预训练策略的有效性评估 当涉及到迁移学习时,某些先进的框架展示了其优越之处——例如 Octo 模型不仅拥有更大的训练数据集而且还能有效地应用于不同场景下的快速调整过程之中。尽管如此,也有其他几种流行的预训练方法可供选择,比如那些依赖于已有的高质量图像特征提取器作为基础组件构建而成的技术路线图[^4]。 ```python def predict_relative_trajectory(current_state, observations): """ Predict the relative trajectory based on current state and new observations. Args: current_state (dict): Current vehicle status including position, velocity etc. observations (list of dict): A list of observed states from sensors. Returns: tuple: Relative changes in longitudinal translation, lateral translation, yaw rotation. """ # Placeholder implementation details here... pass ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值