通过 RL 微调改善自动驾驶的智体行为

24年9月来自UCLA和谷歌Waymo的论文“使用强化学习微调改进自动驾驶的智体行为”。

自动驾驶汽车研究的一个主要挑战是建模智体行为,它具有关键的应用,包括为非车载评估构建逼真可靠的模拟,以及为车内规划预测交通智体运动。虽然监督学习已在各个领域的智体建模中取得成功,但这些模型在测试时部署时可能会受到分布变化的影响。这项工作用强化学习(RL)对行为模型进行闭环微调来提高智体行为的可靠性。在 Waymo Open Sim Agents (WOSAC)挑战赛中,该方法展示了改进的整体性能,以及改进的目标指标,例如碰撞率。此外,提出一种策略评估基准,直接评估模拟智体衡量自动驾驶汽车规划器质量的能力,并证明本文方法在这个新基准上的有效性。

基于 Transformer 的模型已经应用于各个领域,如文本生成 [4]、图像生成 [26]、机器人 [43]、药物研发 [18]、疾病诊断 [42] 和通用医疗 AI [22]。许多基于 Transformer 的大模型都以“预训练-然后-微调”的方式进行训练,其中监督微调 [40] 或带有人工反馈的强化学习 [25] 有望使模型行为与人类偏好保持一致。在自动驾驶领域,类似的基于 Transformer 的架构已经应用于各种任务,包括感知 [19]、运动预测 [23]、自动驾驶策略 [10] 和模拟 [31,38,39]。

对交通参与者的行为进行建模是许多自动驾驶系统中的一项关键任务,特别是对于构建真实的模拟来测试 AD 规划器而言。大多数现有的模拟器 [6,12,41] 依赖于手工制作的交通和地图生成规则。然而,地图结构、交通流、交通参与者与其他元素之间交互的数据分布,并不能真实地代表现实世界。现代数据驱动的模拟器 [9,13,14,33] 通过重放自动驾驶汽车记录真实场景中的交通参与者行为(日志重放)来解决这个问题。然而,日志重放的缺点是,当规划器行为与原始记录的行为不同时,重新模拟可能会变得不切实际。例如,如果 AD 规划器比人类驾驶员更谨慎,并且更早刹车,后面的车辆可能会与其相撞,从而导致误报碰撞。

在 Waymo Open Sim Agent Challenge (WOSAC) [20] ,许多现有的提交方法都应用了边际运动预测模型 [2,7,29],这些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值