强化学习自动驾驶论文阅读(四)

本文探讨了在自动驾驶领域中,利用贝叶斯强化学习(Bayesian reinforcement learning)来评估决策的不确定性,特别是在交叉路口的战术决策。通过与DDQN算法比较,该方法在模拟十字路口自动驾驶中表现出优势,能够有效地减少碰撞。文章提出了使用ensemble RPF模型估计Q值分布,以评估推荐行动的不确定性,并为agent提供决策的置信度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(一)paper传送门

Reinforcement Learning with Uncertainty Estimation for Tactical Decision-Making in Intersections

(二)背景知识

强化学习(RL)-------------------------------《Reinforcement Learning:An Introduction》第二版
Double DQN (DDQN)----------------------https://zhuanlan.zhihu.com/p/97853300
随机先验函数 (RPF)------------------------https://zhuanlan.zhihu.com/p/106394048
Bootstrapped DQN -----------------------------https://zhuanlan.zhihu.com/p/78273736
贝叶斯方法 ---------------------------------------https://blog.csdn.net/v_july_v/article/details/40984699

(三)摘要

本文利用贝叶斯强化学习,赋予智能体评估模型推荐的行动的能力,通过模拟十字交叉路口自动驾驶,与DDQN算法比较,该方法具有优势。其实就是,本文通过自举经验回放训练了一个ensemble RPF模型,估计Q值的分布,然后使用Q值的分布来估计推荐行动的不确定性,同时也提供agent采取决策的置信度,因此,利用不确定性信息选择未知情况下的安全动作,可以有效消除training distribution内的所有碰撞,以及training distribution外的大部分碰撞。为了方便理解,可以思考一个问题:如果我们将agent放在高速路上训练,测试的时候放在agent从未遇到的十字路口的时候,agent会根据输入的状态帧输出动作吗?答案是:会。这是一个很严重的问题,因此我们必须要让agent能对自己的动作做出评估才行,贝叶斯概率理论正好能一定程度解决这事。(不确定性的重要性可以看Bootstrapped DQN那篇博客)

(四)内容

1 问题

自动驾驶过程是很复杂的,依赖手动预测所有可能情况是不可能的,因此RL作为一种可以从经验轨迹学习的end-to-end方法逐渐被应用到自动驾驶领域,但是传统的RL,agent无法评估决策的不确定性。尽管,目前一些RL研究基于贝叶斯概率理论来评估不确定性,但是侧重于对探索进行优化,并没有提供agent采取决策的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值