强化学习自动驾驶论文阅读（五）

最新推荐文章于 2025-06-07 15:55:42 发布

不如春风十里见你

最新推荐文章于 2025-06-07 15:55:42 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：自动驾驶文章标签：强化学习 AI

本文链接：https://blog.csdn.net/weixin_45042545/article/details/107108575

本文介绍了如何在强化学习（RL）中引入人类二元反馈（好/坏）以提高样本效率，提出了Explanation Augmented Feedback (EXPAND)方法。通过高斯扰动忽略不相关区域，增强显著性映射，实现在Taxi和Atari-Pong环境中的优越性能。这种方法结合了二元反馈与显著性反馈，展示了在自动驾驶等领域的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（一）paper传送门

Explanation Augmented Feedback in Human-in-the-Loop Reinforcement Learning

（二）背景知识

强化学习（RL）-------------------------------------------------《Reinforcement Learning：An Introduction》第二版
Human-in-the-loop reinforcement learning（HRL）------https://ieeexplore.ieee.org/document/8243575
Large Margin Classification-----------------------------------https://blog.csdn.net/mike112223/article/details/76224728
SARFA-------------------------------------------------------------https://arxiv.org/abs/1912.12191
DQN-TAMER-----------------------------------------------------https://arxiv.org/abs/1810.11748v1
高斯扰动----------------------------------------------------------https://www.zhihu.com/question/26847935
Taxi(gym)---------------------------------------------------------https://www.lizenghai.com/archives/44605.html

（三）摘要

HRL(必须指出，这里不是分层强化学习)将人类对于交互中元组（s,a）的评价：好、坏（二元反馈），引入传统的强化学习中来提高样本效率。但是，也存在weak supervision 和 poor efficiency in leveraging human feedback的问题，因此，作者提出一种EXPAND (Explanation Augmented Feedback)的方法，不仅可以得到人类的反馈，并且利用人类的显著性映射来解释反馈，并且在Taxi和Atari-Pong上与其他的相关算法进行比较，证明是SOTA的。其实，类似于注意力机制，解释就是指从人类那里得到关于agent在观察图像以完成给定任务时应该关注哪些区域，方法就是增加扰动忽略不相关区域。