强化学习自动驾驶论文阅读(五)

本文介绍了如何在强化学习(RL)中引入人类二元反馈(好/坏)以提高样本效率,提出了Explanation Augmented Feedback (EXPAND)方法。通过高斯扰动忽略不相关区域,增强显著性映射,实现在Taxi和Atari-Pong环境中的优越性能。这种方法结合了二元反馈与显著性反馈,展示了在自动驾驶等领域的潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(一)paper传送门

Explanation Augmented Feedback in Human-in-the-Loop Reinforcement Learning

(二)背景知识

强化学习(RL)-------------------------------------------------《Reinforcement Learning:An Introduction》第二版
Human-in-the-loop reinforcement learning(HRL)------https://ieeexplore.ieee.org/document/8243575
Large Margin Classification-----------------------------------https://blog.csdn.net/mike112223/article/details/76224728
SARFA-------------------------------------------------------------https://arxiv.org/abs/1912.12191
DQN-TAMER-----------------------------------------------------https://arxiv.org/abs/1810.11748v1
高斯扰动----------------------------------------------------------https://www.zhihu.com/question/26847935
Taxi(gym)---------------------------------------------------------https://www.lizenghai.com/archives/44605.html

(三)摘要

HRL(必须指出,这里不是分层强化学习)将人类对于交互中元组(s,a)的评价:好、坏(二元反馈),引入传统的强化学习中来提高样本效率。但是,也存在weak supervision 和 poor efficiency in leveraging human feedback的问题,因此,作者提出一种EXPAND (Explanation Augmented Feedback)的方法,不仅可以得到人类的反馈,并且利用人类的显著性映射来解释反馈,并且在Taxi和Atari-Pong上与其他的相关算法进行比较,证明是SOTA的。其实,类似于注意力机制,解释就是指从人类那里得到关于agent在观察图像以完成给定任务时应该关注哪些区域,方法就是增加扰动忽略不相关区域。

(四)内容

1 问题

很直觉,加上human的一些评估信息,RL的样本效率会大大提高,其中,一种方法就是Human-in-the-

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值