(一)paper传送门
Explanation Augmented Feedback in Human-in-the-Loop Reinforcement Learning
(二)背景知识
强化学习(RL)-------------------------------------------------《Reinforcement Learning:An Introduction》第二版
Human-in-the-loop reinforcement learning(HRL)------https://ieeexplore.ieee.org/document/8243575
Large Margin Classification-----------------------------------https://blog.csdn.net/mike112223/article/details/76224728
SARFA-------------------------------------------------------------https://arxiv.org/abs/1912.12191
DQN-TAMER-----------------------------------------------------https://arxiv.org/abs/1810.11748v1
高斯扰动----------------------------------------------------------https://www.zhihu.com/question/26847935
Taxi(gym)---------------------------------------------------------https://www.lizenghai.com/archives/44605.html
(三)摘要
HRL(必须指出,这里不是分层强化学习)将人类对于交互中元组(s,a)的评价:好、坏(二元反馈),引入传统的强化学习中来提高样本效率。但是,也存在weak supervision 和 poor efficiency in leveraging human feedback的问题,因此,作者提出一种EXPAND (Explanation Augmented Feedback)的方法,不仅可以得到人类的反馈,并且利用人类的显著性映射来解释反馈,并且在Taxi和Atari-Pong上与其他的相关算法进行比较,证明是SOTA的。其实,类似于注意力机制,解释就是指从人类那里得到关于agent在观察图像以完成给定任务时应该关注哪些区域,方法就是增加扰动忽略不相关区域。
(四)内容
1 问题
很直觉,加上human的一些评估信息,RL的样本效率会大大提高,其中,一种方法就是Human-in-the-