2.1 老虎机和强化学习之间的关系
强化关注交互过程中的学习,是一种试错型学习。在正式学习强化学习前,我们先介绍老虎机问题,他可以被看作简化版的强化学习问题。与强化学习不同,老虎机没有状态信息,只有动作和奖励,算是最简单的和环境交互中的学习的一种形式。多臂老虎机中的探索与利用问题(exploration vs exploitation)是一个特别经典的问题,理解这个问题有助于我们学习强化学习。
2.2 问题介绍
2.2.1 问题背景
在此问题中,有一个拥有K根拉杆的老虎机。最开始,奖励概率分布未知。
(有K种动作,对应K种奖励)
2.2.2 问题要求
我们需要再操作T次拉杆后获得尽可能高的累积奖励。
2.2.3 问题分析
因此,我们需要在 “探索拉杆的获奖概率” 和 “根据经验选择获奖最多的拉杆” 中进行权衡。
2.2.4 累积懊悔
2.2.5 估计期望奖励
2.3 策略总结
2.3.1 epision-贪婪
用random获取一个随机数,若该随机数小于临界点epision,就进行随机挑选。否则,就选取当前的最优杆。跟基础贪婪算法相比就是设定了一个epision,防止一直停留在局部最优解,也是一种对探索和利用平衡的处理。
该方法无论epision设定多少,累积懊悔几乎是线性增长的。
但若按时间调节epision,可以使累积懊悔达到次线性增长。