转自: https://www.zhenxiangsimple.com/2019/04/12/tech-ml-qhxx
强化学习的原理,就是通过结果的反馈来对有效规则进行强化,并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于,在学习器的训练前没有标记样本的结果,而需要通过尝试来得到各行为的结果,进而来对训练本身进行反馈。
任务与奖赏
任务与奖赏是强化学习的一个基础概念,就是基于一个状态下通过执行某个动作(任务)使得状态发生改变,通过对改变后的状态进行对比来决定当前任务的好坏,如果状态变得更好则对任务进行奖赏。
k-摇臂赌博机
K摇臂赌博机是一种由K个摇臂的赌博机,玩家在放入游戏币后可以选择一个摇臂进行操作,而所有摇臂本身有不同的概率来赢得奖励,具体摇臂本身出的奖赏也只是一个概率值并非确定值,玩家需要自己根据尝试的结果来判断概率后,去最大化自己的奖赏。这个规则跟强化学习中的单步任务的模型一致,即在行为中仅考虑单步操作的最大奖赏,常用策略有
ϵ
\epsilon
ϵ贪心算法和Softmax算法。
e
p
s
i
l
o
n
epsilon
epsilon贪心法是以一定的概率进行随机尝试,即当随机值的大于概率
ϵ
\epsilon
ϵ则在k个摇臂中随机选择一个进行尝试,当随机值小于概率
ϵ
\epsilon
ϵ时选择已尝试的摇臂中最大平均奖励的那个,当k个摇臂的概率分布较宽即不确定性较大时,概率值
ϵ
\epsilon
ϵ需要选择较大值,反之亦然。Softmax算法利用已有的结果中各摇臂奖赏的概率进行摇臂的选择迭代,即如果各摇臂的奖赏概率相当,则选择各摇臂的概率相当,若某个摇臂的奖赏出现次数明显较大,则其被选中的概率也较大。
有模型学习
有模型学习是指在已知一个模型的环境中进行学习。该方法基于一个初始的模型(通常是随机模型),首先进行模型评估(代入模型计算奖励),然后基于最大化奖励的目标对模型参数进行改进,再对改进的模型进行评估,进而再对模型进行改进,不断迭代直到模型收敛或者不再改变为止。
免模型学习
尽管有模型学习的计算比较理想,但现实中环境的的转移概率和奖赏函数往往很难确定,甚至很难直到环境中的状态数,因此常有学习算法不依赖于环境建模,这类学习被称为免模型学习。
值函数近似
前面描述的学习都是基于状态空间有限的情况下,而在有限的状态空间内值函数对应于一个由县委的数组,如果状态空间本身不是有限的,比如本身是连续的,则可以直接对连续状态空间的值函数进行学习,由于本身真实的值函数是未知的,因此对该类问题的求解称为值函数近似。
模仿学习
强化学习的经典任务中,需要对多步决策后的累计奖励结果进行反馈计算,但这种基于累积奖赏对很多步之前的决策进行学习和判断,其计算量和搜索空间比较大,因此引入一种模仿学习的概念,即不止是对最终结果的累积奖赏进行分析,而是在过程中引入参考项进行模仿学习,这样的操作就类似于监督学习了,则可以直接使用其他监督学习的工具。