机器学习基础之强化学习_强化学习,学习器-CSDN博客

本文链接：https://blog.csdn.net/suoxd123/article/details/89224906

本文介绍强化学习原理，它通过结果反馈强化有效规则、弱化无效规则，与监督学习不同。还阐述了强化学习的基础概念，如任务与奖赏，以及k - 摇臂赌博机、有模型学习、免模型学习、值函数近似和模仿学习等相关内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

任务与奖赏
k-摇臂赌博机
有模型学习
免模型学习
值函数近似
模仿学习

转自： https://www.zhenxiangsimple.com/2019/04/12/tech-ml-qhxx

强化学习的原理，就是通过结果的反馈来对有效规则进行强化，并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于，在学习器的训练前没有标记样本的结果，而需要通过尝试来得到各行为的结果，进而来对训练本身进行反馈。

任务与奖赏

任务与奖赏是强化学习的一个基础概念，就是基于一个状态下通过执行某个动作（任务）使得状态发生改变，通过对改变后的状态进行对比来决定当前任务的好坏，如果状态变得更好则对任务进行奖赏。

k-摇臂赌博机

K摇臂赌博机是一种由K个摇臂的赌博机，玩家在放入游戏币后可以选择一个摇臂进行操作，而所有摇臂本身有不同的概率来赢得奖励，具体摇臂本身出的奖赏也只是一个概率值并非确定值，玩家需要自己根据尝试的结果来判断概率后，去最大化自己的奖赏。这个规则跟强化学习中的单步任务的模型一致，即在行为中仅考虑单步操作的最大奖赏，常用策略有 $\epsilon$ 贪心算法和Softmax算法。
$e p s i l o n$ 贪心法是以一定的概率进行随机尝试，即当随机值的大于概率 $\epsilon$ 则在k个摇臂中随机选择一个进行尝试，当随机值小于概率 $\epsilon$ 时选择已尝试的摇臂中最大平均奖励的那个，当k个摇臂的概率分布较宽即不确定性较大时，概率值 $\epsilon$ 需要选择较大值，反之亦然。Softmax算法利用已有的结果中各摇臂奖赏的概率进行摇臂的选择迭代，即如果各摇臂的奖赏概率相当，则选择各摇臂的概率相当，若某个摇臂的奖赏出现次数明显较大，则其被选中的概率也较大。

有模型学习

有模型学习是指在已知一个模型的环境中进行学习。该方法基于一个初始的模型（通常是随机模型），首先进行模型评估（代入模型计算奖励），然后基于最大化奖励的目标对模型参数进行改进，再对改进的模型进行评估，进而再对模型进行改进，不断迭代直到模型收敛或者不再改变为止。

免模型学习

尽管有模型学习的计算比较理想，但现实中环境的的转移概率和奖赏函数往往很难确定，甚至很难直到环境中的状态数，因此常有学习算法不依赖于环境建模，这类学习被称为免模型学习。

值函数近似

前面描述的学习都是基于状态空间有限的情况下，而在有限的状态空间内值函数对应于一个由县委的数组，如果状态空间本身不是有限的，比如本身是连续的，则可以直接对连续状态空间的值函数进行学习，由于本身真实的值函数是未知的，因此对该类问题的求解称为值函数近似。

模仿学习

强化学习的经典任务中，需要对多步决策后的累计奖励结果进行反馈计算，但这种基于累积奖赏对很多步之前的决策进行学习和判断，其计算量和搜索空间比较大，因此引入一种模仿学习的概念，即不止是对最终结果的累积奖赏进行分析，而是在过程中引入参考项进行模仿学习，这样的操作就类似于监督学习了，则可以直接使用其他监督学习的工具。

点击查看 (人工智能) 系列文章