机器学习基础 之 强化学习

本文介绍强化学习原理,它通过结果反馈强化有效规则、弱化无效规则,与监督学习不同。还阐述了强化学习的基础概念,如任务与奖赏,以及k - 摇臂赌博机、有模型学习、免模型学习、值函数近似和模仿学习等相关内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


转自: https://www.zhenxiangsimple.com/2019/04/12/tech-ml-qhxx


  强化学习的原理,就是通过结果的反馈来对有效规则进行强化,并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于,在学习器的训练前没有标记样本的结果,而需要通过尝试来得到各行为的结果,进而来对训练本身进行反馈。

任务与奖赏

  任务与奖赏是强化学习的一个基础概念,就是基于一个状态下通过执行某个动作(任务)使得状态发生改变,通过对改变后的状态进行对比来决定当前任务的好坏,如果状态变得更好则对任务进行奖赏。

k-摇臂赌博机

  K摇臂赌博机是一种由K个摇臂的赌博机,玩家在放入游戏币后可以选择一个摇臂进行操作,而所有摇臂本身有不同的概率来赢得奖励,具体摇臂本身出的奖赏也只是一个概率值并非确定值,玩家需要自己根据尝试的结果来判断概率后,去最大化自己的奖赏。这个规则跟强化学习中的单步任务的模型一致,即在行为中仅考虑单步操作的最大奖赏,常用策略有 ϵ \epsilon ϵ贪心算法和Softmax算法。
   e p s i l o n epsilon epsilon贪心法是以一定的概率进行随机尝试,即当随机值的大于概率 ϵ \epsilon ϵ则在k个摇臂中随机选择一个进行尝试,当随机值小于概率 ϵ \epsilon ϵ时选择已尝试的摇臂中最大平均奖励的那个,当k个摇臂的概率分布较宽即不确定性较大时,概率值 ϵ \epsilon ϵ需要选择较大值,反之亦然。Softmax算法利用已有的结果中各摇臂奖赏的概率进行摇臂的选择迭代,即如果各摇臂的奖赏概率相当,则选择各摇臂的概率相当,若某个摇臂的奖赏出现次数明显较大,则其被选中的概率也较大。

有模型学习

  有模型学习是指在已知一个模型的环境中进行学习。该方法基于一个初始的模型(通常是随机模型),首先进行模型评估(代入模型计算奖励),然后基于最大化奖励的目标对模型参数进行改进,再对改进的模型进行评估,进而再对模型进行改进,不断迭代直到模型收敛或者不再改变为止。

免模型学习

  尽管有模型学习的计算比较理想,但现实中环境的的转移概率和奖赏函数往往很难确定,甚至很难直到环境中的状态数,因此常有学习算法不依赖于环境建模,这类学习被称为免模型学习。

值函数近似

  前面描述的学习都是基于状态空间有限的情况下,而在有限的状态空间内值函数对应于一个由县委的数组,如果状态空间本身不是有限的,比如本身是连续的,则可以直接对连续状态空间的值函数进行学习,由于本身真实的值函数是未知的,因此对该类问题的求解称为值函数近似。

模仿学习

  强化学习的经典任务中,需要对多步决策后的累计奖励结果进行反馈计算,但这种基于累积奖赏对很多步之前的决策进行学习和判断,其计算量和搜索空间比较大,因此引入一种模仿学习的概念,即不止是对最终结果的累积奖赏进行分析,而是在过程中引入参考项进行模仿学习,这样的操作就类似于监督学习了,则可以直接使用其他监督学习的工具。

点击查看 (人工智能) 系列文章


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

具身小站

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值