目录
前言
本文针对强化学习中常用到的一些公式进行了总结梳理,给出了一些基础概念,为强化学习奠定基础。另外,本文中并没有涉及贝尔曼公式的相关内容,之后会专门用一篇文章来进行介绍。
一、基本定义
(一)动作
动作是指智能体做出的决策。动作空间是指所有可能动作的集合,可以是有限集或者无限集,可以是离散也可以是连续,记为,其中
。其随机性来自于策略函数的随机性。
(二)状态
状态是对当前环境的概括。状态空间是指所有可能状态的集合,可以是有限集或者无限集,可以是离散也可以是连续,记为,其中
。其随机性来自于状态转移函数。
(三)策略
根据当前状态,做出决策(即选择动作),控制智能体的方法,记为。通过强化学习进行策略学习,智能体能够在每个状态依据所学策略做出决策。
(四)奖励与回报
奖励是指在智能体执行一个动作之后,环境反馈给智能体的一个值,奖励的定义对于强化学习结果的影响非常大,需要根据实际情况进行定义。给定当前状态和动作
之后,奖励为确定的,记作
;当状态一定,动作未选择时,动作的随机变量记作
(而非
),对应的奖励记作
(而非
),其随机性来自于
。
回报是指从当前时刻直至回合结束所有奖励的衰减和,可以记为:
二、函数
(一)策略函数
在状态的前提下,选择动作
的概率大小,可以看做一个条件概率函数:
(二)状态转移函数
已知目前状态,智能体执行
,则下一个时刻状态变为
的概率是一个条件概率,记为:
以上为状态转移矩阵的两种形式,通过策略进行连接。
(三)价值
价值是指从某一状态开始,直至回合结束,所得回报
的期望。求期望是因为要去除动作、以及策略的随机性,价值可以定义为:
(四)状态价值函数
状态价值函数表示智能体从状态出发,遵循策略
所得到的回报
的期望:
1.状态价值函数本身也是一个期望值,消除了动作选择对回报的影响。
2.依赖于策略 和状态
,用来评价一个状态在给定策略下的价值。
3.即使策略和状态
是固定的,
也是随机的,因为当前状态下选择的动作
也具有随机性。
(五)动作价值函数
动作价值函数表示智能体从状态出发,遵循策略
执行动作
所得到的回报
的期望:
1. 动作价值函数本身也是一个期望值,不依赖于时刻之后的状态及动作,都被期望消除了。
2.依赖于策略、状态
和动作
3. 即使策略、状态
和动作
是固定的,
也是随机的,因为状态转移具有随机性。
(六)最优动作价值函数
最优动作价值函数是指选择最好的策略函数下的动作价值函数,消除了策略的影响。
(七)函数之间关系
其中,,
为所有可能奖励的集合。
总结
以上就是今天要讲的内容,本文仅仅简单总结了强化学习中的一些基本概念,之后会对强化学习中的一些基本概念和公式进行详细的推导。