(四)强化学习公式梳理


前言

        本文针对强化学习中常用到的一些公式进行了总结梳理,给出了一些基础概念,为强化学习奠定基础。另外,本文中并没有涉及贝尔曼公式的相关内容,之后会专门用一篇文章来进行介绍。


一、基本定义

(一)动作

        动作是指智能体做出的决策。动作空间是指所有可能动作的集合,可以是有限集或者无限集,可以是离散也可以是连续,记为\mathbb{A},其中a\in \mathbb{A}。其随机性来自于策略函数的随机性。

(二)状态

        状态是对当前环境的概括。状态空间是指所有可能状态的集合,可以是有限集或者无限集,可以是离散也可以是连续,记为\mathbb{S},其中s\in \mathbb{S}。其随机性来自于状态转移函数。

(三)策略

        根据当前状态,做出决策(即选择动作),控制智能体的方法,记为\pi。通过强化学习进行策略学习,智能体能够在每个状态依据所学策略做出决策。

(四)奖励与回报

        奖励是指在智能体执行一个动作之后,环境反馈给智能体的一个值,奖励的定义对于强化学习结果的影响非常大,需要根据实际情况进行定义。给定当前状态s_{t}和动作a_{t}之后,奖励为确定的,记作r_{t};当状态一定,动作未选择时,动作的随机变量记作A_{t}(而非a_{t}),对应的奖励记作R_{t}(而非r_{t}),其随机性来自于A_{t}\sim \pi \left ( \cdot \mid s_{t} \right )

        回报是指从当前时刻t直至回合结束所有奖励的衰减和,可以记为:

G_{t}=R_{t}+\gamma R_{t+1}+\gamma ^{2}R_{t+2}+\cdots +\gamma ^{n}R_{t+n}=\sum_{k=0}^{\infty}\gamma ^{k}R_{t+k}

二、函数

(一)策略函数

        在状态s的前提下,选择动作a的概率大小,可以看做一个条件概率函数:

\pi \left ( a\mid s \right )=P\left ( A=a\mid S=s \right )

(二)状态转移函数

        已知目前状态s,智能体执行a,则下一个时刻状态变为{s}'的概率是一个条件概率,记为:

P\left ( {s}' \mid s,a\right )=P\left ( {S}' ={s}'\mid S=s,A=a\right )

P\left ( {s}' \mid s\right )=\sum_{a\in \mathbb{A}}^{}\pi \left ( a\mid s \right )P\left ( {s}' \mid s,a\right )

        以上为状态转移矩阵的两种形式,通过策略进行连接。

(三)价值

        价值是指从某一状态s开始,直至回合结束,所得回报G_{t}的期望。求期望是因为要去除动作、以及策略的随机性,价值可以定义为:

V\left ( s \right )=\mathbb{E}\left [ G_{t}\mid S_{t}=s \right ]

(四)状态价值函数

        状态价值函数表示智能体从状态s出发,遵循策略\pi所得到的回报G_{t}的期望:

V_{\pi }\left ( s \right )=\mathbb{E}_{\pi }\left [ G_{t}\mid S_{t}=s \right ]

        

1.状态价值函数本身也是一个期望值,消除了动作选择对回报的影响。

2.依赖于策略\pi 和状态s,用来评价一个状态在给定策略下的价值。

3.即使策略\pi和状态s是固定的,G_{t}也是随机的,因为当前状态下选择的动作a也具有随机性。

(五)动作价值函数

        动作价值函数表示智能体从状态s出发,遵循策略\pi执行动作a所得到的回报G_{t}的期望:

Q_{\pi }\left ( s,a \right )=\mathbb{E}_{\pi }\left [ G_{t} \mid S_{t}=s,A_{t}=a\right ]

1. 动作价值函数本身也是一个期望值,不依赖于t+1时刻之后的状态及动作,都被期望消除了。

2.依赖于策略\pi、状态s和动作 a

3. 即使策略\pi、状态s和动作a是固定的,G_{t}也是随机的,因为状态转移具有随机性。

(六)最优动作价值函数

        最优动作价值函数是指选择最好的策略函数下的动作价值函数,消除了策略的影响。

\left\{\begin{matrix} Q_{\ast }\left ( s,a \right )=max_{\pi } \, \, \, \, Q_{\pi}\left ( s,a \right ) \\ \pi _{\ast }=arg max_{\pi }\, \, \, \, Q_{\pi}\left ( s,a \right ) \end{matrix}\right.

(七)函数之间关系


${​{V}_{\pi }}\left( s \right)=\sum\limits_{a\in \mathcal{A}}{\pi \left( a\left| s \right. \right){​{Q}_{\pi }}\left( s,a \right)}$


Q_{\pi }\left ( s,a \right )=\mathbb{E}_{\pi }\left [ G_{t}\mid S_{t}=s,A_{t} =a\right ]\\=\mathbb{E}_{\pi }\left [ R_{t}+\gamma G_{t+1}\mid S_{t}=s,A_{t} =a\right ]\\=\mathbb{E}_{\pi }\left [ R_{t}\mid S_{t}=s,A_{t} =a\right ]+\mathbb{E}_{\pi }\left [ \gamma G_{t+1}\mid S_{t}=s,A_{t} =a\right ]\\=r\left ( s,a \right )+r\sum\limits_{​{s}'\in \mathbb{S}}p({s}'\mid s,a)\mathbb{E}_{\pi }\left [ G_{t+1}\mid S_{t+1}={s}' \right ]\\=r\left ( s,a \right )+r\sum\limits_{​{s}'\in \mathbb{S}}p({s}'\mid s,a)V_{\pi }\left ( {s}' \right )

其中,r\left ( s,a \right )=\mathbb{E}\left [ R_{t}\mid S_{t}=s,A_{t}=a \right ]=\sum\limits_{r\in \mathbb{R}}p\left ( r\mid s,a \right )r\mathbb{R}为所有可能奖励的集合。


总结

        以上就是今天要讲的内容,本文仅仅简单总结了强化学习中的一些基本概念,之后会对强化学习中的一些基本概念和公式进行详细的推导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

追风者...

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值