强化学习:动态规划总结

代码链接:https://pan.baidu.com/s/1GjV1sWn2Ajp3uB9iMOYEOw 。提取码:09a1 。

简介

  • 动态规划设置中,智能体完全了解 MDP(这比强化学习设置简单多了。在强化学习设置中,智能体一开始完全不了解环境如何确定状态和动作,必须完全通过互动来了解如何选择动作。)

迭代方法

  • 为了获得策略 \pi 对应的状态值函数 v_\pi​,只需求解 v_\pi​ 的贝尔曼预期方程对应的方程组。
  • 虽然可以通过分析方式求解方程组,但是将重点讲解迭代方法。

迭代策略评估

  • 迭代策略评估是在动态规划设置中用到的算法,用于估算策略\pi 对应的状态值函数 v_\pi​。在此方法中,我们将向值函数估值中应用贝尔曼更新,直到估值的变化几乎不易觉察。

动作值的估值

  • 在动态规划设置中,可以使用以下方程从状态值函数 v_\pi ​ 快速获得动作值函数

策略改进

  • 策略改进对策略\pi 对应的动作值函数 v_\pi ​ 进行估算 V,并返回改进(或对等)的策略 \pi',其中 \pi'\geq\piπ′≥π。该算法首先构建动作值函数估值Q。然后,对应每个状态 s\in\mathcal{S}∈S,只需选择最大化 Q(s,a)的动作 a。换句话说,\pi'(s) = \arg\max_{a\in\mathcal{A}(s)}Q(s,a)π′(s)=argmaxa∈A(s)​Q(s,a),针对所有 s\in\mathcal{S}∈S

策略迭代

  • 策略迭代是一种可以在动态规划设置中解决 MDP 的算法。它包含一系列的策略评估和改进步骤,肯定会收敛于最优策略(对应任意_有限_ MDP)。

截断策略迭代

  • 截断策略迭代是在动态规划设置中用来估算策略 \piπ 对应的状态值函数 v_\pi​ 的算法。对于此方法,在对状态空间执行固定次数的遍历后,停止评估步骤。我们将评估步骤中的此方法称为截断策略评估

值迭代

  • 值迭代是在动态规划设置中用来估算策略 \piπ对应的状态值函数v_\pi​ 的算法。对于此方法,每次对状态空间进行遍历时,都同时进行策略评估和策略改进。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值