
强化学习系列
胶囊一号
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RL -数学基础及环境
1.1马尔科夫性质: 在时间t+1时,环境的反馈仅取决于上一时间步t的状态s和动作a,与时间t-1以及t-1步之前的时间步都没有关联。由此可知 马尔科夫性具有无后效性。即系统的下一状态只与当前状态有关。 1.2马尔可夫决策过程 有一个四元组组成 价值v: 智能体在策略下所获得的的累积奖励的期望 策略: 确定性策略:a=π(s),表示策略根据状态s选择动作a,这是一个确定性的过程,即中间没有出现概率,因此不需要选择,。其中策略表示为函数。 **随机性策略:**π(s,a),表示策略在状态s下选择动作a的概率,原创 2020-08-22 09:27:19 · 1000 阅读 · 0 评论 -
Gym
1.Gym的基本用法 1.1Gym对空间的定义 Wrapper: 我们有时需要对环境做 些改变,扩展新的功能,这就需要对环境代码做改变 为了更方便地扩展, Gym中定义了 Wrapper 这个类,它可以在既有环境的基础上添加更多的功能。 这个类在创建时需要传入一个 env 对象,它是一个已建好的环境对象,这个对象可能是 env 本身,也可能是已经被封装过的 env类。 例子 蛇棋 ...原创 2020-06-16 14:07:10 · 273 阅读 · 0 评论 -
马尔可夫决策过程--周博磊
1.马尔科夫链 一个状态的下一个状态只与当前状态有关与其他状态无关 ht包含了之前的所以状态 状态转移矩阵P,矩阵P第一行表示S1转移到下一个状态的概率 马尔科夫链的例子 马尔科夫奖励过程 R:奖励函数是一个期望。当你到达某个状态是可以得到多大的奖励。 回报和价值函数 Horizon:同一个episode的游戏环节或者整个轨迹的长度,有有限步骤决定的 Return:收益,把奖励进行折扣产...原创 2020-05-01 17:20:18 · 473 阅读 · 0 评论 -
强化学习通俗介绍
什么是强化学习 RL 采用动态环境数据。其目标并不是对数据进行分类或标注,而是确定生成最优结果的最佳动作序列。为了解决这个问题,强化学习通过一个软件(即所谓的代理)来探索环境、与环境交互并从环境中学习。 图解: 剖析强化学习 代理中有一个函数可接收状态观测量(输入),并将其映射到动作集(输出)。也就是前面讨论过的单一函数,它将取代控制系统的所有独立子组件。在 RL 命名法中,此函数称之为策略。策...原创 2020-04-12 20:22:29 · 1299 阅读 · 0 评论