课程提纲
整个视频公开课分为十讲,分为两个部分。其中前5讲是第一部分,偏重于基础理论;后5讲是第二部分,偏重于解决大规模问题的应用理论。
(更新ing……戳蓝色链接直达文章,欢迎讨论)
- 第一部分:强化学习基础理论
- 强化学习介绍
一些基础概念的介绍:reward、state、environment、agent、policy、value、model - Markov决策过程
- 关键过程:通过求解贝尔曼方程来寻找最优价值函数,进而找到各个状态的最优策略。
- 涉及到的比较重要的知识点:markov性、状态转移概率 - P s s ′ \mathcal{P}_{s s^{\prime}} Pss′、折扣因子 - γ \gamma γ、return - G t G_{t} Gt、策略 - π ( a ∣ s ) \pi(a | s) π(a∣s)、状态动作对 - ( s , a ) (s,a) (s,a)、各种形式的value function和贝尔曼方程
- 动态规划(Dynamic Programming)
小规模强化学习问题的一种解决方案 - Model-Free Prediction
理论核心 - Model-Free Control
全课重点及核心
- 第二部分:实践中的强化学习
- value函数的近似表示
value-based解决大规模问题的常用技巧 - 策略梯度(PG)方法
policy-based解决大规模问题时的常用技巧 - Learning 和Planning的结合
actor-critic解决大规模问题 - Exploration and Exploitation
理论介绍如何平衡探索和利用 - 案例
强化学习在游戏(博弈)中的应用