强化学习:环境模型的建立与利用 作者:禅与计算机程序设计艺术 1. 背景介绍 1.1 强化学习的基本概念 1.1.1 智能体与环境 1.1.2 状态、动作与奖励 1.1.3 策略与价值函数 1.2 环境模型的重要性 1.2.1 提高学习效率 1.2.2 实现规划与推理 1.2.3 增强泛化能力 1.3 环境模型的类型 1.3.1 转移模型 1.3.2 奖励模型 1.3.3 终止模型 2. 核心概念与联系 2.1 马尔可夫决策过程(MDP) 2.1.1 MDP的定义 2.1.2 MDP的组成要素 2.1.3 MDP的求解方法 2