一、基本概念
1. Agent 智能体:执行动作的对象
2. State 状态:对当前环境的概括
3. Action 动作:智能体基于当前状态做出的决策
4. Reward 奖励:智能体执行完一个动作后,环境反馈给智能体的一个数值。(由程序编写者定义)
5. State transition 状态转移:智能体从当前t时刻的状态s转移到下一时刻的状态s'的过程。
注:状态转移是随机的,其随机性来自于环境。
6. State transition function 状态转移函数:
注:这个函数表示,在当前状态s下,智能体执行动作a,环境状态变成s’的可能性。由于环境是随机的,所以即使s和a是确定的,s‘仍旧具有随机性。
7. polocy 策略:如何根据观测到的状态s决策选择动作a。强化学习