Day1:强化学习基本概念

一、基本概念

1. Agent 智能体:执行动作的对象

2. State 状态:对当前环境的概括

3. Action 动作:智能体基于当前状态做出的决策

4. Reward 奖励:智能体执行完一个动作后,环境反馈给智能体的一个数值。(由程序编写者定义)

5. State transition 状态转移:智能体从当前t时刻的状态s转移到下一时刻的状态s'的过程。

注:状态转移是随机的,其随机性来自于环境。

6. State transition function 状态转移函数:

注:这个函数表示,在当前状态s下,智能体执行动作a,环境状态变成s’的可能性。由于环境是随机的,所以即使s和a是确定的,s‘仍旧具有随机性。

7. polocy 策略:如何根据观测到的状态s决策选择动作a。强化学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值