reinforcement learning Finite Markov Decision Processes

本文探讨了在强化学习中马尔科夫决策过程的基础概念,包括状态、收益、行为及决策等参数定义,并介绍了如何通过概率分布来评估不同行为对未来收益的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前记录了在state稳定的情况下或者,state对policy没有影响的情况。但是,在大多数情况下,state是对policy有很大影响的,因此本章主要是学习最初级的RL中马尔科夫决策过程

参数定义

状态 S: state –当前环境的情况。
收益R : reward –所得到的回报。
行为A:action – agent做出的行为。
决策P:policy –做出行为的判断依据。

最优化对比:
多臂赌博机中,最优化为 q(a)
在MPDs中,最优化为 q(a,s)

情景描述:
我们需要让机器人在当前场景下的行为使得最终的收益最大化。转换成公式表示

表示当前场景下的行为所带来的收益以及会导致的下一个场景。

p(s,r|s,a)=Pr{St=s,Rt=r|St1=s,At1=a}

上式表示的是在S状态下 当执行a操作式 下一个场景为s’ 以及收益为r的概率。
根据边缘概率公式,我们可以知道

p(s|s,a)=Pr{St=s|St1=s,At1=a}=rRp(s,r|s,a)

未完待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值