Sarsa
- 与Q-Learning的不同:离线学习,
- Sarsa:是实施每个估计,在线学习,’保命为主‘
Sarsa 算法更新
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RxaXDWEF-1591684153065)(evernotecid://5E01CD28-C4C7-40C9-89D8-B40DB3CF5295/appyinxiangcom/11012738/ENResource/p13380)]
sarsa 思维决策
Sarsa(lambda)
- 回合更新
- lambda 是脚步衰减值, 都是一个在 0 和 1 之间的数,认为距离奖励越远的步骤越不重要。
- 如果 lambda = 0, Sarsa-lambda 就是 Sarsa, 只更新获取到 reward 前经历的最后一步.
- 如果 lambda = 1, Sarsa-lambda 更新的是 获取到 reward 前所有经历的步.
DQN
- <