多臂老虎机

xieeddebug

已于 2025-07-01 13:41:42 修改

阅读量344

点赞数 16

CC 4.0 BY-SA版权

文章标签： python

于 2025-07-01 01:02:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xieeddebug/article/details/149024378

2.1 老虎机和强化学习之间的关系

强化关注交互过程中的学习，是一种试错型学习。在正式学习强化学习前，我们先介绍老虎机问题，他可以被看作简化版的强化学习问题。与强化学习不同，老虎机没有状态信息，只有动作和奖励，算是最简单的和环境交互中的学习的一种形式。多臂老虎机中的探索与利用问题（exploration vs exploitation）是一个特别经典的问题，理解这个问题有助于我们学习强化学习。

2.2 问题介绍

2.2.1 问题背景

在此问题中，有一个拥有K根拉杆的老虎机。最开始，奖励概率分布未知。

（有K种动作，对应K种奖励）

2.2.2 问题要求

我们需要再操作T次拉杆后获得尽可能高的累积奖励。

2.2.3 问题分析

因此，我们需要在 “探索拉杆的获奖概率” 和 “根据经验选择获奖最多的拉杆” 中进行权衡。

2.2.4 累积懊悔

2.2.5 估计期望奖励

2.3 策略总结

2.3.1 epision-贪婪

用random获取一个随机数，若该随机数小于临界点epision，就进行随机挑选。否则，就选取当前的最优杆。跟基础贪婪算法相比就是设定了一个epision，防止一直停留在局部最优解，也是一种对探索和利用平衡的处理。

该方法无论epision设定多少，累积懊悔几乎是线性增长的。

但若按时间调节epision，可以使累积懊悔达到次线性增长。

2.3.2 上置信界算法

2.3.3 汤普森采样算法

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。