Wang Chi Cheung 1 David Simchi-Levi 2 Ruihao Zhu 2
摘要
我们在漂移的非平稳性下考虑马尔可夫决策过程 (MDP) 中的未折现强化学习 (RL),即奖励和状态转换分布都允许随着时间的推移而演变,只要它们各自的总变化通过合适的量化 指标,不要超过某些变化预算。 我们首先开发了带有置信度扩展的强化学习的滑动窗口上置信界 (SWUCRL2-CW) 算法,并在已知变化预算时建立其动态后悔界。 此外,我们提出了 Bandit-over-Reinforcement Learning (BORL) 算法来自适应调整 SWUCRL2-CW 算法以实现相同的动态后悔界限,但以无参数方式,即不知道变化预算。 值得注意的是,通过传统的乐观探索技术学习非平稳 MDP 提出了现有(非平稳)强盗学习设置中不存在的独特挑战。 我们通过一种新的信心扩大技术克服了挑战,该技术结合了额外的乐观情绪。
1 引言
考虑一个通用的顺序决策框架,其中决策者 (DM) 迭代地与最初未知的环境交互。 在每个时间步,DM 首先观察环境的当前状态,然后选择一个可用的动作。 之后,她会收到一个瞬时随机奖励,然后环境转换到下一个状态。 DM 旨在设计一种政策,使最大化其累积奖励,同时面临以下挑战: • 内生性:在每个时间步,奖励遵循奖励分布,后续状态遵循状态转移分布。 两种分布都(仅)取决于受政策影响的当前状态和行动。 因此,环境可以完全由离散时间马尔可夫决策过程(MDP)来表征。
• 外生性: 奖励和状态转换分布随时间步长变化(独立于策略),但总变化受各自变化预算的限制。
• 不确定性: DM 最初不知道奖励和状态转换分布。
• Bandit/Partial Feedback: DM 只能在每个时间步观察当前状态和动作所导致的奖励和状态转换。
事实证明,该框架可以捕获许多应用,例如广告(ad)拍卖中的实时竞价(Cai et al., 2017; Flajolet & Jaillet, 2017; Balseiro & Gur, 2019; Guo et al. ,2019;韩等人,2020)。
此外,该框架可用于对交通(Zhang & Wang,2018;Qin 等,2019)、无线网络(Zhou & Bambos,2015;Zhou 等,2016)、消费者选择中的顺序决策问题进行建模 建模 (Xu & Yun, 2020)、拼车 (Taylor, 2018; Gurvich et al., 2018; Bimpikis et al., 2019; Kanoria & Qian, 2019)、医疗保健运营 (Shortreed et al., 2010)、流行病 控制(Nowzari 等人,2016 年;Kiss 等人,2017 年)和库存控制(Huh 和 Rusmevichientong,2009 年;Bertsekas,2017 年;Zhang 等人,2018 年;Agrawal 和 Jia,2019 年;Chen 等人,2019a )。
在考虑这四个挑战的一部分的顺序决策中存在许多工作。 关于随机多臂老虎机 (MAB) 的传统研究流 (Auer et al., 2002a; Bubeck & CesaBianchi, 2012; Lattimore & Szepesvári, 2018) 侧重于不确定性和老虎机反馈之间的相互作用(即挑战 3 和 4 ) 和 (Auer et al., 2002a) 提出了经典的上置信界 (UCB) 算法。 从 (Burnetas & Katehakis, 1997; Tewari & Bartlett, 2008; Jaksch et al., 2010)开始,已经有大量作品(见第 3 节)
致力于 MDP 中的强化学习 (RL) (Sutton & Barto, 2018),这进一步涉及内生性。 MDP 中的 RL 包含挑战 1、3、4,而随机 MAB 是 MDP 只有一个状态时的特例。 在没有外生性的情况下,奖励和状态转移分布在时间上是不变的,这三个挑战可以通过强化学习的上置信界 (UCRL2) 算法共同解决 (Jaksch et al., 2010)。
UCB 和 UCRL2 算法利用面对不确定性的乐观 (OFU) 原则,根据历史数据的整个集合迭代地选择操作。
然而,当外生性出现时,两种算法都会迅速恶化,因为环境会随着时间而变化,并且历史数据会变得过时。 为了解决外生性的挑战,(Garivier & Moulines, 2011b) 考虑了分段平稳的 MAB 环境,其中奖励分布在特定时间段内保持不变并在未知时间步长处发生变化。 后来,(Besbes et al., 2014) 发起了一系列研究,研究了一般的非平稳 MAB 环境 (Besbes et al., 2014; Cheung et al., 2019a;b),其中奖励 分布可以随时间任意变化,但总变化(通过合适的指标量化)受变化预算的上限(Besbes et al., 2014)。 目的是最小化动态遗憾,即与最优动作序列的累积奖励相比的最优差距。
(相对限制性)分段平稳 MAB 和一般非平稳 MAB 设置都考虑了外生性、不确定性和部分反馈的挑战(即挑战 2、3、4),但不存在内生性(挑战 1)。
在本文中,为了解决上述所有四个挑战,我们在非平稳 MDP 中考虑 RL,其中机器人的奖励和状态转换分布可以随时间变化,但总变化(通过合适的指标量化)由各自的上限 变化预算。 我们注意到,在 (Jaksch et al., 2010) 中,作者还考虑了分段平稳 MDP 中的中间 RL。 尽管如此,我们首先在第 4.1 节中展示,然后在第 6 节中严格展示在分段固定 MDP 中简单地采用非平稳 MAB(Besbes 等人,2014;Cheung 等人,2019a;b)或 RL 的技术 (Jaksch et al., 2010) 到非平稳 MDP 中的 RL 可能会导致较差的动态后悔界限。
table1 固定和非固定在线学习设置的算法框架总结。
1.1 主要贡献总结
假设在 T 个时间步长期间,奖励和状态转换分布的总变化分别受变化预算 B r (> 0) 和 B p (> 0) 的限制(在适当的度量下),我们设计和分析 非平稳 MDP 中 RL 的新算法。 令 D max 、 S 和 A 分别是 MDP 中的最大直径(将在第 2 节中定义的复杂性度量)、状态数和动作数。 我们的主要贡献是: • 我们开发了具有置信度扩展的滑动窗口 UCRL2 (SWUCRL2-CW) 算法。 当。。。的时候 ! 变化预算是已知的,我们“通过预算感知分析证明它达到了 Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界。
• 我们提出了强盗强化学习 (BORL) 算法,该算法自适应地调整了 SWUCRL2-CW 算法,并保持不变!
" Õ D max (B r + B p ) 1/4 S 2/3 A 1/2 T 3/4 动态后悔界,不知道变化预算。
• 我们通过传统的乐观探索技术确定了非平稳 MDP 中 RL 面临的前所未有的挑战:用于非平稳在线学习的现有算法框架(包括分段平稳 MDP 中的非平稳老虎机和 RL)(Jaksch 等人,2010;Garivier & Moulines, 2011b; Cheung et al., 2019a)通常通过以“遗忘”方式对历史数据进行平均来估计未知参数,并相应地构建最紧密的置信区域/区间。然后他们在置信区域内乐观地搜索最有利的模型,并执行相应的最优策略。 然而,我们首先在第 4.1 节中证明,然后在第 6 节中严格证明,在非平稳 MDP 中的 RL 的背景下,以这种方式构建的置信区域中的 MDP 诱导的直径可以急剧增长,并可能导致 不利动态后悔界。 我们通过置信扩大技术提出了更加乐观的新建议,从而克服了这一问题(或者,在当前论文的扩展版本 (Cheung et al., 2020a) 中,作者证明了人们可以利用特殊的在具有固定成本的单项库存控制背景下的状态转换分布结构