ABSTRACT
现状:强化学习被用于解决交通信号控制问题,表现优于传统。
缺点:强化学习应用现实世界,实验成本高昂
现存解决方法:TSC domain adaptation,训练模型适应目标环境,减少交互次数和训练成本。
现存方法的缺点:1.缺乏考虑城市之间的差异 2.多数城市数据的利用率低
本文解决方法:提出AMM模型
AMM模型创新点:1.克服观测环境变化的挑战,通过模块化交通信号控制问题和网络模型。
2.aggregate multicity experience through meta-learning( Meta-Learning: Learning to Learn Fast | Lil'Log)
1 INTRODUCTION
由于等交通灯花费时间长,所以交通信号控制很重要。如今的强化学习应用于交通信号控制时,训练成本高昂。训练好的模型应可以应用于新环境。TSC domain adaptation显著减少与环境的交互现存的TSC domain adaptation在现实世界不同环境的问题:
1.忽略观测不同城市的变化,影响模型输入,导致该模型不具有通用性。从环境中获得的观测值固定,现实场景收集不到全面的观测信息,如图1,不同环境,观测到了不同的物理量,代表了不同的意义甚至维度。RL模型不能将变化的观测值作为输入导致训练失败
2.多城市数据利用率低。如今使用的交互数据仅来自单个城市,如果可以利用多城市的交互数据,交互数据量将大大增加,从而提高模型性能。单一城市的数据还会导致过拟合,降低性能。
本文提出的解决方法AMM模型:AMM modularizes neural network models into three modules: representation transition module, internal dynamics module, and value-evaluating module.
优势:1.环境变化仅需替换对应模块,减少训练所需数据量。2.充分利用多城市数据数据学习一组参数,more suitable for TSC domain adaptation tasks。
为了解决多源城市的TSC域自适应问题提出AMM模型,提出新的TSC框架,该框架将TSC深度神经网络模型模块化为相互解耦的几个模块。这种模块化设计使我们能够克服在不同交通环境中进行不同观测的挑战。此外,我们将元学习应用于聚合多城市数据并提高模型的性能。
2 RELATEDWORK
该部分主要介绍了交通信号控制(TSC)和强化学习领域适应的相关研究工作,具体内容如下: 1. 交通信号控制:TSC长期受研究者关注,早期传统方法有FixedTime和SOTL,前者固定各方向通行时间,后者根据拥堵确定通行方向;MaxPressure则按最大交通压力分配通行时间。引入强化学习后,多种基于RL的TSC方法表现优于传统方法,如Intellilight、FRAP等学习控制策略,Metalight、Colight等结合RL与多智能体学习,Unilight构建通信机制增强协作。近年来,研究者聚焦挖掘更具表现力的特征表示,A - MPLight和E - MPLight在部分场景中表现出色。
2.强化学习中的领域适应:有三类方法广泛用于提升RL策略的适应性。一是领域随机化,期望模型在不同随机领域训练后有更强泛化性;二是基于状态泛化的方法,用生成模型匹配源域和目标域的状态,如生成对抗网络(GANs);三是基于学习潜在状态表示的新方法,利用特征压缩方法学习源域和目标域状态的高级表示,如变分自编码器(VAEs),在许多基于视觉的RL任务中表现良好。
3 PRELIMINARIES
公式计算的是在策略 𝜋 下,智能体从开始到结束的累积折扣奖励的期望值。通过折扣因子 𝛾,智能体可以平衡即时奖励与未来奖励的重要性。TSC问题建模成MDP模型,将TSC的域适应,定义为强化学习域适应。不同城市交通场景定义成不同域。对源域(source domain)定义成MDP < O𝑆, A𝑆, T𝑆, R𝑆, 𝛾𝑆 >对目标域(target domain)定义成< O𝑇, A𝑇, T𝑇, R𝑇, 𝛾𝑇 >。consider the case where O𝑆 ≠ O𝑇, A𝑆 = A𝑇, T𝑆 ≈ T𝑇, R𝑆 = R𝑇。模型主要在DS训练,在DT上微调。Our goal is to
optimize the performance of 𝜋 on D𝑇.
3.2 Practical Notation
3.2.1 Observation. We define the observation as a vector of physi-
cal quantities with shape 𝑙 × 𝑑𝑜 ,𝑙 represents the number oflanes on which the vehicles will pass
the intersection but have not yet, and 𝑑𝑜 is the sum of the dimen-
sions of the observations. Different traffic environments provide
different observations, as shown in Fig. 2 (a).
3.2.4 Value. The congestion level of a state 𝑠 is quantified by a value function𝑉(𝑠), which indicates that the more vehicles are waiting at the intersection, the higher the value is. The value function is defined as follows.
To cope with the uncertainty of traffic, we blur the position of vehicles by considering every 𝑛 grids of a lane as a whole.Note that we assign different weights to different parts of a lane according to their distance to the intersection, as the vehicles closer to the intersection are more valuable because of thetimeliness of traffic. We use 𝑗 to denote the order of considered parts.
4 METHODOLOGY
4.1为了解决现有TSC域自适应方法存在的问题,提出了自适应模块化模型(AMM)。AMM将TSC RL模型模块化为三个模块,以提高目标环境中有限交互的自适应模型的性能。这三个模块分别是表征转换模块、内部动态模块和价值评估模块。我们将在下面的小节中详细说明我们的模块设计和总体算法。
4.2 Module Design
4.2.1 Representation Transition Module.由于物理量不同,模型不能将变化后的物理量作为输入,导致模型失效。
解决方案:训练额外层,使其与原始模型连接起来,作为输转化器。
方案执行的难点:
1.物理量之间相关性可能相去甚远,学习物理量间的approximation function,需要大量交互数据,与我们的目标相悖。
2.额外增加的模块,增加模型累计误差。
解决方案难点的办法:modularize the model, separating observations from states。discard the original representation transition module。由于state与大多物理量密切相关,it is easier to build the connection from the observation to the state.所以能达到更好效果且需更少交互数据。
在域D中,the representation transition module把observation作为输入返回state,公式如下:
模糊具体的车辆位置,将网格作为整体。N表示每个通道网格数,n表示一个红绿灯可通行的网格数,求和公式表示了state中从列i*n到列(i+1)*n的所有实体的和。
折扣因子 β 的作用:反映对距离交叉路口更近车辆的偏好。通过调节权重,使模型更关注对交通系统时效性影响更大的车辆。在模型训练中,用于设计损失函数,优化交通信号控制策略。
4.2.2 Internal Dynamics Module.The internal dynamics module takes the current state 𝑠𝑡 of a domain D as input and predicts the state after one or a few steps with a given action sequence 𝐴𝑡.
4.3 Multi-city Experience Aggregator内部状态动态模块是一个近似内部状态转换过程的深度网络。由于不同城市的内部交通逻辑可能相似,在将深度表征(即状态)与观测解耦后,可利用多城市数据学习相似城市的共同逻辑。为利用不同城市的数据,通过模型无关元学习(MAML)在多城市数据上训练动态模块。MAML是一种为多个相似任务学习一组潜在参数的算法,通过它,动态模块的初始化参数对特定的交通信号控制环境敏感,并在微调后收敛到最优参数。与普通的预训练算法相比,MAML能使模型在一般情况下达到更好的性能。具体过程如算法1所示。