基于深度强化学习的电动汽车... 放电控制及住宅能量管理策略 闫林芳
基于深度强化学习的电动汽车... 放电控制及住宅能量管理策略 闫林芳
学校代码 1 0 4 8 7 密级
博士学位论文
(学术型 专业型□)
基于深度强化学习的电动汽车充放电
控制及住宅能量管理策略
学位申请人: 闫林芳
学 科 专 业: 电气工程
指 导 教 师: 文劲宇 教 授
陈 霞 副教授
答 辩 日 期: 2022 年 5 月 14 日
答辩委员会
姓名 职称 单位
主席 林 涛 教授 武汉大学
苗世洪 教授 华中科技大学
石东源 教授 华中科技大学
委员
王 波 教授 武汉大学
张传科 教授 中国地质大学(武汉)
A Dissertation Submitted in Partial Fulfilment of The Requirements
for The Degree of Doctor of Engineering
摘 要
为应对气候变化、推动绿色发展,电动汽车(Electric Vehicle,EV)产业在近年
来高速发展。尽管拥有巨大的应用潜能,但 EV 负荷功率大且随机性强,接入住宅配
网后会显著提升车网协同环境的复杂度并影响电网的稳定运行。为了推动车网融合
发展,有必要对 EV 充放电进行控制并优化住宅能量管理以降低接入后的不利影响。
相比于基于模型驱动的优化算法,基于数据驱动的深度强化学习(Deep Reinforcement
Learning,DRL)算法不依赖模型,通过自主学习获得控制策略,对随机性因素适应
性强,是解决复杂环境下 EV 充放电控制以及住宅能量管理的有效途径。因此,本文
围绕基于 DRL 算法的 EV 充放电控制及住宅能量管理策略展开研究,首先对 EV 接
入的影响进行了定量分析,然后研究对象逐步从单个 EV、EV 集群扩展到包括 EV
在内的含多类型负荷住宅集群和含光储的多住宅社区能量交易市场,研究内容如下:
(1)针对 EV 接入住宅后的影响分析,采用先建模后分析的思路,首先基于马
尔科夫链设计了 EV 连续行驶轨迹生成模型。然后考虑用户充电偏好,充电可用性等
因素构建了负荷曲线生成模型。算例首先从住宅户均负荷和变压器聚合负荷的角度
定量分析,结果表明 EV 接入后负荷峰值显著增加,变压器过载运行时间明显加长,
EV 充放电控制具备必要性。算例进而分析了行驶距离以及车辆类型对 EV 负荷的影
响,结果表明 EV 的可调度时间和可调度容量较高,充放电控制具备可行性。
(2)针对单个 EV 的充放电控制,提出了一种基于 DRL 算法的控制策略以实现
在降低充电成本的同时缓解用户的综合焦虑。首先使用驾驶经验,充电偏好等因素
定性描述用户的动态行为,提出了综合焦虑的概念表征用户对续航里程和不确定事
件的担忧。然后提拱了相关的数学模型定量分析用户的经验和焦虑。所提算法结合
了监督学习与强化学习的优势,并在强化学习阶段采用 SAC(Soft Actor-critic)算法
以提供连续的充放电决策。仿真结果验证了所提算法良好的在线控制性能。
(3)针对 EV 集群的协调充放电控制,提出了一种基于多智能体深度强化学习
(Multi-agent Deep Reinforcement Learning,MADRL)算法的协调控制策略以实现在
满足用户能量需求,降低用户充电成本的同时避免配网变压器过载。所提 MADRL
I
华 中 科 技 大 学 博 士 学 位 论 文
算法中每个智能体均包含一个集体策略模型估计其他智能体的联合行为和一个独立
学习器改善本地控制策略。算法在结构上完全分散,具有良好的扩展性和隐私保护
性能。仿真结果表明所提算法能够提供良好的 EV 集群在线协调控制决策。
(4)针对含多类型负荷住宅集群的能量管理,提出了一种基于 MADRL 算法的
能量管理策略,以实现住宅内各类电力负荷的实时控制,并在降低变压器过载现象
的同时兼顾变压器容量的分配公平性。为解决多类型负荷连续和离散并存的动作空
间,所提方法使用高斯分布和伯努利分布共同设计策略网络,实现了多维多类型控
制变量的同时输出;面对可时移负荷的奖励滞后问题,引入奖励重塑机制有效提高
了训练稳定性。仿真结果表明所提算法能够有效实现住宅集群的在线协调能量管理。
(5)针对含光伏储能的多住宅社区市场能量交易及管理,提出了一种基于层级
式深度强化学习(Hierarchy Deep Reinforcement Learning,HDRL)算法的能量交易
动态定价及实时能量管理策略,以实现在线生成内部交易电价和住宅集群能量管理
决策。在所提 HDRL 算法中,上层动态定价过程收集各个住宅的能耗信息以及外部
电力供应商电价计算社区内的能量交易价格。下层能量管理则仅依赖本地观测量以
及内部交易电价制定各电力负荷的控制决策。仿真分析表明所提算法能够适应社区
中不同住宅的异质性,同时制定内部电价和能量管理决策。
关键词:电动汽车;智能住宅;多住宅社区市场;充放电控制;能量管理;深度强
化学习;多智能体深度强化学习;层级式深度强化学习
II
华 中 科 技 大 学 博 士 学 位 论 文
Abstract
With the concern of climate change, the electric vehicle (EV) is gaining popularity in
recent years. Despite the huge application potential, the large-scale integration of EVs to
the grid will significantly increase the complexity of the environment and affect the stable
operation of the power system due to the high power and stochastic characters of EV loads.
To promote the development of vehicle-grid integration, the optimization of EV charging
and residential energy management is necessary. Compared with traditional model-driven
methods, the data-driven deep reinforcement learning (DRL) algorithm obtains the control
solution by interacting with the environment directly without relying on system models
and being highly adaptable to uncertainties. This paper focuses on EV charging control
and residential energy management, firstly, the impact of EV loads on the grid is
quantitatively analyzed, and then the EV charging control and residential energy
management strategy based on the DRL algorithm are studied in depth. The specific
research contents are as follows.
(1) For the analysis of the impact of EVs on the residential load in the distribution grid,
a high-resolution EV continuous driving trajectory generation model is firstly designed
based on the Markov chain. Then, a residential load curve generation model is constructed
considering the charging availability and charging preference. The numerical studies
quantitatively analyze the impact of EV integration from the perspective of a residential
household and the distribution transformer. The results show that the peak load will
increase significantly and the transformer overload operation time is longer. The influence
of battery parameters and driving distances on EV load is also provided. The results show
that EVs have sufficient dispatchable time and capacity, and are feasible to control.
(2) For the charging control of individual EVs, a DRL-based control strategy is
proposed to reduce the charging cost while alleviating the aggregate anxiety of users.
Various factors, including driver’s experience, charging preference and charging locations,
are considered to describe the dynamic behaviors of individual EVs. The aggregate
anxiety concept is introduced to characterize the driver’s anxiety on the driving range and
uncertain events. A mathematical model is provided to describe the driver’s experience
III
华 中 科 技 大 学 博 士 学 位 论 文
IV
华 中 科 技 大 学 博 士 学 位 论 文
community and be scalable to large scale problems. The simulation results show that the
internal trading price and the household scheduling decisions are made simultaneously.
Key words: Electric vehicles, Smart homes, Community market, Charging Control,
Energy management, Deep reinforcement learning, Multi-agent deep reinforcement
learning, Hierarchical deep reinforcement learning
V
目 录
1 绪论......................................................................................................... 1
1.1 研究背景与意义............................................................................... 1
1.2 深度强化学习的国内外研究现状 .................................................. 4
1.3 EV 充放电控制及住宅能量管理方法的国内外研究现状 ........... 10
1.4 现有研究局限性............................................................................. 20
1.5 本文研究内容及章节安排 ............................................................ 21
2 EV 接入对住宅负荷特性的影响分析 ................................................. 24
2.1 引言 ................................................................................................. 24
2.2 数据集 ............................................................................................. 25
2.3 EV 负荷建模 ................................................................................... 29
2.4 影响分析 ......................................................................................... 34
2.5 本章小结 ......................................................................................... 43
3 基于深度强化学习的单个 EV 充放电控制 ....................................... 45
3.1 引言 ................................................................................................. 45
3.2 考虑用户动态行为的 EV 充放电模型 ......................................... 46
3.3 深度强化学习充放电控制策略 .................................................... 54
3.4 仿真分析 ......................................................................................... 59
3.5 本章小结 ......................................................................................... 67
4 基于多智能体深度强化学习的 EV 集群协调充放电控制 ............... 68
4.1 引言 ................................................................................................. 68
4.2 EV 集群模型 ................................................................................... 69
4.3 多智能体深度强化学习集群协调控制策略 ................................ 73
4.4 仿真分析 ......................................................................................... 77
4.5 本章小结 ......................................................................................... 86
5 基于多智能体深度强化学习的住宅集群能量管理 .......................... 88
5.1 引言 ................................................................................................. 88
5.2 含多类型负荷住宅集群模型 ........................................................ 89
5.3 多智能体深度强化学习能量管理策略 ........................................ 94
5.4 仿真分析 ......................................................................................... 97
5.5 本章小结 ....................................................................................... 104
6 基于层级式深度强化学习的多住宅社区能量交易及管理 ............ 106
6.1 引言 ............................................................................................... 106
6.2 多住宅社区市场模型................................................................... 107
6.3 层级式深度强化学习能量交易及管理策略 .............................. 112
6.4 仿真分析 ....................................................................................... 114
6.5 本章小结 ....................................................................................... 124
7 总结与展望......................................................................................... 126
7.1 全文总结 ....................................................................................... 126
7.2 本文主要创新点........................................................................... 128
7.3 工作展望 ....................................................................................... 129
参考文献................................................................................................. 131
华 中 科 技 大 学 博 士 学 位 论 文
1 绪论
本章介绍本文的研究背景与意义。首先从政策支持、增长规模、示范工程等方
面阐述电动汽车规模化发展的必然趋势。在此基础上讨论电动汽车接入住宅后的潜
能优势和不利影响,并提出本文主要研究内容是基于深度强化学习的电动汽车充放
电控制及住宅能量管理策略。然后从深度强化学习和电动汽车充放电控制及住宅能
量管理策略两个角度对研究现状进行调研并指出现有研究的局限性。最后简要给出
了本文的研究思路和章节安排。
1.1 研究背景与意义
1
华 中 科 技 大 学 博 士 学 位 论 文
2
华 中 科 技 大 学 博 士 学 位 论 文
负荷峰值移位甚至是峰值重叠的现象。由于配网中变压器大小一般仅适用于当下的
家庭负荷,EV 负荷重叠带来的过载可能会导致变压器过热,加速变压器的老化或损
坏,增加电网设备的投资维修成本[14]。同时,配电网中一般装有了一定比例的分布
式光伏及可控负荷,EV 还需与分布式光伏和原有生活负荷协调配合共同参与住宅能
量管理,以增强配网新能源消纳能力以及辅助服务提供能力[15]。因此,开展 EV 接
入配网后的充放电控制以及住宅能量管理研究成为推进大规模电动汽车接入,促进
车网融合发展的必然需求。
针对 EV 充放电控制以及住宅能量管理问题,现有研究一般以最小化用电成本为
目标,以系统物理特性为约束,建立优化控制或能量管理的调度模型,进而通过凸
优化、线性/非线性规划等传统优化算法求解最优控制决策[16]。尽管现有方法在应用
中取得了一定的优势,但其本质是基于模型驱动,依赖严格的系统数学模型或者精
准的不确定性预测结果。当系统状态发生变化时,比如 EV 用户出行计划改变、充电
需求调整,现有方法都需要再次进行完整的迭代求解,无法获得端到端的控制方案,
泛化能力较差[17]。同时,大规模 EV 接入会进一步提升控制场景的复杂化、动态化
与异构化程度,增加环境中的不确定性。现有方法由于依赖模型、泛化能力差、计
算效率低并且缺乏主动的学习能力,在环境适应性与可扩展性方面存在较大的局限
性。
近年来,以深度强化学习(Deep Reinforcement Learning,DRL)为代表的人工
智能技术在优化决策领域取得了显著的突破[18]-[19]。区别于传统模型驱动的优化算法,
DRL 是一种数据驱动的方法,通过与外部环境的直接交互学习控制策略。结合了强
化学习(Reinforcement Learning,RL)对序贯决策问题的出色优化能力以及深度学
习(Deep Learning,DL)对高维数据的强大表征能力,DRL 方法不依赖系统的动态
模型以及对环境不确定性的预测,获得的控制策略可以直接提供快速的端到端决策,
为 EV 大规模接入住宅后的优化控制和能量管理提供了新的解决思路。
尽管 DRL 算法潜力巨大,但目前将其应用在 EV 及住宅优化控制的研究依然较
少。同时,如何设计有效的 DRL 算法以应对大规模电动汽车接入住宅配网后场景复
杂化、模型动态化以及用户异构化等挑战,是一个需要深入研究的问题。基于此,
3
华 中 科 技 大 学 博 士 学 位 论 文
本文围绕基于深度强化学习的 EV 充放电控制及住宅能量管理开展深入研究。在阐明
大规模电动汽车接入对住宅负荷特性的实际影响后,本文从电动汽车用户、配网住
宅、多住宅社区能量交易市场等多个视角切入,研究在不确定性环境中单个电动汽
车、电动汽车集群的充放电控制策略以及电动汽车与传统家庭负荷和分布式光伏协
同配合的住宅能量管理和能量交易方案。在新能源汽车高速发展以及人工智能技术
推动产业变革的背景下,该研究课题对提高电动汽车接入后的电网运行控制效果、
推进人工智能技术的应用落地具有重要的现实意义与应用价值。
1.2 深度强化学习的国内外研究现状
强化学习(RL)是机器学习中除了监督学习和非监督学习外的第三种基本方法。
区别于其他机器学习方法,RL 不依赖数据标签,智能体通过与环境直接交互不断探
索能够最大化回报的行为。随着 RL 与深度学习(DL)的融合,DRL 进一步提高了
RL 对复杂问题的处理能力。近年来,由于“无模型,自学习,数据驱动”等优势,
DRL 在多种序贯决策问题中都取得了重大突破,在博弈论、控制论、多智能体等领
域也有了深入研究,也已应用于电子游戏[20]-[21],机器人控制[22]-[24],自动驾驶[25]-[26],
城市交通[27]-[28],推荐系统[29]以及智能电网[30]等各类场景中。
为了清晰的展示 DRL 的基本概念与研究现状,本节首先介绍单智能体 RL 以及
DRL 算法,然后过渡到多智能体强化学习(Multi-agent Reinforcement Learning,MARL)
以及层级式强化学习(Hierarchy Reinforcement Learning,HRL),各类算法的结构如
图 1-1 所示。
环境
环境
环境 状态&奖励
智能体
动作 状态&奖励
智能体1 动作
动作 状态&奖励 状态&奖励
状态&奖励
动作
智能体2
智能体 智能体1 智能体2 智能体N
状态&奖励 动作
动作 动作 动作
智能体N
图 1-1 强化学习类型:(a)单智能体强化学习;(b)多智能体强化学习;(c)层级式强化学习
4
华 中 科 技 大 学 博 士 学 位 论 文
1.2.1 单智能体深度强化学习
RL 是一种描述智能体通过与环境交互学习策略的方法,要素包括智能体,环境,
状态,动作以及奖励,如图 1-1(a)所示。智能体即学习者,根据当下从环境中感受到
的状态以及自身策略选择一定的动作作用到环境。环境在动作影响下发生状态转移
并反馈对动作的评价作为奖励。在不断交互过程中,智能体积累学习经验并调整自
身策略以最大化奖励。智能体与环境的交互一般建模为马尔科夫决策过程(Markov
Decision Process,MDP)[31]。MDP 包含五个部分,{S, A, P, R, },其中 S 代表智能
体所处的环境状态集合,A 代表可供选择的动作集合,P:SA→(S)代表当下状态
st 在动作 at 作用下转移到下一状态 st+1 的概率,R 代表状态转移后获得的即时奖励,
为奖励的折扣因子,代表当下奖励与未来奖励之间的相对重要程度。MDP 假设所有
的状态均具有马尔科夫性,即下一时刻的状态仅与当前时刻状态相关。
求解 MDP 的目标是获得令智能体累计奖励信号最大的动作策略,即:
max J = ( t 0
t R( st , at ) at ~ ( | st ) ) (1.1)
其中策略为智能体状态空间到动作空间的映射。
基于马尔科夫性,可以通过动态规划或者反向归纳等方法求得 MDP 的最优策略,
比如值迭代算法[32]。但是以上方法需要提前获知状态转移概率函数以及奖励函数的
表达式。相较之下,RL 方法则是“无模型”的,仅从与环境交互收集到的经验中学
习策略。
Q-learning 算法[33]是最著名单智能体 RL 算法之一,适用于具有离散空间的完全
可观测环境。该算法使用动作价值函数 Q(s,a)表示在状态 s 下执行动作 a 后的期望奖
励,称为 Q 值。智能体将每个状态-动作对(s,a)对应的 Q 值保存在列表中。当环境状
态 s 在智能体选择动作 a 转移到 s 时,列表中对应的 Q 值按照下式更新:
(
Q(s, a) Q(s, a) + r + max Q(s, a) − Q(s, a)
a
) (1.2)
其中[0,1]为学习率,r 为状态转移时的即时奖励。
Q-learning 算法在训练过程中通过对状态价值函数进行评估改进策略,属于基于
价值迭代的 RL 算法。与基于价值迭代的算法相对,基于策略迭代的算法跳过了对状
5
华 中 科 技 大 学 博 士 学 位 论 文
态价值函数的估计,动作策略被参数化,智能体直接学习策略函数的参数,进而实
现目标优化[34]。基于策略迭代的算法一般通过控制目标的梯度对参数进行调整。相
较于价值迭代算法,由于策略可以使用深度神经网络(Deep Neural Networks,DNN)
表示,因此策略迭代算法与接下来要引入的 DRL 算法联系更为紧密。
Q-learning 算法由于存储空间的限制主要应用在小规模的优化决策问题中,无法
在大型连续型状态空间中适用。为了应对大型连续空间问题带来的挑战,RL 与深度
征能力,DRL 算法提高了对大型状态空间问题的泛化能力,同时降低了手动设计状
态特征的复杂度[35]。接下来,本节将介绍近年来主流的 DRL 算法。
(1)基于价值迭代的 DRL 算法
DQN(Deep-Q-Network)算法[36]是深度学习与 Q 学习相结合的典型成果。DQN
使用深度神经网络对动作价值函数进行近似,并引入了经验回放机制储存智能体与
环境的交互数据( s, a, s, r )。在每一个迭代时刻,DQN 通过最小化当前 Q 值与目标 Q
值之间的均方差更新参数。损失函数如下所示:
的影响。
在 DQN 算法的基础上,研究者进一步提出了许多扩展的版本以提升 DQN 的性
能,比如 Double DQN 通过解耦两个 Q 值的计算过程降低了对价值过高估计带来的
影响[37],Prioritized replay DQN 对经验池中不同的样本进行权重赋值[38],提高了有效
样本的训练概率,Duel DQN 优化了价值函数神经网络结构以提升训练性能 [39] ,
Rainbow DQN 整合了六种不同版本 DQN 算法的优势[40],DRQN 使用长短时记忆
(Long Short-Term Memory,LSTM)神经网络做函数近似[41],增强了对时序状态信
号的处理能力。
(2)基于策略迭代的 DRL 算法
6
华 中 科 技 大 学 博 士 学 位 论 文
7
华 中 科 技 大 学 博 士 学 位 论 文
1.2.2 多智能体强化学习
多智能体强化学习(MARL)与单智能体强化学习同样用于解决序贯决策问题,
但环境中涉及到的智能体不止一个,如图 1-1(b)所示。多智能体环境状态的演变以及
智能体收到的奖励与所有智能体的联合动作相关,因此在多智能体环境中的学习过
程更为复杂。多智能体环境使用马尔科夫博弈(Markov Game,MG)进行描述[48]。
MG 是 MDP 的扩展形式,包含{N, S, A, P, R, },其中 N 代表智能体个数,S 代表环
境状态集合,每一个智能体仅能观测到环境状态的一部分。A 代表所有智能体的联
合动作集合,满足 A=A1 A2 … AN。P 代表状态转移概率,满足 P: S A1… AN →
(S),即 P 是所有智能体联合动作综合影响的结果。R:SA→ℝ 代表状态转移后获
得的即时奖励,每个智能体都会从环境中获得自身的奖励。为奖励的折扣因子。
根据智能体任务类型可以将多智能体环境分为合作型,竞争型以及混合型。在
合作型环境中,所有智能体互相协作以实现某些共同目标。当所有智能体是同质的
且共享相同的奖惩函数时,可以将所有智能体视为一个决策者,并直接应用单智能
体 DRL 算法进行策略优化,如 Team-Q 算法[49]和 Distributed-Q 算法[50]。更为普遍的
合作型环境中智能体并非完全同质的,智能体可以拥有不同的奖励函数,合作的目
标则是优化整个团队的平均奖励。在平均奖励机制下一般采用去中心化的 MARL 算
法,可以适应智能体的异质性并保护彼此之间的隐私,如 QD-learning[51]。在竞争型
环境中,一个智能体的回报意味着另一个智能体的损失,智能体的奖励之和一般为
零。在学习过程中,智能体假设对手的策略是使得自身回报最小化,进而调整自身
策略以提高回报,比如 Minimax-Q 算法[48]。在混合型环境中,智能体之间的目标和
相互关系并没有明确的约束,学习的目的是为了达到某种程度的平衡,比如 Nash
Q-learning 算法[52]或 Asymmetric Q-learning 算法[53]。
根据智能体的学习结构可以将 MARL 算法分为分散式,分布式以及集中式。分
散式学习也被称为独立学习,每个智能体将其他智能体视为环境的一部分,直接应
用单智能体算法与环境交互,如 Independent Q-learning(IQL)算法[54]。由于忽略了
多智能体环境的性质,独立学习方法无法保证环境的平稳性并可能收敛失败 [55]。尽
管缺乏理论保证,独立学习方法在实践中取得了良好的控制效果,并且在可扩展性
8
华 中 科 技 大 学 博 士 学 位 论 文
方面有巨大优势[56]。为了缓解独立学习中可能出现的失稳现象,分布式学习假设环
境中各个智能体可以通过通信网络与相邻节点交换本地信息。分布式学习中常见算
法是参数共享(Parameters Sharing,PS),即在训练过程中各个智能体不断交换网络
权重、梯度信号或训练一个网络然后在全系统共享,比如 CommNet[57]或 BiCNet 算
法[58]。集中式学习假设存在一个集中控制器可以收集所有智能体的联合状态、动作
以及奖励信息。目前流行的集中式训练分散式执行架构(Centralized Learning with
Decentralized Execution , CTDE ) 便 属 于 该 控 制 结 构 , 具 有 代 表 性 的 算 法 包 括
MADDPG[59],COMA[60],VDN[61]以及 QMIX[62]等。MADDPG 和 COMA 算法在训
练过程中用到了所有智能体的联合状态以及动作以训练评价网络。VDN 和 QMIX 算
法则需要整合所有智能体的值函数。由于获取了全局信息,集中式学习简化了理论
分析的难度,有效缓解了多智能体环境潜在的非平稳性问题。但集中式学习的状态
空间维数以及计算复杂度会随着智能体个数增加而显著上升,不利于算法在大规模
问题中的应用。
1.2.3 层级式强化学习
9
华 中 科 技 大 学 博 士 学 位 论 文
时间内的动作。Option 算法的观点是在智能体的动作之上抽象出了一个决策层,即
智能体首先选择一个具有时间持续性的“Option”后,再进行具体的决策。HAM 算
法的核心思想是通过先验知识对策略进行限制以降低 MDP 的复杂度,在一定程度上
可以提高学习效率。与 Option 一样,HAM 依赖先验知识设计状态机,因此适用性有
限。MAXQ 算法主要思想是将目标任务进行值函数分解,每个子任务对应一个 MDP
并使用 Q-learning 进行优化。基于端到端的算法则着重于如何让智能体自学分层抽象,
而不依赖人为的任务分解和状态机设计。文献[67]中将 Option 概念和 AC 框架结合,
提出了一种 Option-Critic 框架,并使用策略梯度对 Option 参数进行优化。由于不需
要内在设置奖励,智能体可以自动学习 Option 策略并自动切换 Option,实现了端到
端的控制。
1.3 EV 充放电控制及住宅能量管理方法的国内外研究现状
大规模 EV 接入住宅后会显著增加控制环境的复杂度。在无序充电控制下,EV
负荷将会显著改变住宅原有的负荷曲线并影响电网的稳定运行。首先,单个 EV 接入
住宅后由于充放电功率较大会显著增加住宅的用电成本。其次,大规模 EV 集群产生
的聚合效应会增加配网负荷峰值或造成新的负荷峰值,进而对变压器等公用设施产
生不利影响。同时,EV 作为灵活性用电资源参与到住宅内能量管理时需要考虑与原
有可控负荷之间的配合关系。最后,屋顶光伏面板等分布式新能源的安装会促使住
宅从电力消费者向电力产消者转变,增加了配网内能量交易的可能,此时 EV 可以作
为分布式储能参与到能量交易过程。
因此本节将采用递进式的思路介绍 EV 充放电控制及住宅能量管理的研究现状,
从复杂度由低到高可以划分为:1)EV 接入对住宅负荷特性的影响分析,2)单个
EV 充放电控制,3)EV 集群协调充放电控制,4)包括 EV 在内的含多类型负荷住
宅能量管理,5)含光伏及储能系统的多住宅社区市场能量交易及管理等五个场景。
1.3.1 EV 接入对住宅负荷特性的影响分析
EV 接入后对住宅负荷特性的影响取决于充电负荷的特性。由于用户驾驶行为、
充电偏好的多样性与差异性,EV 负荷在时间上以及空间上表现出明显的随机性。目
10
华 中 科 技 大 学 博 士 学 位 论 文
11
华 中 科 技 大 学 博 士 学 位 论 文
基于统计数据或特定分布,文献[72]-[80]可以抽样得到更丰富的 EV 负荷曲线,
但忽略了 EV 在空间上的分布特性。文献[81]-[85]引入了居民的出行目的,从时间和
空间两个层面考虑 EV 负荷的随机性。文献[81]基于 NHTS 数据得到了 EV 时空分布
的统计概率,进而确定了 EV 在一天内各个时段的区域分布情况。文献[82]使用出行
链描述 EV 的出行行为,并基于马尔科夫链模拟无序充电下的 EV 充电需求,进而分
析了在不同 EV 渗透率下配电网的电压越限和能量损耗情况。文献[83]在出行链模拟
EV 时空分布的基础上提出了计及停车时长充裕度以及分时电价的充电需求分布分
析方法。相较于无序充电,所提方法能够引导用户充电需求在时空上发生转移,进
而降低负荷峰值。文献[84]通过量化居民的电力消耗行为,基于马尔科夫链建立了高
分辨率的 EV 负荷模型和住宅生活负荷模型。在此基础上评估了在不同渗透率下 EV
无序充电对住宅电力需求的影响。结果表明无序充电会显著改变住宅总电力需求的
形状以及负荷峰值,增加变压器的负载系数并降低变压器寿命。文献[85]同样使用马
尔科夫链对 EV 出行行为进行模拟,特点是在驾驶行为和电池参数的基础上引入了职
业,收入,年龄等社会经济因素描述用户的充电需求。结果表明 EV 将导致住宅夜间
高负荷时段提前并延长,同时负荷峰值显著增加。
在考虑 EV 时空分布特性的基础上,文献[86]-[87]将 EV 个体在充电行为上的相
互影响纳入考量,使用基于智能体的建模(Agent-based Modelling,ABM)思路构建
EV 负荷模型。文献[86]中使用驾驶经验、里程焦虑、充电速率、充电时长等表征 EV
的微观参数,使用 EV 数量、日期类型、出行目的等表征 EV 集群的宏观参数。基于
NetLogo 平台模拟驾驶员的行为倾向并计算充电决策以及负荷曲线。文献[87]同样使
用 ABM 方法构建 EV 负荷,进而分析在不同的充电场景中 EV 接入后对住宅能量消
耗的影响。场景由 EV 渗透率以及充电控制方法区分,包括无序充电,延时充电以及
错峰充电。结果同样表明无序充电方式会显著增加住宅区的电力需求峰值,给电力
系统运行带来极大的挑战。
1.3.2 单个 EV 充放电控制
单个 EV 充放电控制的目标是通过调整充电时段内的所有充放电决策以实现满
足用户出行需求的同时降低充电成本。文献[88]假设 EV 的达到时间,离开时间,初
12
华 中 科 技 大 学 博 士 学 位 论 文
始能量,需求能量以及日内常规负荷均是已知的,将 EV 充放电控制问题描述为一个
凸优化问题,目标是最小化成本,决策变量为充放电功率,进而通过内点法求解最
优控制结果。文献[89]将实时 EV 充电控制转化为一个二元优化问题并且提出了一种
结合线性规划(Linear Programming,LP)和凸松弛的算法。文献[90]同样将 EV 充
电控制转化为一个等效线性规划问题并提出了一种启发式算法求解最优的充电开关
决策。文献[91]中进一步考虑了实时电价的不确定性以及 EV 电池的退化成本,提出
了一种鲁棒优化方法求解住宅中 EV 实时充电优化决策。与文献[91]相似,文献[92]
中提出了基于场景的鲁棒优化算法以应对新能源出力和驾驶行为的不确定性。文献
[93]研究集成光伏系统和 EV 的办公楼能源管理问题并使用随机规划来解决 EV 充电
需求的不确定性。文献[94]将 EV 的充电调度转化为一个无限时的动态规划模型,并
基于动态规划(Dynamic Programming,DP)得到充电成本最低的调度方案。考虑风
电出力和 EV 充电需求的随机性和动态性,文献[95]将 EV 充电调度转化为一个 MDP
模型以适应供需双方的不确定性。文献[96]中提出了一种基于模型预测控制(Model
Predictive Control,MPC)的 EV 充电功率控制方法实现最大限度的降低充电成本同
时满足住宅负荷和 EV 电力需求。文献[97]考虑了系统运行约束,将充电站内 EV 在
线充电调度表述为一个最优潮流问题并基于 MPC 算法最小化系统用电成本。文献
[88]-[97]中仅考虑了 EV 充电需求在时间和空间上的不确定性,然后将 EV 充电调度
转化为一个优化问题并采用传统优化方法进行求解。但针对电动汽车用户个体而言,
驾驶行为并非完全同质且静态的。文献[98]-[101]中详细分析了 EV 用户的出行习惯,
驾驶经验,充电偏好,里程焦虑对充电需求的影响,因此有必要在 EV 充电模型中进
一步考虑驾驶员详细的动态行为。假设用户的充电偏好参数在充电过程中是变化的,
文献[102]提出了一种随机博弈算法来应对 EV 充电调度过程中的不确定性。文献[103]
中引入了时间焦虑来刻画 EV 用户对充电期间不确定事件的担忧,并提出了一种基于
博弈论的算法求解最优调度决策。
以上 EV 充电调度方法本质上是模型驱动的,依赖精确的系统动态模型或者不确
定性的预测结果。在现实场景中,来自实时电价以及驾驶员的动态行为的不确定性
给系统建模和预测带来了严峻的挑战。与模型驱动型方法相比,数据驱动型的 DRL
13
华 中 科 技 大 学 博 士 学 位 论 文
算法则不依赖精确模型和先验知识,能够有效应对环境中的不确定性。已经有研究
者将其应用在单个 EV 充放电控制问题中[104]-[110]。
为实现降低充电成本的同时满足 EV 能量需求,文献[104]提出了一种基于 DRL
的住宅 EV 个体充放电控制算法,包含一个用于提取实时价格特征的 LSTM 网络和
一个用于制定充放电决策的 DQN 网络。文献[105]中提出了一种基于 Q-learning 的充
电站 EV 充放电控制方法,有效考虑了单个 EV 的充电特性,包括到达时间和充电时
长。考虑 EV 到达、离开以及电价的随机性,文献[106]提出了一种基于 SARSA 算法
的充电调度策略。文献[107]中使用贝叶斯网络用于电价预测,然后基于 FQI(Fitted
Q-Iteration)算法学习控制策略以降低 EV 的长期充电成本。结合动态规划和监督学
习,文献[108]从收集的样本中训练深度神经网络进而做出实时充电决策。文献
[104]-[108]中的算法能够适应连续的状态空间,但充放电功率是离散的。为了进一步
提高控制精度,文献[109]-[110]中假设充放电功率是连续型变量。文献[109]使用
DDPG 算法求解单个 EV 的连续型充放电控制决策,并引入了两个经验池以解决智能
体和环境交互过程中存在的奖励稀疏现象。文献[110]将 EV 充放电调度问题表述为
一个受约束的 MDP 问题,并基于约束策略优化(Constrained Policy Optimization,
CPO)算法求解调度策略。
1.3.3 EV 集群协调充放电控制
单个 EV 接入后会显著增加住宅的能量消耗和用电成本。同时,由于 EV 负荷的
聚合效应,大规模 EV 接入可能会进一步造成配电网过载以及网络阻塞,增加配网设
施的运行维护成本。因此有必要对 EV 集群进行协调控制以降低大规模 EV 接入对电
网的影响。区别于单 EV 控制问题,EV 集群协调充放电的控制目标在满足用户出行
需求、降低用户充电成本的同时,还需要降低 EV 负荷聚合效应对电网的影响。
根据模型假设和通信机制,现有电动汽车协调充放电控制方法可以分为:1)集
中式模型驱动方法[111]-[115];2)分布式模型驱动方法[117]-[125];3)集中式数据驱动方
法[126]-[128];4)分布式数据驱动方法[129]。
文献[111]-[112]中使用混合整数线性规划(Mixed Integer Linear Programming,
MILP)模型求解配电网中电动汽车协调控制问题。其中配网运行约束包括电压限制,
14
华 中 科 技 大 学 博 士 学 位 论 文
有功无功限制以及最大电流限制。文献[113]同样研究配电网中 EV 在线协调控制问
题以减少电压越限以及变压器过载。作者假设配网内住宅中除 EV 外均为不可控负荷
并构建了受价格引导的 EV 协调充放电 MILP 模型。文献[114]提出了一种基于排队模
型的充电站 EV 协调充放电控制方法。该方法假设 EV 能够提前与充电站通信,控制
器进而根据所有 EV 状态安排充放电计划以降低系统负荷峰值。文献[115]中提出了
一种两阶段充电调度方法以降低 EV 负荷对变压器寿命的影响。第一阶段根据历史充
电数据优化每小时可充电的 EV 数量,第二阶段再根据实际运行情况调整未来一小时
的 EV 接入数量。
与集中式方法相比,分布式方法不需要中央控制器,无需根据全局信息统一优
化充放电决策,具有高度的可扩展性[116]。文献[117]提出了一种基于一致性算法和
KKT(Karush-Kuhn-Tucker)条件的分布式控制策略以在最大化用户充电满意度的前
提下避免变压器过载。由于不依赖集中控制器,该算法能够有效应对通信链路单点
故障,并适应大规模 EV 充放电控制问题。文献[118]关注在配电网中 EV 充电对低压
变压器的影响,提出了一种基于注水原理(Water-Filling Principle)的分布式算法平
滑变压器负荷以降低变压器过载。文献[119]将考虑馈线过载的 EV 充电调度表述为
一个凸优化问题,然后提出了两种分布式梯度投影算法用于解决系统过载。文献
[120]-[121]基于博弈论(Game Theory)设计适用于大规模 EV 充电协调控制的分布
式充电策略,并通过分布式迭代方法得到每个 EV 的控制决策,在防止变压器过载的
同时可以保护每个用户的隐私。基于平均场博弈,文献[122]提出了一种适用于大规
模 EV 的分散式充电协调算法。EV 之间并不交换信息,而是通过本地信息和聚合器
广播信息迭代估计最优的充电策略。文献[123]提出了一种基于交替方向乘子法
(Alternating Direction Method of Multipliers,ADMM)的分散控制方法协调 EV 集群
的充电调度并减轻电池退化以及网络过载。当配电网变压器或线路容量受限时,系
统并不能保证所有 EV 同时以最大功率充电,因此在设计协调控制算法时还需考虑可
用容量在 EV 之间的公平分配[124]-[125]。
以上集中式模型驱动和分布式模型驱动方法均依赖详细的配网 EV 控制模型,进
而通过集中式优化或分布式迭代的方式求解 EV 协调控制策略。大规模电动汽车接入
15
华 中 科 技 大 学 博 士 学 位 论 文
后使得系统精确模型很难获得,此时数据驱动型方法的优势更为明显。同样,数据
驱动型方法也根据算法结构分为集中式和分布式两类。文献[126]提出了一种基于单
智能体 RL 算法的 EV 集群充电协调策略以降低住宅区 EV 负荷导致的变压器过载,
由一个智能体产生多个 EV 的充电决策。相比于模型驱动的优化算法,该算法并不需
要提前系统的详细动态模型。文献[127]考虑了配网充电站中的潮流约束,电压约束
以及充电桩容量限制,提出了一种基于 DDPG 算法的大规模 EV 协调充放电策略。
文献[128]提出了一种基于 SAC 算法的 EV 充电控制策略以应对在考虑实时电价以及
光伏出力等不确定性因素下配电网内大规模 EV 的协调调度问题。为了降低 EV 规模
增加导致的算法维度上升,作者假设配网中在相同节点的 EV 拥有统一的能量需求,
从而降低了算法的输出维度。
文献[126]-[128]中方法假设 EV 充放电环境是完全可观测的,使用 EV 集群的全
局信息训练单个智能体执行集中式决策。但在实际控制中,EV 用户可能不愿意共享
自身的私有信息,比如出行计划、电池状态等。这使得充放电环境变为一个部分可
观测系统,出于隐私保护以及可扩展性的考虑,单智能体集中式方法此时无法适用。
与单智能体算法相比,多智能体算法在结构上与分布式控制更为接近,每个智能体
能够依据本地信息进行决策,而不依赖集中控制器。目前在考虑系统约束条件下使
用多智能体深度强化学习(MADRL)算法解决 EV 集群协调控制的研究较少。文献
[129]提出了一种基于多智能体协作算法的配电网 EV 集群协调控制策略。每个智能
体都使用 Q-learning 进行训练,训练目标是减少 EV 接入后住宅区的变压器过载现象
并降低用户的充电成本。但是该算法中每个智能体在维护自身的“自私”Q-Table 外,
还通过通信和系统中所有节点建立了“协作”Q-Table。当系统中 EV 数量增多时,
算法需要更新的 Q-Table 数量将会呈指数式增长,无法保障算法的可扩展性。此外,
该算法没有考虑变压器容量在 EV 之间的分配也无法解决连续动作问题。因此,针对
EV 集群协调控制,如何设计一个兼顾系统约束、用户个人满意度、容量公平分配、
可扩展性与隐私保护的 MADRL 算法仍是一个需要研究的难点。
1.3.4 包括 EV 在内的含多类型负荷住宅能量管理
由于充放电功率的可控性,电动汽车也具有参与能量调节的潜力,在接入住宅
16
华 中 科 技 大 学 博 士 学 位 论 文
后可以作为灵活性用电资源参与住宅能量管理。EV 负荷具有充电功率大,时空随机
性强等特点,与传统住宅可控负荷,比如供暖、通风与空调(The Heating, Ventilation,
and Air Conditioning,HVAC)系统,一起构成了多类、异构的住宅内能量管理环境。
因此,EV 接入住宅后还需要考虑如何与住宅内多类型可控负荷之间协同配合,共同
参与能量管理。
除了用户驾驶行为以及充电偏好,住宅能量管理(Home Energy Management,
HEM)中不确定性因素还来自于室外温度、实时电价以及其他生活负荷用电习惯。
借助先进的传感以及通信技术,HEM 通过监控和管理各类负荷以实现在满足居民负
荷需求的同时降低用电成本[130]。现有研究同样可以分为模型驱动型[131]-[138]和数据驱
动型[139]-[143]。
文献[131]将 MILP 模型应用于住宅负荷的日前调度以降低家庭用电成本并避免
在低电价时期产生新的负荷峰值。文献[132]提出了一种多目标 MILP 模型以同时实
现降低用电成本、提高用户便利率以及保持温度舒适度三个控制目标。考虑到用户
用电行为以及实时电价的不确定性,文献[133]-[134]中基于鲁棒优化算法设计住宅内
家电能量管理策略。文献[135]和[136]在随机优化模型中考虑了 EV 时空分布和住宅
光伏出力的不确定性,分别提出了基于随机动态规划和遗传算法的优化方法。文献
[137]中建立了基于机会约束的优化模型以适应 HEM 环境中实时电价以及负荷预测
误差的不确定性,并提出了改进的粒子群优化算法(Particle Swarm Optimization,PSO)
算法求解该约束问题。文献[138]进一步考虑了不同家电之间的操作依赖关系,提出
了一种启发式算法以求解不确定环境中的家电调度策略。
区别于以上模型驱动型方法,文献[139]提出了一种基于强化学习和人工神经网
络(Artificial Neural Network,ANN)的住宅能量管理策略。作者为住宅内的每一个
可控负荷都设计了基于 Q-learning 的决策模型,同时使用 ANN 预测未来的实时电价。
考虑光伏出力、外部温度以及实时电价等不确定性,文献[140]中建立了考虑住宅内
HVAC 和储能系统(Energy Storage, ES)动态变化的 MDP 模型,并提出了基于 DDPG
算法的能量管理策略。文献[141]中分别设计了基于 DQN 算法和 DPG 算法的两种
HEM 控制策略,目标是降低负荷峰值并最小化用电成本。文献[142]使用极限学习机
17
华 中 科 技 大 学 博 士 学 位 论 文
1.3.5 含光伏储能的多住宅社区市场能量交易及管理
随着 EV 的接入以及分布式光伏和储能装置的安装,传统的电力住宅用户逐渐从
电力消费者(Consumer)的角色向电力产消者(Prosumer)转变,电力交易对象也
从电网扩展到社区内其他产消者。因此,在住宅能量管理的基础上还需要进一步考
虑含光储系统的社区内能量交易。
文献[131]-[143]中的住宅内部能量管理策略仅考虑了住宅与电网进行能量交易,
多余的光伏出力以上网电价出售给电网。然而产消者独立参与能量交易的运行模式
产生的效益是非常有限的[144]。点对点(Peer-to-Peer,P2P)能量交易作为一项高效
的能量管理技术允许产消者在本地市场内和其他参与者分享光伏以及储能中的能量,
从而有效提高每个住宅的效益并降低住宅群对电网的影响。区别与住宅内能量管理,
考虑 P2P 交易后产消者还需要协调与外部电网以及市场内其他住宅的能量交互过程。
根据市场结构的去中心化程度,可以将 P2P 交易市场分为分散式市场和社区式
市场[145]。在完全分散式的市场中,产消者之间可以进行独立、直接的信息协商和能
量交易,不需要集中运营商或者任何代理机构。然而协商过程中往往需要重复的迭
代过程才能得到最终的交易方案,耗时较长且通信负担较重。相对于完全分散式市
场,社区式能量交易市场适用于一组在地理位置上接近并且拥有相似目标的产消者。
社区市场需要运营商或者管理员进行内部定价以及能量分配等辅助服务以提高交易
效率。文献[146]中的社区能量市场包括日前的交易定价和日内的住宅能量管理。社
区运营商根据产消者的本地信息计算交易电价并反馈给产消者,而产消者在日内根
据交易电价、光伏出力以及负荷运行情况做出实时能量管理决策。文献[147]中提出
了一种基于双线性规划(Bi-Linear Programming,BLP)的交易优化算法通过需求侧
管理系统协调智能住宅之间的 P2P 能量交易。同时使用帕累托最优来确保不同住宅
18
华 中 科 技 大 学 博 士 学 位 论 文
19
华 中 科 技 大 学 博 士 学 位 论 文
协作算法实现了兼顾各个住宅内不同类型家电的能量管理并且避免变压器过载。文
献[160]提出了一种基于 MAPPO 算法的大规模住宅集群能量管理控制策略,并引入
了一个市场联合行为预测模型以降低环境中的非平稳性,但社区内部的交易机制未
明确给出。文献[161]-[162]将具有异质产消者(智能住宅)的社区市场 P2P 能量交易
表述为一个多智能体协作问题。文章中假设产消者安装的负荷类型以及用电偏好均
可以是不同的,并使用 MADDPG 算法对负荷能量管理进行优化。为了保护产消者的
本地隐私,所提算法采用了参数共享(PS)的机制,即在各个智能体之间传递神经
网络参数而非住宅内的私有信息。社区内部市场的交易价格由 MMR 机制决定,即
社区管理员根据当前时刻的社区净功率计算实时的交易电价。但是文章并未考虑运
营商在交易过程中的收益,不利于社区市场交易的长期运行。同时大量参数的共享
也给现有的通信设施带来了不可忽视的负担。因此如何设计一个高效可扩展的社区
市场能量交易及管理机制仍是一个待解决的问题。
1.4 现有研究局限性
相较于模型驱动型 EV 充放电优化控制及住宅能量管理方法,数据驱动型深度强
化学习(DRL)方法不依赖环境的精确模型以及不确定因素的预测结果,在训练完
成时可以产生端到端的控制策略并直接应用于在线控制。受益于以上优势,近年来
DRL 方法在 EV 充放电控制及住宅能量管理领域已获得初步的尝试。但大量 EV 接
入住宅使得控制环境复杂化、动态化与异构化程度加深,现有基于 DRL 算法的优化
决策方法依然面临很大挑战,主要表现在以下几个方面:
(1)现有单个电动汽车充放电控制方法一般使用达到时间,出发时间以及需求
电量三个因素刻画电动汽车负荷,对用户个人动态行为的考虑不足。用户动态行为
的复杂化与差异化加剧了电动汽车负荷在时空分布上的不确定性,导致现有方法适
用性降低。如何将驾驶经验、充电偏好、电能焦虑等多种定性描述转化为电动汽车
负荷需求的定量表达,并融合到 DRL 算法中以增强策略适用能力存在进一步提升空
间。
(2)电动汽车集群聚合效应会对变压器产生不利影响,协调控制算法需要考虑
20
华 中 科 技 大 学 博 士 学 位 论 文
来自实时电价和所有用户行为的不确定性,并且兼顾用户能量需求、变压器容量约
束、容量公平分配、算法可扩展性以及用户隐私保护等多种因素。现有基于 DRL 方
法的电动汽车集群协调控制方法较少,如何在算法设计中同时涵盖以上要素有待进
一步深入研究。
(3)电动汽车负荷接入住宅后与传统的可控负荷共同构成了多类、异构的住宅
能量管理环境,不确定性因素中增加了与其他负荷相关的动态行为以及环境温度变
化。此时基于 DRL 算法的策略需要根据不同负荷特性设计合理的奖惩函数,同时处
理连续型动作空间和离散型动作空间。并且由单个住宅扩展到住宅集群之后,算法
依然需要保持可扩展、分配公平以及隐私保护等性能。目前针对电动汽车负荷与传
统可控负荷协同参与能量管理的研究仍处于初步阶段,需要进一步深入探讨。
(4)电动汽车的接入以及分布式光伏和储能系统的安装使得多住宅社区内有了
实施点对点能量交易的基础。在住宅集群能量管理的基础上需要进一步考虑能量交
易中的动态定价以及能量分配问题。目前适用于含电动汽车的多住宅社区能量交易
及能量管理的 DRL 算法研究较为匮乏,如何在包含多类异构不确定因素的环境中设
计合理的交易定价以及能量管理策略有待深入研究。
1.5 本文研究内容及章节安排
本文开展基于深度强化学习的 EV 充放电控制及住宅能量管理策略研究,研究对
象和研究方法均呈递进式结构推进,最终形成完整的包含 EV、多类型住宅负荷以及
光伏储能在内的配网多住宅社区市场实时能量交易与管理框架以及相应的 DRL 优化
控制算法。论文整体的研究思路如图 1-2 所示。
具体而言,本文首先定量分析了电动汽车接入后在无序充电控制下对住宅负荷
特性的影响,确认了充放电控制的必要性和可行性。在此基础上,研究对象逐步从
单个电动汽车发展到电动汽车集群,再结合传统可控负荷扩展到住宅集群,最后增
加光储系统形成多住宅社区能量交易市场。相应地,研究方法也从单智能体 DRL 算
法发展到多智能体 DRL 算法,再扩展到多维多类型输出的多智能体 DRL 算法,最
后到层级式 DRL 算法。
21
华 中 科 技 大 学 博 士 学 位 论 文
基于深度强化学习(DRL)的电动汽车(EV)充放电控制及住宅能量管理策略
第二章
EV接入对配网住宅负荷特性的影响分析
EV负荷建模 接入影响分析
EV充放电控制:必要性+可行性
建立包含电动汽车、多类型住宅负荷以及光伏储能在内的多住宅社区市场
实时能量交易与能量管理架构及相应的DRL优化控制算法
图 1-2 本文研究思路
各章节安排如下:
第一章概述了本文的研究背景与意义,介绍了深度强化学习与 EV 充放电控制及
住宅能量管理的国内外研究现状,并给出了本文的研究思路与内容安排。其中,深
度强化学习研究现状从复杂程度上分为了单智能体强化学习,多智能体强化学习以
及层级式强化学习。EV 充放电控制及住宅能量管理研究现状从应用场景上分为了
EV 接入配网影响分析、单个 EV 控制、EV 集群协调控制、EV 与住宅可控负荷协同
参与住宅能量管理以及含分光伏储能的多住宅社区市场能量交易及管理。
第二章研究 EV 接入后在无序充电控制下对住宅负荷特性的影响,作为后续智能
充放电控制以及能量管理的研究基础。本章提出了基于马尔科夫链的 EV 高分辨率连
续轨迹生成模型,可以生成任意数量的 EV 行驶轨迹。在行驶轨迹的基础上,考虑用
户对电池电量的敏感度、充电可用性等因素构建了 EV 负荷曲线生成模型。最终分析
了 EV 接入对户均负荷和变压器总负荷的影响以及不同车辆类型和行驶距离下电池
状态的变化。结论表明 EV 参与充放电控制和能量管理即存在必要性又具有可行性。
第三章研究考虑用户动态行为的单个 EV 充放电控制策略。首先使用驾驶经验,
充电偏好等因素定性表述用户动态行为,并引入了综合焦虑来表征用户对行驶里程
22
华 中 科 技 大 学 博 士 学 位 论 文
以及充电期间不确定事件的担忧。然后提供了相关的数据模型定量描述用户经验和
综合焦虑水平。提出了一种基于深度强化学习(DRL)算法的充放电控制策略,控
制目标是降低用户的充电成本的同时并满足多样的能量需求。基于真实世界数据构
建的仿真分析验证了所提控制策略的有效性。
第四章研究 EV 集群协调充放电控制策略。在第三章单个 EV 控制算法的基础上,
提出了一种基于多智能体深度强化学习(MADRL)算法的协调充放电控制策略,控
制目标是满足 EV 集群能量需求的同时降低用电成本并避免变压器过载情况的发生。
所提算法在结构上是完全分散的,具有高度的扩展性。同时,训练以及在线控制过
程只需要本地私有信息,实现了用户的隐私保护。基于真实世界数据构建的仿真从
在线控制以及计算复杂度等方面验证了所提算法的协调充放电性能和可扩展性。
第五章研究包括 EV 在内的含多类型负荷住宅集群能量管理。在第四章 EV 集群
协调控制的基础上,考虑了住宅内多类型可控负荷的协同配合,提出了一种基于多
智能体深度强化学习(MADRL)的住宅集群能量管理策略,控制目标是实现住宅内
部各类型负荷能量管理的同时降低变压器过载。区别于第四章中的协调控制方法仅
涉及连续型动作空间,本章所提控制方法能够同时处理连续型动作空间和离散型动
作空间,并有效应对可时移负荷的奖励滞后现象。基于真实世界数据构建的仿真分
析验证了所提算法的协调能量管理性能。
第六章研究含 EV 以及光伏储能系统的社区市场能量实时交易与管理机制。在第
五章的基础上,考虑社区内住宅安装有光伏和储能系统并实施点对点能量交易,提
出了一种基于层级式深度强化学习(HDRL)的能量交易策略,在上层执行内部能量
交易的动态定价,在下层执行社区内住宅集群的能量管理。所提算法的两层控制互
相影响同时进行,并且延续了第四、五章中多智能体算法在可扩展性上的优势。基
于真实世界数据构建的仿真验证了所提算法的实时定价和能量交易及管理性能。
第七章总结本文工作,归纳主要结论和创新点,并对未来工作进行了展望。
23
华 中 科 技 大 学 博 士 学 位 论 文
2 EV 接入对住宅负荷特性的影响分析
大规模 EV 接入配电网后会显著改变住宅的用电曲线,对电网产生不可忽视的影
响。本章将定量分析 EV 接入后对住宅负荷特性的影响,为后续 EV 智能充放电控制
提供实施依据。首先基于马尔科夫链设计了一个高分辨率 EV 连续行驶轨迹生成模型,
包含了 EV 的时空分布特性参数。然后考虑用户充电偏好、充电可用性以及电池参数
等因素,在轨迹生成模型的基础上构建了 EV 负荷生成模型。分析结果表明 EV 接入
后会显著增加住宅户均负荷的功率峰值、平均值以及年度需求电量。大规模 EV 负荷
的叠加效应会使得变压器过载运行的程度和时间显著上升。因此有必要实行智能充
放电控制。同时,结果显示 EV 的容量一般远大于日均消耗量,且夜间可调度时间较
长,证明 EV 存在较大充放电控制潜能。
2.1 引言
区别于传统住宅生活负荷,由于驾驶员的出行行为、充电偏好以及车辆参数的
多样性和随机性,EV 负荷在时间和空间上均表现出明显的不确定性,给 EV 接入后
的影响分析带来了极大的挑战。现有研究一般遵循“充电负荷建模-接入影响分析”
的思路对 EV 接入的影响进行分析。
充电负荷建模的从复杂程度上可以分为确定性建模 [68]-[71]和随机性建模[72]-[87]。
确定性建模方法一般直接使用智能电表或 GPS 等监测设备收集的能耗数据或出行数
据构建 EV 充电负荷。确定性方法优势是数据真实,对影响分析的支撑性强。但数据
样本有限,收集难度高,仅对特定场景适用性强,无法形成一般性的分析框架。随
机性建模方法一般先从大型数据集提取 EV 出行特征参数,然后构架 EV 负荷的生成
模型。在特征参数的选取上,不同的随机性方法根据模型的精细化程度又有所差别。
基于统计数据和特定分布的随机性方法假设用户的出行模式是固定的,难以表征 EV
负荷的空间随机性。基于出行链的随机性方法引入用户出行目的,能够表征 EV 在空
间上的转移特性。此外,部分方法将用户的行为参数进一步精细化,引入了更多社
会经济因素表征用户特征。对 EV 接入后电网影响分析主要聚焦在配网中的个体用电
24
华 中 科 技 大 学 博 士 学 位 论 文
(住宅负荷曲线)和公共设施(变压器过载,电压偏差等)。基本结论围绕配网的负
荷变化,既有定性的判断也有定量的分析,都指出了 EV 大规模接入对电网负面影响
较大,但是对 EV 智能充放电控制潜能的讨论有限。
在已有研究的基础上,本章将定量分析 EV 接入后对住宅负荷特性的影响,讨论
实施 EV 充放电控制的必要性与可行性。首先基于数据集 2017NHTS 提取电动汽车
用户出行行为的时空分布特性参数并构建 EV 在不同地点(住宅区,工作区,公共区)
的转移概率矩阵。利用构建的转移概率矩阵,基于马尔科夫链设计了高分辨率的 EV
连续行驶轨迹生成模型。然后充分考虑车辆参数、充电偏好以及充电可用性等因素
构建 EV 负荷生成模型。最后基于算例分析大规模 EV 接入对住宅负荷曲线和变压器
负载的影响,并分析不同的行驶距离、EV 模型下 EV 电池状态的变化,讨论 EV 参
与智能充放电控制的潜能。
2.2 数据集
2.2.1 数据预处理
在分析 EV 用户的基本出行模式之前,需要对数据进行预处理以删除无效数据以
及错误数据。首先选择加州地区的数据,共包含 185666 条出行记录,占全部数据的
20.1%。加州地区的数据中包含有非家庭成员作为驾驶员的出行记录,由于其出行方
式并不完全符合家庭成员的需求,去除后剩余记录 116518 条。2017NHTS 中包含了
25
华 中 科 技 大 学 博 士 学 位 论 文
步行、自行车、轻量汽车、摩托车、卡车、公交、地铁、出租车、飞机等各种出行
类型。由于用户在不同交通方式中对移动性的需求有所差异,本章假设用户在使用
电动汽车时的出行习惯与数据中的私人轻量汽车保持相似,因此只保留剩余数据中
轻量汽车的出行记录,100805 条。然后进一步对出行的时长,距离以及速度进行数
据校核,去除未登记以及无效的时长和距离记录共 122 条。数据集中并未登记出行
的平均速度,以出行距离以及出行时间对速度进行估算,删除平均速度超过 250km/h
的数据后,剩余出行记录为 100647 条,占加州出行记录总数的 54.2%。
2.2.2 数据集分析
9000
住宅数
6000
3000
0
0 1 2 3 4 5+
轻型汽车数量
图 2-1 加州地区每户轻型汽车数量分布
汽车的出行模式隐藏在大量单次的出行记录中,一次出行记录可以由出发地,
目的地,出发时间,达到时间,行驶时长以及行驶距离等因素决定。2017NHTS 中并
未直接提供单次行程的出发地与目的地,给出的记录是每次出行的任务,例如家庭
活动、工作、上学、购物、运动、访友等。根据这些具体的任务类型,本章提取出
三组抽象地点来代表汽车可能停留的位置,包括住宅(Household,H),工作区(Office,
O)以及公共场所(Public,P)。其中公共场所包含了医院、学校、购物中心等区域。
26
华 中 科 技 大 学 博 士 学 位 论 文
行驶中
公共区
工作区
住宅区
0
4 8 12 16 20 24 4
时间 (小时)
图 2-2 工作日汽车典型行驶轨迹
一次行程的出发时间和离开时间与地点和出行日类型有关。2017NHTS 中记录了
单次行程的出行日类型,分为工作日(74833 条记录)与周末(25814 条记录)。不
同出行日各地点的时间分布如图 2-3 和图 2-4 所示。可以看出,居民乘车离开住宅的
时间多分布在上午 8:00,并在晚上 17:00 左右返回住宅。同样,工作区的到达时间与
住宅区的离开时间接近,离开时间与住宅区的到达时间接近。公共区的分布则较为
分散,出行时间的不确定性较高。相比于工作日,居民在周末离开住宅、到达工作
区的时间都有推迟,并且整体上出行分散性变高,与周末居民的生活习惯相符。
0.06 0.08 0.08
住宅-到达 工作区-到达 公共区-到达
(m=17.3, s=3.8 ) 0.06 (m=10.9, s=4.3 ) 0.06 (m=12.5, s=3.9 )
概率密度
概率密度
0.04
概率密度
0.04 0.04
0.02
0.02 0.02
0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
0.1 0.1 0.08
住宅-离开 工作区-离开 公共区-离开
(m=11.7, s=4.0 ) (m=17.2, s=3.8 ) 0.06 (m=16.2, s=3.7 )
概率密度
概率密度
概率密度
0.02
0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)
图 2-3 工作日行程时间分布:(a)住宅区到达时间;(b)工作区到达时间;(c)公共区到达时间;(d)
住宅区离开时间;(e)工作区离开时间;(f)公共区离开时间
27
华 中 科 技 大 学 博 士 学 位 论 文
概率密度
概率密度
0.04 0.04
0.05
0.02 0.02
0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
0.2 0.08
0.1 工作区-离开 公共区-离开
住宅-离开
(m=9.5, s=3.2 ) 0.15 (m=16.4, s=2.7 ) 0.06 (m=15.4, s=3.7 )
概率密度
概率密度
概率密度
0.05 0.02
0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)
图 2-4 周末行程时间分布:(a)住宅区到达时间;(b)工作区到达时间;(c)公共区到达时间;(d)
住宅区离开时间;(e)工作区离开时间;(f)公共区离开时间
0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
1 1 1
住宅-周末 工作区-周末 公共区-周末
概率
概率
概率
0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)
图 2-5 居民位置分布:(a)工作日住宅区;(b)工作日工作区;(c)工作日公共区;(d)周末住宅区;
(e)周末工作区;(f)周末公共区
28
华 中 科 技 大 学 博 士 学 位 论 文
概率密度
0.04
概率密度
0.15
0.1
0.02
0.05
0 0
0 50 100 150 200 250 300 0 50 100 150 200
时间(分钟) 时间(分钟)
(a) (b)
0.1
m=55.23 , s =77.65 0.4 m=14.13 , s =30.20
概率密度
概率密度
0.3
0.05
0.2
0.1
0 0
0 100 200 300 400 500 0 50 100 150
距离(公里) 距离(公里)
(c) (d)
图 2-6 行驶时长与行驶距离分布: (a)单日行驶时长;(b)单次行程行驶时长;(c)单日行驶距离;
(d)单次行程行驶距离
2.3 EV 负荷建模
计算轨迹转移概率矩阵
计算充电决策
行 负
驶 荷
轨 曲
构建马尔科夫链模型
迹 获取用户充电偏好 线
生 生
成 成
生成连续行驶轨迹 获取电池能量变化
图 2-7 电动汽车负荷建模流程图
29
华 中 科 技 大 学 博 士 学 位 论 文
首先,基于数据集提取的行程信息设计了一个马尔科夫连模型用于生成高分辨
率的电动汽车连续行驶轨迹,即每个采样时间汽车所处的位置。行驶时长可以根据
在途中的时间获取,结合行驶速度得到相应的行驶距离。
其次,基于轨迹信息可以得到电动汽车的能量消耗信息以及充电桩可用信息。
结合当前电池荷电状态(State of Charge,SOC)以及居民的个人充电偏好可以计算
出每个时刻的充电决策,进而得到全时段电动汽车的 SOC 以及负荷曲线。
2.3.1 行驶轨迹生成
本章中使用马尔科夫链方法模拟居民驾驶电动汽车的随机行为。模型根据时间
以及日期类型(工作日,周末)产生不同的位置序列。除途中行驶状态外,假设所
有位置可以归为三类:住宅 H,办公区 O,公共区 P。马尔科夫链方法认为在每一个
离散的时间点 t,电动汽车具有一个确定的状态 i{H, O, P}。从时间 t 到 t+1,状态
d ,t
以概率 pi , j 从 i 转移到 j,其中 j{H, O, P},d 为日期类型,工作日 d=1,周末 d=2。
wk nid, ,jt,k
pd ,t
= (2.1)
i, j
k
w n d ,t
j k i , j ,k
d ,t
其中 ni , j ,k 是居民 k 在日期 d 的时间 t 从状态 i 转移到状态 j 的次数, wk 是 2017NHTS
分层抽样中对居民 k 设置的权重系数。
注意到上述状态集合中并未包含行驶中(Driving,D)这一状态。由于经预处理
的行驶记录中 H,O,P 之间的转移都需要经过 D 这一过程,因此不存在直接的 H-O,
H-P,O-P 等状态转移。然而在实际的分布中,D 持续的时间过程一般较短,且分散
性更高,因此在计算状态转移概率矩阵之前,需将行驶记录中的状态 D 并入之后的
状态中。例如,原本的 H-D-O 的轨迹将转化为 H-O。之后再从马尔科夫链生成的连
续轨迹中按照图 2-6 中的行驶时间分布抽样得到两个状态之间在途中的时间,从而实
现 H-O 向 H-D-O 的还原。
30
华 中 科 技 大 学 博 士 学 位 论 文
0.04 0.04
0.9
0.02 0.02
0.85 0 0
4 8
12 16 20 24 4 4 8
12 16 20 24 4 4 8
12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
工作-住宅(O-H) 工作-工作(O-O) 工作-公共(O-P)
0.15 0.1
1
0.1 0.95
概率
概率
概率
0.05
0.05 0.9
0 0.85 0
4 8
12 16 20 24 4 4 8
12 16 20 24 4 4 812 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)
公共-住宅(P-H) 公共-工作(P-O) 公共-公共(P-P)
0.2 0.1
1
0.15
0.95
概率
概率
概率
0.1 0.05
0.9
0.05
0 0 0.85
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(g) (h)
(i)
图 2-8 工作日状态转移概率矩阵:(a)住宅区-住宅区;(b)住宅区-工作区;(c)住宅区-公共区;(d)
工作区-住宅区;(e)工作区-工作区;(f)工作区-公共区;(g)公共区-住宅区;(h)公共区-工作区;(i)
公共区-公共区
基于以上状态转移概率矩阵以及初始位置,可以生成任意数量 EV 连续轨迹曲线。
得到 EV 的位置序列之后,按照行驶时间分布抽样每一次位置转移之间在途中的时长。
本章中采用平均行驶速度与行驶时长计算出每次行程的行驶距离。行驶距离将直接
影响电池的能量消耗,因此可以设置不同的速度参数来模拟居民不同的出行距离。
31
华 中 科 技 大 学 博 士 学 位 论 文
2.3.2 负荷曲线生成
1
pc ( soc ) = min 1 − − k ( soc − socm )
,1 (2.3)
1+ e
其中 pc(soc)是电池 SOC 为 soc 时的充电概率,socm 是曲线的 50%概率点。当 SOC=socm
时,充电概率为 50%。k 为曲线在 50%概率点的变化率,可以表征居民在 SOC 变化
时的敏感度。
1 k=0.5 1 socm=50
socm=30 k=0.1
0.7 socm=50 0.7 k=0.3
5 socm=70 5 k=0.9
概率
概率
0. 0.
5 5
0.2 0.2
5 5
0 0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
SOC(%) SOC(%)
(a) (b)
图 2-9 充电偏好变化曲线:(a) k=0.5, socm=[30, 50, 70];(b) socm=50, k=[0.1, 0.3, 0.9]
32
华 中 科 技 大 学 博 士 学 位 论 文
在电动汽车负荷建模中,可以根据用户不同的驾驶经验,对未来行程距离判断
来选择充电偏好,从而计算最终的充电决策。在充电期间,EV 电池中能量的变化如
(2.4)所示。
Et +1 = Et +c pt T (2.4)
2.3.3 模型验证
在开始分析 EV 接入对住宅负荷的影响之前,需要比较构建的模型与数据集的参
数以验证所提 EV 建模方法的有效性。
表 2-1 所提模型与数据集统计值比较
工作日(均值/标准差) 周末(均值/标准差)
参数
所提模型 数据集 均值差 所提模型 数据集 均值差
住宅区到达时间 17.3/3.2 16.8/3.3 0.5 17.3/3.7 17.3/3.8 0.0
住宅区离开时间 8.9/3.2 9.5/3.2 -0.6 10.3/3.3 11.7/4.0 -1.4
工作区到达时间 9.4/3.4 9.1/2.7 0.3 11.7/4.1 10.9/4.3 0.8
工作区离开时间 16.3/3.1 16.4/2.7 -0.1 16.8/3.9 17.2/3.8 -0.4
公共区到达时间 11.5/3.9 11.5/3.6 0.0 11.4/3.5 12.5/3.9 -1.1
公共区离开时间 15.5/4.0 15.4/3.7 0.1 15.9/3.7 16.2/3.7 -0.3
33
华 中 科 技 大 学 博 士 学 位 论 文
地图计算两地之间的最短路径,并非实际行驶距离。因此生成模型中的数据通过设
定平均行驶速度后,再结合行驶时长获得。进一步比较行程记录的出行时间分布,
如表 2-1 所示,可以看出所提模型与数据集中统计结果之间最大均值误差为周末在住
宅区的离开时间,相差 1.4 小时,其余时间误差基本在 1 小时以内。
图 2-10 中给出了所提生成模型以及 2017NHTS 数据集中居民在不同地点的分布
情况。可以看出所提模型中的分布曲线与数据集中的数据曲线趋势相同,基本重合。
这表明生成模型能够准确的模拟出电动汽车在不同地点不同日期下的出行习惯,进
而作为计算 EV 充电负荷的基础。
1 1 1
工作区-工作日 公共区-工作日
数据集 数据集
所提模型
概率
概率
概率
所提模型
概率
图 2-10 生成模型与数据集比较:(a)工作日住宅区;(b)工作日工作区;(c)工作日公共区;(d)周
末住宅区;(e)周末工作区;(f)周末公共区
2.4 影响分析
本节基于所提的负荷建模方法生成全年 EV 负荷曲线,结合住宅常规负荷研究
EV 接入后对住宅负荷的影响。住宅常规负荷取自数据集 HUE(Hourly Usage of
Energy) [163] 。充电设施主要考虑在住宅区使用建设数目较多的单相交流桩,分为
3.5kW 和 7kW 两种。电动汽车模型采用 Tesla Model 3,电池容量为 60kWh,续航里
程为 450km,即百公里耗电量为 13.3 度电。
2.4.1 对户均负荷的影响
34
华 中 科 技 大 学 博 士 学 位 论 文
4.5
4 充电功率
负荷峰值(kW)
7.0kW
3.5 3.5kW
3
2.5
2
0 0.25 0.5 0.75 1
电动汽车渗透率
图 2-11 不同充电功率下负荷峰值随电动汽车渗透率的变化
35
华 中 科 技 大 学 博 士 学 位 论 文
4 渗透率
0%
住宅负荷(kW)
3 25%
50%
2 75%
100%
1
0 4 8 12 16 20 24 4
时间(小时)
(a)
4 渗透率
0%
3 25%
住宅负荷(kW)
50%
2 75%
100%
1
0 4 8 12 16 20 24 4
时间(小时)
(b)
36
华 中 科 技 大 学 博 士 学 位 论 文
含电动汽车
2
0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)
50% 渗透率
3
无电动汽车
住宅负荷(kW)
含电动汽车
2
0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)
75% 渗透率
3 无电动汽车
住宅负荷(kW)
含电动汽车
2
0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)
100% 渗透率
3
住宅负荷(kW)
无电动汽车
含电动汽车
2
0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)
图 2-13 不同电动汽车渗透率周平均负荷曲线
37
华 中 科 技 大 学 博 士 学 位 论 文
2.4.2 对变压器负荷的影响
EV 渗透率提升带来的负荷增加会加速变压器老化,降低其使用寿命。表 2-4 和
表 2-5 中表明,在 7kW 和 3.5kW 充电功率下超变压器额定功率运行时间分别增加到
598 小时和 366 小时,增长速度如图 2-14 所示。可以看出,随着电动汽车渗透率的
提高,超变压器额定功率运行小时数呈指数上升。且当充电功率变高时,变压器超
额定功率运行时间明显变高。
38
华 中 科 技 大 学 博 士 学 位 论 文
超额定功率运行时间(小时)
600
充电功率
400 7.0kW
3.5kW
200
0
0 0.25 0.5 0.75 1
电动汽车渗透率
图 2-14 超变压器额定功率运行时间随渗透率变化曲线
25% 50
50%
400 75%
100%
0
200 20 30 40 50 60
0
0 10 20 30 40 50 60
变压器负荷 (kW)
(a)
500
3.5kW
100
400 0%
时间(小时)
25% 50
300 50%
75%
200 100%
0
20 30 40 50 60
100
0
0 10 20 30 40 50 60
变压器负荷 (kW)
(b)
定义每小时住宅总负荷与变压器额定功率之间的比值为负荷因子,表征每个小
时变压器负荷的大小。图 2-16 中给出了负荷因子在一天内的分布情况。当住宅中没
有 EV 时,所有的负荷因子都小于 1,表明此时变压器负荷在额定功率之内。当 EV
渗透率为 50%或 100%时,负荷因子分布情况显著上升。其中在 16:00-22:00 期间,
电动汽车负荷与常规负荷峰值重叠,负荷总功率增加更为明显。上述分析表明,在
39
华 中 科 技 大 学 博 士 学 位 论 文
EV 接入配网后对变压器负荷影响明显,即增加了负荷峰值,也增加了变压器超额定
值运行时间。
2
渗透率0%
负荷因子
1.5
0.5
0
4 8 12 16 20 24 4
时间(小时)
(a)
2 2
渗透率50% 渗透率50%
1.5 充电功率7kW 1.5 充电功率3.5kW
负荷因子
负荷因子
1 1
0.5 0.5
0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间(小时) 时间(小时)
(b) (c)
2 2
渗透率100% 渗透率100%
1.5 充电功率7kW 1.5 充电功率3.5kW
负荷因子
负荷因子
1 1
0.5 0.5
0 0 4
4 8 12 16 20 24 4 8 12 16 20 24 4
时间(小时) 时间(小时)
(d) (e)
2.4.3 不同充电偏好的影响
40
华 中 科 技 大 学 博 士 学 位 论 文
socm=100
15 socm=60
socm=20
10
0
4 8 12 16 20 24 4
时间(小时)
(a)
30
变压器负荷 (kW)
socm=100
socm=60
20
socm=20
10
0
4 8 12 16 20 24 4
时间(小时)
(b)
图 2-17 不同充电偏好下:(a)日均电动汽车负荷;(b)日均变压器负荷
2.4.4 不同行驶距离的影响
本例研究 EV 每日行驶距离对负荷曲线的影响。本章在构建电动汽车连续轨迹生
成模型时,单次行程的行驶距离是通过采样行驶时间后再和平均速度相乘得到的。
为了研究行驶距离的影响,本例中通过修改平均速度来调整行驶距离,速度参数分
别设设定为 30km/h,50km/h,70km/h,90km/h。此外,考虑到速度增加后百功率耗
电量会增多,本节中假设速度每增加 20km/h,百功率耗电量增加到原来的 1.1 倍。
其余设置与 2.4.2 节中相同
图 2-18 中展示了不同行驶距离下日均变压器负荷的变化曲线以及 SOC 的变化曲
线。图中结果表明随着平均速度的增加,变压器负荷逐渐上升。由于行驶轨迹以及
充电偏好未变,日均变压器负荷的形状只是向上增加,并未出现左右平移。所有电
动汽车电池的平均 SOC 如图 2-18(b)所示,当行驶距离上升时,电池 SOC 也因能量
41
华 中 科 技 大 学 博 士 学 位 论 文
10
0
4 8 12 16 20 24 4
时间(小时)
(a)
1
电池平均SoC
0.95
0.9 30km/h
50km/h
0.85 70km/h
90km/h
0.8
4 8 12 16 20 24 28
时间(小时)
(b)
2.4.5 不同车辆类型的影响
30
50km/h
70km/h
20 90km/h
10
0
4 8 12 16 20 24 28
时间(小时)
(a)
1
电池平均SoC
0.95
0.9 30km/h
50km/h
0.85 70km/h
90km/h
0.8
4 8 12 16 20 24 28
时间(小时)
(b)
42
华 中 科 技 大 学 博 士 学 位 论 文
2.5 本章小结
本章主要研究 EV 接入后在无序充电控制下对住宅负荷特性的影响,作为后续基
于 DRL 算法的车网协同控制及能量管理的研究依据。为了能够获取到任意数量的电
动汽车负荷曲线模型,首先提出了基于马尔科夫链的 EV 高分辨率连续轨迹生成模型,
其中转移概率矩阵基于对公开数据集 2017NHTS 详细统计分析后得到。在轨迹生成
模型的基础上,考虑 EV 用户的充电偏好,充电可用性等因素,进一步构建了住宅负
荷曲线生成模型。其中 EV 类型、充电桩充电功率、户均汽车数量、汽车渗透率、平
均行驶速度等参数均可灵活调整以研究不同参数设置下负荷曲线的变化。最终的影
响分析表明:
(1)对住宅负荷:EV 接入后,户均负荷的负荷功率峰值,功率平均值,年度
电量需求都会明显增加。且随着渗透率以及充电功率的提高,住宅负荷增加的更为
明显。在 100%渗透率 7kW 充电功率下,住宅耗电量增加为无 EV 的 1.694 倍,EV
耗电量占总耗电量的 41%。负荷峰值也从 2.168kW 增加到 4.323kW,变为了原来的
1.99 倍。
(2)对变压器负荷:EV 接入后,无序充电带来的负荷峰值叠加效应导致变压
器的总负荷以及超额定功率运行时间显著上升。在 7kW 充电功率下,100%EV 渗透
率时的负荷峰值为常规负荷的 3.01 倍,年超额定功率运行时间也增加为 598 个小时。
43
华 中 科 技 大 学 博 士 学 位 论 文
(3)充电偏好、行驶距离、电池参数的影响:在不同充电偏好下,EV 负荷由
于用户对 SOC 的敏感度不同而发生时间上的偏移;行驶距离则主要影响电动汽车的
能量消耗,导致日均负荷增加;由于车辆里程远大于日均行驶距离,因此不同车辆
模型对负荷曲线的影响不大。
(4)充放电控制的必要性和可行性:在无序充电模式下,EV 大量接入后会导
致单个住宅负荷以及聚合负荷(变压器负荷)峰值明显上升,在增加居民用电成本
的同时给变压器等设备带来负面的影响。因此有必要对 EV 实施智能充放电控制。同
时,由于 EV 电池容量一般远大于日常消耗,且在住宅区停留时间较长,因此具有较
大的潜能以 V2G 的形式参与到电网服务以及能量管理中来,进而在智能充放电控制
下降低对电网的冲击,提高对居民的效益。即充放电控制的实施也具有可行性。
44
华 中 科 技 大 学 博 士 学 位 论 文
3 基于深度强化学习的单个 EV 充放电控制
本章研究考虑实时电价和用户动态行为的单个电动汽车的充放电控制策略。用
户动态行为由驾驶经验、充电偏好以及充电地点等多个因素定性描述。同时引入了
综合焦虑(Aggregate anxiety,AA)的概念表征用户对充电期间不确定事件以及充
电结束后续航里程不足的担忧,将用户的充电需求从原本的单时间点变量转为了整
个充电期间的连续性分布变量,并提出了相关的数学模型以定量描述。在考虑用户
详细动态行为的基础上,本章将 EV 充放电转化为了一个未知转移概率的 MDP 模型,
提出了一种基于 DRL 算法的充放电控制策略。智能体采用 Soft Actor-Critic(SAC)
框架进行训练,能够提供连续型充放电控制决策。为提高了算法的控制性能,训练
过程结合了监督学习和强化学习的优势。最后,基于真实世界数据构建的仿真实例
验证了所提算法的在线充放电控制效果。
3.1 引言
从用户个人的角度出发,单个 EV 充放电控制的目标是在满足用户出行需求的同
时降低充电成本。来自用户动态行为和实时电价的不确定性为 EV 的充放电控制带来
了极大的挑战。根据对模型的依赖程度可以将现有研究分为模型驱动型方法[88]-[103]
和数据驱动型方法[104]-[110]。传统的模型驱动方法依赖精确的系统动态模型或者不确
定性的预测结果,通过将 EV 充放电控制转化为一个凸优化模型进而求解,对不确定
性因素的适应能力较差。同时,当系统状态发生变化时,比如用户出行计划改变、
充电需求调整时,现有方法都需要再次进行完整的迭代求解,无法获得端到端的控
制方案,泛化能力较差。相较于模型驱动型方法,数据驱动型 DRL 方法通过直接与
环境交互收集经验优化控制策略,不依赖系统模型,并且在学习完成后得到的策略
可以用于直接端到端的控制。
但现有基于 DRL 的 EV 充放电控制研究对用户个人动态行为的考虑不足,仅使
用到达时间,出发时间和离开时的能量需求等因素表征 EV 负荷的随机性。用户动态
行为的复杂化与差异化加剧了 EV 负荷在时空分布上的不确定性,导致现有 DRL 方
45
华 中 科 技 大 学 博 士 学 位 论 文
法适用性下降。
本章将首先定性分析用户动态行为对 EV 负荷的影响,包括驾驶经验,充电偏好
以及充电位置、日期,并引入综合焦虑的概念表征用户对充电结束后的续航里程不
足以及充电过程中不确定事件中断充电的担忧,将用户的充电需求从原本的单时间
点变量转为了整个充电期间的连续性分布变量。然后提供相关数学模型来定量地描
述用户的驾驶经验和总体焦虑水平。在此基础上,将考虑用户动态行为的 EV 充放电
问题转化为具有未知状态转移概率的 MDP 模型,提出了基于 DRL 算法的充放电控
制策略以适应环境中的不确定性。所提控制算法结合了监督学习与强化学习的优势,
不依赖环境的精确模型。最后基于真实世界构建的仿真分析验证了所提算法的在线
EV 充放电控制性能。
本章研究针对单个 EV 的实时智能充放电控制策略,系统模型包括考虑用户动态
行为的 EV 充放电模型以及相应的马尔科夫决策过程(MDP),其中 MDP 形式将作
为后续的 DRL 算法设计的基础。
3.2.1 单个 EV 充放电模型
本章从用户个人的角度来构建 EV 充放电模型,相较于第二章中为研究无序充电
影响而构建的模型,对用户的驾驶经验、充电偏好提供了更详细的数学描述。EV 的
运行模式包含电网到汽车(Grid-to-Vehicle, G2V)和汽车到电网(Vehicle-to-Grid,
V2G)两种形式。在 G2V 模式下,电池处于充电状态以存储能量满足用户出行需求;
在 V2G 模式下,电池则处于放电状态释放能量到电网获取收益。电池的能量变化如
(3.1)所示。
Et + c pt t pt 0
Et +1 = pt (3.1)
Et + t pt 0
d
46
华 中 科 技 大 学 博 士 学 位 论 文
(
Ec = Etd − Eta = C soctd − socta ) (3.4)
接下来,将从驾驶经验、充电偏好以及位置日期三个方面刻画 EV 用户的动态行
为。
(1)驾驶经验
用户的驾驶经验首先表现在对 EV 行驶里程的估计以及在驾驶过程中的里程焦
虑(Range Anxiety,RA)。EV 用户的基本需求是电池能量能够满足在下一次充电之
前的行驶距离。在行驶过程中,用户会担心在到达目的地之前电池电量就已经完全
耗尽。RA 就是用于表征用户对电池无法满足行驶距离的焦虑程度。车辆在离开充电
桩时保持较高的 SOC 水平能够适当缓解用户的 RA。对 EV 可行驶里程的过低估计
或者过高的 RA 会促使用户选择在充电结束时保持一个较高的 SOC 水平。这可能导
致电池储存远超实际需求的电量,并会降低用户参与 V2G 服务的热情。随着驾驶经
验的提升,用户对汽车可行驶里程的估计会更加准确,进而避免不必要的充电行为,
对行程中电池耗尽的焦虑也会得到缓解。相比于 RA 更关注 EV 在离开充电桩时储存
的能量,在充电过程中的电池能量变化同样需要考虑。由于在充电过程中可能发生
不确定事件导致行程提前且充电终止,进而使得电池电量不足。因此引入时间焦虑
(Time Anxity,TA)来刻画用户对充电期间不确定事件的担忧。当时间焦虑较高时,
用户更希望尽快充满电池来应对可能提前的行程。因此,TA 可以看做是 RA 在时间
轴上的展开,存在 TA 的充电时段可称为焦虑时段。在用户的焦虑时段使电池 SOC
47
华 中 科 技 大 学 博 士 学 位 论 文
和 k2 分别是形状参数,满足 k1[0,1],k2(-,0)(0,)。
式(3.5)形式的依据是文献[164]中对决策者偏好的建模思路。在不同形状参数下,
se(t)的分布如图 3-1 所示。图 3-1(a)表示在离开时间 td 的期望 SOC 由参数 k1 决定,即
se(td)=k1。当 k1 较大时,用户期望一个在离开时刻较高的 SOC 水平。图 3-1(b)中固定
k1=1,结果表明 se(t)曲线的变化率由参数 k2 决定。当 k2 较大时,期望 SOC 迅速上升,
并且在整个充电时段内保持一个较高的水平。区别于第二章中式(2.3)充电概率的建
模,本节中的充电偏好是 SOC 在时间轴上的分布,目的是为了定量分析用户的电量
需求,并作为后续充放电控制策略的输入。而式(2.3)则是定义已知当下 SOC 时 EV
的充电概率,目的是为了直接决定当下时刻是否选择充电。
1 1
k2=8 k1=0.95 k1=1
0.8 k1=0.85 0.8 k2=8
k1=0.75
0.6 k1=0.65 0.6 k2=3
se(t)
se(t)
k1=0.55
0.4 0.4 k2=0.01
0.2 0.2 k2=-3
k2=-8
0 0t
ta td a td
时间(小时) 时间(小时)
(a) (b)
图 3-1 不同形状参数下的期望 SOC 分布:(a)k2=0.5, k1=[0.95, 0.85, 0.75, 0.65, 0.55];(b) k1=1, k2=[8,
3, 0.01, -3, -8]
48
华 中 科 技 大 学 博 士 学 位 论 文
0.6
SoC
充电能量
0.4
0.2
0
tx td
时间(小时)
图 3-2 充电时段内的综合焦虑分布
AA = tt =t max ( se (t ) − sa (t ), 0 )
d
x
49
华 中 科 技 大 学 博 士 学 位 论 文
用户是理性的,倾向于在电价较低时充电而在电价较高的时候放电,从而降低用电
成本,并且不同用户对成本的敏感度不同。比如,成本敏感型用户可能会选择较低
的充电量以及较长的充电时间以获取更低的成本。
(3)位置日期
除了驾驶经验和充电偏好等个人因素外,用户的动态行为也受到位置和时间的
影响。在工作日,不同位置的到达时间和离开时间相对固定,因而对电量的需求也
比较确定。而在周末,行程随机性较高,不确定型事件发生的概率较大。从而,用
户的充电选择会发生变化。基于第二章 2.2.2 节的数据集分析结果以及实时电价数据
[165]
,图 3-3 中绘制了一天中电价趋势以及位置分布情况。在白天,EV 一般停靠在工
作区或者公共区,而在晚上则停放在住宅区。电价的分布曲线中表示一天中存在两
个电价峰值,即 18:00-20:00 和 6:00-8:00,与用电高峰重合以引导负荷侧响应。对于
EV 而言,在不同的位置充电需要掌握不同的电价变化趋势。在住宅区时,电价一般
先上升在下降。而在公共区或者工作区,则是先下降再上升。
1 1
电价 住宅
概率
电价
0.5 0.5
0 0
0 4 8 12 16 20 24 4 8 12 16 20 24
时间 (小时) 时间 (小时)
(a) (b)
0.4 0.4
工作区 公共区
0.3 0.3
概率
概率
0.2 0.2
0.1 0.1
0 0
0 4 8 12 16 20 24 0 4 8 12 16 20 24
时间 (小时) 时间 (小时)
(c) (d)
图 3-3 实时电价趋势(a)以及汽车停靠位置分布:(b)住宅区;(c)工作区;(d)公共区
EV 充放电控制与序贯决策问题的形式一致,可以转化为一个马尔科夫决策过程
(MDP)。MDP 模型包含五个部分,{S, A, P, R, },其中 S 代表智能体所处的环境
50
华 中 科 技 大 学 博 士 学 位 论 文
(1)状态 S
状态是智能体对环境的感知,并作为充电策略的输入。状态包括了电价信息,
用户充电偏好,电池电量以及当前时间。在时刻 t 的状态 st 表示为:
P ( st , st +1 ) = Pr ( st +1 st , at , t ) (3.9)
式(3.9)表明状态转移概率不仅与当下状态和决策相关,还受到了环境中不确定
性因素t 的影响,比如用户行为以及实时电价,以表征的用户动态行为在充电期间
51
华 中 科 技 大 学 博 士 学 位 论 文
存在变化的可能。同时,尽管长时间的电价趋势信息存在可预测性,但是具体每小
时电价依然存在一定随机性。这些环境中存在的不确定性给 EV 的充放电控制带来的
巨大的挑战,也难以被准确建模。因此,本章在 3.3 节中采用数据驱动型 DRL 方法
来构建智能充放电控制策略。
(4)即时奖励 R
即时奖励 rt 表示当环境状态在智能体做出决策 at 从状态 st 转移到 st+1 后收到的反
馈。奖励的作用是使得智能体能够感知到决策的好坏,从而调整自身的控制策略以
向更好的方向发展。因此 rt 的设计与控制目标相关,包括降低充电成本以及缓解用
户综合焦虑。假设用户的购电价格与售电价格相同[104],rt 满足:
− p t at ta t t x
rt = − p t at − x ([ socx − soct ]+ )
2
t x t td (3.10)
− d ([ socd − soct ]+ )
2
t = td
当 at>0 时,式(3.10)中(tat)表示充电成本,因为此时用户从电网购电。相应的,
52
华 中 科 技 大 学 博 士 学 位 论 文
1 1
类型 2:
0.8 成本-焦虑平衡型 0.8
充电成本
累计综合焦虑
0.6 类型1: 类型3: 0.6
焦虑敏感型 成本敏感型
0.4 0.4
0.2 0.2
0 0
100 101 102 103 104
电价敏感度 (p)
图 3-4 充电成本与综合焦虑之间的博弈
基于对充电偏好的分类,用户可以根据自身的用电类型灵活的选择相应的奖励
函数权重参数。
(5)目标函数
奖励 rt 定义了智能体做出决策后环境的即时反馈,充放电控制策略的目标则是
在此基础上找到最大化整个充电时段内奖励信号的期望值:
max J = ( st , at ) ~ ( T
t =0
t r ( st , at ) st = s, at = a ) (3.11)
下的反馈。而当 = 1 ,此时无折扣,所有时刻的反馈具有同样的重要性。一般情况
53
华 中 科 技 大 学 博 士 学 位 论 文
3.3 深度强化学习充放电控制策略
采用监督学习直接使用提前获取的最优充电决策样本训练策略网络 。在阶段二中,
首先使用训练好的策略网络初始化动作网络 ,然后采用强化学习方法不断与环境
3.3.1 SAC 算法
max J = ( st , at ) ~ ( T
t =0
t [r ( st , at ) + ( ( | st ))] ) (3.12)
均,熵值也就越大。
在 SAC 算法中,通过交替执行策略评估与策略迭代来更新策略以最大化目标函
数。同时温度因子 的更新也采用了自动熵调整的方法。
在策略评估中,Q 函数依据式(3.13)计算。
54
华 中 科 技 大 学 博 士 学 位 论 文
其中 V (st +1 ) 是状态价值函数,表示为:
V ( st ) = at ~ ( Q(s , a ) − log ( (a
t t t
st ) ) ) (3.14)
为了能够适应连续状态空间,式(3.13)中的 Q 函数一般使用神经网络参数化,表
示为 Q (st , at ) , 为神经网络参数。然后通过最小化贝尔曼残差来训练神经网络参数,
如式(3.15)所示:
1
2 ( Q ( st , at ) − (r ( st , at ) + )
2
J q ( ) = st +1 ~ V ( st +1 )) (3.15)
( st , at )~ D
的目标网络。
在策略改进中,策略的提升方向是使得状态价值函数增加。同样策略函数也需
略网络通过最小化期望 KL(Kullback-Leibler)散度来更新,如式(3.16)所示:
温度因子 在策略迭代的过程中使用式(3.17)中的自动调节方法。
其中 H 是设定的最小策略熵值。
此外,强化学习中根据动作空间的属性可以分为连续控制和离散控制。不同的
策略函数形式可以提供不同属性的控制。考虑到在现实情况中,EV 充放电速率以及
电池电量都是可以连续变化的,而且连续控制的精度要远高于离散控制。因此,在
本文中采用高斯分布作为策略网络的基本形式,如式(3.18)所示。
(a − m )
2
1
(a | s) = exp(− ) (3.18)
2s 2s
2
其中 m 和 s 分别是高斯分布的均值和标准差,均由神经网络计算得到。
55
华 中 科 技 大 学 博 士 学 位 论 文
确定性的动作值。
3.3.2 充放电控制策略
所提电动汽车充放电控制策略包括 1)监督学习阶段用于策略网络的预训练;2)
强化学习阶段用于和环境交互以实现策略改进。算法结构如图 3-5 所示。
阶段1:监督学习
0
电价&用户动态行为 数据集D
参数训练
网络初始化
st+1
q (st,at) at
q 经验池 B rt
更新 更新
Jq() J() J ()
更新
阶段2:强化学习
图 3-5 所提算法结构图
MeanFC(1)
m Concat Relu1 Relu3 Linear
Relu1 Relu4
st Q
st FC1(128) FC4(128) s FC1(128) FC4(1)
StdFC(1) at
(a) (b)
图 3-6 神经网络结构:(a)策略网络(动作网络);(b)评价网络
(1)监督学习阶段
56
华 中 科 技 大 学 博 士 学 位 论 文
自身对弈过程中发现了更多棋谱中不曾记载的策略,即棋谱数据作为先验知识限制
了学习的性能,而先验知识是经验性的并不是最优的。与棋谱学习不同,EV 充放电
控制问题中的先验知识可以是最优的结果。假设实时电价t,用户行为(tx, td),充电
偏好(socx, socd)等不确定性信息都是已知的,EV 充放电控制可以转化为一个确定性
的优化问题并使用求解器得到最优的结果。因此为了收集数据对 进行预训练,在
Descent,MBGD)从数据集 D 中采样并训练神经网络 。
(2)强化学习阶段
在监督学习阶段虽然可以使用最优数据训练得到一个可以提供控制决策的策略
网络,但其控制性能由于缺乏对环境的探索而受限。为了进一步的探索环境以改善
评价网络的输入是状态动作对(st, at),经过拼接(Concat)后输入到神经网络,最后
经过线性层(Linear)得到 Q 值。此外,SAC 采用了双评价网络结构来减少对 Q 值
的过高估计。目标网络和经验重放机制也应用在 SAC 的训练过程中。
所提基于深度强化学习的充放电控制策略算法的主要流程列在表 3-1 中。在强化
学习训练过程中,算法交替的执行数据收集与参数更新过程。在初始化动作网络 后,
动作网络将决策输入到环境中得到下一个状态以及即时反馈,同时将数据收集并存
储到经验池 B 中。然后基于经验池中的数据,采用 MBGD 来训练神经网络。由于使
用了双评价网络结构,神经网络 通过最小化式(3.19)中的残差来更新。
1 2
J q ( i ) = ( st , at )~ D 2 ( Q ( st , at ) − Qmin )
i
(3.19)
57
华 中 科 技 大 学 博 士 学 位 论 文
其中 Qi 是目标评价网络。
对于动作网络 和温度因子,更新方式如(3.16)-(3.17)所示。最终充电决策由动
作网络 生成。
表 3-1 基于深度强化学习的电动汽车充放电控制策略
算法: 基于深度强化学习的电动汽车充放电控制策略
1: 输入:神经网络参数 , , 1, 2
监督学习阶段:
2: 收集训练数据集 D
3: 随机初始化策略网络 .
4: 对于批次 i=1, 2…3000
5: 从 D 中采样 128 个状态动作对(st,at)
6: 通过最小化最优动作和输出之间的均方差来更新神经网络参数
7: 结束
强化学习阶段:
8: 使用策略网络初始化动作网络
9: 随机初始化评价网络 Q1和 Q2.
10: 分别使用评价网络 Q1和 Q2 初始化目标评价网络 Q 1 和 Q 2
11: 初始化一个空的经验池 B.
12: 对于充电时段 i= 1, 2…1500
13: 对于充电时刻 j=1,2…
14: 动作网络根据当下状态 st 得到充电决策 at
15: 执行决策 at 转移到下一个状态 st+1 并获得及时奖励 rt
16: 储存数据{st, at, rt, st+1}到经验池 B.
17: 结束
18: 对于梯度更新次数 i=1,2…:
19: 更新评价网络参数
20: 更新动作网络参数
21: 更新温度因子
22: 更新目标评价网络参数
23: 结束
24: 结束
25: 输出: , 1, 2
58
华 中 科 技 大 学 博 士 学 位 论 文
3.4 仿真分析
3.4.1 仿真设置
EV 充放电环境中的实时电价以及用户行为都来源于真实世界数据。每小时电价
数据取自加州独立系统运营商(Independent System Operator,ISO)2019 年 7 月 1
日至 2020 年 6 月 31 日采集的信息[165]。其中每个月前 20 天的数据用于构建训练集,
后 10 天的数据用于测试集验证控制性能。为了确定状态中电价的序列长度 n,对电
价数据进行了自回归分析,如图 3-7 所示。结果表明电价序列数据存在逐渐衰减的周
期相关性,不同日期相同时段的电价相关性较高。峰值变化显示间隔周期为 24 小时,
与实际经验相符。因此,本章中选择过去 24 个小时的电价序列作为状态量(n=24)
用于智能体感知电价趋势。
1
自回归系数
0.8
0.6
0.4
0.2
0 24 48 72 96
滞后时间(小时)
图 3-7 实时电价自回归分析
用户的出行时间,包括出发时间,离开时间,出行位置等数据与第二章相同,
取自 2017NHTS 数据集。出行时间分布如图 2-3 和图 2-4 所示。为了适应不同的行驶
情况,假设电动汽车每次达到充电桩时电池 SOC 满足正态分布 N(0.5,0.12),限幅为
[0.2,0.8]。为了模拟不同用户的驾驶经验和充电偏好,期望 SOC 曲线的形状参数 k1
和 k2 分别采样自分布 N(0.9, 0.12)和 N(9, 12),限幅分别为[0.85, 0.95]和[6,12]。焦虑时
段的长度从离开时间向前计数,满足均匀分布 U[0,4]。此外,电池容量被归一化以
适应不同类型的电动汽车,充放电功率的上下限为容量的 20%。充放电效率系数均
设置为 0.98。基于图 3-4 中用户充电偏好的定量分析,设置用户为焦虑敏感型,奖惩
函数系数设定为p=7,x =17,d=35。
所提控制算法中的神经网络结构以及每层神经元个数如图 3-6 所示。在监督学习
阶段,学习率设置为 10-3,训练次数设置为 3000。在强化学习阶段,SAC 框架下动
59
华 中 科 技 大 学 博 士 学 位 论 文
(
aa = AA / ttd=t−1 socx + socd
x
)
(
ta = TA / t =t x socx + socd
td −1
) (3.21)
(
ra = RA / td=t x socx + socd
t −1
)
越大的剩余焦虑比例表示算法的焦虑缓解效果越差。
为了验证所提算法的性能,仿真分析中与以下方法进行了比较:
1)完全信息优化(Perfect Information Optimum,PIO):PIO 假设未来的电价
信息,用户的动态行为等充电环境中的不确定性都是已知的,然后将 EV 充放电决策
转化为确定性优化模型,并使用求解器 Gurobi 获取最优解。PIO 算法可以离线的获
得最优控制决策,在本章中作为所有算法的理想上限。在实际中由于缺乏不确定信
息,PIO 算法并无法直接应用。
2)基于 LSTM 的预测控制(Model Predictive Control with LSTM, MPC-LSTM):
本方法中使用长短时记忆(Long Short-Term Memory, LSTM)构建电价预测模型,并
基于预测结果使用 PIO 方法进行最优决策求解。LSTM 网络的输入也是过去 24 个小
时的电价序列。
3)模糊逻辑控制(Fuzzy Logic Control, FLC):FLC 是一种模仿人脑对不确定
性概念的判断推理方法,包括输入变量的模糊化,建立模糊规则并进行模糊推理以
及模糊变量到确切输出的解模糊等过程。本节中将电价、时间以及 SOC 作为输入量,
将充电功率作为决策量设计 FLC 算法。
4)双深度 DQN 算法(Double DQN, DDQN):DDQN 算法的动作空间是离散的,
充电速率离散化为 7 个等级,分别是[-0.2, -0.13, -0.067, 0, 0.067, 0.13, 0.2]。此外,
DDQN 的 Q 网络结构与 SAC 中评价网络架构相似。
5)双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy
60
华 中 科 技 大 学 博 士 学 位 论 文
3.4.2 算法训练效果
图 3-8 中给出了所提算法在监督学习阶段以及强化学习阶段的训练效果,浅色阴
影区和深色实线分别表示训练过程中目标的实际值和平均值。监督学习阶段,算法
了最优充放电决策。为了避免过拟合,在监督学习阶段使用的最优数据并未用于初
索了更多从真实世界数据分布中抽样的实时电价以及用户动态行为,训练效果如图
3-8(b)-(d)所示。为了更直观的展示所提控制算法的充电成本降低效果以及用户焦虑
缓解效果,图 3-8(b)-(d)分别给出了在训练过程中总奖励,成本奖励以及焦虑奖励的
变化曲线。由于训练样本的不同,图中浅色阴影区域显示的实际奖励在训练过程中
一直存在上下抖动,但深色实线代表的整体平均值随着训练次数的增加逐渐上升且
趋于稳定。这表明所提算法能够通过与环境交互学习到一个稳定的策略。
61
华 中 科 技 大 学 博 士 学 位 论 文
(a) 8
损失函数值
6
4 监督学习损失函数
2
0
0 500 1000 1500 2000 2500 3000
训练次数
(b)
0
总奖励
-100 强化学习总奖励
-200
0 500 1000 1500
训练次数
50
(c)
成本奖励
0
强化学习成本奖励
-50
-100
0 500 1000 1500
训练次数
(d) 0
焦虑奖励
-50 强化学习焦虑奖励
-100
0 500 1000 1500
训练次数
图 3-8 所提算法训练效果:(a)监督学习阶段损失函数变化;(b)强化学习阶段总奖励;(c)充电成
本奖励;(d)综合焦虑奖励
3.4.3 连续实时充放电控制性能
为了验证所提算法的连续充放电控制性能,本例中构造了一辆 EV 连续一周的行
程记录。在工作日,用户上午从住宅出发到达办公区,下午从办公区出发回到住宅。
在周末,用户白天的活动场所则是公共区。实时电价选自 11 月中连续一周的数据。
每次行程的出发时间,到达时间,焦虑时间以及途中驾驶时间都存在差异以模拟用
户动态的出行行为。实际中,EV 在行驶途中消耗的能量可以通过车辆的百公里耗电
来计算。但本例为了能够更有效的验证算法性能,假设电动汽车每小时消耗 20%的
能量以实现较大程度的 SOC 变化。为了验证算法对各时段实时电价的适应性,本例
假设在 EV 在任何位置停留时都可以充放电。最终基于 3.4.2 节中训练的智能体做出
的充放电决策如图 3-9 所示。其中,不同位置的充放电决策由不同颜色标注。图 3-9(a)
中的充放电决策表明,在不同充电位置,智能体都会选择在电价较低时充电,而在
62
华 中 科 技 大 学 博 士 学 位 论 文
电价较高时放电。这些结果表明所提算法能够在动态电价和不同位置中学习到降低
充电成本,增加 V2G 收益的策略。图 3-9(b)展示了 7 天 15 个充电时段的 SOC 变化
曲线,可以看出在临近出发的焦虑时段,电动汽车电池会保持在一个较高的 SOC 水
平以降低用户时间焦虑。而在出发时刻,EV 电池基本充满来降低里程焦虑。电池
SOC 根据电价变化以及能量需求做出调整以充分发挥 EV 的控制潜能,在部分时段
可以充放电至 SOC=1 或 SOC=0(本文所设上下限)。在实际控制中充放电上下限可
以灵活设置以适应不同的用户特性。整个一周中剩余综合焦虑比例aa 为 3.19%,其
中剩余时间焦虑比例ta 为 1.40%,剩余里程焦虑ra 比例为 1.79%。这表明用户的综
合焦虑得到了极大的缓解。以上结果表明,所提方法可以学习到同时降低成本和缓
解焦虑的电动汽车充放电决策。
驾驶途中 1
0.3 住宅 工作区 公共区
0.2
充放电速率
动态电价
0.1
0.5
0
-0.1
-0.2 0
0 20 40 60 80 100 120 140 160 180
时间(小时)
(a)
住宅 工作区 公共区 驾驶途中
1
SOC
0.5
0
0 20 40 60 80 100 120 140 160 180
时间(小时)
(b)
图 3-9 连续时间下所提算法控制性能:(a)充放电速率;(b)SOC 变化
3.4.4 不同焦虑容忍度下控制性能
本例中以时间焦虑容忍度为变量,进一步验证所提算法在不同 EV 用户动态行为
下的表现。根据 3.2.1 节中分析,当用户的时间焦虑较大时,更希望电池在焦虑时段
内保持一个较高的 SOC 水平。为了模拟不同的时间焦虑程度,本例中设计了五个级
别的焦虑容忍度,L1 到 L5,x 分别设定为[0, 2, 4, 17, 20]。其中 L1 代表最高的焦虑
容忍度,此时用户不担心不确定性事件的发生,奖励函数中有关时间焦虑的部分权
重系数x 为最低。即 L1 型用户更关注充电成本以及里程焦虑。而 L5 则代表最低的
63
华 中 科 技 大 学 博 士 学 位 论 文
1
L1
累计时间焦虑
L2
L3
0.5 L4
L5
0
0 50 100 150 200 250 300
样本数
(a)
1
焦虑时段SOC分布
0.8
0.6
L1 L2 L3 L4 L5
时间焦虑容忍度
(b)
64
华 中 科 技 大 学 博 士 学 位 论 文
动态电价
充放电速率
动态电价
充放电速率
0.1 0.1
0 0.5 0 0.5
-0.1 -0.1
-0.2 0 -0.2
0 10 20 30 40 50 60 0 10 20 30 40 50 60
时间(小时) 时间(小时)
(a) (b)
1 1
SoC
SoC
0.5 0.5
0 0
0 10 20 30 40 50 60 0 10 20 30 40 50 60
时间(小时) 时间(小时)
(c) (d)
3.4.5 性能比较
65
华 中 科 技 大 学 博 士 学 位 论 文
6000
4500 PIO MPC-LSTM SL
5000 PPO Duel-DQN TD3
FLC SAC
4000 3500
SL-SAC
累计奖励
3000 2500
280 290 300
2000
1000
0
0 50 100 150 200 250 300
图 3-12 不同控制算法的累计奖励
表 3-2 不同控制算法的累计奖励
累计奖励
算法
总奖励 成本奖励 焦虑奖励
PIO 5358.22 5621.04 -262.82
MPC-LSTM 3291.71 3521.71 -229.99
FLC 1118.58 1500.75 -382.16
SL 3529.71 5545.77 -2016.06
PPO 2789.02 3283.23 -494.21
DDQN 3629.29 4669.80 -1040.51
TD3 3875.72 4010.44 -134.72
SAC 4049.52 4567.49 -517.97
所提算法 4296.26 4648.04 -351.78
3.4.6 超参数影响
本例中研究算法中超参数对控制性能的影响,选取的超参数包括折扣因子以及
学习率 lr。图 3-13(a)中给出了在不同折扣因子下算法的训练效果。当=0.99 或 0.90
时,奖励曲线基本重叠,此时训练效果优于其他折扣因子。并且当=0.99 时收敛速
度稍快。当=0.70 或=0.50 时,智能体更多关注当下奖惩,训练效果变差。图 3-13(b)
中给出了在不同学习率下的训练效果。结果表明,当学习率过大时,lr=(10-2, 10-1, 10-1),
由于神经网络权值更新幅度较大,算法训练效果明显变差。而过小的学习率,lr=(10-5,
10-4, 10-4),则会导致收敛速度变慢。结果表明,当学习率适中时,lr=(10-3, 10-2, 10-2),
训练效果最好。
66
华 中 科 技 大 学 博 士 学 位 论 文
20
-20
奖励
-60
=0.99 =0.90 =0.70 =0.50
-100
0 500 训练次数 1000 1500
(a)
20
-20
奖励
lr = lr a, lrc, lr
-60 310-5,310-4,310-4 10-4,10-3,10-3
-3 -2
10 ,10 ,10 -2
10-2,10-1,10-1
-100
0 500 1000 1500
训练次数
(b)
3.5 本章小结
本章主要研究针对单个 EV 的智能充放电控制,控制目标是实现在降低充电成本
的同时缓解用户的综合焦虑。首先将考虑用户动态行为的 EV 充放电问题转化为具有
未知状态转移概率的 MDP 模型。然后为了适应环境中的不确定性,提出了基于深度
DRL 算法的充放电控制策略。主要结论有:
(1)在构建电动汽车充放电环境时考虑了驾驶经验,充电偏好以及充电地点等
因素以模拟用户动态的驾驶行为和充电需求。为描述用户对电池行驶里程和充电过
程中不确定事件的担忧,引入了总体焦虑的概念,将用户的充电需求从原本的单时
间点变量转为了整个充电期间的连续性分布变量,并且提供了数学模型来定量地描
述驾驶员的经验和总体焦虑水平。
(2)所提控制算法结合了监督学习与强化学习的优势,不依赖环境的精确模型。
最终的充放电控制策略通过与环境的交互来进行优化。同时,为了获得高精度的控
制效果,强化学习阶段采用 SAC 训练框架以提供连续动作空间的充放电决策。
(3)基于真实数据构建的仿真实例表明,所提算法能够适应动态的实时电价以
及用户充电需求,在满足充电需求的同时降低了充电成本,控制性能相较于对比方
法也更为出色。
67
华 中 科 技 大 学 博 士 学 位 论 文
4 基于多智能体深度强化学习的 EV 集群协调充放电控制
第二章中影响分析表明大规模 EV 接入配网后产生的负荷叠加效应会加剧变压器
过载程度和过载时间。为了降低 EV 集群充放电对变压器的影响,本章在第三章单个
EV 充放电控制的基础上将研究对象扩展到 EV 集群,并提出了一种基于多智能体深度
强化学习(MADRL)的协调充放电控制策略。协调充放电环境中考虑了来自实时电价,
常规生活负荷以及用户动态行为的不确定性,并将协调控制问题表述成转移概率未
知的马尔科夫博弈(MG)。所提 MADRL 算法中的每个智能体都包含一个集体策略模型
和一个独立学习器。集体策略模型用于估计环境中其他智能体的联合控制策略,独
立学习器则用于和环境交互学习自身的充放电策略。此外,所提算法仅利用本地观
察量进行训练,在结构上完全分散,具有良好的扩展性和隐私保护性能。基于真实
世界数据构建的仿真验证了所提方法良好的在线协调控制性能。
4.1 引言
第二章中对 EV 接入配网后的影响分析表明用户在住宅区出行规律相似,夜间
EV 充放电时间重合度较高。因此住宅区大量 EV 无序充电带来的负荷叠加效应会加
剧变压器负荷峰值,导致变压器超额定功率运行时间显著上升。长时间过载运行会
引发变压器过热,降低运行寿命[77]-[78]。为了降低对变压器维修扩容的成本,EV 集
群的协调控制尤为关键。与第三章中仅针对 EV 个体的充放电控制不同,本章在满足
EV 用户基本需求的同时,进一步考虑了 EV 集群内充放电决策的协调配合以降低 EV
集群负荷对配网变压器的影响。
现有 EV 集群充放电控制根据模型假设和通信机制可以分为:1)集中式模型驱
动方法[111]-[115];2)分布式模型驱动方法[117]-[125];3)集中式数据驱动方法[126]-[128];4)
分布式数据驱动方法[129]。由于 EV 集群中各个用户的出行特性、用电偏好、车辆参
数等因素的多样性与差异性,EV 集群充放电环境比单个 EV 充放电环境更为复杂,
不确定性变量更多。同时 EV 集群充放电的状态变量和控制决策数量更多,对可扩展
性和实时控制的要求更高。这都导致模型驱动型方法和集中式数据驱动方法的适用
68
华 中 科 技 大 学 博 士 学 位 论 文
性降低。目前应用于 EV 集群的分布式数据驱动方法较少,文献[129]提出的协作算
法使用 Q-learning 进行训练,每个智能体在维护自身的“自私”Q-Table 外,还通过
通信和系统中所有节点建立了“协作”Q-Table。当系统中 EV 数量增多时,算法需
要更新的 Q-Table 数量将会指数式的增长,无法保障算法的可扩展性。
本章针对 EV 集群控制,提出了一种基于 MADRL 算法的协调充放电控制策略。
相较于第三章中的研究,本章将研究对象从单个 EV 扩展到 EV 集群,考虑了 EV 集
群负荷的叠加效应对变压器的影响;同时将控制算法从单智能体 DRL 扩展到多智能
体 DRL 算法,并针对多智能体环境中各个智能体策略动态变化的特点做出了改进,
提出了包含独立学习器与集体策略模型的协调控制算法。所提算法在结构是完全分
散的,仅依赖本地可观测信息实施控制决策,在保护用户隐私的同时具有高度的可
扩展性。最后基于真实世界数据构建的仿真实例从在线控制以及计算复杂度等方面
验证了所提算法的协调充放电性能和可扩展性。
4.2 EV 集群模型
4.2.1 EV 集群协调充放电模型
电力供应 变压器 住宅 1 住宅 2 住宅 N
图 4-1 电动汽车集群控制模型
69
华 中 科 技 大 学 博 士 学 位 论 文
住宅在物理层通过电力线路连接至变压器后与电力供应商实现能量交互。在虚拟层,
住宅用户通过通讯链路接收在配网中公开的实时电价信息以及变压器负荷信息来制
定本地电动汽车的充放电决策。
EV 集群充放电控制同样可以看做是一个序贯决策问题,在时间 t,住宅 i 中的
智能体观测本地环境信息 oi,t,包括本地 EV 状态、住宅常规负荷以及公共的实时电
价变化以及变压器负载。根据本地观测量 oi,t,智能体 i 做出 EV 充放电决策 ai,t,随
后本地 EV 电池储存能量发生变化。在所有智能体的联合充放电决策(a1,t, a2,t, a3,t…)
以及住宅常规负荷的共同作用下,变压器负载发生改变。此时,集群充放电环境转
移到下一个状态。出于隐私保护的考虑,在整个决策过程中本地住宅智能体仅依赖
本地可观测信息,并不需要其他住宅的私有信息,比如 EV 状态以及常规负荷功率。
同时,本章主要关注受到变压器容量限制的 EV 协调充放电问题,仅考虑 EV 在住宅
区充电时的控制。此外假设每户住宅有且仅有一辆 EV,其他生活负荷不可控,功耗
信息从数据集[163]中获取。
4.2.2 EV 集群协调充放电模型的 MG 形式
如下:
(1)环境状态 S
系统环境状态 S 是所有智能体本地观测量 oi,t 的联合值。t 时刻状态 st 满足 st=(o1,t,
o2,t, …, oN,t)。本地观测量中包含了公共信息和本地信息两部分,定义如下:
70
华 中 科 技 大 学 博 士 学 位 论 文
实时电价信息由电力供应商提供,作为公共信息在所有住宅之间共享,而住宅
负荷信息和 EV 状态则是私有信息。与第三章相同,每辆电动汽车的出行时间相互独
立,并且期望电量 ei,t 由自身驾驶经验,充电偏好等因素决定。与第三章相比,本章
中为了突出主要控制目标简化了用户充电偏好设计,仅保留了里程焦虑。
(2)联合动作集合 A
在 EV 集群充放电环境中的动作集合包含了所有 EV 的充放电决策,即在 t 时刻
的联合动作为 at=(a1,t, a2,t, …, aN,t)。在本章中,单个 EV 充放电功率设置与第三章相
同,包含了 V2G 和 G2V 两种模式,且满足式(3.8)中的上下限约束。
(3)状态转移概率 P
与单个 EV 充放电控制不同,EV 集群充放电环境中环境状态转移不仅受到所有
住宅联合充电决策的影响,还受许多随机因素影响,包括实时电价,住宅常规负荷
以及用户的动态行为,因此很难得到状态转移概率的精确模型。为了应对环境中的
不确定性,本章继续基于数据驱动的多智能体 DRL 算法设计 EV 集群协调控制策略。
(4)奖励函数 R
EV 集群充放电环境中,每个智能体与环境的交互过程中仅能得到与自身信息相
关的奖励 ri,t。奖励与控制目标相关,包括 1)降低充电成本,2)缓解里程焦虑,3)
避免变压器过载。
EV 的充电成本可以在本地由实时电价数据与充放电决策直接获取,如式(4.2)所
示。
rra ,i ,t = − ([ei ,d − ei ,t ]+ )
2
t = ti ,d (4.3)
+
其中 [] = max(,0) 。
71
华 中 科 技 大 学 博 士 学 位 论 文
式(4.2)-(4.3)中与充电成本和用户焦虑相关的奖励信息均可以在根据本地观测量
以及充放电决策计算得到,与其他智能体决策无关。而变压器负载则是有所有住宅
的常规负荷与电动汽车负荷共同叠加的结果。与文献[129]和[160]相同,本章对配网
中变压器和住宅的交互做出以下假设:
所有住宅通过变压器和电力供应商进行能量交互,因此可以通过变压器上安装
的硬件设施或配网运营商计算得到所有住宅的实时电力消耗。然后通过已构建的通
信设施将变压器负荷传递给各个住宅的智能体。即变压器负荷信息与实时电价信息
同样当做住宅区内共享的公共信息。在此假设下,仅总负荷信息被共享,每个住宅
的私有电量消耗信息并未传递给其他住宅。
基于以上假设,每个智能体可以根据变压器负荷计算得到和变压器过载相关的
奖励信号,如式(4.4)所示。
pi ,t
− ([abs( pttf ) − ct ]) 2 , if abs ( pttf ) ct
ro ,i ,t = pttf min{ti ,a } t max{ti , d } (4.4)
0, else
ct 是变压器在时间 t 的可用容量。
式(4.4)表示,当变压器总负荷小于变压器容量时奖励为零。当出现变压器过载
时,奖励为负作为对当下充放电决策的惩罚。同时变压器负载惩罚按照住宅电力消
耗进行分配以保证各个住宅的用电公平性。
结合以上三类奖励信号,可以得到每一个智能体 i 在时刻 t 的总奖励为:
其中p,ra,和o 分别是成本奖励、焦虑奖励以及变压器负荷奖励的权重系数。三个
系数均为非负值。
与第三章中的分析相同,EV 集群充放电控制中的多个控制目标之间存在博弈,
由式(4.5)中各奖励的权重系数决定。在实际应用中,用户会根据自身的充电偏好以
及行程安排等个人因素选择不同的权重系数组合。为了方便实际中的权重系数的确
定,本节将进一步定量的描述权重系数与控制目标之间的关系。假设所有不确定信
72
华 中 科 技 大 学 博 士 学 位 论 文
息是已知的,集群充放电模型可以转化为一个确定性优化问题。由此得到的控制目
标随权重系数o 的变化如图 4-2 所示。其中用户满意度定义为成本降低以及焦虑缓解
带来的奖励之和。图中结果显示,随着变压器负载相关的权重系数的增加,用户满
意度逐渐降低而变压器负载奖励逐渐升高。基于此,用户可以定量的选择不同的权
重系数组合。
1 0
变压器负荷奖励
用户满意度奖励
0.5 成本奖励+焦虑奖励
变压器负载降低奖励
0 -0.5
-0.5
-1 -1
-1 0 1 2
10 10 10 10
o
图 4-2 控制目标随不同权重系数o 的变化曲线
4.3 多智能体深度强化学习集群协调控制策略
4.3.1 多智能体强化学习
与传统单智能体深度强化学习相比,MADRL 主要应用在具有多个自主智能体交
互的序贯决策问题中。由于所有智能体都通过与共享的外部环境交互来收集收据并
训练自身的控制策略,因此学习过程变得更为复杂。从单智能体学习到多智能体学
习的演变中,自主学习(Independent Leaners,ILs)方法,比如独立 Q 学习(Independent
Q-Learning),是最为直接的方法。ILs 中每个智能体都将其他智能体视为环境的一部
分,进而在多智能体环境中直接应用单智能体强化学习方法。虽然可能带来非平稳
性问题,但是实验中 ILs 经常取得较好的控制效果,并且具有较高的可扩展性。为了
解决多智能体交互带来的非平稳性问题,多智能体深度确定性策略梯度方法
(MADDPG)采用了集中式训练与分散式执行的框架(CTDE)。在训练过程中,每
73
华 中 科 技 大 学 博 士 学 位 论 文
个智能体的评价网络都可以获得全局信息。但是集中式训练方法仅在小规模控制问
题上有效,可扩展性受到了限制。此外的分布式 MADRL 算法则依赖各个智能体之
间的信息交互,对通信网络的传输能力要求较高。
4.3.2 集群协调充放电控制策略
at
智能体 i
实时电价 集体策略模型 i êi,t-1 ôi,t-1 动作网络 i ai,t
at
Q-value
负荷信息 oi,t-1 a{-i},t
评价网络 i
经验池D1,i 经验池D2,i
环境 智能体{-i}
自主学习器 i
o{-i},t-1 t collective
ei,t ôi,t-1 ai,t ri,t ôi,t
74
华 中 科 技 大 学 博 士 学 位 论 文
ˆ i ,t 表示智能体 i 对环境中所有其他智能体的电力消耗总和的评估。
其中 p
4.2.2 节中假设变压器负荷,即所有住宅总负荷,可以通过变压器上安装的设备
或配网运营商计算后传递到各个智能体。因此,每个智能体都可以根据得到的总负
荷与本地负荷计算其他智能体处的电力消耗总和,如式(4.7)所示。
picollective
,t = pttf − piev,t − li ,t (4.7)
ev
其中 pi ,t 和 li ,t 分别是智能体 i 处的 EV 负荷和住宅常规负荷。
和式(4.7)中得到的历史电力消耗数据进行训练更新。并且在训练过程中仅用到了本
地的电量消耗数据和公共信息,并不依赖其他住宅的私有信息。
(2)自主学习器(SAC-IL)
每个智能体的自主学习器用于和环境交互生成数据并学习协调充放电控制策略。
网络输出充放电决策 ai ,t ,环境在所有智能体的充放电决策以及不确定因素的影响下
进入下一个状态 st +1 ,同时反馈给每个智能体相应的奖励信息。通过与环境交互,每
示。训练中需要两个经验池储存与环境交互产生的数据。为了训练集体策略网络 Ps i ,
75
华 中 科 技 大 学 博 士 学 位 论 文
交互中动态的执行。对于每一个智能体,首先训练集体策略网络 Ps i ,然后使用经训
的清空以保证 Ps i 能够保持对最新控制策略的评估。
76
华 中 科 技 大 学 博 士 学 位 论 文
4.4 仿真分析
4.4.1 仿真设置
EV 集群充放电环境同样使用真实世界数据构建,包括实时电价,住宅常规负荷
以及电动汽车在住宅区的出行时间。实时电价数据同样自取加州 ISO,从 2019 年 7
月 1 日开始延续 12 个月[165]。每个月前 20 天的数据作为训练数据,后 10 天用于验
证算法性能。根据电价数据的自回归分析选择过去 24 个小时的电价信息作为环境观
测量。住宅常规负荷数据选择数据集 HUE[163]。HUE 中记录了 28 个住宅 1-3 年的电
力消耗数据。为了匹配实时电价序列的长度,选择每个住宅最近一年的负荷记录构
成数据集。训练数据与验证数据的划分方式与电价数据相同。本章中仅考虑用户在
住宅区的到达时间与出发时间。基于 2017NHTS 数据集中的统计结果,得到电动汽
车的到达时间和出发时间分别满足正态分布 N(16.8, 3.32)和 N(9.5, 3.22),限幅分别为
[16, 20]和[6, 11]。为了更充分的研究所提算法的协调充放电性能,假设电动汽车在下
午返回住宅区时电量 SOC 较低,采样自分布 N(0.15,0.12),限幅为[0.0, 0.3]。同时在
出发时的期望 SOC 分布为 N(0.925,0.12),限幅为[0.85, 1]。基于以上电价及负荷的真
实数据和用户出行规律的统计分布采样构成所提算法的训练数据集和测试数据集。
EV 采用微型车模型,电池容量为 24kWh,最大充放电速率设定为容量的 20%,
即 4.8kW。变压器容量是构成充放电环境的重要因素,一般与配网内住宅数量相关。
为了验证所提算法在不同充放电环境中协调控制的表现,设计了如下两种环境类型:
1)紧凑型充放电环境:在该类型环境中,变压器容量设定为 3.36NkVA,其中 N
为连接到变压器的住宅数量。此时,配网内 EV 集群在无协调控制下将会频繁造成变
压器过载的现象。
2)宽松型充放电环境:该类型环境作为紧凑型环境的对比,变压器容量不设限。
即所有 EV 均保持最大充放电功率时依然不会引发变压器过载。
以上有关 EV 出行参数、电池参数以及充放电环境的设置均可以灵活调整以适应
实际的 EV 控制环境。
同时,为了验证所提算法的性能,仿真分析中与以下方法进行了对比:
77
华 中 科 技 大 学 博 士 学 位 论 文
4.4.2 算法训练效果
假设三户住宅连在在同一个变压器上,变压器容量依据紧凑型充放电环境设置,
78
华 中 科 技 大 学 博 士 学 位 论 文
0
奖励函数值
-5
-2 -2 -2
图 4-4(a)中显示在训练初始阶段,焦虑奖励较低,而变压器负荷奖励和成本奖励
较高。这是因为此时的智能体对充放电策略的学习还不够充分,EV 充电电量较少无
法满足用户的出行需求。因此里程焦虑较高,相应的奖励较低。由于充电较少也使
得充电成本较低,总负荷较低,因此和成本以及变压器负荷相关的奖励较高。随着
训练的持续进行,自主学习器通过与环境的交互不断改善协调充放电控制策略。在
2000 次训练之后,总奖励信息以及各个分量均稳定在一个较高的奖励值。图 4-4(b)-(d)
中给出了各个智能体的训练效果,可以看出所有智能体在训练过程中均独立实现了
控制策略的改进。
除此之外,图 4-5 中结果显示各智能体中集体策略模型在训练过程中的损失函数
值随着训练次数的增加逐渐减小,并收敛在一个较小的值。这表明引入的集体策略
模型能够准确的估计其他住宅的总电力消耗,从而实现对其他智能体的联合控制策
略的有效评估。
79
华 中 科 技 大 学 博 士 学 位 论 文
2.0
总损失函数值
1.5
损失函数值
1.0
0.5
0
0 1000 2000 3000 4000 5000 6000
训练次数
(a)
1 1 1
智能体#1 智能体#2 智能体#3
损失函数值
0 0 0
0 2000 4000 6000 0 2000 4000 6000 0 2000 4000 6000
训练次数 训练次数 训练次数
(b) (c) (d)
4.4.3 EV 集群实时协调控制性能
1.8
SoC
0 0.05 0.5
-1.8
-3.6 0 0
0 24 48 72 96 120 0 24 48 72 96 120
时间(小时) 时间(小时)
电动汽车#2 (a) 电动汽车#2 (b)
3.6 0.1 1
实时电价 ($/kWh)
充放电功率 (kW)
1.8
SoC
0 0.05 0.5
-1.8
-3.6 0 0
0 24 48 72 96 120 0 24 48 72 96 120
时间(小时) 时间(小时)
电动汽车#3 (c) 电动汽车#3 (d)
实时电价 ($/kWh)
3.6 0.1 1
充放电功率 (kW)
1.8
SoC
0 0.05 0.5
-1.8
-3.6 0 0
0 24 48 72 96 120 0 24 48 72 96 120
时间(小时) 时间(小时)
(e) (f)
图 4-6 电动汽车集群实时控制结果:(a) EV1 功率;(b) EV1 SOC;(c) EV2 功率;(d) EV2 SOC;
(e) EV3 功率;(f) EV3 SOC
80
华 中 科 技 大 学 博 士 学 位 论 文
4.8
2.4
0
-2.4
-4.8
0 24 48 72 96 120
时间(小时)
住宅#2 (a)
7.2 实际值 估计值
负荷 (kW)
4.8
2.4
0
-2.4
-4.8
0 24 48 72 96 120
时间(小时)
住宅#3 (b)
7.2 实际值 估计值
负荷 (kW)
4.8
2.4
0
-2.4
-4.8
0 24 48 72 96 120
时间(小时)
(c)
81
华 中 科 技 大 学 博 士 学 位 论 文
9.6
4.8
0
-4.8
-10.08
-9.6
0 24 48 72 96 120
时间(小时)
图 4-8 变压器负荷变化
4.4.4 奖惩函数权重影响
本例以变压器负荷奖励权重系数o 为代表研究奖励函数中的权重系数对协调控
制效果的影响。设定系数o 分别为[0, 5, 10, 15, 20, 30],图 4-9 中给出了所提控制算
法下 120 个样本中变压器负荷峰值的分布。
14
变压器负荷 (kW)
12
10
10.08
8
o =0 o =5 o =10 o =15 o =20 o =30
图中结果显示负荷峰值的分布随着 o 的增加逐渐降低。峰值的平均值分别是
82
华 中 科 技 大 学 博 士 学 位 论 文
4.4.5 性能比较
累计奖励
住宅
算法 变压器负荷
数量 总奖励 成本奖励 焦虑奖励
奖励
PIO -60.78 -40.71 -18.41 -1.67
MPC-LSTM -142.61 -116.02 -25.40 -1.19
I-MADRL 3 -148.17 -4.57 -78.99 -64.61
C-MADRL -109.53 -4.20 -51.84 -53.49
CPM-MADRL -121.66 -12.05 -44.80 -64.81
PIO -488.54 -423.93 -63.52 -1.10
MPC-LSTM -826.16 -735.81 -89.61 -0.74
I-MADRL 10 -880.22 -399.35 -178.73 -302.14
C-MADRL -1497.08 -1363.68 -96.16 -37.23
CPM-MADRL -725.09 -325.40 -208.24 -191.45
PIO -1338.12 -1196.81 -140.21 -1.10
MPC-LSTM -2077.99 -1900.29 -176.94 -0.75
I-MADRL 20 -2136.65 -1078.44 -450.57 -607.64
C-MADRL -5542.50 -3819.06 -95.08 -1628.36
CPM-MADRL -1940.03 -1022.11 -496.42 -421.51
83
华 中 科 技 大 学 博 士 学 位 论 文
增加逐渐恶化,其累计奖励也成为所有方法中最低的。此时,所提协调控制算法由
于在扩展性方面的优势取得了更优的控制效果,且明显好于 I-MADRL 算法和
MPC-LSTM 算法。以上对比结果验证了所提算法在引入集中策略模型后能够有效改
善 EV 集群的协调控制效果,且能适应智能体规模的增加。
4.4.6 算法计算复杂度
4.4.5 节中算法性能比较表明,由于计算复杂度的上升,集中式多智能体强化学
习算法(C-MADRL)的控制性能随着智能体个数的增加逐渐恶化。而所提控制算法
结构是分散式的,并不依赖其他智能体的私有观测量,因此能够适应智能体个数的
增加。本例将进一步详细描述所提 CPM-MADRL 算法的计算复杂度,并给出与
C-MADRL 算法和 I-MADRL 算法的比较。
图 4-10 中给出了算法的计算复杂度变化趋势,分为时间复杂度和空间复杂度。
其中时间复杂度由单个智能体 1000 次训练耗费的时间表示,详细数据见表 4-3。空
间复杂度由构建单个智能体的所需的参数数量表示,详细数据见表 4-4。
3.8
训练时间(分钟)
3.4
3
I-MADRL CPM-MADRL C-MADRL
2.6
3 6 10 15 20
智能体个数
105 (a)
5.0
I-MADRL CPM-MADRL C-MADRL
参数数量
2.5
0
3 6 10 15 20
智能体个数
(b)
图 4-10 不同算法计算复杂度变化趋势:(a)时间复杂度;(b)空间复杂度
表 4-3 不同算法单个智能体平均 1000 次训练耗费时间
训练时间(分钟)
算法
N=3 N=6 N=10 N=15 N=20
I-MADRL 3.00 2.96 2.99 2.92 2.96
CPM-MADRL 3.15 3.00 3.14 3.03 3.08
C-MADRL 3.35 3.42 3.46 3.58 3.71
84
华 中 科 技 大 学 博 士 学 位 论 文
表 4-4 不同算法单个智能体网络参数量
网络参数量
算法
N=3 N=6 N=10 N=15 N=20
I-MADRL 200838 200838 200838 200838 200838
CPM-MADRL 220679 220679 220679 220679 220679
C-MADRL 229510 272518 329862 401542 473222
0 0
奖励
奖励
-20 -20
-100 -100
N = 10 N = 10
-200 -200
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(c) (d)
0 0
奖励
奖励
-200 -200
N = 20 N = 20
-400 -400
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(e) (f)
图 4-11 不同之智能体个数下算法训练过程:所提算法(a),(c),(e);集中式算法(b),(d),(f)
85
华 中 科 技 大 学 博 士 学 位 论 文
4.4.7 算法可扩展性能
为了进一步验证所提算法的可扩展性能,本例中给出了在住宅个数增加到 60 时
的实时控制效果。图 3-12 中给出了 60 个智能体在 120 个样本下的平均控制效果。可
以看出所提算法依然能够在电价较高时给 EV 放电,而在电价较低时充电以降低充电
成本。EV 在早上 5:00-9:00 之间会保持较高的 SOC 水平以满足用户当天的出行需求。
同时,日内各时刻变压器负荷都在控制在额定容量以内,与宽松型环境下的控制相
比能够显著降低变压器过载的情况。
6 0.1
充放电功率 (kW)
实时电价 ($/kWh)
4
2
0 0.05
-2
-4 0
16:00 20:00 24:00 4:00 8:00 12:00
(a)
1
SoC
0.5
0
16:00 20:00 24:00 4:00 8:00 12:00
(b)
300 201.6
变压器负荷 (kW)
200
100
0
-100 紧凑型环境 (201.6kVA) 宽松型环境
16:00 20:00 24:00 4:00 8:00 12:00
(c)
4.5 本章小结
86
华 中 科 技 大 学 博 士 学 位 论 文
87
华 中 科 技 大 学 博 士 学 位 论 文
5 基于多智能体深度强化学习的住宅集群能量管理
5.1 引言
EV 接入住宅后与传统的可控负荷构成了多类、异构的住宅能量管理环境,在实
时电价,用户出行行为的基础上增加了与其他负荷相关的用户行为及环境温度变化
等不确定性因素。虽然第四章 EV 集群协调充放电控制也考虑了住宅负荷的不确定性,
但未考虑住宅生活负荷的可控性,仅使用智能电表等监测设备实时记录的数据表示
负荷需求。区别于第四章中的研究,本章细化了住宅内的电力负荷类型,从原有的
EV,增加到 HVAC 系统以及洗碗机、洗衣机等可时移负荷。相应的,控制器的输出
从 EV 充放电功率扩充到所有可控负荷的功率指令。在细化住宅内部负荷类型的同时,
本章保留了多个住宅之间协同配合以降低变压器过载并实现容量公平分配的控制要
求,形成多数量住宅多类型负荷的统一能量管理模型。
由于研究对象的复杂度进一步增加,本章也对控制方法进行了改进。为了保证
控制算法的可扩展性和隐私保护性能,本章的算法框架延续了第四章中提出的基于
MADRL 算法的 EV 集群协调充放电控制策略,每个智能体依然包含一个集体策略模
型和一个独立学习器。为了适应多类型负荷的多维度控制需求,本章首先调整了算
法中动作网络的结构,在高斯分布的基础上增加了伯努利分布,使得算法拥有了同
88
华 中 科 技 大 学 博 士 学 位 论 文
时处理连续动作空间和离散动作空间的能力。其次,引入了奖励重塑机制以应对可
时移负荷在实时控制中出现的奖励延后现象,改善了训练过程的稳定性。同时根据
各个住宅的实际能耗分配变压器过载惩罚以保证变压器容量分配的公平性。最终基
于真实世界数据构建的仿真实例验证了改进 MADRL 算法的在线协调能量管理性能。
5.2 含多类型负荷住宅集群模型
本章研究包括电动汽车在内的含多类型可控负荷的住宅集群能量管理问题。系
统模型包括住宅多种类型负荷的动态模型以及相应的马尔科夫博弈(MG)形式。
5.2.1 住宅集群动态模型
虚拟层
智能体 1 智能体 N
电力供应 变压器
传感测量设备 传感测量设备
完全可控负荷 完全可控负荷
物理层
图 5-1 住宅集群系统结构
89
华 中 科 技 大 学 博 士 学 位 论 文
(1)电动汽车模型
本章中 EV 模型与第三、四章中相同,在接入充电器后具有 G2V 与 V2G 两种模
式。假设电动汽车在 ta 时刻到达住宅并接入充电桩,并在 td 时刻离开。在 ta 至 td 时
间内,电池能量的变化如式(5.1)所示。
(0,1]和 d (0,1]分别是充放电效率。
ev
本章中充放电功率均是连续可调的,大小满足以下约束:
同时由于充电和放电无法同时进行,因此充放电功率满足 pc ,t pd ,t =0 。
ev ev
EV 电池中储存的能量满足:
0 Etev Emax
ev
(5.3)
ev
其中 Emax 为电池容量。
(2)HVAC 系统模型
HVAC 的作用是保持住宅室内温度在合理范围内以维持居民的舒适度。参考文
献[166]中的定义,温度舒适度由一个室内温度区间表示:
温度在区间内时,居民的舒适度最高,并且保持一致。
时刻 t 的室内温度受到许多因素的影响,比如上一时刻的室内温度、当下的室外
温度、空气湿度以及 HVAC 系统功率。因此很难建立室内温度变化的详细动态模型。
90
华 中 科 技 大 学 博 士 学 位 论 文
本章中为了模拟室内温度的变化,采用以下动态模型[167]:
表示温度变化一度所消耗的电量; R hv 为热阻;
hv
为 HVAC 系统的效率系数。
0 pthv pmax
hv
(5.7)
hv
其中 pmax 为 HVAC 的最大功率。
(3)可时移负荷
与 EV 和 HVAC 等可控负荷不同,洗碗机、洗衣机等可时移负荷一旦开启后无
法立即中断,需要连续工作若干时间段来满足居民的生活需求。此类负荷的开启时
间是可以调整的,且用电功率一般是固定的。本章中假设住宅中所有可时移负荷一
荷的运行特性可以定义为:
t −tdur
t =t
btda = 1, t t + tdur (5.8)
da da da
其中 bt 是一个二元变量,表征在时间 t 是启动可时移负荷, bt =1 表示开启, bt
da
=0 表示不开启。注意, bt 仅表示负荷的开启动作而不表示负荷的运行状态,因此
da
在整个时间段[t, t]内,仅有一个时刻 bt =1。
5.2.2 住宅集群能量管理的 MG 形式
与 4.2.2 节 EV 集群协调充放电控制模型想同,本章的住宅集群能量管理模型同
样可以转化为(MG)形式,包含{N, S, A, P, R, },各部分详细定义如下所示:
(1)环境状态 S
环境状态 S 是所有智能体在本地观测量 oi,t 的联合值,表示为:
oi ,t = (t , t −23 , , t ,, li ,t −23 , , li ,t , uiev , uihv , uida , Tt out , Eiev,t , Ei ,ex , ti ,d , Ti ,int , bida,t , ti , , ti , ) (5.9)
91
华 中 科 技 大 学 博 士 学 位 论 文
式(5.9)中包含了电力供应商提供的实时电价信息,住宅智能电表提供的不可控
负荷功率信息,住宅类型、可控负荷和时移负荷的状态信息以及用户本身的用电需
求信息。
(2)联合动作集合 A
区别于第四章的 EV 集群控制,本章中的动作集合包含了住宅内所有可控负荷以
及时移负荷的控制指令,同时包含离散型变量和连续型变量,如式(5.10)所示。
(3)状态转移概率 P
在执行联合动作 at 后,系统状态 st 将以概率 P 转移到下一个状态 st+1,如式(5.11)
所示。
st +1 = P(st , at , t ) (5.11)
其中 t 表示环境中的随机因素。
环境状态的转移不仅与住宅中每个负荷的动态模型相关,也受到环境中的随机
因素的影响,包括动态电价、室外温度的变化、不可控负荷以及用户的动态行为。
因此很难得到状态转移函数的精确表达式。
(4)奖励函数 R
每个住宅中的智能体的奖励函数与系统控制目标相关,包括以下五项:1)降低
92
华 中 科 技 大 学 博 士 学 位 论 文
住宅整体用电成本,2)缓解电动汽车里程焦虑,3)保持室内温度在舒适区内,4)
确保时移负荷启动,5)避免变压器负荷过载。
住宅 i 在时刻 t 的电成本由实时电价和用电量决定:
,t = −t ( pi ,t +pi ,t + pi ,t + pi ,t )
ricost ev hv da no
(5.12)
da no
其中 pi ,t 和 pi ,t 分别表示时移负荷和不可控负荷的功率。
EV 里程焦虑与第三、四章中定义相同,表征用户对于行驶途中电量耗尽的担忧。
可以使用用户期望电量与实际电量的差值表示:
+
其中 [] = max(,0) 。
式(5.5)中定义当室内温度在舒适度区间内时,用户对温度的满意度最高。因此
对室内温度保持性能的奖励定义为:
ritemp
,t = −([Tt in − Tmax ]+ + [Tmin − Tt in ]+ ) (5.14)
即当室内温度在舒适区内时奖励最高,为 0。当温度过低或者过高时均产生负值奖励。
式(5.8)中表示时移负荷在可工作时间段[t,t]内必须启动一次以完成用户的使用
需求。若算法在时刻 t仍未给出启动决策,此时需要强制开启时移负荷完成任务,
同时给出负的奖励信息:
t
,t = −1
ri da if t =t
btda = 0 (5.15)
以上奖励信息均可根据本地信息直接获取,而变压器过载不同,由所有住宅的
电力负荷共同作用产生。变压器过载的奖励函数设置与第四章中相同,假设可以由
变压器上安装的计算单元或配网运营商计算得到所有住宅的实时电力消耗。然后每
个智能体可以根据变压器负荷得到和变压器过载相关的奖励信号:
pi ,t
− tf ([abs( pt ) − ct ]) , if abs( pt ) ct
tf 2 tf
r trans
i ,t = pt (5.16)
0, else
93
华 中 科 技 大 学 博 士 学 位 论 文
是变压器在时间 t 的可用容量。其中变压器负载奖励将按照住宅电力消耗进行分配以
保证各个住宅的用电公平性。
结合以上五类奖励信号,可以得到每一个智能体 i 在时刻 t 的总奖励为:
ri,t = 1ricost
,t + 2ri,t + 3ri,t
ev temp
+ 4rida
,t + 5ri,t
trans
(5.17)
其中1,2,3,4,和5 均为非负参数,表征在总奖励中各个子奖励的相对重要性。
5.3 多智能体深度强化学习能量管理策略
本节继续采用第四章中提出的多智能体深度学习(MADRL)框架设计含多类型
负荷的住宅集群能量管理策略,基本框架与图 4-3 中 CPM-MADRL 算法一致。每一
个智能体中包含两个部分:集体策略模型 CPM 和基于 SAC 框架的自主学习器
SAC-IL。CPM 用于评估环境中其他智能体的联合策略,训练数据由所有住宅的总功
率消耗数据和历史电价信息组成。SAC-ILs 则用于和环境交互学习住宅内所有电力负
荷的控制策略,训练数据由 MG 模型中定义的环境状态与奖励信息组成。但由于住
宅内电力负荷的多样性以及动作空间的复杂性,适用于 EV 集群充放电控制的
CPM-MADRL 算法无法直接应用在住宅集群能量管理中,待解决的问题主要有以下
两点:
1)动作空间复杂
住宅集群能量管理模型中输出维数增加,动作空间复杂。住宅内既存在连续型
动作空间:EV 和 HVAC 系统的功率指令连续可调;也存在离散型动作空间:时移负
荷的控制指令为二元变量,且在整个运行期间仅动作一次。
2)奖励信号延迟
在马尔科夫决策/博弈模型中,奖励信息 rt 是环境由当前状态 st 在给定联合动作
at 后转移至下一个状态 st+1 后,对状态动作对(st,at)的评价。在 EV 以及 HVAC 模型中,
每个时刻智能体都会基于当前状态计算对应的动作指令,因此奖励信号与状态动作
对的关系是一一对应的。但智能体对时移负荷在 t 时刻做出一次启动控制 at 后,其
余时刻的动作 at+1,at+2 等均不参与直接控制,相应的奖励信号 rt+1,rt+2 并不能用于
评价此时的状态动作对(st+1,at+1),(st+2,at+2),而应该是启动时动作 at 的反馈。因此在
94
华 中 科 技 大 学 博 士 学 位 论 文
时移负荷控制中,奖励信息是延后的。
为了应对以上两个问题,本节中对 CPM-MADRL 算法进行了进一步的改进。
(1)多类型动作空间
对于连续型动作空间,3.3.1 节中给出了相应的动作(策略)网络设计方法,即
使用高斯分布作为基本形式。动作(策略)网络将输出高斯分布的均值 m 和标准差 s ,
进而通过采样的方法得到最终的实际动作值。
对于离散型动作空间,本节采用文章[143]和[162]中的方法,采用伯努利分布替
代原来的高斯分布。此时网络输出变为了时移负荷的启动概率,然后基于该概率进
行采样得到最终的决策。
即动作(策略)网络的形式变为:
(
N m ( st ), s 2 ( st )
( at | st ) =
) if at is continuous
(5.18)
B ( p ( st ) ) if at is discrete
在得到控制器输出动作后,还需要进行相应的线性变化以确定各电力负荷的实
际功率指令。最终的动作网络结构如图 5-2 所示。
连续型
mev
采样 EV
sev
Relu1 Relu4 mhv
采样 HVAC
shv
st FC1(128) FC4(128)
pda 采样 DA
离散型
图 5-2 含多类型动作空间的动作(策略)网络结构图
(2)奖励函数重塑(Reward reshaping)
对于时移负荷的奖励延后问题,本节采用了奖励重塑机制来调整训练数据。在
智能体与环境交互的过程中,产生的训练数据呈现链条式分布,如图 5-3 所示。
s1 a1 s2 a2
s1 a1 s2 a2 s3
Reward Reward
r1 r2
图 5-3 智能体与环境交互结构
95
华 中 科 技 大 学 博 士 学 位 论 文
由于时移负荷特殊的动态特性,在负荷启动后的剩余控制周期内动作指令均无
效。因此图中所示呈链式分布的交互信息无法直接用于时移负荷的训练。
假设时移负荷在 tact[t, t]时开启,在(tact, t]内的动作指令无效。但此时负荷在
持续运行消耗功率,相关的即时奖励是对 tact 时刻动作的延后反馈。基于此,对收集
到训练数据中的奖励进行重塑,如式(5.19)所示。
rtactda = t=t rt da
t
act
(5.19)
也就是将时移负荷启动后产生的相关奖励转移到启动时刻的动作值上。算法的
训练过程中以一天为单位,因此在训练过程中每收集 24 个小时的数据信息,就需要
对其中的奖励函数进行重塑以消除时移负荷奖励延后带来的影响。
基于以上分析,适用于住宅集群能量管理的 MADRL 算法训练流程如表 5-1 所
示。训练中依然需要两类经验池储存交互数据,分别用于 CPM 以及 SAC-IL 的训练。
在完成 24 小时的交互数据收集后,需要使用奖励重塑机制对 D2,i 中的数据进行调整。
表 5-1 基于 MADRL 的住宅集群能量管理算法训练过程
96
华 中 科 技 大 学 博 士 学 位 论 文
5.4 仿真分析
5.4.1 仿真设置
含 EV 的住宅集群能量管理环境同样基于真实数据集构建,主要包括实时电价数
据,室外温度数据以及住宅不可控负荷数据。其中实时电价数据与 4.4.1 节中相同,
取自加州 ISO 系统[165]。每小时室外温度数据取自公开数据集[168]。住宅不可控负荷
数据取自数据集 HUE[163]。数据长度均为 12 个月,每个月前 20 天的数据作用训练数
据,后 10 天的数据用于构建验证样本。表 5-2 中列出了电动汽车、HVAC 系统以及
可时移负荷的参数信息。其中电动汽车的到达时间,离开时间,起始电量和需求电
量均满足截断正态分布以适应不同的用户行为和驾驶情况。HVAC 系统和可时移负
荷的运行参数参考自文献[143]。假设每个住宅均有一个可时移负荷,且其需求运行时
长为 2 小时。
表 5-2 电力负荷运行参数
负荷 参数
ev
Emax = 24kWh, pcev,max = pdev,max = 6kW ,cev = dev = 0.98,
EV ta ~ N (18,12 ,17, 20), td ~ N (6.5,12 , 5,8),
Etev ~ N (3.6,12 , 0, 7.2), Etev ~ N (22.8,12 , 21.6, 24)
a d
HVAC hv
pmax = 1.75kW ,R hv = 13.5 o F /kW ,
C hv = 0.33kWh / o F , hv = 2.5
p da = 0.56kW , tdur
da
= 2h,
可时移负荷
t ~ N (21,12 ,19, 23), t ~ N (6,12 , 4,8)
基于以上数据集以及电力负荷运行参数抽样得到住宅集群能量管理策略的训练
样本和测试样本。
同时,为了验证所提算法的变压器过载现象改善性能与变压器容量分配的公平
性,本节假设三户住宅连在在同一个变压器上,所有住宅中均配置了 HVAC 系统、
可时移负荷以及不可控负荷,但只有住宅 1 和住宅 2 中配有电动汽车。即住宅 3 的
总能量需求会显著低于住宅 1 和 2。变压器容量设定与 4.4.1 节中相同,有紧凑型充
97
华 中 科 技 大 学 博 士 学 位 论 文
放电环境和宽松型充放电环境两种,其中紧凑型环境内设定变压器容量为 9.6kVA。
配网内电动汽车在无协调控制下将会频繁造成变压器过载的现象。
此外,强化学习算法的结构、超参数以及硬件平台均采用 4.4.1 节中的设置。
5.4.2 算法训练效果
-20
奖励函数值
-40 住宅#1
住宅#2
住宅#3
-60
-80
0 1000 2000 3000 4000 5000 6000
训练次数
图 5-4 所提算法训练效果
0
0
奖励函数值
奖励函数值
-10
-20 -5
-30 成本奖励 温度奖励
-40 -10
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(a) (b)
0 0
奖励函数值
奖励函数值
-0.5
-1 -5
-1.5 焦虑奖励 变压器负荷奖励
-2 -10
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(c) (d)
图 5-4 中为三个住宅总奖励函数的变化曲线。结果表明三个住宅的奖励函数值均
随着训练次数的增加逐渐升高并稳定。其中住宅 3 的总奖励显著大于住宅 1 和住宅 2。
98
华 中 科 技 大 学 博 士 学 位 论 文
20
10
0
0 1000 2000 3000 4000 5000 6000
训练次数
(a)
20 10 30
住宅#1 住宅#2 住宅#3
15
20
损失函数值
10 5
10
5
0 0 0
0 2000 4000 6000 0 2000 4000 6000 0 2000 4000 6000
训练次数 训练次数 训练次数
(b) (c) (d)
5.4.3 奖励重塑的影响
本例研究奖励重塑机制对训练效果的影响。为了应对时移负荷中奖励的延后效
99
华 中 科 技 大 学 博 士 学 位 论 文
da
应,5.3 节中设计了奖励重塑机制对训练数据进行调整。以时移负荷奖励 ri ,t 为例,
奖励函数值
-0.5 -0.5
-1.0 -1.0 有奖励重塑
无奖励重塑
-1.5 时移负荷奖励 -1.5 时移负荷奖励
-2.0 -2.0
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
(a) (b)
图 5-7 时移负荷奖励:(a)有奖励重塑机制;(b)无奖励重塑机制
-5
奖励重塑
-10
无奖励重塑
-15
0 20 40 60 80 100 120
样本数
图 5-8 测试样本中的累计时移负荷奖励
5.4.4 住宅集群实时能量管理性能
本例中研究所提住宅集群能量管理策略的实时控制性能,包括电动汽车实时充
放电(见图 5-9),HVAC 系统室内温度保持(见图 5-10),时移负荷启动(见图 5-11),
变压器负荷降低(见图 5-12)以及集体策略模型的预测效果(见图 5-13)。
图 5-9 中给出住宅 1 和住宅 2 内的 EV 在连续五天内的实时控制效果,结果表明
100
华 中 科 技 大 学 博 士 学 位 论 文
EV 选择在电价高时放电,在电价低时充电以节省充电成本。两辆电动汽车的 SOC
均在离开住宅时保持一个较高的水平,此时用户的里程焦虑较低。同时,EV 每天的
初始 SOC 以及出行时间均不相同,表明所提算法能够适应用户动态的出行行为。
电动汽车#1 电动汽车#2
5 0.1 5 0.1
充放电功率 (kW)
充放电功率 (kW)
实时电价 ($/kWh)
实时电价 ($/kWh)
2.5 2.5
0 0.05 0 0.05
-2.5 -2.5
-5 0 -5 0
0 12 24 36 48 60 72 84 96 108 120 0 12 24 36 48 60 72 84 96 108 120
时间(小时) 时间(小时)
(a) (b)
1 1
SoC
SoC
0.5 0.5
0 0
0 12 24 36 48 60 72 84 96 108 120 0 12 24 36 48 60 72 84 96 108 120
时间(小时) 时间(小时)
(c) (d)
图 5-9 住宅 1 和住宅 2 内 EV 控制效果:(a) EV1 功率;(b) EV1 SOC;(c) EV2 功率;(d) EV2 SOC;
图 5-10 给出了三个住宅室内温度在连续控制下的变化曲线。在室外温度大范围
距离变化时,室内温度均保持在舒适区内。即所提算法能够适应室外温度的不确定
性以及大扰动性,保持室内温度在舒适区内变化。
40
住宅#1 住宅#2 住宅#3
室外温度 舒适区
30
温度 (℃)
20
10
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
图 5-10 住宅集群室内温度变化
2 住宅#1 0.1
可时移负荷功率 (kW)
住宅#2
实时电价 ($/kWh)
住宅#3 实时电价
1 0.05
0 0
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
图 5-11 可时移负荷实时控制
图 5-11 给出了时移负荷的启动控制结果。本节中三个住宅的时移负荷在开启后
101
华 中 科 技 大 学 博 士 学 位 论 文
需要保持两个小时的运行时长以满足用户需求。可以看出所有负荷均正常启动,且
所提策略会选择在可运行时段电价较低时启动负荷以降低运行成本。
为了验证所提算法对变压器过载的改善性能,保持其他设置不变,在宽松型环
境中重新训练各住宅内的智能体后,得到在不同环境下变压器的实时负荷,如图 5-12
所示。可见在宽松型环境中,变压器负荷显著高于容量,过载现象频繁出现,连续
五天的负荷峰值分别是 12.74kW,12.35kW,12.13kW,12.70kW,12.77kW。在紧凑
型环境中,负荷柱状图整体降低,但同时宽度增加,以在满足各住宅的用电需求的
同时降低变压器负荷峰值,连续五天的负荷峰值分别是 9.69kW,8.72kW,8.96 kW,
9.09 kW,8.84 kW,显著低于宽松型环境。
9.6
10
5
负荷 (kW)
0
-5 紧凑型环境
-9.6 宽松型环境
-10
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
图 5-12 变压器实时负荷
5
负荷 (kW)
0
住宅#1
-5 估计值 实际值
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
(a)
5
负荷 (kW)
0
住宅#2
-5 估计值 实际值
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
(b)
10
5
负荷 (kW)
0
住宅#3
-5 估计值 实际值
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
(c)
102
华 中 科 技 大 学 博 士 学 位 论 文
5.4.5 变压器容量分配效果
在奖惩函数的设计中,为了各个住宅的用电公平性,与变压器过载相关的奖励
信号根据每个住宅对变压器负荷的贡献进行分配。即当变压器过载时,功率消耗高
的住宅需要承担更多的惩罚。为了验证此时变压器负荷的分配效果,本例给出了 120
个测试样本中各住宅负荷的平均表现,如图 5-14 所示。图 5-14 中的各个住宅的日均
负荷形状可以看出,紧凑型环境中住宅 1 和住宅 2 大幅度降低了在 0:00-6:00 的电动
汽车充电功率以降低变压器过载的发生。而住宅 3 由于负荷功率较小,因此紧凑型
环境和宽松型环境中负荷形状基本相似。
6 6 6
住宅#1 住宅#2 住宅#3
4 紧凑型环境 4 紧凑型环境 4 紧凑型环境
负荷 (kW)
负荷 (kW)
负荷 (kW)
0 0 0
-2 -2 -2
4:00 12:00 20:00 4:00 12:00 20:00 4:00 12:00 20:00
时间(小时) 时间(小时) 时间(小时)
(a) (b) (c)
宽松型环境 紧凑型环境
住宅 下降比例
平均值/kW 标准差/kW 平均值/kW 标准差/kW
住宅 1 6.60 0.40 4.93 0.56 25.30%
住宅 2 6.27 0.52 4.63 0.66 26.16%
住宅 3 1.26 0.42 1.23 0.36 2.38%
103
华 中 科 技 大 学 博 士 学 位 论 文
5.4.6 对温度扰动的鲁棒性
5.2.1 节中指出,在现实场景中室内温度往往受到多种不确定性因素的影响,因
此很难建立 HVAC 系统有关温度变化的详细动态模型。为了验证所提算法对温度干
扰的鲁棒性,在式(5.6)定义的动态模型中增加温度扰动∆T,此时 HVAC 的动态模型
40 40
住宅#1 住宅#2 住宅#3 住宅#1 住宅#2 住宅#3
室外温度 舒适区 室外温度 舒适区
30
温度 (℃)
30
温度 (℃)
20 20
10 10
0 12 24 36 48 60 72 84 96 108 120 0 12 24 36 48 60 72 84 96 108 120
时间(小时) 时间(小时)
(a) (b)
0 0 0
15 18 21 24 27 15 18 21 24 27 15 18 21 24 27
温度( ) 温度( ) 温度( )
(a) (b) (c)
5.5 本章小结
相比于第四章,本章研究对象从 EV 集群进一步拓展到了含多类型电力负荷的住
104
华 中 科 技 大 学 博 士 学 位 论 文
宅集群。为实现住宅集群的能量管理优化,在原有的多智能体深度强化学习协调充
放电控制的基础上提出了多维多类型动作空间的处理方法以及奖励重塑机制,主要
结论有:
(1)本章构建的含多类型电力负荷住宅集群中电力负荷类型多样,包括 EV,
HVAC 系统,可时移负荷以及不可控负荷。控制变量从原来的一维增加到三维,动
作空间从原来的连续型也变为连续型和离散型并存。
(2)针对连续型动作空间和离散型动作空间并存的问题,使用高斯分布和伯努
利分布共同设计策略网络,实现了多维多类型控制变量的同时输出。
(3)针对时移负荷奖励延后问题,提出的奖励重塑机制对训练过程中收集的样
本进行调整,能够有效避免奖励延后造成的数据不匹配现象。仿真结果显示所提算
法可以实现时移负荷的正确训练及在线控制。
(4)基于真实世界数据构建的仿真表明所提算法能够实现住宅内各类电力负荷
的实时控制,能够在兼顾变压器容量分配公平性的前提下有效降低变压器过载的情
况,并且延续了算法的可扩展性和隐私保护性能,同时对温度扰动具有一定的鲁棒
性。
105
华 中 科 技 大 学 博 士 学 位 论 文
6 基于层级式深度强化学习的多住宅社区能量交易及管理
本章在第五章的基础上进一步考虑屋顶分布式光伏以及储能系统安装后的多住
宅社区能量交易及管理。研究对象从含多类型负荷的住宅集群进一步扩展到社区运
营商和住宅集群共存的能量交易市场。本章首先将社区内点对点能量交易和住宅集
群能量管理分解为两个子问题:内部交易动态定价和住宅集群实时能量管理。然后
提出了一种基于层级式深度强化学习(HDRL)的能量交易及管理策略。在上层,社
区运营商采用 DRL 算法根据所有住宅的能耗数据学习内部交易动态定价机制。在下
层,住宅集群采用 MADRL 算法根据本地观测量和运营商给定的内部交易价格学习住
宅内负荷的实时控制策略。最后,基于真实世界数据构建的仿真验证了所提基于 HDRL
算法的能量交易及管理策略的有效性。
6.1 引言
随着分布式光伏、储能系统以及 EV 的接入,配网内传统的电力用户逐渐从电力
消费者(Consumer)向电力产消者(Prosumer)过渡。电力交易形式从与电网交易
的基础上扩展到与社区内其他产消者或消费者交易,即点对点(P2P)能量交易。P2P
交易可以进一步扩大市场内所有参与者的收益,有助于分布式能源的本地消纳并降
低社区整体对电网的影响。
根据市场结构的去中心化程度,P2P 交易市场可以分为分散式市场和社区式市场
[145]
。在完全分散式的市场中,产消者之间通过协商制定交易方案,不需要集中运营
商或者任何代理机构。但协商过程中往往需要重复的迭代过程才能得到最终的交易
方案,耗时较长且通信负担较重。市场中的小规模产消者难以承受寻找交易对象的
时间成本。相对于完全分散式市场,社区式能量交易市场适用于一组在地理位置上
接近并且拥有相似目标的产消者。社区市场通过运营商或者管理员提供内部定价以
及能量分配等辅助服务,交易过程更为便利。
已有研究将基于 DRL 的数据驱动方法应用在含智能住宅的社区市场内部交易问
题中。部分研究在考虑内部社区运营商定价问题时往往忽略了内部多类型负荷的响
106
华 中 科 技 大 学 博 士 学 位 论 文
应特性,使用二次型效用函数等效住宅的响应过程 [155]-[158]。另一些研究则忽视了运
营商本身的效益,直接基于社区净功率线性计算内部交易电价,不利于社区能量交
易市场的长期运行[161]-[162]。同时,大量的参数共享也为现有的通信设施带来了严重
的负担[161]-[162]。总体而言,适用于社区市场能量交易和管理的方法较为匮乏。
基于此,本章提出了一种基于 HDRL 算法的社区市场能量交易和管理策略,同
时实现内部交易动态定价和住宅集群实时能量管理。其中上层通过收集产消者的历
史能耗信息以及外部电力供应商电价计算社区内的能量交易价格。下层的住宅能量
管理则仅依赖本地的观测量生成各电力负荷的控制决策。基于真实世界数据构建的
仿真分析表明所提方法能够有效应对社区内不同产消者的特性,同时生成内部能量
交易电价和住宅实时管理决策。
6.2 多住宅社区市场模型
本章研究含光伏以及储能系统的社区市场能量交易问题。为了更好的服务社区
市场内部的能量交易,在第五章智能住宅集群的基础上增加了社区运营商这一角色。
从而社区市场能量交易问题模型可以分解成两部分:社区运营商主导的内部能量交
易动态定价和智能住宅主导的实时能量管理,结构如图 6-1 所示。
社区市场
gb , gs
in in
运营商
in
内部能量交易
外部能量交易
gb: 电网售电价格 gs: 光伏上网电价 in: 社区内交易电价
图 6-1 社区市场交易框架
接下来本章将分别描述社区市场内产消者(住宅集群)和运营商的动态模型。
6.2.1 产消者(住宅集群)模型
本章中的智能住宅模型在第五章仅包含各类电力负荷的基础上增加了住宅屋顶
光伏以及储能系统。其中 EV,HVAC 系统以及可时移负荷的动态模型与 5.2.1 节中
107
华 中 科 技 大 学 博 士 学 位 论 文
的定义相同。本节中增加储能系统的动态模型:
(0,1]和 d (0,1]分别是充放电效率。
es
与 EV 一样,储能系统的充放电功率也是连续可调的,大小满足以下约束:
同时由于充电和放电无法同时进行,因此充放电功率满足 pc ,t pd ,t =0 。
es es
储能系统中储存的能量满足:
0 Etes Emax
es
(6.3)
es
其中 Emax 为储能的容量。
区别于电动汽车,储能系统并不存在空间移动性,因此可以在一天内连续工作
且不需要期望电量。
6.2.2 社区运营商模型
在社区市场内,所有产消者的地理位置是相近的,目标与利益是相同的。每一
个产消者都可以选择在社区内与其他个体进行能量交易或者与外部电力供应商进行
能量交易。社区运营商的任务则是通过设置内部能量交易价格来引导用户积极参加
社区内部交易,从而增加每个产消者的收益并降低社区整体对外部电网的影响。为
了提供比外部电力供应商更具吸引力的价格,社区内部能量交易价格 t 需要满足式
in
(6.4)中的约束。
其中 t 和 t 分别是社区内部产消者与外部电力供应商进行能量交易时的购电价
gb gs
格和售电价格(一般为上网电价)。
在式(6.4)约束下,社区内所有住宅存在功率盈余或缺额时会首选通过社区运营
商与其他产消者进行能量交易以提高自身发电收益或将降低自身用电成本。当社区
108
华 中 科 技 大 学 博 士 学 位 论 文
内交易无法满足自身需求时,再寻求与外部电力供应商进行交易。同时,式(6.4)中
内部能量交易时,每个产消者的购电价格和售电价格是相同的,光伏发电产生的收
益仅由所有住宅分享,社区运营商是无收益的。这种模式并不利于内部交易机制的
长期运行。参考文献[157]和[158]中的社区市场运营模式,运营商作为电力聚合商为
社区内部能量交易提供服务,并收取一定的服务费。此时在社区内部交易发生时,
由于 t 和 t 之间的差异,社区运营商将会在内部交易时获得一部分的收益作
os ob
保证价格公平性以维护住宅用户自身的收益[157]。即内部能量交易价格还应该满足:
其中(0,1]是提前设置的价格约束系数。
除此之外,本章假设只有社区内部发生能量交易时运营商会收取一定的服务费,
当产消者选择与外部电网交易时则不收取额外的费用。同时,当产消者根据内部交
易电价以及自身负荷状态制定住宅能量决策后,产生的功率盈余或功率缺额信息传
递到运营商,由运营商对社区内总交易能量按比例进行分配。
基于以上分析,社区运营商的目标是提供一个有效的内部能量交易定价机制来
最大化社区内所有参与者(包括运营商自身和所有产消者)的整体收益。而所有住
宅的目标则是在给定外部电价和内部电价的前提下,根据自身的光伏出力优化所有
电力负荷的运行决策以在满足自身电力需求的同时降低用电成本。因此,本章将社
区市场能量交易问题分解为两个子问题:内部交易动态定价和住宅实时能量管理。
6.2.3 产消者(住宅集群)能量管理的 MG 形式
109
华 中 科 技 大 学 博 士 学 位 论 文
统的发电功率以及储能系统的剩余能量。
(2)联合动作集合 A
产消者的动作集合中除了电动汽车,HVAC 系统以及时移负荷的控制决策外还
新增了储能系统的充放电决策,最终的动作集合如下:
(3)状态转移概率 P
产消者的状态转移概率与 5.2.2 节相同,不仅与住宅中每个负荷的动态模型相关,
受到环境中众多随机因素的影响,包括内外部实时交易电价、室外温度、光伏出力、
不可控负荷以及用户的动态行为。
(4)奖励函数 R
产消者本地的奖励函数组成与 5.2.2 节相同,包括了以下五项:1)降低住宅整
体用电成本,2)缓解电动汽车里程焦虑,3)保持室内温度在舒适区内,4)确保时
110
华 中 科 技 大 学 博 士 学 位 论 文
移负荷启动,5)避免变压器负荷过载。但由于能量交易形式发生了变化,因此与供
电成本相关的奖励函数需要重新定义:
ricos
,t
t
= −tgb pigb,t − tob piob,t + tgs pigs,t + tos pios,t (6.9)
gb ob
其中 pi ,t 和 pi ,t 分别表示产消者 i 在 t 时刻从外部电力供应商和内部社区运营商购入
gs os
的电量; pi ,t 和 pi ,t 分别是向外部电力供应商和内部社区运营商售出的电量。
以上功率满足以下平衡关系:
pigb,t + piob,t + pipv,t = piev,t +pies,t +pihv,t + pida,t + pino,t + pios,t + pigs,t (6.10)
式(6.10)表明每个产消者本地购入电量和光伏发电之和等于本地售出电量和消
耗电量之和。每个产消者可以根据当下光伏发电量和电力负荷消耗量确定此时的功
率盈余或者缺额值,然后社区运营商根据所有产消者的净功率决定此时在社区内部
可达成的交易电量。
除了用电成本相关的奖励外,其余奖励函数的定义与 5.2.2 节相同。
社区运营商通过收集各个产消者的聚合信息以及外部电力供应商电价来决定实
(1)环境状态 S
在 t 时刻,社区运营商观测到的环境状态为:
与文献[161]和[162]中相同,社区市场内部交易价格与外部电力供应商价格和社
区内净功率相关。同时,社区运营商获取到的净功率为所有住宅的聚合信息,因此
在决策过程中并没有泄露各个住宅内电力负荷的运行状态。
(2)动作集合 A
社区运营商需要根据当前观测到的状态信息决定内部交易电价 t 和 t 。此前
os ob
111
华 中 科 技 大 学 博 士 学 位 论 文
对于运营商模型的描述中提到,运营商收益的来源是其购电价格 t 和售电价格 t
os ob
即社区内部能量交易的价格为外部供应商实时售电价格和上网电价的中值。此时,
(6.6)中的约束以保证内部价格的优势。
(3)状态转移概率 P
根据式(6.11)中状态量的定义可知,社区运营商的状态转移受到所有产消者能量
管理策略以及外部电价的影响。而且在运营商的决策过程中,各个住宅内的负荷管
理策略是不对运营商公开的。因此内部交易定价机制的状态转移函数同样无法获得。
(4)奖励函数 R
内部交易定价机制的目的是在最大化运营商收益的同时保证社区内各个用户的
用电满意度,因此其奖励函数设计为:
rih,t = 1ricos
,t + 2ri,t + 3ri,t
t ev temp
+ 4rida
,t + 5ri,t
trans
(6.14)
[0,1]表示运营收益与用户满意度之间的相对重要性。
6.3 层级式深度强化学习能量交易及管理策略
112
华 中 科 技 大 学 博 士 学 位 论 文
定性成为本节需要解决的问题。
对此,本节提出了一种基于层级式深度强化学习(HDRL)的社区市场能量交易
策略,控制结构如图 6-2 所示。
图 6-2 基于层级式深度强化学习的社区能量交易及管理策略
在上层社区运营商处,智能体以集中式结构收集社区内所有住宅的聚合信息以
及外部电价学习内部交易的动态定价策略。在下层的每一个产消者处,智能体以分
散式结构使用本地的观测量以及上层给定的内部交易电价学习实时的住宅电力负荷
能量管理策略。
o
两层的学习过程相互依赖同时进行。运营商的智能体观测到环境状态量 st 后,
电力负荷的控制决策。基于所有住宅的联合控制量以及环境中的不确定性,社区市
o h
场转移到下一个状态值,并且返回所有智能体的奖励函数值 rt 和 ri ,t 。训练过程中包
113
华 中 科 技 大 学 博 士 学 位 论 文
法仅使用本地观测量,在训练以及执行过程中并不需要社区内其他智能体的观测量。
同时在上层的动态交易定价过程中,社区运营商仅需要住宅的聚合信息,并不需要
每个住宅内部电力负荷的具体运行状态以及控制策略。因此所提算法一定程度上保
护了社区内参与者的隐私信息。同时,本章中所提算法延续了第四、五章中多智能
体算法在可扩展性上的优势,算法的计算复杂度不会随着产消者个数的增加而增长。
表 6-1 基于层级式深度强化学习的社区能量交易及管理策略
算法: 基于层级式深度强化学习的社区能量交易策略
1: 输入各智能体神经网络参数 o ,o ,h,1 , h,1 ,...,h, n , h, n
2: 对于每一个智能体
3: 随机初始化所有动作网络和评价网络的参数
4: 初始化所有的经验池为空
5: 对于训练样本 k= 1, 2…5000
6: 对于控制时刻 j=1,2…24
获得内部交易电价 t , t
ob os
7:
h
8: 获得住宅负荷控制决策 a t
h h h
o o
9: 执行 a t , 得到奖励函数值 rt , rt 并且转移到下一状态 st +1, st +1
10: 存储交互数据到经验池 D1, D2,1, …, D2,n
11 对于运营商处的智能体:
12: 更新网络参数 o ,o
13: 对于产消者处的智能体:
14: 更新网络参数 h,1 , h,1 ,...,h,n , h,n
15: 输出: o ,o ,h,1 , h,1 ,...,h, n , h, n
6.4 仿真分析
6.4.1 仿真设置
本节中用于构建社区能量交易环境的数据集包括外部电力供应商电价,室外环
境温度变化,每户住宅的光伏发电以及不可控负荷数据。其中,分时电价(Time of use,
TOU)数据[169]和光伏上网电价数据[170]用于构成外部供应商电价数据,如表 6-2 所示。
表 6-2 外部电力供应商电价数据
分时电价($/kWh) 光伏上网电价 ($/kWh)
7am-9am,5pm-8pm 9am -5pm, 8pm-10pm 10pm-7am
0.04
0.44 0.22 0.15
114
华 中 科 技 大 学 博 士 学 位 论 文
室外温度数据取自数据集[168]。由于社区内所有住宅的地理位置接近,因此本节
假设所有住宅的室外温度变化是相同的。家庭的光伏发电和电力需求来自太阳能家
庭电力数据集[171]。该数据集中记录了 Ausgrid 电网中的 300 名太阳能住宅的光伏发
电以及负荷数据。由于每户住宅的屋顶面积不同,因此光伏发电机的容量随住宅的
不同有所差异。室外温度与住宅光伏数据均取自澳大利亚,年度曲线如图 6-3 所示。
南半球六月至八月为冬季,因此室外温度与光伏出力均较低,而在其余季度则相对
较高。以上数据集的长度均取为 12 个月,每个月前 20 天的数据作用训练数据,后
10 天的数据用于构建验证样本。住宅中电动汽车,HVAC 系统以及时移负荷的运行
信息与 5.4.1 节中相同,如表 5-2 中所示。新增的储能系统的容量为 10kW,最大的
充放电功率为 2kW,充放电效率均为 0.98。
40
35
30
温度 (oC)
25
20
15
10 室外温度
5
一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月
(a)
4
3.5 光伏出力
3
光伏出力(kW)
2.5
2
1.5
1
0.5
0
一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月
(b)
图 6-3 室外温度(a)与住宅光伏发电量(b)的变化曲线
同时,为了验证所提层级式深度强化学习方法的性能,仿真分析中与以下方法
进行了对比。
1)无内部交易策略(Independent Training,IDP):IDP 方法不考虑社区内部
的能量交易,每一个产消者仅与外部电力供应商进行能量交互。因此社区运营商处
不需要训练动态定价策略,仅社区内产消者基于外部电价处优化自身的电力负荷能
量管理策略。
115
华 中 科 技 大 学 博 士 学 位 论 文
6.4.2 算法训练效果
本例主要验证所提社区能量交易策略的训练过程。为了体现产消者(智能住宅)
的异质性,假设社区内共有 3 个住宅,住宅 1 安装了所有的电力负荷,并且配备了
光伏以及储能系统。住宅 2 除了未安装电动汽车外,其余配置与住宅 1 相同,但是
光伏系统容量小于住宅 1。住宅 3 仅安装了 HVAC 系统,时移负荷以及不可控负荷。
运营商处奖励函数中权重系数设定为 =0.6,产消者处系数设置为 1=1.2, 2=25,
3=12,4=8 和5=10。
基于以上设置,所提算法上层内部交易动态定价和下层住宅实时能量管理的训
练过程分别如图 6-4 和图 6-5 所示。图 6-4(a)中表明运营商的总奖励随着训练的进行
逐渐提高并且稳定。图 6-4(b)中显示运营商的收益在所提定价策略下总是正的,即运
营商在协调内部交易的过程获得了收益。结合图 6-4(c)中的用户满意度曲线可知,训
练初始时期由于产消者未能学习到稳定的能量管理策略,因此运营商收益较高,而
用户满意度较低。随着训练次数的增加,用户满意度提高,运营商收益也回落到合
理水平。
116
华 中 科 技 大 学 博 士 学 位 论 文
奖励函数值 0
-20
运营商总奖励
-40
-60
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
训练次数
(a)
1.5 0
奖励函数值
奖励函数值
1 运营商收益 -20 用户满意度
0.5 -40
0 -60
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000
训练次数 训练次数
(b) (c)
图 6-4 运营商处智能体训练过程:(a)总奖励;(b)运营商收益;(c)用户满意度
0
奖励函数值
-5
-10
住宅总奖励
-15 住宅1 住宅2 住宅 3
-20
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
训练次数
(a)
0 0
奖励函数值
-10 -10
-20 -20
用电成本 里程焦虑
-30 -30
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000
训练次数 训练次数
(b) (c)
0 0
奖励函数值
-10 -10
-20 -20
室内温度 变压器负荷
-30 -30
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000
训练次数 训练次数
(d) (e)
图 6-5 产消者处智能体训练过程:(a)总奖励;(b)用电成本;(c)里程焦虑;(d)室内温度;(e)变
压器负荷
117
华 中 科 技 大 学 博 士 学 位 论 文
图 6-5 中给出了三个住宅各自总奖励以及各个子控制目标的变化曲线。可以看出
所有住宅的奖励均在经过 2000 次训练上升到稳定值。其中住宅 3 由于仅含有负荷,
成为完全的电力消费者,因此其奖励值最小。而住宅 1 和住宅 3 可以通过自身光伏
发电而降低相应的用电成本,提高总奖励值。图 6-5(b)-(e)中显示和各子控制目标相
关的奖励值同样逐渐升高,并趋于稳定。其中里程焦虑,室内温度以及变压器负荷
相关项都接近零,表示此时所有住宅的电力负荷运行都满足用户需求。
6.4.3 实时能量交易及管理性能
本例展示所提方法的实时控制性能。运营商处智能体提供连续三天的动态交易
电价,如图 6-6 所示。产消者处智能体提供住宅内电力负荷的实时控制决策,如图
6-7 所示。
略在为供应商提供收益的同时也能维护产消者的收益。
0.5 ob
gb
os
电价($/kWh)
0.4
gs
0.3 max
ob
0.2
0.1
0
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
图 6-6 社区市场内电价变化曲线
118
华 中 科 技 大 学 博 士 学 位 论 文
内温度均保持在舒适区内。图 6-7(f)则表示时移负荷均能够正确启动,并在电价低时
工作以降低用电成本。
6
电动汽车功率 TOU电价 0.5 1
EV充放电功率 (kW)
电价($/kWh)
0.4
电动汽车SOC
2
SOC
0.3
0.5
0 0.2
-2 0.1
0
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时) 时间(小时)
(a) (b)
储能功率 光伏发电量 1
6
储能SOC
功率 (kW)
4
SOC
2 0.5
0
-2 08:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时) 时间(小时)
(c) (d)
30 1.5
住宅1 住宅2 住宅3 TOU电价 0.5
时移负荷功率(kW)
电价($/kWh)
25 0.4
1
)
0.3
温度(
20
0.5 0.2
15 住宅1 住宅2 住宅3
室外温度 舒适区 0.1
10 0
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时) 时间(小时)
(e) (f)
7.2
变压器负荷(kW)
-5 -7.2
图 6-8 变压器负荷在连续十天内的变化
119
华 中 科 技 大 学 博 士 学 位 论 文
现内部交易的动态定价以及产消者负荷的实时管理。
6.4.4 社区能量交易结果
本例主要研究在所提能量交易策略下,社区内的实时能量交易情况。在考虑社
区内部能量交易后,每个产消者的能量流向有了四种可能:1)卖向电网,2)卖向
社区,3)买自电网,2)买自社区。图 6-9 中给出了连续三天内,社区内所有产消者
以及社区总体在所提控制下的能量交易流向。
卖向电网 卖向社区 买自电网 买自社区
5
住宅1
2.5
负荷 (kW)
-2.5
-5 8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(a)
1 住宅2
负荷 (kW)
0.5
0
-0.5
-1
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(b)
0
负荷 (kW)
-0.5
住宅3
-1
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(c)
5
社区总能量流
2.5
负荷 (kW)
0
-2.5
-5
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(d)
120
华 中 科 技 大 学 博 士 学 位 论 文
由于各个住宅本身安装的光伏系统容量以及电力负荷类型不同,因此各自的能
量交易情况均不同。由于配置了光伏系统,图 6-9(a)-(b)中住宅 1 和住宅 2 会在白天
的 8:00-16:00 将多余的电能卖向社区或者电网。而在夜晚,则会选择从电网或者社
区购入电能以满足自身需求。图 6-9(a)中还显示住宅 1 很少从社区内购入电量。这是
因为住宅 1 中配置的光伏容量较大且电力负荷较多,当自身无法满足能量需求时,
社区内其他产消者也很难提供能量支撑。同时,受到储能容量的限制,住宅 1 在夜
晚还需从电网购入能量以满足 EV 等大功率负荷的需求。图 6-9(b)中显示住宅 2 不仅
在白天光伏高发时将多余能量卖向电网以及社区。同时还在住宅 1 光伏高发时从社
区购入能量以满足自身需求。住宅 3 为完全的电力消费者。图 6-9(c)中显示,住宅 3
在住宅 1 或住宅 2 有功率盈余时从社区购电,而在社区内无多余能量时从电网购电。
且住宅 3 大部分能量需求由社区内交易满足。图 6-9(d)提供了整个社区总体的能量流
情况。其中卖向社区和买自社区的能量是完全相等、符号相反的。结果表明社区内
交易大部分发生在白天光伏高发时,而在夜晚则需要从电网购入能量以满足需求。
6.4.5 性能比较
121
华 中 科 技 大 学 博 士 学 位 论 文
0
累计奖励
-100
-160.83
-200 运营商总奖励 -176.72
SAC DDQN IDP
-256.28
-300 0 20 40 60 80 100 120
样本数
(a)
80 77.41
60 运营商收益 62.42
累计奖励
-400
累计奖励
-800 用户满意度
-1113
SAC DDQN IDP
-1200 -1133
0 20 40 60 80 100 120 -1280
样本数
(c)
图 6-10 不同算法下运营商智能体在训练样本集上的累计奖励:(a)运营商总奖励;(b)运营商收
益;(c)用户满意度
表 6-3 运营商智能体在训练集上的累计奖励
累计奖励
定价方法
总奖励 运营商收益 用户满意度
IDP -256.28 0.0 -1281.40
DDQN -176.72 62.42 -1133.29
SAC -160.83 77.41 -1113.79
表 6-4 产消者智能体在训练集上的累计奖励
累计奖励
定价方法
总奖励 用电成本 里程焦虑 室内温度 变压器负荷
IDP -1284.40 -1084.98 -0.925 -4.68 -0.86
DDQN -1133.29 -940.09 -0.178 -5.79 -2.53
SAC -1113.79 -941.41 -0.245 -4.84 -1.39
6.4.6 奖惩函数权重影响
本例以运营商奖励函数中系数为例研究不同权重系数对社区交易的影响。设定
分别为[0.8, 0.6, 0.4, 0.2],图 6-11 中给出了所提社区能量交易策略下 120 个样本的
运营商收益分布情况。由于系数代表运营商收益在奖励函数中的重要性。因此,随
122
华 中 科 技 大 学 博 士 学 位 论 文
着的减小,运营商收益也逐渐降低。
1.5
1
管理员收益
0.5
0
=0.8 =0.6 =0.4 =0.2
图 6-11 不同权重系数下运营商日均收益的分布
6.4.7 算法可扩展性能
0
奖励函数值
-50
运营商总奖励
住宅数=3 住宅数=15 住宅数=30
-100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
训练次数
图 6-12 不同社区规模下的运营商处智能体训练结果
表 6-5 不同社区规模下算法计算时间及网络参数量
住宅数量 3 15 30
总训练时间(min.) 56.35 235.38 456.20
每个智能体平均训练时间(min.) 18.78 15.69 15.21
总网络参数量 868522 3536698 6871918
每个智能体平均网络参数量 289507 235780 229064
123
华 中 科 技 大 学 博 士 学 位 论 文
入维度并不随产消者个数的增加而变多,因此其计算复杂度是固定的。这也导致平
均到每个产消者智能体的训练时间和网络参数量轻微降低。
图 6-13 给出了当产消者个数为 30 时,所提算法的平均控制效果。图 6-13(a)表
明所有住宅的平均室内温度均在舒适区内。图 6-13(b)中为每个小时社区内的最大变
压器功率,可以看出变压器过载情况在所提控制下也很少发生。图 6-13(c)-(f)表明电
动汽车以及储能装置的平均控制效果与 6.4.3 节中的实时控制结果相似。即所提策略
能够根据电价和光伏出力的变化调整相应电力负荷的控制决策。
25 50
变压器负荷 (kW) 变压器负荷
)
20 0
温度 (
舒适区
15 室外温度 -50
室内温度
-72
10 -100
4:00 8:00 12:00 16:00 20:00 24:00 4:00 8:00 12:00 16:00 20:00 24:00
时间(小时) 时间(小时)
(a) (b)
6 24
电动汽车功率 TOU电价 0.5
电动汽车SOC
电动汽车功率(kW)
4
Energy (kWh)
0.4
电价($/kWh)
2 0.3 12
0 0.2
-2 0.1
0
4:00 8:00 12:00 16:00 20:00 24:00 4:00 8:00 12:00 16:00 20:00 24:00
时间(小时) 时间(小时)
(c) (d)
8
2 储能SOC
6
Power (kW)
Energy (kWh)
4
0
2
储能功率 光伏发电量
-2 0
4:00 8:00 12:00 16:00 20:00 24:00 4:00 8:00 12:00 16:00 20:00 24:00
时间(小时) 时间(小时)
(e) (f)
6.5 本章小结
本章在第五章含多类型负荷住宅集群的基础上,进一步考虑增加光伏和储能后
社区市场内能量交易和负荷管理问题。为了能够同时获得协调社区市场内能量交易
的动态定价机制和住宅的实时能量管理方案,提出了基于层级式强化学习的社区能
124
华 中 科 技 大 学 博 士 学 位 论 文
量交易策略。主要结论有:
(1)本章将社区内产消者能量交易问题分解为内部交易动态定价和住宅实时能
量管理两个互相依赖、彼此影响的子问题。并建立了含外部电力供应商,内部社区
运营商,产消者光伏出力以及各类型电力负荷的社区市场交易模型以及其对应的马
尔科夫决策模型。
(2)所提基于层级式强化学习的社区交易策略能够同时获得两个子问题的控制
策略。其中上层的交易动态定价过程采用 DRL 算法训练,通过收集产消者的历史功
率信息以及外部电力供应商电价计算社区内的能量交易价格。下层的住宅能量管理
采用 MADRL 算法训练,仅依赖本地的观测量生成各电力负荷的控制决策。训练和
在线控制过程均有效保护了参与者的隐私信息并具有较高的可扩展性。
(3)仿真分析表明所提方法能够有效应对社区内不同产消者的特性,同时生成
内部能量交易电价和住宅实时管理决策。各产消者实时能量流向也证明了内部交易
的存在可以提高社区运营商以及各个产消者的收益。
125
华 中 科 技 大 学 博 士 学 位 论 文
7 总结与展望
7.1 全文总结
发展新能源汽车是我国从汽车大国迈向汽车强国的必由之路,是应对气候变化,
推动绿色发展的战略举措。在政策、市场、技术等多重要素引领下,我国电动汽车
产业在近年实现了高速发展。尽管潜力巨大,但电动汽车负荷功率大,随机性强,
接入住宅后显著增加了车网协同环境的复杂性并带来诸多不利影响。因此,开展 EV
充放电控制及住宅能量管理研究是推进 EV 接入,促进车网融合发展的必然需求。相
较于传统的模型驱动型优化算法,基于 DRL 的数据驱动型方法不依赖系统模型,对
不确定性因素适应性强,同时可以获得端到端的控制决策,是解决 EV 充放电控制及
住宅能量管理的有效途径。基于此背景,本文围绕基于 DRL 的 EV 充放电控制及住
宅能量管理开展研究,首先对 EV 接入配网后的影响进行了定量分析,然后深入探讨
了不同场景下基于 DRL 算法的 EV 充放电控制及住宅能量管理方法。研究对象和研
究方法均以递进式推进,涵盖内容逐步复杂化和全面化。其中,研究对象从单个电
动汽车到电动汽车集群,再扩展到含多类型负荷的住宅集群和含光伏储能的多住宅
社区能量交易市场;研究方法从单智能体 DRL 算法到多智能体 DRL 算法,再到多
维多类型输出的多智能体 DRL 算法和层级式 DRL 算法。
具体的研究工作和主要结论如下:
(1)针对 EV 接入住宅后的影响分析,首先基于马尔科夫链设计了一个高分辨
率 EV 连续行驶轨迹生成模型,其中转移概率矩阵根据数据集的详细统计分析得到,
包含了 EV 的时空分布特性。在轨迹生成模型的基础上,考虑 EV 用户的充电偏好、
充电可用性、车辆类型、户均车辆、汽车渗透率等因素进一步构建了住宅负荷曲线
生成模型。仿真算例首先从住宅户均负荷和变压器聚合负荷的角度定量分析了 EV 接
入后的影响。结果表明 EV 接入后会显著增加住宅户均负荷的功率峰值、平均值以及
年度需求电量;大规模 EV 负荷的叠加效应会使得变压器过载运行的程度和时间显著
上升。因此具备智能充放电以降低影响的需求。然后分析了不同行驶距离、EV 类型
126
华 中 科 技 大 学 博 士 学 位 论 文
127
华 中 科 技 大 学 博 士 学 位 论 文
能耗信息以及外部电力供应商电价计算社区内的能量交易价格。下层的住宅能量管
理则仅依赖本地观测量以及内部交易电价生成各类电力负荷的控制决策。定价过程
仅需要能耗信息,不需要各个住宅内部的负荷运营情况和控制决策,实时能量管理
过程也仅依赖本地信息,因此所提方法可以有效保护用户的隐私。仿真分析表明所
提算法能够适应不同住宅的异质性,可以同时在线生成内部交易电价和住宅能量管
理策略,并且具有良好的可扩展能力。
7.2 本文主要创新点
与现有 EV 充放电控制及住宅能量管理的研究相比,本文的主要创新点包括:
(1)提出了一种基于深度强化学习(DRL)算法的单个 EV 充放电控制策略。
其中用户动态行为使用驾驶经验、充电偏好、综合焦虑等因素定性描述,并提供了
数学模型定量分析用户经验和总体焦虑水平的关系,实现了将用户充电需求特性从
单个离开时间扩展到了整个充电时段。所提算法结合了监督学习与强化学习的优势,
相较于传统模型驱动算法和已有 DRL 算法,能够有效应对环境中的不确定性,显著
提高了 EV 充放电的在线控制效果。
(2)提出了一种基于多智能体深度强化学习(MADRL)算法的 EV 集群协调
控制策略。所提算法中每个智能体均包含一个集体策略模型估计其他智能体的联合
行为和一个独立学习器改善本地控制策略。算法实现了 EV 集群的在线协同控制,且
在结构上完全分散,仅依赖本地信息进行训练和学习,具有高度的可扩展性和隐私
保护性能。相较于传统的集中式训练 MADRL 算法,所提算法的计算复杂度不会随
着问题规模扩大而增加,控制稳定性高。
(3)提出了一种基于 MADRL 算法的住宅集群能量管理策略,在独立学习器与
集体策略模型框架的基础上,引入了多类型分布构造策略函数以适应离散和连续并
存的动作空间;引入了奖励重塑机制应对奖励信号延后造成的训练不稳定现象。所
提算法延续了 EV 集群协调控制算法在分散式结构上的优势,并且实现了多维多类型
控制变量的输出以及对住宅集群的实时能量管理,在兼顾变压器容量分配公平性的
同时有效降低了变压器过载情况的发生。
128
华 中 科 技 大 学 博 士 学 位 论 文
(4)提出了一种基于层级式深度强化学习(HDRL)算法的多住宅社区能量交
易与管理策略,算法上层采用 DRL 算法根据各个住宅的能耗信息为运营商制定动态
交易电价,下层采用 MADRL 算法根据内部交易电价和负荷状态制定住宅集群能量
管理决策。上下层的智能体互相影响、同时训练,能够有效适应不同住宅的异质特
性,实现了在线生成内部交易电价和住宅能量管理策略,并且具有良好的可扩展能
力。
7.3 工作展望
本文针对基于深度强化学习(DRL)的 EV 充放电控制及住宅能量管理展开了研
究,最终形成了完整的包含电动汽车、多类型住宅负荷以及分布式光伏在内的多住
宅社区能量交易与能量管理框架以及相应的 DRL 优化控制算法,取得了一定的成果,
但仍存在改进的空间。总体上,作者将值得进一步研究的问题归纳到算法,场景以
及应用三个层面:
(1)算法:本文中采用的 DRL 算法,包括单智能体、多智能体以及层级式,
与现在主流的 DRL 算法研究相同,都是通过实验验证的方式证明其优异的控制性能,
缺乏理论分析的支撑,可解释性较弱。现有的理论分析研究也较少,因此本文也未
就算法收敛性分析进行深入探讨。同时,第四、五、六章中的多智能体 DRL 算法面
临着环境非平稳性的挑战,本文采用的集体策略模型属于应对方式的一种,还有许
多其他方面的研究,比如依赖智能体通信等,也都值得进一步的尝试。因此,就算
法层面,下一步的研究工作将聚焦于先进方法的采用、改进以及理论分析的加强。
(2)场景:首先,为了研究各类型负荷在不确定性环境下的控制决策,本文中
含 EV、住宅以及运营商的配网模型主要考虑了能量平衡以及变压器容量约束,未涵
盖配网中的潮流约束、电压约束以及功率损耗等因素。其次,本文假设住宅负荷与
充电设施是一体的,主要研究 EV 在住宅区充电控制,而随着建筑楼宇的停车场中多
充电桩的安装以及充电站、充换一体站的建设,车网协同环境将更为复杂。因此,
就场景层面,下一步的研究工作将对现有场景进行精细化,向实际配网环境靠拢;
然后再对场景进行扩充,考虑建筑楼宇中的充放电控制以及交通网下的最优充电站
129
华 中 科 技 大 学 博 士 学 位 论 文
路径导航和充电站内的控制。
(3)应用:本文的研究主题涉及到了电动汽车产业以及人工智能技术两个领域,
因此推进应用落地有双重的意义,也面临双重的挑战。基于 DRL 的控制算法需要对
环境不断的探索,这对实际应用的条件要求极高。未来应用过程中需要进一步搭载
数字技术的优势进行推进,比如数字孪生等技术。通过构建实际物理系统的虚拟镜
像,DRL 算法的应用难度也会随之降低。同时,在实际应用中 EV 以及住宅的特性
很难完全满足本文假设,因此算法设计过程中还需要对所有可能的场景进行分类讨
论,提高算法应用的效率。因此,就应用层面,下一步的研究工作将对实际应用环
境细化区分,同时对学习训练环境进行构建部署。
130
华 中 科 技 大 学 博 士 学 位 论 文
参考文献
133
华 中 科 技 大 学 博 士 学 位 论 文
134
华 中 科 技 大 学 博 士 学 位 论 文
Robot Learning, Zurich, Switzerland, 29-31 Oct. 2018, PMLR, 2018: 651-673
[25] A. E. Sallab, M. Abdou, E. Perot, S. Yogamani. Deep reinforcement learning
framework for autonomous driving. Electronic Imaging, 2017, 2017(19): 70-76
[26] B. R. Kiran, I. Sobh, V. Talpaert, P. Mannion, A. Sallab, S. Yogamani, et al. Deep
reinforcement learning for autonomous driving: A survey. IEEE Transactions on
Intelligent Transportation Systems, 2022, 23(6): 4909-4926
[27] T. Chu, J. Wang, L. Codecà, Z. Li. Multi-agent deep reinforcement learning for
large-scale traffic signal control. IEEE Transactions on Intelligent Transportation
Systems, 2019, 21(3): 1086-1095
[28] X. Liang, X. Du, G. Wang, Z. Han. A deep reinforcement learning network for traffic
light cycle control. IEEE Transactions on Vehicular Technology, 2019, 68(2):
1243-1253
[29] G. Zheng, F. Zhang, Z. Zheng, Y. Xiang, N. J. Yuan, X. Xie, et al. DRN: A deep
reinforcement learning framework for news recommendation, in: Proceedings of the
2018 World Wide Web Conference, Lyon, France, 23-27 Apr. 2018, International
World Wide Web Conference Committee, 2018: 167-176
[30] Z. Zhang, D. Zhang, R. C. Qiu. Deep reinforcement learning for power system
applications: An overview. CSEE Journal of Power and Energy Systems, 2019, 6(1):
213-225
[31] M. L. Puterman. Markov decision processes: discrete stochastic dynamic
programming. John Wiley & Sons, 2014
[32] R. Bellman. A Markovian decision process. Journal of Mathematics and Mechanics,
1957: 679-684
[33] C. H. Watkins, P. Dayan. Q-learning. Machine Learning, 1992, 8(3): 279-292
[34] R. S. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy gradient methods for
reinforcement learning with function approximation, in: Advances in Neural
Information Processing Systems, Denver, CO, USA, 29 Nov.-04 Dec. 1999, NIPS,
1999: 1057-1063
[35] J. Boyan, A. Moore. Generalization in reinforcement learning: Safely approximating
the value function, in: Advances in Neural Information Processing Systems, Denver,
CO, USA, 28 Nov.-01 Dec. 1994, NIPS, 1994:1-7
135
华 中 科 技 大 学 博 士 学 位 论 文
136
华 中 科 技 大 学 博 士 学 位 论 文
137
华 中 科 技 大 学 博 士 学 位 论 文
138
华 中 科 技 大 学 博 士 学 位 论 文
139
华 中 科 技 大 学 博 士 学 位 论 文
404-412
[78] D. Hilshey, P. D. H. Hines, P. Rezaei, J. R. Dowds. Estimating the impact of electric
vehicle smart charging on distribution transformer aging. IEEE Transactions on
Smart Grid, 2012, 4(2): 905-913
[79] C. Weiller. Plug-in hybrid electric vehicle impacts on hourly electricity demand in the
United States. Energy Policy, 2011, 39(6): 3766-3778
[80] L. Calearo, A. Thingvad, K. Suzuki, M. Marinelli. Grid loading due to EV charging
profiles based on pseudo-real driving pattern and user behavior. IEEE Transactions
on Transportation Electrification, 2019, 5(3): 683-694
[81] 许威, 吕林, 许立雄, 向月. 基于马尔可夫链的电动汽车充电需求计算. 电力系
统及其自动化学报, 2017, 29(03): 12-19
[82] 常东胜, 蔺红. 基于马尔科夫链模拟的电动汽车充电需求分析. 现代电子技术,
2022, 45(05): 90-96
[83] 张美霞, 蔡雅慧, 杨秀, 李丽. 考虑用户充电差异性的家用电动汽车充电需求分
布分析方法. 电力自动化设备, 2020, 40(02): 154-163
[84] M. Muratori. Impact of uncoordinated plug-in electric vehicle charging on residential
power demand. Nature Energy, 2018, 3(3): 193-201
[85] D. Fischer, A. Harbrecht, A. Surmann, R. McKenna. Electric vehicles’ impacts on
residential electric local profiles–A stochastic modelling approach considering
socio-economic, behavioural and spatial factors. Applied Energy, 2019, 233: 644-658
[86] G. Doluweera, F. Hahn, J. Bergerson, M. Pruckner. A scenario-based study on the
impacts of electric vehicles on energy consumption and sustainability in Alberta.
Applied Energy, 2020, 268: 114961
[87] K. Chaudhari, N. K. Kandasamy, A. Krishnan, A. Ukil, H. B. Gooi. Agent-based
aggregated behavior modeling for electric vehicle charging load. IEEE Transactions
on Industrial Informatics, 2018, 15(2): 856-868
[88] Y. He, B. Venkatesh, L. Guan. Optimal scheduling for charging and discharging of
electric vehicles. IEEE Transactions on Smart Grid, 2012, 3(3): 1095-1105
[89] L. Yao, W. H. Lim, T. S. Tsai. A real-time charging scheme for demand response in
electric vehicle parking station. IEEE Transactions on Smart Grid, 2016, 8(1): 52-62
140
华 中 科 技 大 学 博 士 学 位 论 文
[90] B. Sun, Z. Huang, X. Tan, D. H. K. Tsang. Optimal scheduling for electric vehicle
charging with discrete charging levels in distribution grid. IEEE Transactions on
Smart Grid, 2016, 9(2): 624-634
[91] M. A. Ortega-Vazquez. Optimal scheduling of electric vehicle charging and
vehicle-to-grid services at household level including battery degradation and price
uncertainty. IET Generation, Transmission & Distribution, 2014, 8(6): 1007-1016
[92] M. G. Vayá, G. Andersson. Self scheduling of plug-in electric vehicle aggregator to
provide balancing services for wind power. IEEE Transactions on Sustainable Energy,
2015, 7(2): 886-899
[93] D. Wu, H. Zeng, C. Lu, B. Boulet. Two-stage energy management for office
buildings with workplace EV charging and renewable energy. IEEE Transactions on
Transportation Electrification, 2017, 3(1): 225-237
[94] Y. Xu, F. Pan, L. Tong. Dynamic scheduling for charging electric vehicles: A priority
rule. IEEE Transactions on Automatic Control, 2016, 61(12): 4094-4099
[95] Q. Huang, Q. S. Jia, Z. Qiu, X. Guan, G. Deconinck. Matching EV charging load with
uncertain wind: A simulation-based policy improvement approach. IEEE
Transactions on Smart Grid, 2015, 6(3): 1425-1433
[96] Y. Shi, H. D. Tuan, A. V. Savkin, T. Q. Duong, H. V. Poor. Model predictive control
for smart grids with multiple electric-vehicle charging stations. IEEE Transactions on
Smart Grid, 2018, 10(2): 2127-2136
[97] Y. Zheng, Y. Song, D. J. Hill, K. Meng. Online distributed MPC-based optimal
scheduling for EV charging stations in distribution systems. IEEE Transactions on
Industrial Informatics, 2018, 15(2): 638-649
[98] W. Yang, Y. Xiang, J. Liu, C. Gu. Agent-based modeling for scale evolution of
plug-in electric vehicles and charging demand. IEEE Transactions on Power Systems,
2017, 33(2): 1915-1925
[99] J. Neubauer, E. Wood. The impact of range anxiety and home, workplace, and public
charging infrastructure on simulated battery electric vehicle lifetime utility. Journal of
Power Sources, 2014, 257: 12-20
[100] M. Esmaili, H. Shafiee, J. Aghaei. Range anxiety of electric vehicles in energy
management of microgrids with controllable loads. Journal of Energy Storage, 2018,
141
华 中 科 技 大 学 博 士 学 位 论 文
20: 57-66
[101] H. Jahangir, S. S. Gougheri, B. Vatandoust, M. A. Golkar, A. Ahmadian, A.
Hajizadeh. Plug-in electric vehicle behavior modeling in energy market: A novel deep
learning-based approach with clustering technique. IEEE Transactions on Smart Grid,
2020, 11(6): 4738-4748
[102] H. M. Chung, S. Maharjan, Y. Zhang, F. Eliassen. Intelligent charging management
of electric vehicles considering dynamic user behavior and renewable energy: A
stochastic game approach. IEEE Transactions on Intelligent Transportation Systems,
2020, 22(12): 7760-7771
[103] A. Alsabbagh, B. Wu, C. Ma. Distributed electric vehicles charging management
considering time anxiety and customer behaviors. IEEE Transactions on Industrial
Informatics, 2020, 17(4): 2422-2431
[104] Z. Wan, H. Li, H. He, D. Prokhorov. Model-free real-time EV charging scheduling
based on deep reinforcement learning. IEEE Transactions on Smart Grid, 2018, 10(5):
5246-5257
[105] N. Sadeghianpourhamami, J. Deleu, C. Develder. Definition and evaluation of
model-free coordination of electrical vehicle charging with reinforcement learning.
IEEE Transactions on Smart Grid, 2019, 11(1): 203-214
[106] S. Wang, S. Bi, Y. A. Zhang. Reinforcement learning for real-time pricing and
scheduling control in EV charging stations. IEEE Transactions on Industrial
Informatics, 2019, 17(2): 849-859
[107] A. Chiş, J. Lundén, V. Koivunen. Reinforcement learning-based plug-in electric
vehicle charging with forecasted price. IEEE Transactions on Vehicular Technology,
2016, 66(5): 3674-3684
[108] K. L. López, C. Gagné, M. A. Gardner. Demand-side management using deep
learning for smart charging of electric vehicles. IEEE Transactions on Smart Grid,
2018, 10(3): 2683-2691
[109] F. Zhang, Q. Yang, D. An. CDDPG: A deep-reinforcement-learning-based approach
for electric vehicle charging control. IEEE Internet of Things Journal, 2020, 8(5):
3075-3087
[110] H. Li, Z. Wan, H. He. Constrained EV charging scheduling based on safe deep
142
华 中 科 技 大 学 博 士 学 位 论 文
143
华 中 科 技 大 学 博 士 学 位 论 文
144
华 中 科 技 大 学 博 士 学 位 论 文
145
华 中 科 技 大 学 博 士 学 位 论 文
146
华 中 科 技 大 学 博 士 学 位 论 文
147
华 中 科 技 大 学 博 士 学 位 论 文
148