0% found this document useful (0 votes)
37 views156 pages

基于深度强化学习的电动汽车... 放电控制及住宅能量管理策略 闫林芳

This dissertation focuses on electric vehicle (EV) charging control and residential energy management strategies based on deep reinforcement learning (DRL). It analyzes the impact of EV integration on residential loads and proposes various DRL-based algorithms for individual EV charging, coordinated charging of EV clusters, energy management in residential clusters, and energy trading in community markets. The research aims to optimize EV charging and energy management to enhance grid stability while accommodating the increasing complexity of EV loads.

Uploaded by

dracoqhl
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
37 views156 pages

基于深度强化学习的电动汽车... 放电控制及住宅能量管理策略 闫林芳

This dissertation focuses on electric vehicle (EV) charging control and residential energy management strategies based on deep reinforcement learning (DRL). It analyzes the impact of EV integration on residential loads and proposes various DRL-based algorithms for individual EV charging, coordinated charging of EV clusters, energy management in residential clusters, and energy trading in community markets. The research aims to optimize EV charging and energy management to enhance grid stability while accommodating the increasing complexity of EV loads.

Uploaded by

dracoqhl
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 156

分类号 学号 D201980432

学校代码 1 0 4 8 7 密级

博士学位论文
(学术型 专业型□)

基于深度强化学习的电动汽车充放电
控制及住宅能量管理策略

学位申请人: 闫林芳

学 科 专 业: 电气工程

指 导 教 师: 文劲宇 教 授
陈 霞 副教授
答 辩 日 期: 2022 年 5 月 14 日
答辩委员会

姓名 职称 单位

主席 林 涛 教授 武汉大学

苗世洪 教授 华中科技大学

石东源 教授 华中科技大学
委员
王 波 教授 武汉大学

张传科 教授 中国地质大学(武汉)
A Dissertation Submitted in Partial Fulfilment of The Requirements
for The Degree of Doctor of Engineering

Deep Reinforcement Learning Based Electric Vehicle


Charging Control and Residential Energy Management

Ph.D. Candidate : YAN Linfang


Major : Electrical Engineering
Supervisor : Prof. WEN Jinyu
Associate Prof. CHEN Xia

Huazhong University of Science and Technology


Wuhan 430074, P. R. China
May, 2022
华 中 科 技 大 学 博 士 学 位 论 文

摘 要

为应对气候变化、推动绿色发展,电动汽车(Electric Vehicle,EV)产业在近年
来高速发展。尽管拥有巨大的应用潜能,但 EV 负荷功率大且随机性强,接入住宅配
网后会显著提升车网协同环境的复杂度并影响电网的稳定运行。为了推动车网融合
发展,有必要对 EV 充放电进行控制并优化住宅能量管理以降低接入后的不利影响。
相比于基于模型驱动的优化算法,基于数据驱动的深度强化学习(Deep Reinforcement
Learning,DRL)算法不依赖模型,通过自主学习获得控制策略,对随机性因素适应
性强,是解决复杂环境下 EV 充放电控制以及住宅能量管理的有效途径。因此,本文
围绕基于 DRL 算法的 EV 充放电控制及住宅能量管理策略展开研究,首先对 EV 接
入的影响进行了定量分析,然后研究对象逐步从单个 EV、EV 集群扩展到包括 EV
在内的含多类型负荷住宅集群和含光储的多住宅社区能量交易市场,研究内容如下:
(1)针对 EV 接入住宅后的影响分析,采用先建模后分析的思路,首先基于马
尔科夫链设计了 EV 连续行驶轨迹生成模型。然后考虑用户充电偏好,充电可用性等
因素构建了负荷曲线生成模型。算例首先从住宅户均负荷和变压器聚合负荷的角度
定量分析,结果表明 EV 接入后负荷峰值显著增加,变压器过载运行时间明显加长,
EV 充放电控制具备必要性。算例进而分析了行驶距离以及车辆类型对 EV 负荷的影
响,结果表明 EV 的可调度时间和可调度容量较高,充放电控制具备可行性。
(2)针对单个 EV 的充放电控制,提出了一种基于 DRL 算法的控制策略以实现
在降低充电成本的同时缓解用户的综合焦虑。首先使用驾驶经验,充电偏好等因素
定性描述用户的动态行为,提出了综合焦虑的概念表征用户对续航里程和不确定事
件的担忧。然后提拱了相关的数学模型定量分析用户的经验和焦虑。所提算法结合
了监督学习与强化学习的优势,并在强化学习阶段采用 SAC(Soft Actor-critic)算法
以提供连续的充放电决策。仿真结果验证了所提算法良好的在线控制性能。
(3)针对 EV 集群的协调充放电控制,提出了一种基于多智能体深度强化学习
(Multi-agent Deep Reinforcement Learning,MADRL)算法的协调控制策略以实现在
满足用户能量需求,降低用户充电成本的同时避免配网变压器过载。所提 MADRL

I
华 中 科 技 大 学 博 士 学 位 论 文

算法中每个智能体均包含一个集体策略模型估计其他智能体的联合行为和一个独立
学习器改善本地控制策略。算法在结构上完全分散,具有良好的扩展性和隐私保护
性能。仿真结果表明所提算法能够提供良好的 EV 集群在线协调控制决策。
(4)针对含多类型负荷住宅集群的能量管理,提出了一种基于 MADRL 算法的
能量管理策略,以实现住宅内各类电力负荷的实时控制,并在降低变压器过载现象
的同时兼顾变压器容量的分配公平性。为解决多类型负荷连续和离散并存的动作空
间,所提方法使用高斯分布和伯努利分布共同设计策略网络,实现了多维多类型控
制变量的同时输出;面对可时移负荷的奖励滞后问题,引入奖励重塑机制有效提高
了训练稳定性。仿真结果表明所提算法能够有效实现住宅集群的在线协调能量管理。
(5)针对含光伏储能的多住宅社区市场能量交易及管理,提出了一种基于层级
式深度强化学习(Hierarchy Deep Reinforcement Learning,HDRL)算法的能量交易
动态定价及实时能量管理策略,以实现在线生成内部交易电价和住宅集群能量管理
决策。在所提 HDRL 算法中,上层动态定价过程收集各个住宅的能耗信息以及外部
电力供应商电价计算社区内的能量交易价格。下层能量管理则仅依赖本地观测量以
及内部交易电价制定各电力负荷的控制决策。仿真分析表明所提算法能够适应社区
中不同住宅的异质性,同时制定内部电价和能量管理决策。

关键词:电动汽车;智能住宅;多住宅社区市场;充放电控制;能量管理;深度强
化学习;多智能体深度强化学习;层级式深度强化学习

II
华 中 科 技 大 学 博 士 学 位 论 文

Abstract

With the concern of climate change, the electric vehicle (EV) is gaining popularity in
recent years. Despite the huge application potential, the large-scale integration of EVs to
the grid will significantly increase the complexity of the environment and affect the stable
operation of the power system due to the high power and stochastic characters of EV loads.
To promote the development of vehicle-grid integration, the optimization of EV charging
and residential energy management is necessary. Compared with traditional model-driven
methods, the data-driven deep reinforcement learning (DRL) algorithm obtains the control
solution by interacting with the environment directly without relying on system models
and being highly adaptable to uncertainties. This paper focuses on EV charging control
and residential energy management, firstly, the impact of EV loads on the grid is
quantitatively analyzed, and then the EV charging control and residential energy
management strategy based on the DRL algorithm are studied in depth. The specific
research contents are as follows.
(1) For the analysis of the impact of EVs on the residential load in the distribution grid,
a high-resolution EV continuous driving trajectory generation model is firstly designed
based on the Markov chain. Then, a residential load curve generation model is constructed
considering the charging availability and charging preference. The numerical studies
quantitatively analyze the impact of EV integration from the perspective of a residential
household and the distribution transformer. The results show that the peak load will
increase significantly and the transformer overload operation time is longer. The influence
of battery parameters and driving distances on EV load is also provided. The results show
that EVs have sufficient dispatchable time and capacity, and are feasible to control.
(2) For the charging control of individual EVs, a DRL-based control strategy is
proposed to reduce the charging cost while alleviating the aggregate anxiety of users.
Various factors, including driver’s experience, charging preference and charging locations,
are considered to describe the dynamic behaviors of individual EVs. The aggregate
anxiety concept is introduced to characterize the driver’s anxiety on the driving range and
uncertain events. A mathematical model is provided to describe the driver’s experience

III
华 中 科 技 大 学 博 士 学 位 论 文

and aggregate anxiety quantitatively. To obtain a fine-grained control, a novel continuous


SAC control framework is adopted to design the DRL-based approach for optimal EV
charging control. Compared with the standard DRL methods, the proposed approach
including an SL stage and an RL stage achieves a superior control performance.
(3) For the coordinated charging control of EV clusters, a cooperative charging control
strategy based on multi-agent deep reinforcement learning (MADRL) is proposed to
satisfy the energy demand of all users and reduce the charging cost while avoiding the
overload of the distribution transformer. Each agent contains a collective-policy model
and an independent learner. The collective-policy model is introduced to model other
agents’ behaviors. The independent learner is used to learn the optimal charging strategy
by interacting with the environment. Agents are trained with only the local observation
and approximation, indicating that the proposed method is fully decentralized and scalable
to the problem with multiple agents. The numerical studies demonstrate the effectiveness
and scalability of the proposed approach.
(4) For the energy management of residential clusters with multiple appliances, an
energy management strategy based on the MADRL algorithm is proposed to achieve
real-time control of various types of electrical appliances in residential households. The
Gaussian and Bernoulli distributions are adopted to design the actor network to generate
both continuous decisions and discrete decisions. Besides, a reward reshaping mechanism
is introduced to address the reward lag problem caused by the time-shiftable loads and
improve the training stability. Simulation results show that the proposed algorithm can
effectively realize online coordinated energy management of residential clusters and
ensure a fair sharing of transformer capacity.
(5) For real-time energy sharing and management in the community market, a
hierarchical deep reinforcement learning (HDRL) based scheme containing a two-stage
learning process is proposed. In the outer stage, a DRL based pricing approach is proposed
to determine the real-time internal electricity prices based on the participants’ historical
net power and external energy supplier’s electricity prices. In the inner stage, a MADRL
based approach is developed to learn the real-time appliances scheduling policy based on
the local observations and given internal electricity price in a decentralized way. The
proposed algorithm can adapt to the heterogeneity of different households in the

IV
华 中 科 技 大 学 博 士 学 位 论 文

community and be scalable to large scale problems. The simulation results show that the
internal trading price and the household scheduling decisions are made simultaneously.

Key words: Electric vehicles, Smart homes, Community market, Charging Control,
Energy management, Deep reinforcement learning, Multi-agent deep reinforcement
learning, Hierarchical deep reinforcement learning

V
目 录

1 绪论......................................................................................................... 1
1.1 研究背景与意义............................................................................... 1
1.2 深度强化学习的国内外研究现状 .................................................. 4
1.3 EV 充放电控制及住宅能量管理方法的国内外研究现状 ........... 10
1.4 现有研究局限性............................................................................. 20
1.5 本文研究内容及章节安排 ............................................................ 21
2 EV 接入对住宅负荷特性的影响分析 ................................................. 24
2.1 引言 ................................................................................................. 24
2.2 数据集 ............................................................................................. 25
2.3 EV 负荷建模 ................................................................................... 29
2.4 影响分析 ......................................................................................... 34
2.5 本章小结 ......................................................................................... 43
3 基于深度强化学习的单个 EV 充放电控制 ....................................... 45
3.1 引言 ................................................................................................. 45
3.2 考虑用户动态行为的 EV 充放电模型 ......................................... 46
3.3 深度强化学习充放电控制策略 .................................................... 54
3.4 仿真分析 ......................................................................................... 59
3.5 本章小结 ......................................................................................... 67
4 基于多智能体深度强化学习的 EV 集群协调充放电控制 ............... 68
4.1 引言 ................................................................................................. 68
4.2 EV 集群模型 ................................................................................... 69
4.3 多智能体深度强化学习集群协调控制策略 ................................ 73
4.4 仿真分析 ......................................................................................... 77
4.5 本章小结 ......................................................................................... 86
5 基于多智能体深度强化学习的住宅集群能量管理 .......................... 88
5.1 引言 ................................................................................................. 88
5.2 含多类型负荷住宅集群模型 ........................................................ 89
5.3 多智能体深度强化学习能量管理策略 ........................................ 94
5.4 仿真分析 ......................................................................................... 97
5.5 本章小结 ....................................................................................... 104
6 基于层级式深度强化学习的多住宅社区能量交易及管理 ............ 106
6.1 引言 ............................................................................................... 106
6.2 多住宅社区市场模型................................................................... 107
6.3 层级式深度强化学习能量交易及管理策略 .............................. 112
6.4 仿真分析 ....................................................................................... 114
6.5 本章小结 ....................................................................................... 124
7 总结与展望......................................................................................... 126
7.1 全文总结 ....................................................................................... 126
7.2 本文主要创新点........................................................................... 128
7.3 工作展望 ....................................................................................... 129
参考文献................................................................................................. 131
华 中 科 技 大 学 博 士 学 位 论 文

1 绪论

本章介绍本文的研究背景与意义。首先从政策支持、增长规模、示范工程等方
面阐述电动汽车规模化发展的必然趋势。在此基础上讨论电动汽车接入住宅后的潜
能优势和不利影响,并提出本文主要研究内容是基于深度强化学习的电动汽车充放
电控制及住宅能量管理策略。然后从深度强化学习和电动汽车充放电控制及住宅能
量管理策略两个角度对研究现状进行调研并指出现有研究的局限性。最后简要给出
了本文的研究思路和章节安排。

1.1 研究背景与意义

2020 年 10 月 20 日国务院发布的《新能源汽车产业发展规划(2021-2035 年)》


提出发展新能源汽车是应对气候变化,推动绿色发展的战略举措[1]。文件明确了我国
新能源汽车产业的发展愿景:在 2025 年实现新能源汽车新车销售量达到汽车新车销
售总量的 20%左右,在 2035 年实现纯电动汽车(Electric Vehicle,EV)成为新销售
车辆的主流,进而有效促进节能减排水平的提升。作为传统燃油汽车的代替,电动
汽车具有低碳、环保、节能、经济等特点,是应对能源供求矛盾和环境污染问题的
有效途径[2]-[3]。
近年来,国家及地方不断出台政策加快新能源汽车产业顶层设计,企业和科研
结构也持续丰富完善新能源汽车及其配套设施的技术支撑和标准体系[4]-[5],有力推进
了新能源汽车行业的健康创新发展。公安部数据显示,截止 2021 年底全国新能源汽
车保有量达 784 万辆,占汽车总量的 2.60%,与上年相比增长 59.25%。其中,纯电
动汽车保有量 640 万辆,占新能源汽车总量的 81.63%[6]。近五年,新能源汽车年度
登记数量从 2017 年的 65 万辆到 2021 年的 295 万辆,呈高速增长态势。中国电动汽
车充电基础设施促进联盟数据显示,作为电动汽车的基础设施,2021 年全国公共及
私人充电桩保有量总计 261.7 万台,同比增长 70.1%,对应车桩比达到 2.99:1[7]。在
各国政府的相继政策引导下,全球电动汽车市场在近十年也快速增长。根据国际能
源署(International Energy Agency,
IEA)2021 年 4 月发布的《Global EV Outlook 2021》

1
华 中 科 技 大 学 博 士 学 位 论 文

数据显示,全球电动汽车保有量在 2020 年就已突破 1000 万大关,同比增长 43%[8]。


其中德国新增 39.5 万辆,美国 29.5 万辆,法国 18.5 万辆,英国 17.6 万辆。2021 年
7 月欧盟委员会发布了“Fit for 55”提案,旨在 2030 年二氧化碳排放量比 2021 年水
平减少 55%,在 2035 年 1 月 1 日完全禁止内燃机销售。2021 年 11 月,美国总统正
式签署《基础设施投资与建设法案》,大幅提高了电动汽车的税收抵免额度。以上提
案的落实无疑会进一步推动全球电动汽车产业的蓬勃发展。
既有低碳、节能、创新的需求,又有政策、市场、技术的引领,电动汽车规模
化发展是必然趋势。作为电力负荷,大量电动汽车接入配网后对车网之间的能量互
动、高效协同提出了更高的要求。区别于传统的电力负荷,电动汽车具备快速充放
电能力,除了从电网获得能量外,还可以通过车辆到电网(Vehicle-to-grid,V2G)
技术将电动汽车储存的能量反馈到电网中[9]。因此电动汽车也具有了分布式储能的特
性,在消耗能量的同时作为提供主动调节能力的灵活性资源,参与电网功率调节,
提供调峰调频等辅助服务并降低自身用电成本[10]。考虑到单体电动汽车容量有限,
大规模电动汽车通过聚合作用协调配合,可以显著增加电动汽车的调节能力,缓解
电网扩容升级的压力,同时提升风电光伏等可再生能源的消纳比例。为了车网互动
模式的技术方案验证、运营模式探索以及示范效应推广,世界各国也建立了众多的
车网协同示范工程,大多分布在欧洲与北美[11]。其中,电动汽车一般通过参与电力
市场服务获益,应用场景有参与调峰调频、紧急供电、备用供电、放电套利等。国
内 V2G 项目相对较少,近年来国家电网公司已在多个省份投放 2000 多个 V2G 充电
桩用于车网互动示范。2021 年 4 月,我国规模最大的工业园区车网互动 V2G 项目“长
城汽车工业园区 V2G 应用示范项目”在河北保定正式投运,示范区内共设 50 个双
向充电桩,试点车辆可以直接与电力系统实现能量交易[12]。
尽管具有巨大的应用潜能,但大量 EV 接入将会给电力系统带来不可忽视的影响。
单个 EV 负荷与用户的出行规律、充电偏好以及驾驶习惯等因素高度相关,在时间和
空间上表现出明显的随机性和不确定性。大规模 EV 无序接入住宅后,由于缺乏协调
配合,会显著改变住宅居民的用电曲线,增加居民的用电成本[13]。EV 用户在出行时
间上的相似性会直接导致充电时间的高度重合,进而在生活负荷的基础上造成配网

2
华 中 科 技 大 学 博 士 学 位 论 文

负荷峰值移位甚至是峰值重叠的现象。由于配网中变压器大小一般仅适用于当下的
家庭负荷,EV 负荷重叠带来的过载可能会导致变压器过热,加速变压器的老化或损
坏,增加电网设备的投资维修成本[14]。同时,配电网中一般装有了一定比例的分布
式光伏及可控负荷,EV 还需与分布式光伏和原有生活负荷协调配合共同参与住宅能
量管理,以增强配网新能源消纳能力以及辅助服务提供能力[15]。因此,开展 EV 接
入配网后的充放电控制以及住宅能量管理研究成为推进大规模电动汽车接入,促进
车网融合发展的必然需求。
针对 EV 充放电控制以及住宅能量管理问题,现有研究一般以最小化用电成本为
目标,以系统物理特性为约束,建立优化控制或能量管理的调度模型,进而通过凸
优化、线性/非线性规划等传统优化算法求解最优控制决策[16]。尽管现有方法在应用
中取得了一定的优势,但其本质是基于模型驱动,依赖严格的系统数学模型或者精
准的不确定性预测结果。当系统状态发生变化时,比如 EV 用户出行计划改变、充电
需求调整,现有方法都需要再次进行完整的迭代求解,无法获得端到端的控制方案,
泛化能力较差[17]。同时,大规模 EV 接入会进一步提升控制场景的复杂化、动态化
与异构化程度,增加环境中的不确定性。现有方法由于依赖模型、泛化能力差、计
算效率低并且缺乏主动的学习能力,在环境适应性与可扩展性方面存在较大的局限
性。
近年来,以深度强化学习(Deep Reinforcement Learning,DRL)为代表的人工
智能技术在优化决策领域取得了显著的突破[18]-[19]。区别于传统模型驱动的优化算法,
DRL 是一种数据驱动的方法,通过与外部环境的直接交互学习控制策略。结合了强
化学习(Reinforcement Learning,RL)对序贯决策问题的出色优化能力以及深度学
习(Deep Learning,DL)对高维数据的强大表征能力,DRL 方法不依赖系统的动态
模型以及对环境不确定性的预测,获得的控制策略可以直接提供快速的端到端决策,
为 EV 大规模接入住宅后的优化控制和能量管理提供了新的解决思路。
尽管 DRL 算法潜力巨大,但目前将其应用在 EV 及住宅优化控制的研究依然较
少。同时,如何设计有效的 DRL 算法以应对大规模电动汽车接入住宅配网后场景复
杂化、模型动态化以及用户异构化等挑战,是一个需要深入研究的问题。基于此,

3
华 中 科 技 大 学 博 士 学 位 论 文

本文围绕基于深度强化学习的 EV 充放电控制及住宅能量管理开展深入研究。在阐明
大规模电动汽车接入对住宅负荷特性的实际影响后,本文从电动汽车用户、配网住
宅、多住宅社区能量交易市场等多个视角切入,研究在不确定性环境中单个电动汽
车、电动汽车集群的充放电控制策略以及电动汽车与传统家庭负荷和分布式光伏协
同配合的住宅能量管理和能量交易方案。在新能源汽车高速发展以及人工智能技术
推动产业变革的背景下,该研究课题对提高电动汽车接入后的电网运行控制效果、
推进人工智能技术的应用落地具有重要的现实意义与应用价值。

1.2 深度强化学习的国内外研究现状

强化学习(RL)是机器学习中除了监督学习和非监督学习外的第三种基本方法。
区别于其他机器学习方法,RL 不依赖数据标签,智能体通过与环境直接交互不断探
索能够最大化回报的行为。随着 RL 与深度学习(DL)的融合,DRL 进一步提高了
RL 对复杂问题的处理能力。近年来,由于“无模型,自学习,数据驱动”等优势,
DRL 在多种序贯决策问题中都取得了重大突破,在博弈论、控制论、多智能体等领
域也有了深入研究,也已应用于电子游戏[20]-[21],机器人控制[22]-[24],自动驾驶[25]-[26],
城市交通[27]-[28],推荐系统[29]以及智能电网[30]等各类场景中。
为了清晰的展示 DRL 的基本概念与研究现状,本节首先介绍单智能体 RL 以及
DRL 算法,然后过渡到多智能体强化学习(Multi-agent Reinforcement Learning,MARL)
以及层级式强化学习(Hierarchy Reinforcement Learning,HRL),各类算法的结构如
图 1-1 所示。
环境
环境
环境 状态&奖励
智能体
动作 状态&奖励
智能体1 动作
动作 状态&奖励 状态&奖励
状态&奖励
动作
智能体2
智能体 智能体1 智能体2 智能体N
状态&奖励 动作
动作 动作 动作
智能体N

(a) (b) (c)

图 1-1 强化学习类型:(a)单智能体强化学习;(b)多智能体强化学习;(c)层级式强化学习

4
华 中 科 技 大 学 博 士 学 位 论 文

1.2.1 单智能体深度强化学习

RL 是一种描述智能体通过与环境交互学习策略的方法,要素包括智能体,环境,
状态,动作以及奖励,如图 1-1(a)所示。智能体即学习者,根据当下从环境中感受到
的状态以及自身策略选择一定的动作作用到环境。环境在动作影响下发生状态转移
并反馈对动作的评价作为奖励。在不断交互过程中,智能体积累学习经验并调整自
身策略以最大化奖励。智能体与环境的交互一般建模为马尔科夫决策过程(Markov
Decision Process,MDP)[31]。MDP 包含五个部分,{S, A, P, R, },其中 S 代表智能
体所处的环境状态集合,A 代表可供选择的动作集合,P:SA→(S)代表当下状态
st 在动作 at 作用下转移到下一状态 st+1 的概率,R 代表状态转移后获得的即时奖励,
为奖励的折扣因子,代表当下奖励与未来奖励之间的相对重要程度。MDP 假设所有
的状态均具有马尔科夫性,即下一时刻的状态仅与当前时刻状态相关。
求解 MDP 的目标是获得令智能体累计奖励信号最大的动作策略,即:

max J = ( t 0
 t R( st , at ) at ~  ( | st ) ) (1.1)

其中策略为智能体状态空间到动作空间的映射。
基于马尔科夫性,可以通过动态规划或者反向归纳等方法求得 MDP 的最优策略,
比如值迭代算法[32]。但是以上方法需要提前获知状态转移概率函数以及奖励函数的
表达式。相较之下,RL 方法则是“无模型”的,仅从与环境交互收集到的经验中学
习策略。
Q-learning 算法[33]是最著名单智能体 RL 算法之一,适用于具有离散空间的完全
可观测环境。该算法使用动作价值函数 Q(s,a)表示在状态 s 下执行动作 a 后的期望奖
励,称为 Q 值。智能体将每个状态-动作对(s,a)对应的 Q 值保存在列表中。当环境状
态 s 在智能体选择动作 a 转移到 s 时,列表中对应的 Q 值按照下式更新:

(
Q(s, a)  Q(s, a) +  r +  max Q(s, a) − Q(s, a)
a
) (1.2)

其中[0,1]为学习率,r 为状态转移时的即时奖励。
Q-learning 算法在训练过程中通过对状态价值函数进行评估改进策略,属于基于
价值迭代的 RL 算法。与基于价值迭代的算法相对,基于策略迭代的算法跳过了对状

5
华 中 科 技 大 学 博 士 学 位 论 文

态价值函数的估计,动作策略被参数化,智能体直接学习策略函数的参数,进而实
现目标优化[34]。基于策略迭代的算法一般通过控制目标的梯度对参数进行调整。相
较于价值迭代算法,由于策略可以使用深度神经网络(Deep Neural Networks,DNN)
表示,因此策略迭代算法与接下来要引入的 DRL 算法联系更为紧密。
Q-learning 算法由于存储空间的限制主要应用在小规模的优化决策问题中,无法
在大型连续型状态空间中适用。为了应对大型连续空间问题带来的挑战,RL 与深度

学习相结合,使用深度神经网络对函数进行参数化。例如,使用 Q (s, a) 近似动作价

值函数 Q(s, a) ,其中表示神经网络权重系数。凭借深度神经网络强大的高维数据表

征能力,DRL 算法提高了对大型状态空间问题的泛化能力,同时降低了手动设计状
态特征的复杂度[35]。接下来,本节将介绍近年来主流的 DRL 算法。
(1)基于价值迭代的 DRL 算法
DQN(Deep-Q-Network)算法[36]是深度学习与 Q 学习相结合的典型成果。DQN
使用深度神经网络对动作价值函数进行近似,并引入了经验回放机制储存智能体与
环境的交互数据( s, a, s, r )。在每一个迭代时刻,DQN 通过最小化当前 Q 值与目标 Q

值之间的均方差更新参数。损失函数如下所示:

( r +  max Q (s, a) − Q (s, a))


2
L( ) = (s, a, s, r )   (1.3)
a

其中交互记录( s, a, s, r )从经验池中随机抽取以降低数据的非平稳分布对训练稳定性

的影响。
在 DQN 算法的基础上,研究者进一步提出了许多扩展的版本以提升 DQN 的性
能,比如 Double DQN 通过解耦两个 Q 值的计算过程降低了对价值过高估计带来的
影响[37],Prioritized replay DQN 对经验池中不同的样本进行权重赋值[38],提高了有效
样本的训练概率,Duel DQN 优化了价值函数神经网络结构以提升训练性能 [39] ,
Rainbow DQN 整合了六种不同版本 DQN 算法的优势[40],DRQN 使用长短时记忆
(Long Short-Term Memory,LSTM)神经网络做函数近似[41],增强了对时序状态信
号的处理能力。
(2)基于策略迭代的 DRL 算法

6
华 中 科 技 大 学 博 士 学 位 论 文

基于价值迭代的 DRL 方法通过引入函数近似提高了 RL 算法在大型连续状态空


间问题中的适应性,但其动作空间依旧是离散的,且无法解决随机策略问题。因此,
研究人员引入了基于策略迭代的 DRL 算法,通过对策略函数进行参数化,算法可
以基于梯度上升更新策略网络的参数。
基于策略迭代的 DRL 算法包括动作-评论(Actor-Critic,AC)算法[34],异步优
势动作-评价(Asynchronous Advantage Actor-Critic,A3C)算法[42]以及其同步版本
A2C(Advantage Actor-Critic,A2C)算法,确定性策略梯度(Deep Deterministic Policy
Gradient,DDPG)算法[43],信任区策略优化(Trust Region Policy Optimization,TRPO)
算法[44],近端策略优化(Proximal Policy Optimization,PPO)算法[45],双延迟深度
确定性策略梯度(Twin Delayed Deep Deterministic,TD3)算法[46]以及软动作-评论
(Soft Actor-Critic,SAC)算法[47]。
策略梯度算法主要包括策略模型和值函数两个部分。AC 算法中 Critic 网络用于
更新值函数参数,Actor 网络用于生成动作与环境交互并根据 Critic 网络的评价更新
策略函数参数。为了提高学习效率,A3C 算法采用异步并行训练,使用多个 CPU 线
程允许多组 Actor 网络与环境交互并对全局神经网络参数进行调整。A2C 算法是 A3C
的同步确定版本,所有线程中的 Actor 在与环境交互时使用相同的策略参数,可以使
算法具有更快的收敛速度。不同于以上方法使用随机性策略,DDPG 中结合了 DQN
算法与确定性策略梯度算法,在学习确定性策略梯度的同时通过 Actor-Critic 框架将
DQN 扩展到了连续动作空间中。同时,DDPG 使用软更新减缓目标网络的调整速度,
并在动作网络中加入了随机噪声信号以增强算法的探索效率。策略迭代算法一般对
网络更新步长较为敏感,过大或过小的步长均会影响算法的训练性能。为了解决训
练步长难以确定的问题,TRPO 算法通过在每次迭代时对策略更新的幅度强制施加
KL(Kullback–Leibler)散度约束提升了训练的稳定性。PPO 算法使用一个截断的替
代目标函数来简化 TRPO。TD3 算法是 DDPG 算法的改进版本,通过使用两个值网
络将动作选择和 Q 值更新进行解耦,降低了对值函数的过度估计。SAC 算法遵循最
大熵强化学习框架并使用 Actor-Critic 模型,将策略的熵度量纳入回报函数中用以鼓
励探索。

7
华 中 科 技 大 学 博 士 学 位 论 文

1.2.2 多智能体强化学习

多智能体强化学习(MARL)与单智能体强化学习同样用于解决序贯决策问题,
但环境中涉及到的智能体不止一个,如图 1-1(b)所示。多智能体环境状态的演变以及
智能体收到的奖励与所有智能体的联合动作相关,因此在多智能体环境中的学习过
程更为复杂。多智能体环境使用马尔科夫博弈(Markov Game,MG)进行描述[48]。
MG 是 MDP 的扩展形式,包含{N, S, A, P, R, },其中 N 代表智能体个数,S 代表环
境状态集合,每一个智能体仅能观测到环境状态的一部分。A 代表所有智能体的联
合动作集合,满足 A=A1 A2 … AN。P 代表状态转移概率,满足 P: S A1… AN →
(S),即 P 是所有智能体联合动作综合影响的结果。R:SA→ℝ 代表状态转移后获
得的即时奖励,每个智能体都会从环境中获得自身的奖励。为奖励的折扣因子。
根据智能体任务类型可以将多智能体环境分为合作型,竞争型以及混合型。在
合作型环境中,所有智能体互相协作以实现某些共同目标。当所有智能体是同质的
且共享相同的奖惩函数时,可以将所有智能体视为一个决策者,并直接应用单智能
体 DRL 算法进行策略优化,如 Team-Q 算法[49]和 Distributed-Q 算法[50]。更为普遍的
合作型环境中智能体并非完全同质的,智能体可以拥有不同的奖励函数,合作的目
标则是优化整个团队的平均奖励。在平均奖励机制下一般采用去中心化的 MARL 算
法,可以适应智能体的异质性并保护彼此之间的隐私,如 QD-learning[51]。在竞争型
环境中,一个智能体的回报意味着另一个智能体的损失,智能体的奖励之和一般为
零。在学习过程中,智能体假设对手的策略是使得自身回报最小化,进而调整自身
策略以提高回报,比如 Minimax-Q 算法[48]。在混合型环境中,智能体之间的目标和
相互关系并没有明确的约束,学习的目的是为了达到某种程度的平衡,比如 Nash
Q-learning 算法[52]或 Asymmetric Q-learning 算法[53]。
根据智能体的学习结构可以将 MARL 算法分为分散式,分布式以及集中式。分
散式学习也被称为独立学习,每个智能体将其他智能体视为环境的一部分,直接应
用单智能体算法与环境交互,如 Independent Q-learning(IQL)算法[54]。由于忽略了
多智能体环境的性质,独立学习方法无法保证环境的平稳性并可能收敛失败 [55]。尽
管缺乏理论保证,独立学习方法在实践中取得了良好的控制效果,并且在可扩展性

8
华 中 科 技 大 学 博 士 学 位 论 文

方面有巨大优势[56]。为了缓解独立学习中可能出现的失稳现象,分布式学习假设环
境中各个智能体可以通过通信网络与相邻节点交换本地信息。分布式学习中常见算
法是参数共享(Parameters Sharing,PS),即在训练过程中各个智能体不断交换网络
权重、梯度信号或训练一个网络然后在全系统共享,比如 CommNet[57]或 BiCNet 算
法[58]。集中式学习假设存在一个集中控制器可以收集所有智能体的联合状态、动作
以及奖励信息。目前流行的集中式训练分散式执行架构(Centralized Learning with
Decentralized Execution , CTDE ) 便 属 于 该 控 制 结 构 , 具 有 代 表 性 的 算 法 包 括
MADDPG[59],COMA[60],VDN[61]以及 QMIX[62]等。MADDPG 和 COMA 算法在训
练过程中用到了所有智能体的联合状态以及动作以训练评价网络。VDN 和 QMIX 算
法则需要整合所有智能体的值函数。由于获取了全局信息,集中式学习简化了理论
分析的难度,有效缓解了多智能体环境潜在的非平稳性问题。但集中式学习的状态
空间维数以及计算复杂度会随着智能体个数增加而显著上升,不利于算法在大规模
问题中的应用。

1.2.3 层级式强化学习

无论是单智能体 RL 还是多智能体 RL 都是通过环境交互进而调整策略来优化序


贯决策问题。当问题非常复杂或任务较为困难时,智能体面临的状态动作空间过大,
样本探索效率极低,可能会导致训练失效,难以取得理想的控制效果 [63]。为了应对
复杂环境中的决策问题,层级式强化学习(HRL),又称分层强化学习,提出分而治
之的思想将任务分解为不同层次上的多个子任务,通过对子任务的求解实现解决原
任务的目的,结构如图 1-1(c)所示。HRL 的优势在于利用分层的方式减少了问题的
复杂性,多层次结构也增强了算法的时间抽象能力和泛化能力。
现阶段的 HRL 算法一般采用两层结构,上层根据观测到的环境信息以及底层智
能体状态输出指令。底层则根据上层的输出结果以及自身状态产生动作,解决自身
的子任务。经典的 HRL 算法包括基于选项(Option)[64]的算法,基于分层抽象机
(Hierarchical of Abstract Machines,HAM)[65]的算法,基于值函数分解(MAXQ Value
Function Decomposition)[66]的算法和基于端到端(End to End)的算法。
在 Option 算法中,
“Option”本质上是一种对动作的抽象,可以理解为一段持续

9
华 中 科 技 大 学 博 士 学 位 论 文

时间内的动作。Option 算法的观点是在智能体的动作之上抽象出了一个决策层,即
智能体首先选择一个具有时间持续性的“Option”后,再进行具体的决策。HAM 算
法的核心思想是通过先验知识对策略进行限制以降低 MDP 的复杂度,在一定程度上
可以提高学习效率。与 Option 一样,HAM 依赖先验知识设计状态机,因此适用性有
限。MAXQ 算法主要思想是将目标任务进行值函数分解,每个子任务对应一个 MDP
并使用 Q-learning 进行优化。基于端到端的算法则着重于如何让智能体自学分层抽象,
而不依赖人为的任务分解和状态机设计。文献[67]中将 Option 概念和 AC 框架结合,
提出了一种 Option-Critic 框架,并使用策略梯度对 Option 参数进行优化。由于不需
要内在设置奖励,智能体可以自动学习 Option 策略并自动切换 Option,实现了端到
端的控制。

1.3 EV 充放电控制及住宅能量管理方法的国内外研究现状

大规模 EV 接入住宅后会显著增加控制环境的复杂度。在无序充电控制下,EV
负荷将会显著改变住宅原有的负荷曲线并影响电网的稳定运行。首先,单个 EV 接入
住宅后由于充放电功率较大会显著增加住宅的用电成本。其次,大规模 EV 集群产生
的聚合效应会增加配网负荷峰值或造成新的负荷峰值,进而对变压器等公用设施产
生不利影响。同时,EV 作为灵活性用电资源参与到住宅内能量管理时需要考虑与原
有可控负荷之间的配合关系。最后,屋顶光伏面板等分布式新能源的安装会促使住
宅从电力消费者向电力产消者转变,增加了配网内能量交易的可能,此时 EV 可以作
为分布式储能参与到能量交易过程。
因此本节将采用递进式的思路介绍 EV 充放电控制及住宅能量管理的研究现状,
从复杂度由低到高可以划分为:1)EV 接入对住宅负荷特性的影响分析,2)单个
EV 充放电控制,3)EV 集群协调充放电控制,4)包括 EV 在内的含多类型负荷住
宅能量管理,5)含光伏及储能系统的多住宅社区市场能量交易及管理等五个场景。

1.3.1 EV 接入对住宅负荷特性的影响分析

EV 接入后对住宅负荷特性的影响取决于充电负荷的特性。由于用户驾驶行为、
充电偏好的多样性与差异性,EV 负荷在时间上以及空间上表现出明显的随机性。目

10
华 中 科 技 大 学 博 士 学 位 论 文

前已有大量文献遵循“EV 负荷建模-接入影响分析”的思路剖析了 EV 接入对住宅负


荷特性的影响。
文献[68]中使用 Pecan Street 社区内智能电表监测的高分辨率住宅能耗数据分析
EV 负载对住宅总体负荷的影响,并提出需要引入智能充电控制以避免 EV 负荷和生
活负荷的峰值重叠。文献[69]结合了 SwitchEV 项目中收集的 EV 充电行为数据、住
宅电力需求数据以及配网模型以分析 EV 接入对郊区以及城市配电网的影响。结果表
明充电行为显著降低了负荷峰值时期变压器的可用容量。文献[70]假设 10 户含 EV
的住宅连接在同一个变压器上,使用住宅负荷检测数据分析了不同充电功率下 EV 负
荷对配网内变压器的影响。为了预测不同充电地点的 EV 负荷曲线,文献[71]从车辆
GPS 设备一年的定位数据中提取 EV 行为的特征参数,例如行驶距离,行驶时间等。
区别于直接使用负荷检测数据进行充电负荷建模[68]-[71],文献[72]-[80]中假设
EV 满足特定的驾驶模式或使用平均统计数据估计 EV 负荷和住宅负荷。文献[72]假
设 EV 集群的起始荷电状态(State of Charge, SOC)以及起始充电时间分别满足不同
的分布,进而抽样得到 EV 负荷曲线。基于平均统计数据,文献[73]从驾驶模式,电
池参数,充电时间以及车辆渗透率等方面来分析 EV 对配电网的影响。文献[74]合并
了住宅常规用电、EV 充电行为以及光伏发电量的三个概率分布模型用于生成住宅整
体用电数据,进而从单住宅以及多户聚合两个层面分析 EV 负荷的影响。文献[75]-[76]
假设 EV 电池容量和充电时段是固定的,并使用平均负荷曲线模拟住宅生活负荷,分
析了不同充电速率下 EV 负荷对配网总负荷形状,功率损耗,变压器负载以及电压偏
差的影响。文献[77]中假设 EV 每日的行驶距离满足一定的分布,使用蒙特卡洛抽样
方法得到 EV 的日负荷曲线并分析对配网中变压器的寿命影响。文献[78]基于全美家
庭出行调查数据集(National Household Travel Survey,NTHS)中的统计数据构建
EV 负荷的蒙特卡洛抽样模型并建立了变压器的热力学动态模型。通过分析变压器在
过载下的温度和绝缘变化,文献[77]-[78]表明 EV 无序充电会显著增加变压器的老化
率,降低变压器的使用寿命,而使用智能充电可以减轻 EV 接入对变压器的影响。文
献[79]-[80]同样基于公开的出行数据提取 EV 出行的特征参数并采用抽样的方式重构
单个 EV 负荷曲线,进而叠加得到 EV 集群接入后系统的负载变化。

11
华 中 科 技 大 学 博 士 学 位 论 文

基于统计数据或特定分布,文献[72]-[80]可以抽样得到更丰富的 EV 负荷曲线,
但忽略了 EV 在空间上的分布特性。文献[81]-[85]引入了居民的出行目的,从时间和
空间两个层面考虑 EV 负荷的随机性。文献[81]基于 NHTS 数据得到了 EV 时空分布
的统计概率,进而确定了 EV 在一天内各个时段的区域分布情况。文献[82]使用出行
链描述 EV 的出行行为,并基于马尔科夫链模拟无序充电下的 EV 充电需求,进而分
析了在不同 EV 渗透率下配电网的电压越限和能量损耗情况。文献[83]在出行链模拟
EV 时空分布的基础上提出了计及停车时长充裕度以及分时电价的充电需求分布分
析方法。相较于无序充电,所提方法能够引导用户充电需求在时空上发生转移,进
而降低负荷峰值。文献[84]通过量化居民的电力消耗行为,基于马尔科夫链建立了高
分辨率的 EV 负荷模型和住宅生活负荷模型。在此基础上评估了在不同渗透率下 EV
无序充电对住宅电力需求的影响。结果表明无序充电会显著改变住宅总电力需求的
形状以及负荷峰值,增加变压器的负载系数并降低变压器寿命。文献[85]同样使用马
尔科夫链对 EV 出行行为进行模拟,特点是在驾驶行为和电池参数的基础上引入了职
业,收入,年龄等社会经济因素描述用户的充电需求。结果表明 EV 将导致住宅夜间
高负荷时段提前并延长,同时负荷峰值显著增加。
在考虑 EV 时空分布特性的基础上,文献[86]-[87]将 EV 个体在充电行为上的相
互影响纳入考量,使用基于智能体的建模(Agent-based Modelling,ABM)思路构建
EV 负荷模型。文献[86]中使用驾驶经验、里程焦虑、充电速率、充电时长等表征 EV
的微观参数,使用 EV 数量、日期类型、出行目的等表征 EV 集群的宏观参数。基于
NetLogo 平台模拟驾驶员的行为倾向并计算充电决策以及负荷曲线。文献[87]同样使
用 ABM 方法构建 EV 负荷,进而分析在不同的充电场景中 EV 接入后对住宅能量消
耗的影响。场景由 EV 渗透率以及充电控制方法区分,包括无序充电,延时充电以及
错峰充电。结果同样表明无序充电方式会显著增加住宅区的电力需求峰值,给电力
系统运行带来极大的挑战。

1.3.2 单个 EV 充放电控制

单个 EV 充放电控制的目标是通过调整充电时段内的所有充放电决策以实现满
足用户出行需求的同时降低充电成本。文献[88]假设 EV 的达到时间,离开时间,初

12
华 中 科 技 大 学 博 士 学 位 论 文

始能量,需求能量以及日内常规负荷均是已知的,将 EV 充放电控制问题描述为一个
凸优化问题,目标是最小化成本,决策变量为充放电功率,进而通过内点法求解最
优控制结果。文献[89]将实时 EV 充电控制转化为一个二元优化问题并且提出了一种
结合线性规划(Linear Programming,LP)和凸松弛的算法。文献[90]同样将 EV 充
电控制转化为一个等效线性规划问题并提出了一种启发式算法求解最优的充电开关
决策。文献[91]中进一步考虑了实时电价的不确定性以及 EV 电池的退化成本,提出
了一种鲁棒优化方法求解住宅中 EV 实时充电优化决策。与文献[91]相似,文献[92]
中提出了基于场景的鲁棒优化算法以应对新能源出力和驾驶行为的不确定性。文献
[93]研究集成光伏系统和 EV 的办公楼能源管理问题并使用随机规划来解决 EV 充电
需求的不确定性。文献[94]将 EV 的充电调度转化为一个无限时的动态规划模型,并
基于动态规划(Dynamic Programming,DP)得到充电成本最低的调度方案。考虑风
电出力和 EV 充电需求的随机性和动态性,文献[95]将 EV 充电调度转化为一个 MDP
模型以适应供需双方的不确定性。文献[96]中提出了一种基于模型预测控制(Model
Predictive Control,MPC)的 EV 充电功率控制方法实现最大限度的降低充电成本同
时满足住宅负荷和 EV 电力需求。文献[97]考虑了系统运行约束,将充电站内 EV 在
线充电调度表述为一个最优潮流问题并基于 MPC 算法最小化系统用电成本。文献
[88]-[97]中仅考虑了 EV 充电需求在时间和空间上的不确定性,然后将 EV 充电调度
转化为一个优化问题并采用传统优化方法进行求解。但针对电动汽车用户个体而言,
驾驶行为并非完全同质且静态的。文献[98]-[101]中详细分析了 EV 用户的出行习惯,
驾驶经验,充电偏好,里程焦虑对充电需求的影响,因此有必要在 EV 充电模型中进
一步考虑驾驶员详细的动态行为。假设用户的充电偏好参数在充电过程中是变化的,
文献[102]提出了一种随机博弈算法来应对 EV 充电调度过程中的不确定性。文献[103]
中引入了时间焦虑来刻画 EV 用户对充电期间不确定事件的担忧,并提出了一种基于
博弈论的算法求解最优调度决策。
以上 EV 充电调度方法本质上是模型驱动的,依赖精确的系统动态模型或者不确
定性的预测结果。在现实场景中,来自实时电价以及驾驶员的动态行为的不确定性
给系统建模和预测带来了严峻的挑战。与模型驱动型方法相比,数据驱动型的 DRL

13
华 中 科 技 大 学 博 士 学 位 论 文

算法则不依赖精确模型和先验知识,能够有效应对环境中的不确定性。已经有研究
者将其应用在单个 EV 充放电控制问题中[104]-[110]。
为实现降低充电成本的同时满足 EV 能量需求,文献[104]提出了一种基于 DRL
的住宅 EV 个体充放电控制算法,包含一个用于提取实时价格特征的 LSTM 网络和
一个用于制定充放电决策的 DQN 网络。文献[105]中提出了一种基于 Q-learning 的充
电站 EV 充放电控制方法,有效考虑了单个 EV 的充电特性,包括到达时间和充电时
长。考虑 EV 到达、离开以及电价的随机性,文献[106]提出了一种基于 SARSA 算法
的充电调度策略。文献[107]中使用贝叶斯网络用于电价预测,然后基于 FQI(Fitted
Q-Iteration)算法学习控制策略以降低 EV 的长期充电成本。结合动态规划和监督学
习,文献[108]从收集的样本中训练深度神经网络进而做出实时充电决策。文献
[104]-[108]中的算法能够适应连续的状态空间,但充放电功率是离散的。为了进一步
提高控制精度,文献[109]-[110]中假设充放电功率是连续型变量。文献[109]使用
DDPG 算法求解单个 EV 的连续型充放电控制决策,并引入了两个经验池以解决智能
体和环境交互过程中存在的奖励稀疏现象。文献[110]将 EV 充放电调度问题表述为
一个受约束的 MDP 问题,并基于约束策略优化(Constrained Policy Optimization,
CPO)算法求解调度策略。

1.3.3 EV 集群协调充放电控制

单个 EV 接入后会显著增加住宅的能量消耗和用电成本。同时,由于 EV 负荷的
聚合效应,大规模 EV 接入可能会进一步造成配电网过载以及网络阻塞,增加配网设
施的运行维护成本。因此有必要对 EV 集群进行协调控制以降低大规模 EV 接入对电
网的影响。区别于单 EV 控制问题,EV 集群协调充放电的控制目标在满足用户出行
需求、降低用户充电成本的同时,还需要降低 EV 负荷聚合效应对电网的影响。
根据模型假设和通信机制,现有电动汽车协调充放电控制方法可以分为:1)集
中式模型驱动方法[111]-[115];2)分布式模型驱动方法[117]-[125];3)集中式数据驱动方
法[126]-[128];4)分布式数据驱动方法[129]。
文献[111]-[112]中使用混合整数线性规划(Mixed Integer Linear Programming,
MILP)模型求解配电网中电动汽车协调控制问题。其中配网运行约束包括电压限制,

14
华 中 科 技 大 学 博 士 学 位 论 文

有功无功限制以及最大电流限制。文献[113]同样研究配电网中 EV 在线协调控制问
题以减少电压越限以及变压器过载。作者假设配网内住宅中除 EV 外均为不可控负荷
并构建了受价格引导的 EV 协调充放电 MILP 模型。文献[114]提出了一种基于排队模
型的充电站 EV 协调充放电控制方法。该方法假设 EV 能够提前与充电站通信,控制
器进而根据所有 EV 状态安排充放电计划以降低系统负荷峰值。文献[115]中提出了
一种两阶段充电调度方法以降低 EV 负荷对变压器寿命的影响。第一阶段根据历史充
电数据优化每小时可充电的 EV 数量,第二阶段再根据实际运行情况调整未来一小时
的 EV 接入数量。
与集中式方法相比,分布式方法不需要中央控制器,无需根据全局信息统一优
化充放电决策,具有高度的可扩展性[116]。文献[117]提出了一种基于一致性算法和
KKT(Karush-Kuhn-Tucker)条件的分布式控制策略以在最大化用户充电满意度的前
提下避免变压器过载。由于不依赖集中控制器,该算法能够有效应对通信链路单点
故障,并适应大规模 EV 充放电控制问题。文献[118]关注在配电网中 EV 充电对低压
变压器的影响,提出了一种基于注水原理(Water-Filling Principle)的分布式算法平
滑变压器负荷以降低变压器过载。文献[119]将考虑馈线过载的 EV 充电调度表述为
一个凸优化问题,然后提出了两种分布式梯度投影算法用于解决系统过载。文献
[120]-[121]基于博弈论(Game Theory)设计适用于大规模 EV 充电协调控制的分布
式充电策略,并通过分布式迭代方法得到每个 EV 的控制决策,在防止变压器过载的
同时可以保护每个用户的隐私。基于平均场博弈,文献[122]提出了一种适用于大规
模 EV 的分散式充电协调算法。EV 之间并不交换信息,而是通过本地信息和聚合器
广播信息迭代估计最优的充电策略。文献[123]提出了一种基于交替方向乘子法
(Alternating Direction Method of Multipliers,ADMM)的分散控制方法协调 EV 集群
的充电调度并减轻电池退化以及网络过载。当配电网变压器或线路容量受限时,系
统并不能保证所有 EV 同时以最大功率充电,因此在设计协调控制算法时还需考虑可
用容量在 EV 之间的公平分配[124]-[125]。
以上集中式模型驱动和分布式模型驱动方法均依赖详细的配网 EV 控制模型,进
而通过集中式优化或分布式迭代的方式求解 EV 协调控制策略。大规模电动汽车接入

15
华 中 科 技 大 学 博 士 学 位 论 文

后使得系统精确模型很难获得,此时数据驱动型方法的优势更为明显。同样,数据
驱动型方法也根据算法结构分为集中式和分布式两类。文献[126]提出了一种基于单
智能体 RL 算法的 EV 集群充电协调策略以降低住宅区 EV 负荷导致的变压器过载,
由一个智能体产生多个 EV 的充电决策。相比于模型驱动的优化算法,该算法并不需
要提前系统的详细动态模型。文献[127]考虑了配网充电站中的潮流约束,电压约束
以及充电桩容量限制,提出了一种基于 DDPG 算法的大规模 EV 协调充放电策略。
文献[128]提出了一种基于 SAC 算法的 EV 充电控制策略以应对在考虑实时电价以及
光伏出力等不确定性因素下配电网内大规模 EV 的协调调度问题。为了降低 EV 规模
增加导致的算法维度上升,作者假设配网中在相同节点的 EV 拥有统一的能量需求,
从而降低了算法的输出维度。
文献[126]-[128]中方法假设 EV 充放电环境是完全可观测的,使用 EV 集群的全
局信息训练单个智能体执行集中式决策。但在实际控制中,EV 用户可能不愿意共享
自身的私有信息,比如出行计划、电池状态等。这使得充放电环境变为一个部分可
观测系统,出于隐私保护以及可扩展性的考虑,单智能体集中式方法此时无法适用。
与单智能体算法相比,多智能体算法在结构上与分布式控制更为接近,每个智能体
能够依据本地信息进行决策,而不依赖集中控制器。目前在考虑系统约束条件下使
用多智能体深度强化学习(MADRL)算法解决 EV 集群协调控制的研究较少。文献
[129]提出了一种基于多智能体协作算法的配电网 EV 集群协调控制策略。每个智能
体都使用 Q-learning 进行训练,训练目标是减少 EV 接入后住宅区的变压器过载现象
并降低用户的充电成本。但是该算法中每个智能体在维护自身的“自私”Q-Table 外,
还通过通信和系统中所有节点建立了“协作”Q-Table。当系统中 EV 数量增多时,
算法需要更新的 Q-Table 数量将会呈指数式增长,无法保障算法的可扩展性。此外,
该算法没有考虑变压器容量在 EV 之间的分配也无法解决连续动作问题。因此,针对
EV 集群协调控制,如何设计一个兼顾系统约束、用户个人满意度、容量公平分配、
可扩展性与隐私保护的 MADRL 算法仍是一个需要研究的难点。

1.3.4 包括 EV 在内的含多类型负荷住宅能量管理

由于充放电功率的可控性,电动汽车也具有参与能量调节的潜力,在接入住宅

16
华 中 科 技 大 学 博 士 学 位 论 文

后可以作为灵活性用电资源参与住宅能量管理。EV 负荷具有充电功率大,时空随机
性强等特点,与传统住宅可控负荷,比如供暖、通风与空调(The Heating, Ventilation,
and Air Conditioning,HVAC)系统,一起构成了多类、异构的住宅内能量管理环境。
因此,EV 接入住宅后还需要考虑如何与住宅内多类型可控负荷之间协同配合,共同
参与能量管理。
除了用户驾驶行为以及充电偏好,住宅能量管理(Home Energy Management,
HEM)中不确定性因素还来自于室外温度、实时电价以及其他生活负荷用电习惯。
借助先进的传感以及通信技术,HEM 通过监控和管理各类负荷以实现在满足居民负
荷需求的同时降低用电成本[130]。现有研究同样可以分为模型驱动型[131]-[138]和数据驱
动型[139]-[143]。
文献[131]将 MILP 模型应用于住宅负荷的日前调度以降低家庭用电成本并避免
在低电价时期产生新的负荷峰值。文献[132]提出了一种多目标 MILP 模型以同时实
现降低用电成本、提高用户便利率以及保持温度舒适度三个控制目标。考虑到用户
用电行为以及实时电价的不确定性,文献[133]-[134]中基于鲁棒优化算法设计住宅内
家电能量管理策略。文献[135]和[136]在随机优化模型中考虑了 EV 时空分布和住宅
光伏出力的不确定性,分别提出了基于随机动态规划和遗传算法的优化方法。文献
[137]中建立了基于机会约束的优化模型以适应 HEM 环境中实时电价以及负荷预测
误差的不确定性,并提出了改进的粒子群优化算法(Particle Swarm Optimization,PSO)
算法求解该约束问题。文献[138]进一步考虑了不同家电之间的操作依赖关系,提出
了一种启发式算法以求解不确定环境中的家电调度策略。
区别于以上模型驱动型方法,文献[139]提出了一种基于强化学习和人工神经网
络(Artificial Neural Network,ANN)的住宅能量管理策略。作者为住宅内的每一个
可控负荷都设计了基于 Q-learning 的决策模型,同时使用 ANN 预测未来的实时电价。
考虑光伏出力、外部温度以及实时电价等不确定性,文献[140]中建立了考虑住宅内
HVAC 和储能系统(Energy Storage, ES)动态变化的 MDP 模型,并提出了基于 DDPG
算法的能量管理策略。文献[141]中分别设计了基于 DQN 算法和 DPG 算法的两种
HEM 控制策略,目标是降低负荷峰值并最小化用电成本。文献[142]使用极限学习机

17
华 中 科 技 大 学 博 士 学 位 论 文

(Extreme Learning Machine,ELM)对实时电价以及住宅内光伏进行滚动预测,基


于预测结果使用 Q-learning 算法学习不同类型负荷的控制策略。以上强化学习算法仅
能输出单种类型的控制决策,但住宅内可能同时存在离散型和连续型可控负荷,比
如 EV 为连续型而洗碗机为离散型。文献[143]在 TRPO 算法的基础上对策略网络进
行了改进,使得所提在线负荷优化调度方法可以同时输出离散型决策和连续型决策。

1.3.5 含光伏储能的多住宅社区市场能量交易及管理

随着 EV 的接入以及分布式光伏和储能装置的安装,传统的电力住宅用户逐渐从
电力消费者(Consumer)的角色向电力产消者(Prosumer)转变,电力交易对象也
从电网扩展到社区内其他产消者。因此,在住宅能量管理的基础上还需要进一步考
虑含光储系统的社区内能量交易。
文献[131]-[143]中的住宅内部能量管理策略仅考虑了住宅与电网进行能量交易,
多余的光伏出力以上网电价出售给电网。然而产消者独立参与能量交易的运行模式
产生的效益是非常有限的[144]。点对点(Peer-to-Peer,P2P)能量交易作为一项高效
的能量管理技术允许产消者在本地市场内和其他参与者分享光伏以及储能中的能量,
从而有效提高每个住宅的效益并降低住宅群对电网的影响。区别与住宅内能量管理,
考虑 P2P 交易后产消者还需要协调与外部电网以及市场内其他住宅的能量交互过程。
根据市场结构的去中心化程度,可以将 P2P 交易市场分为分散式市场和社区式
市场[145]。在完全分散式的市场中,产消者之间可以进行独立、直接的信息协商和能
量交易,不需要集中运营商或者任何代理机构。然而协商过程中往往需要重复的迭
代过程才能得到最终的交易方案,耗时较长且通信负担较重。相对于完全分散式市
场,社区式能量交易市场适用于一组在地理位置上接近并且拥有相似目标的产消者。
社区市场需要运营商或者管理员进行内部定价以及能量分配等辅助服务以提高交易
效率。文献[146]中的社区能量市场包括日前的交易定价和日内的住宅能量管理。社
区运营商根据产消者的本地信息计算交易电价并反馈给产消者,而产消者在日内根
据交易电价、光伏出力以及负荷运行情况做出实时能量管理决策。文献[147]中提出
了一种基于双线性规划(Bi-Linear Programming,BLP)的交易优化算法通过需求侧
管理系统协调智能住宅之间的 P2P 能量交易。同时使用帕累托最优来确保不同住宅

18
华 中 科 技 大 学 博 士 学 位 论 文

之间分配的公平性。文献[148]将社区能量交易转化为一个 MILP 模型,并基于合作


博弈思想提出了一种实时滚动的优化算法求解最优能量管理决策。文献[149]在社区
市场中构建了一个 P2P 能量交易池,用于各产消者之间进行灵活交易。社区运营商
根据功率实时供需比(Surplus-to-Demand Ratio,SDR)决定内部实时交易价格,住
宅则主导自身的需求侧管理。文献[150]同样采用 SDR 进行内部交易的动态定价。SDR
定价方法能够确保内部交易电价始终在外部供应商电价和上网电价之间,进而激励
用户参与内部交易。文献[151]提出了一种新的博弈论模型用于描述社区市场内的
P2P 交易模型并设计了一种分布式迭代算法实现交易收敛。文献[152]-[153]中则使用
ADMM 算法确定 P2P 内部交易的电价。文献[154]针对社区市场内提出了 MMR
(Mid-Market Rate,MMR)机制确定交易电价。与 SDR 相似,MMR 机制同样可以
激励用户参与到市场交易中来。
区别于文献[146]-[154]中的模型驱动型算法,目前已有研究者将基于 DRL 的数
据驱动型方法应用于含多类型负荷的住宅集群能量管理以及社区市场的能量交易
[155]-[162]。考虑到市场内小规模电力消费者和产消者难以承受寻找交易对象的时间
成本,文献[155]中在市场内使用中间商收集不同用户的能源交易特征以提高资源配
置效率,并提出了基于 Q-learning 的交易策略优化所有参与者的收益。文献[156]提
出了一种基于 DQN 算法的微电网集群能量交易方案,基于可再生能源以及未来电力
需求的预测值和微网内的储能状态优化交易决策。文献[157]研究分级电力市场中的
能源管理问题,包括一个服务供应商(Service Provider,SP)和若干个电力消费者。
SP 主导的内部交易动态定价问题被转化为一个 MDP 模型并基于 Q-learning 求解。文
献[158]同样基于 Q-learning 进行能源交易中的动态定价。为了提高决策性能,文章
使用 LSTM 网络对住宅屋顶光伏出力进行预测后作为状态量输入到决策模型中。
文献[155]-[158]中仅考虑了运营商的内部动态电价,并使用一个二次型的效用函
数代替产消者内部的能量管理过程,并未考虑内部负荷的响应特性。文献[159]-[162]
基于 MADRL 框架进一步探讨了如何有效协调多个产消者的能量管理,并兼顾各个
参与者的隐私保护与方法的可扩展性。文献[159]中研究连接在同一变压器上的住宅
集群的能量协调管理策略,提出一种基于多智能体深度强化学习(MADRL)框架的

19
华 中 科 技 大 学 博 士 学 位 论 文

协作算法实现了兼顾各个住宅内不同类型家电的能量管理并且避免变压器过载。文
献[160]提出了一种基于 MAPPO 算法的大规模住宅集群能量管理控制策略,并引入
了一个市场联合行为预测模型以降低环境中的非平稳性,但社区内部的交易机制未
明确给出。文献[161]-[162]将具有异质产消者(智能住宅)的社区市场 P2P 能量交易
表述为一个多智能体协作问题。文章中假设产消者安装的负荷类型以及用电偏好均
可以是不同的,并使用 MADDPG 算法对负荷能量管理进行优化。为了保护产消者的
本地隐私,所提算法采用了参数共享(PS)的机制,即在各个智能体之间传递神经
网络参数而非住宅内的私有信息。社区内部市场的交易价格由 MMR 机制决定,即
社区管理员根据当前时刻的社区净功率计算实时的交易电价。但是文章并未考虑运
营商在交易过程中的收益,不利于社区市场交易的长期运行。同时大量参数的共享
也给现有的通信设施带来了不可忽视的负担。因此如何设计一个高效可扩展的社区
市场能量交易及管理机制仍是一个待解决的问题。

1.4 现有研究局限性

相较于模型驱动型 EV 充放电优化控制及住宅能量管理方法,数据驱动型深度强
化学习(DRL)方法不依赖环境的精确模型以及不确定因素的预测结果,在训练完
成时可以产生端到端的控制策略并直接应用于在线控制。受益于以上优势,近年来
DRL 方法在 EV 充放电控制及住宅能量管理领域已获得初步的尝试。但大量 EV 接
入住宅使得控制环境复杂化、动态化与异构化程度加深,现有基于 DRL 算法的优化
决策方法依然面临很大挑战,主要表现在以下几个方面:
(1)现有单个电动汽车充放电控制方法一般使用达到时间,出发时间以及需求
电量三个因素刻画电动汽车负荷,对用户个人动态行为的考虑不足。用户动态行为
的复杂化与差异化加剧了电动汽车负荷在时空分布上的不确定性,导致现有方法适
用性降低。如何将驾驶经验、充电偏好、电能焦虑等多种定性描述转化为电动汽车
负荷需求的定量表达,并融合到 DRL 算法中以增强策略适用能力存在进一步提升空
间。
(2)电动汽车集群聚合效应会对变压器产生不利影响,协调控制算法需要考虑

20
华 中 科 技 大 学 博 士 学 位 论 文

来自实时电价和所有用户行为的不确定性,并且兼顾用户能量需求、变压器容量约
束、容量公平分配、算法可扩展性以及用户隐私保护等多种因素。现有基于 DRL 方
法的电动汽车集群协调控制方法较少,如何在算法设计中同时涵盖以上要素有待进
一步深入研究。
(3)电动汽车负荷接入住宅后与传统的可控负荷共同构成了多类、异构的住宅
能量管理环境,不确定性因素中增加了与其他负荷相关的动态行为以及环境温度变
化。此时基于 DRL 算法的策略需要根据不同负荷特性设计合理的奖惩函数,同时处
理连续型动作空间和离散型动作空间。并且由单个住宅扩展到住宅集群之后,算法
依然需要保持可扩展、分配公平以及隐私保护等性能。目前针对电动汽车负荷与传
统可控负荷协同参与能量管理的研究仍处于初步阶段,需要进一步深入探讨。
(4)电动汽车的接入以及分布式光伏和储能系统的安装使得多住宅社区内有了
实施点对点能量交易的基础。在住宅集群能量管理的基础上需要进一步考虑能量交
易中的动态定价以及能量分配问题。目前适用于含电动汽车的多住宅社区能量交易
及能量管理的 DRL 算法研究较为匮乏,如何在包含多类异构不确定因素的环境中设
计合理的交易定价以及能量管理策略有待深入研究。

1.5 本文研究内容及章节安排

本文开展基于深度强化学习的 EV 充放电控制及住宅能量管理策略研究,研究对
象和研究方法均呈递进式结构推进,最终形成完整的包含 EV、多类型住宅负荷以及
光伏储能在内的配网多住宅社区市场实时能量交易与管理框架以及相应的 DRL 优化
控制算法。论文整体的研究思路如图 1-2 所示。
具体而言,本文首先定量分析了电动汽车接入后在无序充电控制下对住宅负荷
特性的影响,确认了充放电控制的必要性和可行性。在此基础上,研究对象逐步从
单个电动汽车发展到电动汽车集群,再结合传统可控负荷扩展到住宅集群,最后增
加光储系统形成多住宅社区能量交易市场。相应地,研究方法也从单智能体 DRL 算
法发展到多智能体 DRL 算法,再扩展到多维多类型输出的多智能体 DRL 算法,最
后到层级式 DRL 算法。

21
华 中 科 技 大 学 博 士 学 位 论 文

基于深度强化学习(DRL)的电动汽车(EV)充放电控制及住宅能量管理策略

第二章
EV接入对配网住宅负荷特性的影响分析
EV负荷建模 接入影响分析

EV充放电控制:必要性+可行性

第三章 第四章 第五章 第六章


考虑用户动态行为的 EV集群协调充放 含多类型负荷住宅 多住宅社区市场能
单个EV充放电控制 电控制 集群能量管理 量交易及管理

单个EV EV:单个 EV集群 负荷:单 住宅集群 结构:单 多住宅社区市场


到集群 种到多类 层到多层

单智能体DRL 多智能体DRL 多智能体DRL 层级式DRL

建立包含电动汽车、多类型住宅负荷以及光伏储能在内的多住宅社区市场
实时能量交易与能量管理架构及相应的DRL优化控制算法

图 1-2 本文研究思路

各章节安排如下:
第一章概述了本文的研究背景与意义,介绍了深度强化学习与 EV 充放电控制及
住宅能量管理的国内外研究现状,并给出了本文的研究思路与内容安排。其中,深
度强化学习研究现状从复杂程度上分为了单智能体强化学习,多智能体强化学习以
及层级式强化学习。EV 充放电控制及住宅能量管理研究现状从应用场景上分为了
EV 接入配网影响分析、单个 EV 控制、EV 集群协调控制、EV 与住宅可控负荷协同
参与住宅能量管理以及含分光伏储能的多住宅社区市场能量交易及管理。
第二章研究 EV 接入后在无序充电控制下对住宅负荷特性的影响,作为后续智能
充放电控制以及能量管理的研究基础。本章提出了基于马尔科夫链的 EV 高分辨率连
续轨迹生成模型,可以生成任意数量的 EV 行驶轨迹。在行驶轨迹的基础上,考虑用
户对电池电量的敏感度、充电可用性等因素构建了 EV 负荷曲线生成模型。最终分析
了 EV 接入对户均负荷和变压器总负荷的影响以及不同车辆类型和行驶距离下电池
状态的变化。结论表明 EV 参与充放电控制和能量管理即存在必要性又具有可行性。
第三章研究考虑用户动态行为的单个 EV 充放电控制策略。首先使用驾驶经验,
充电偏好等因素定性表述用户动态行为,并引入了综合焦虑来表征用户对行驶里程

22
华 中 科 技 大 学 博 士 学 位 论 文

以及充电期间不确定事件的担忧。然后提供了相关的数据模型定量描述用户经验和
综合焦虑水平。提出了一种基于深度强化学习(DRL)算法的充放电控制策略,控
制目标是降低用户的充电成本的同时并满足多样的能量需求。基于真实世界数据构
建的仿真分析验证了所提控制策略的有效性。
第四章研究 EV 集群协调充放电控制策略。在第三章单个 EV 控制算法的基础上,
提出了一种基于多智能体深度强化学习(MADRL)算法的协调充放电控制策略,控
制目标是满足 EV 集群能量需求的同时降低用电成本并避免变压器过载情况的发生。
所提算法在结构上是完全分散的,具有高度的扩展性。同时,训练以及在线控制过
程只需要本地私有信息,实现了用户的隐私保护。基于真实世界数据构建的仿真从
在线控制以及计算复杂度等方面验证了所提算法的协调充放电性能和可扩展性。
第五章研究包括 EV 在内的含多类型负荷住宅集群能量管理。在第四章 EV 集群
协调控制的基础上,考虑了住宅内多类型可控负荷的协同配合,提出了一种基于多
智能体深度强化学习(MADRL)的住宅集群能量管理策略,控制目标是实现住宅内
部各类型负荷能量管理的同时降低变压器过载。区别于第四章中的协调控制方法仅
涉及连续型动作空间,本章所提控制方法能够同时处理连续型动作空间和离散型动
作空间,并有效应对可时移负荷的奖励滞后现象。基于真实世界数据构建的仿真分
析验证了所提算法的协调能量管理性能。
第六章研究含 EV 以及光伏储能系统的社区市场能量实时交易与管理机制。在第
五章的基础上,考虑社区内住宅安装有光伏和储能系统并实施点对点能量交易,提
出了一种基于层级式深度强化学习(HDRL)的能量交易策略,在上层执行内部能量
交易的动态定价,在下层执行社区内住宅集群的能量管理。所提算法的两层控制互
相影响同时进行,并且延续了第四、五章中多智能体算法在可扩展性上的优势。基
于真实世界数据构建的仿真验证了所提算法的实时定价和能量交易及管理性能。
第七章总结本文工作,归纳主要结论和创新点,并对未来工作进行了展望。

23
华 中 科 技 大 学 博 士 学 位 论 文

2 EV 接入对住宅负荷特性的影响分析

大规模 EV 接入配电网后会显著改变住宅的用电曲线,对电网产生不可忽视的影
响。本章将定量分析 EV 接入后对住宅负荷特性的影响,为后续 EV 智能充放电控制
提供实施依据。首先基于马尔科夫链设计了一个高分辨率 EV 连续行驶轨迹生成模型,
包含了 EV 的时空分布特性参数。然后考虑用户充电偏好、充电可用性以及电池参数
等因素,在轨迹生成模型的基础上构建了 EV 负荷生成模型。分析结果表明 EV 接入
后会显著增加住宅户均负荷的功率峰值、平均值以及年度需求电量。大规模 EV 负荷
的叠加效应会使得变压器过载运行的程度和时间显著上升。因此有必要实行智能充
放电控制。同时,结果显示 EV 的容量一般远大于日均消耗量,且夜间可调度时间较
长,证明 EV 存在较大充放电控制潜能。

2.1 引言

区别于传统住宅生活负荷,由于驾驶员的出行行为、充电偏好以及车辆参数的
多样性和随机性,EV 负荷在时间和空间上均表现出明显的不确定性,给 EV 接入后
的影响分析带来了极大的挑战。现有研究一般遵循“充电负荷建模-接入影响分析”
的思路对 EV 接入的影响进行分析。
充电负荷建模的从复杂程度上可以分为确定性建模 [68]-[71]和随机性建模[72]-[87]。
确定性建模方法一般直接使用智能电表或 GPS 等监测设备收集的能耗数据或出行数
据构建 EV 充电负荷。确定性方法优势是数据真实,对影响分析的支撑性强。但数据
样本有限,收集难度高,仅对特定场景适用性强,无法形成一般性的分析框架。随
机性建模方法一般先从大型数据集提取 EV 出行特征参数,然后构架 EV 负荷的生成
模型。在特征参数的选取上,不同的随机性方法根据模型的精细化程度又有所差别。
基于统计数据和特定分布的随机性方法假设用户的出行模式是固定的,难以表征 EV
负荷的空间随机性。基于出行链的随机性方法引入用户出行目的,能够表征 EV 在空
间上的转移特性。此外,部分方法将用户的行为参数进一步精细化,引入了更多社
会经济因素表征用户特征。对 EV 接入后电网影响分析主要聚焦在配网中的个体用电

24
华 中 科 技 大 学 博 士 学 位 论 文

(住宅负荷曲线)和公共设施(变压器过载,电压偏差等)。基本结论围绕配网的负
荷变化,既有定性的判断也有定量的分析,都指出了 EV 大规模接入对电网负面影响
较大,但是对 EV 智能充放电控制潜能的讨论有限。
在已有研究的基础上,本章将定量分析 EV 接入后对住宅负荷特性的影响,讨论
实施 EV 充放电控制的必要性与可行性。首先基于数据集 2017NHTS 提取电动汽车
用户出行行为的时空分布特性参数并构建 EV 在不同地点(住宅区,工作区,公共区)
的转移概率矩阵。利用构建的转移概率矩阵,基于马尔科夫链设计了高分辨率的 EV
连续行驶轨迹生成模型。然后充分考虑车辆参数、充电偏好以及充电可用性等因素
构建 EV 负荷生成模型。最后基于算例分析大规模 EV 接入对住宅负荷曲线和变压器
负载的影响,并分析不同的行驶距离、EV 模型下 EV 电池状态的变化,讨论 EV 参
与智能充放电控制的潜能。

2.2 数据集

本章基于全美家庭出行调查数据(National Household Travel Survey,NTHS)分


析 EV 用户的基本出行模式。NHTS 是美国联邦公路管理局开展的调查项目,最新的
统计结果于 2017 年发布。数据是从全美家庭的分层随机样本中收集的,包括各类交
通方式的日常非商业出行记录,可以用于分析个人以及家庭出行的行为趋势。
2017NHTS 中包含四个文件,分别记录了家庭信息,车辆信息,家庭成员信息以及旅
行记录信息,总计 129696 个家庭,256115 辆车,923572 次出行记录。其中指定的
行程记录的起始时间为凌晨 4:00,并于次日 3:59 结束。基于以上文件,可以获取到
家庭成员数量、年龄、职业、所在地区、拥有车辆数量、类型、使用时间、出行日
期、距离、时长、出发地、目的地等信息。

2.2.1 数据预处理

在分析 EV 用户的基本出行模式之前,需要对数据进行预处理以删除无效数据以
及错误数据。首先选择加州地区的数据,共包含 185666 条出行记录,占全部数据的
20.1%。加州地区的数据中包含有非家庭成员作为驾驶员的出行记录,由于其出行方
式并不完全符合家庭成员的需求,去除后剩余记录 116518 条。2017NHTS 中包含了

25
华 中 科 技 大 学 博 士 学 位 论 文

步行、自行车、轻量汽车、摩托车、卡车、公交、地铁、出租车、飞机等各种出行
类型。由于用户在不同交通方式中对移动性的需求有所差异,本章假设用户在使用
电动汽车时的出行习惯与数据中的私人轻量汽车保持相似,因此只保留剩余数据中
轻量汽车的出行记录,100805 条。然后进一步对出行的时长,距离以及速度进行数
据校核,去除未登记以及无效的时长和距离记录共 122 条。数据集中并未登记出行
的平均速度,以出行距离以及出行时间对速度进行估算,删除平均速度超过 250km/h
的数据后,剩余出行记录为 100647 条,占加州出行记录总数的 54.2%。

2.2.2 数据集分析

数据集分析的目的是提取后续 EV 出行行为的特征参数,并校验最终 EV 轨迹生


成模型的有效性。分析对象包括户均电动汽车数量,出发地与目的地,出发时间与
达到时间,出行距离与时长。
经过数据清洗之后,加州地区的轻型汽车数量为 40476 辆,住宅总数为 26099
户,户均电动汽车数量为 1.551 辆。具体分布如图 2-1 所示,其中拥有 1 到 2 辆电动
汽车的住宅数占比为 73.63%。
12000

9000
住宅数

6000

3000

0
0 1 2 3 4 5+
轻型汽车数量

图 2-1 加州地区每户轻型汽车数量分布

汽车的出行模式隐藏在大量单次的出行记录中,一次出行记录可以由出发地,
目的地,出发时间,达到时间,行驶时长以及行驶距离等因素决定。2017NHTS 中并
未直接提供单次行程的出发地与目的地,给出的记录是每次出行的任务,例如家庭
活动、工作、上学、购物、运动、访友等。根据这些具体的任务类型,本章提取出
三组抽象地点来代表汽车可能停留的位置,包括住宅(Household,H),工作区(Office,
O)以及公共场所(Public,P)。其中公共场所包含了医院、学校、购物中心等区域。

26
华 中 科 技 大 学 博 士 学 位 论 文

以工作日为代表,一个典型的行驶轨迹如图 2-2 所示。居民在 7:30 从住宅出发,行


驶 1 小时后,8:30 到达工作区,于 12:45 从办公区离开到公共区午餐后,并于 14:00
重新回到办公区工作。17:00 下班,从办公区离开,于 18:00 回到住宅中。

行驶中

公共区

工作区

住宅区

0
4 8 12 16 20 24 4
时间 (小时)

图 2-2 工作日汽车典型行驶轨迹

一次行程的出发时间和离开时间与地点和出行日类型有关。2017NHTS 中记录了
单次行程的出行日类型,分为工作日(74833 条记录)与周末(25814 条记录)。不
同出行日各地点的时间分布如图 2-3 和图 2-4 所示。可以看出,居民乘车离开住宅的
时间多分布在上午 8:00,并在晚上 17:00 左右返回住宅。同样,工作区的到达时间与
住宅区的离开时间接近,离开时间与住宅区的到达时间接近。公共区的分布则较为
分散,出行时间的不确定性较高。相比于工作日,居民在周末离开住宅、到达工作
区的时间都有推迟,并且整体上出行分散性变高,与周末居民的生活习惯相符。
0.06 0.08 0.08
住宅-到达 工作区-到达 公共区-到达
(m=17.3, s=3.8 ) 0.06 (m=10.9, s=4.3 ) 0.06 (m=12.5, s=3.9 )
概率密度

概率密度

0.04
概率密度

0.04 0.04
0.02
0.02 0.02

0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
0.1 0.1 0.08
住宅-离开 工作区-离开 公共区-离开
(m=11.7, s=4.0 ) (m=17.2, s=3.8 ) 0.06 (m=16.2, s=3.7 )
概率密度

概率密度
概率密度

0.05 0.05 0.04

0.02

0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)

图 2-3 工作日行程时间分布:(a)住宅区到达时间;(b)工作区到达时间;(c)公共区到达时间;(d)
住宅区离开时间;(e)工作区离开时间;(f)公共区离开时间

27
华 中 科 技 大 学 博 士 学 位 论 文

0.08 0.15 0.08


住宅-到达 工作区-到达 公共区-到达
0.06 (m=16.8, s=3.3 ) (m=9.1, s=2.7 ) 0.06 (m=11.5, s=3.6 )
0.1
概率密度

概率密度

概率密度
0.04 0.04
0.05
0.02 0.02

0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
0.2 0.08
0.1 工作区-离开 公共区-离开
住宅-离开
(m=9.5, s=3.2 ) 0.15 (m=16.4, s=2.7 ) 0.06 (m=15.4, s=3.7 )
概率密度

概率密度
概率密度

0.05 0.1 0.04

0.05 0.02

0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)

图 2-4 周末行程时间分布:(a)住宅区到达时间;(b)工作区到达时间;(c)公共区到达时间;(d)
住宅区离开时间;(e)工作区离开时间;(f)公共区离开时间

为了进一步分析居民的出行模式,图 2-5 中给出了一天中居民在不同地点的分布


情况。图中表明晚上 22:00 至第二天 5:00 之间汽车多停留在住宅区;早上 8:00 至下
午 16:00 则多分布在工作区或公共区。相比于工作日,居民在周末白天停留在工作区
的概率显著降低,而在公共区的概率则有所提高。
1 1 1
住宅-工作日 工作区-工作日 公共区-工作日
概率
概率
概率

0.5 0.5 0.5

0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
1 1 1
住宅-周末 工作区-周末 公共区-周末
概率
概率

概率

0.5 0.5 0.5

0 0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)

图 2-5 居民位置分布:(a)工作日住宅区;(b)工作日工作区;(c)工作日公共区;(d)周末住宅区;
(e)周末工作区;(f)周末公共区

电动汽车的行驶时长与行驶距离直接决定了电能的消耗量。图 2-6 中给出了单次


行程以及日均行程的统计数据。统计结果表明居民的单日行驶时长的均值为 79.14 分

28
华 中 科 技 大 学 博 士 学 位 论 文

钟,单次行程的时长均值为 20.25 分钟,平均一日的行程数在 4 次左右。单日行驶距


均值为 55.23 公里,单次行程距离的均值为 14.13 公里。注意,在数据集中的行程距
离并非实际行驶距离,而是通过谷歌地图估算的出发地和目的地之间的路径。
0.06
m=79.14 , s =70.48 0.2
m=20.25 , s =27.30

概率密度
0.04
概率密度

0.15
0.1
0.02
0.05
0 0
0 50 100 150 200 250 300 0 50 100 150 200
时间(分钟) 时间(分钟)
(a) (b)
0.1
m=55.23 , s =77.65 0.4 m=14.13 , s =30.20
概率密度
概率密度

0.3
0.05
0.2
0.1
0 0
0 100 200 300 400 500 0 50 100 150
距离(公里) 距离(公里)
(c) (d)
图 2-6 行驶时长与行驶距离分布: (a)单日行驶时长;(b)单次行程行驶时长;(c)单日行驶距离;
(d)单次行程行驶距离

2.3 EV 负荷建模

本章采用自下而上的电动汽车负荷建模思路,流程如图 2-7 所示,包含两个部分:


行驶轨迹生成和负荷曲线生成。
提取电动汽车行程信息 生成全时段负荷信息

计算轨迹转移概率矩阵
计算充电决策
行 负
驶 荷
轨 曲
构建马尔科夫链模型
迹 获取用户充电偏好 线
生 生
成 成

生成连续行驶轨迹 获取电池能量变化

图 2-7 电动汽车负荷建模流程图

29
华 中 科 技 大 学 博 士 学 位 论 文

首先,基于数据集提取的行程信息设计了一个马尔科夫连模型用于生成高分辨
率的电动汽车连续行驶轨迹,即每个采样时间汽车所处的位置。行驶时长可以根据
在途中的时间获取,结合行驶速度得到相应的行驶距离。
其次,基于轨迹信息可以得到电动汽车的能量消耗信息以及充电桩可用信息。
结合当前电池荷电状态(State of Charge,SOC)以及居民的个人充电偏好可以计算
出每个时刻的充电决策,进而得到全时段电动汽车的 SOC 以及负荷曲线。

2.3.1 行驶轨迹生成

本章中使用马尔科夫链方法模拟居民驾驶电动汽车的随机行为。模型根据时间
以及日期类型(工作日,周末)产生不同的位置序列。除途中行驶状态外,假设所
有位置可以归为三类:住宅 H,办公区 O,公共区 P。马尔科夫链方法认为在每一个
离散的时间点 t,电动汽车具有一个确定的状态 i{H, O, P}。从时间 t 到 t+1,状态
d ,t
以概率 pi , j 从 i 转移到 j,其中 j{H, O, P},d 为日期类型,工作日 d=1,周末 d=2。

为提供高分辨率的电动汽车连续轨迹,采样时间为 15 分钟,即全天 24 小时共 96 个


采样时间点。位置之间的转移概率根据预处理后的 100647 条出行记录生成,计算方
法如(2.1)所示。

wk nid, ,jt,k
pd ,t
= (2.1)

i, j
k
w n d ,t
j k i , j ,k

d ,t
其中 ni , j ,k 是居民 k 在日期 d 的时间 t 从状态 i 转移到状态 j 的次数, wk 是 2017NHTS

分层抽样中对居民 k 设置的权重系数。
注意到上述状态集合中并未包含行驶中(Driving,D)这一状态。由于经预处理
的行驶记录中 H,O,P 之间的转移都需要经过 D 这一过程,因此不存在直接的 H-O,
H-P,O-P 等状态转移。然而在实际的分布中,D 持续的时间过程一般较短,且分散
性更高,因此在计算状态转移概率矩阵之前,需将行驶记录中的状态 D 并入之后的
状态中。例如,原本的 H-D-O 的轨迹将转化为 H-O。之后再从马尔科夫链生成的连
续轨迹中按照图 2-6 中的行驶时间分布抽样得到两个状态之间在途中的时间,从而实
现 H-O 向 H-D-O 的还原。

30
华 中 科 技 大 学 博 士 学 位 论 文

根据上述分析,所有的状态转移组合包含 9 种:H-H, H-O, H-P, O-H, O-O, O-P,


P-H, P-O, P-P,最终形成工作日和周末两个状态转移概率矩阵,各为 9 行 96 列。以
工作日为例,图 2-8 中给出了 96 个时间点各个地点之间的转移概率。由于居民一般
习惯在同一地点停留较长时间(居家,办公,购物),因此 H-H,O-O 以及 P-P 的概
率在全时段都处于较高水平。同时可以发现在 6:00-12:00 之间从住宅区前往工作区
以及公共区(H-O,H-P)的概率较高,在 16:00-20:00 之间从工作区以及公共区返回
住宅(O-H,P-H)的概率较高,与居民生活习惯基本相符。
住宅-住宅(H-H) 住宅-工作(H-O) 住宅-公共(H-P)
0.1 0.1
1
0.08 0.08
0.95 0.06 0.06
概率

0.04 0.04
0.9
0.02 0.02

0.85 0 0
4 8
12 16 20 24 4 4 8
12 16 20 24 4 4 8
12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
工作-住宅(O-H) 工作-工作(O-O) 工作-公共(O-P)
0.15 0.1
1

0.1 0.95
概率
概率

概率

0.05
0.05 0.9

0 0.85 0
4 8
12 16 20 24 4 4 8
12 16 20 24 4 4 812 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)
公共-住宅(P-H) 公共-工作(P-O) 公共-公共(P-P)
0.2 0.1
1
0.15
0.95
概率
概率

概率

0.1 0.05

0.9
0.05

0 0 0.85
4 8 12 16 20 24 4 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(g) (h)
(i)

图 2-8 工作日状态转移概率矩阵:(a)住宅区-住宅区;(b)住宅区-工作区;(c)住宅区-公共区;(d)
工作区-住宅区;(e)工作区-工作区;(f)工作区-公共区;(g)公共区-住宅区;(h)公共区-工作区;(i)
公共区-公共区

基于以上状态转移概率矩阵以及初始位置,可以生成任意数量 EV 连续轨迹曲线。
得到 EV 的位置序列之后,按照行驶时间分布抽样每一次位置转移之间在途中的时长。
本章中采用平均行驶速度与行驶时长计算出每次行程的行驶距离。行驶距离将直接
影响电池的能量消耗,因此可以设置不同的速度参数来模拟居民不同的出行距离。

31
华 中 科 技 大 学 博 士 学 位 论 文

2.3.2 负荷曲线生成

当电动汽车停靠在住宅区时,需要根据当前的 SOC 以及居民的个人充电偏好决


定当前的充电决策。假设电池的容量是 C,可以得到任意时刻电池的 SOC 为:
Et
soct = (2.2)
C
其中 Et 是 t 时刻电池中储存的能量。
EV 电池中储存能量的变化与电池容量、EV 最大行驶里程以及行驶距离相关。
一般根据最大行驶里程 S 和电池容量 C 得到每公里耗电量 C/S,进而根据行驶距离 L
得到单次行程的耗电量。居民的个人充电偏好反映对电池 SOC 的需求,不同偏好下
充电选择不同。本章采用文献[85]中的方法,定义个人充电偏好为居民在不同 SOC
下的充电概率:

 1 
pc ( soc ) = min 1 − − k ( soc − socm )
,1  (2.3)
 1+ e 
其中 pc(soc)是电池 SOC 为 soc 时的充电概率,socm 是曲线的 50%概率点。当 SOC=socm
时,充电概率为 50%。k 为曲线在 50%概率点的变化率,可以表征居民在 SOC 变化
时的敏感度。

1 k=0.5 1 socm=50
socm=30 k=0.1
0.7 socm=50 0.7 k=0.3
5 socm=70 5 k=0.9
概率

概率

0. 0.
5 5
0.2 0.2
5 5
0 0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
SOC(%) SOC(%)
(a) (b)

图 2-9 充电偏好变化曲线:(a) k=0.5, socm=[30, 50, 70];(b) socm=50, k=[0.1, 0.3, 0.9]

式(2.3)中在不同的参数下的曲线如图 2-9 所示。图 2-9(a)中表示当 k 固定时,随


着 socm 的减小,充电概率曲线逐渐向左偏移,即居民只有当 SOC 比较小时才会选择
充电,对电池电量的需求较低。图 2-9(b)中表示当 socm 固定时,随着 k 的增大,曲
线的变化率变大,即居民对 SOC 的敏感度增加,在 50%概率点附近的充电需求会发
生急速的变化。

32
华 中 科 技 大 学 博 士 学 位 论 文

在电动汽车负荷建模中,可以根据用户不同的驾驶经验,对未来行程距离判断
来选择充电偏好,从而计算最终的充电决策。在充电期间,EV 电池中能量的变化如
(2.4)所示。

Et +1 = Et +c pt T (2.4)

Emin  Et  Emax (2.5)

其中 Et 是 t 时刻电池中储存的能量,c(0,1]是充电效率,pt 是充电功率,Emin 和 Emax


是电池能量的上下限。
以上给出了 EV 在确定行驶轨迹后的充电决策以及电池能量的计算方法,进而可
以得到全时段 EV 的 SOC 以及负荷曲线。

2.3.3 模型验证

在开始分析 EV 接入对住宅负荷的影响之前,需要比较构建的模型与数据集的参
数以验证所提 EV 建模方法的有效性。
表 2-1 所提模型与数据集统计值比较

工作日(均值/标准差) 周末(均值/标准差)
参数
所提模型 数据集 均值差 所提模型 数据集 均值差
住宅区到达时间 17.3/3.2 16.8/3.3 0.5 17.3/3.7 17.3/3.8 0.0
住宅区离开时间 8.9/3.2 9.5/3.2 -0.6 10.3/3.3 11.7/4.0 -1.4
工作区到达时间 9.4/3.4 9.1/2.7 0.3 11.7/4.1 10.9/4.3 0.8
工作区离开时间 16.3/3.1 16.4/2.7 -0.1 16.8/3.9 17.2/3.8 -0.4
公共区到达时间 11.5/3.9 11.5/3.6 0.0 11.4/3.5 12.5/3.9 -1.1
公共区离开时间 15.5/4.0 15.4/3.7 0.1 15.9/3.7 16.2/3.7 -0.3

本节利用设计的马尔科夫链模型抽样了 300 辆电动汽车连续 365 天的出行记录,


得到了 298416 条出行记录。其中日均出行记录次数为 2.72 次,单次出行时长为 22.50
分钟,日均出行时长为 66 分钟。在生成电动汽车轨迹时,单次行程的最短时长为 15
分钟,最长时长为 60 分钟,分布与数据集中相应时长分布相同。因此,取数据集中
行程时长在 15-60 分钟的记录作为参考,得到日均记录次数为 3.03 次,单次出行时
长为 20.91 分钟,日均出行时长为 63.36 分钟。可知生成模型中行程记录的时长以及
次数与预处理后的数据集基本相似。同时,注意到数据集中的行程距离是通过谷歌

33
华 中 科 技 大 学 博 士 学 位 论 文

地图计算两地之间的最短路径,并非实际行驶距离。因此生成模型中的数据通过设
定平均行驶速度后,再结合行驶时长获得。进一步比较行程记录的出行时间分布,
如表 2-1 所示,可以看出所提模型与数据集中统计结果之间最大均值误差为周末在住
宅区的离开时间,相差 1.4 小时,其余时间误差基本在 1 小时以内。
图 2-10 中给出了所提生成模型以及 2017NHTS 数据集中居民在不同地点的分布
情况。可以看出所提模型中的分布曲线与数据集中的数据曲线趋势相同,基本重合。
这表明生成模型能够准确的模拟出电动汽车在不同地点不同日期下的出行习惯,进
而作为计算 EV 充电负荷的基础。
1 1 1
工作区-工作日 公共区-工作日
数据集 数据集
所提模型

概率
概率
概率

0.5 0.5 0.5 所提模型


住宅-工作日
数据集
所提模型
04 8 12 16 20 24 4 04 8 12 16 20 24 4 0
4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(a) (b) (c)
1 1 1
工作区-周末 公共区-周末
数据集 数据集
概率
概率

所提模型
概率

0.5 0.5 0.5 所提模型


住宅-周末
数据集
所提模型
0 04 0
4 8 12 16 20 24 4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间 (小时) 时间 (小时) 时间 (小时)
(d) (e) (f)

图 2-10 生成模型与数据集比较:(a)工作日住宅区;(b)工作日工作区;(c)工作日公共区;(d)周
末住宅区;(e)周末工作区;(f)周末公共区

2.4 影响分析

本节基于所提的负荷建模方法生成全年 EV 负荷曲线,结合住宅常规负荷研究
EV 接入后对住宅负荷的影响。住宅常规负荷取自数据集 HUE(Hourly Usage of
Energy) [163] 。充电设施主要考虑在住宅区使用建设数目较多的单相交流桩,分为
3.5kW 和 7kW 两种。电动汽车模型采用 Tesla Model 3,电池容量为 60kWh,续航里
程为 450km,即百公里耗电量为 13.3 度电。

2.4.1 对户均负荷的影响

34
华 中 科 技 大 学 博 士 学 位 论 文

本例中考虑 200 户住宅含 300 辆 EV,户均 EV 数量为 1.5 辆。EV 的平均速度为


70km/h,结合日均行驶时间 66 分钟,得到日均行驶距离为 77km。充电偏好参数均
设置为 socm=100,k=2。即用户在到达住宅区后都会选择充电至 100%。
表 2-2 中展示了充电功率为 7kW 时不同 EV 渗透率下住宅用电数据的统计结果。
可以发现随着 EV 渗透率的提升,户均年耗电量,负荷平均值,负荷峰值以及负荷标
准差都随之提升。EV 渗透率每提升 25%,年耗电量以及平均负荷大约增加 14%。当
EV 渗透率为 100%时,耗电量为常规住宅负荷用电量的 1.694 倍,此时 EV 耗电量占
住宅总耗电量的 41%。同时,户均用电负荷功率峰值也随着 EV 渗透率的增加而逐
渐升高,如图 2-11 所示。EV 渗透率每提升 25%,负荷峰值增加 18%。100%渗透率
下,负荷峰值从无 EV 的 2.168kW 增加到 4.323kW,变为了原来的 1.99 倍。可见,
EV 接入后对负荷峰值的增长速度(18%)要大于耗电量的增长速度(14%)。观察负
荷标准差以及峰值/平均值的变化可以发现,随着渗透率的升高,住宅负荷的变化幅
度也随之增加。这同样是因为峰值的增长速度大于平均负荷的增长速度,从而加剧
了负荷的变化程度。
表 2-2 不同电动汽车渗透率下户均负荷(7.0kW 充电功率)

电动汽车渗透率 0% 25% 50% 75% 100%


年耗电量/kWh 7518.06 8564.20 10129.03 11175.58 12740.98
负荷平均值/kW 0.858 0.978 1.156 1.276 1.454
负荷峰值/kW 2.168 2.612 3.265 3.647 4.323
负荷标准差/kW 0.310 0.383 0.513 0.608 0.753
峰值/平均值 2.527 2.672 2.824 2.858 2.972
最大同时充电数量 0/0 23/75 44/150 61/225 83/300

4.5

4 充电功率
负荷峰值(kW)

7.0kW
3.5 3.5kW
3

2.5

2
0 0.25 0.5 0.75 1
电动汽车渗透率

图 2-11 不同充电功率下负荷峰值随电动汽车渗透率的变化

35
华 中 科 技 大 学 博 士 学 位 论 文

表 2-3 中展示了充电功率为 3.5kW 时住宅用电数据的统计结果。比较表 2-2 和表


2-3 中可知,在不同的充电功率下,户均年耗电量基本相同。这是因为在不同充电功
率下 EV 总的行驶距离相同,因此消耗的能量基本相同。但是,负荷峰值在不同的充
电功率下有较大的差异。如图 2-11 所示,在充电功率为 3.5kW 时,EV 渗透率每提
升 25%,负荷峰值平均增加 15%,相比于 7kW 时的 18%有所降低。在渗透率为 100%
时,负荷峰值为 3.837kW, 为不含 EV 时的 1.77 倍。同时,可以发现当充电功率增加
时,负荷峰值并不会线性的增加。这是因为随着充电功率的增加,单个 EV 的充电时
长会减小,从而导致最大同时充电的 EV 数量减少。比较表 2-2 和表 2-3 中可以发现
在 7kW 充电功率时,最大同时充电的 EV 数量显著低于 3.5kW 充电功率下的数据。
表 2-3 不同电动汽车渗透率下户均负荷(3.5kW 充电功率)

电动汽车渗透率 0% 25% 50% 75% 100%


年耗电量/kWh 7518.06 8564.02 10128.65 11175.09 12740.20
负荷平均值/kW 0.858 0.978 1.156 1.276 1.454
负荷峰值/kW 2.168 2.571 3.061 3.335 3.837
负荷标准差/kW 0.310 0.373 0.488 0.573 0.705
峰值/平均值 2.527 2.630 2.647 2.614 2.638
最大同时充电数量 0/0 32/75 64/150 91/225 125/300

4 渗透率
0%
住宅负荷(kW)

3 25%
50%
2 75%
100%
1

0 4 8 12 16 20 24 4
时间(小时)
(a)
4 渗透率
0%
3 25%
住宅负荷(kW)

50%
2 75%
100%
1

0 4 8 12 16 20 24 4
时间(小时)
(b)

图 2-12 不同电动汽车渗透率下日均负荷:(a)7.0kW 充电功率;(b) 3.5kW 充电功率

为了进一步分析电动汽车接入后住宅负荷的变化曲线。图 2-12 中给出了在不同

36
华 中 科 技 大 学 博 士 学 位 论 文

EV 渗透率下日均负荷曲线,由 200 辆 EV 连续 365 天的负荷曲线叠加取平均后生成。


其中深色虚线是负荷曲线在一天内的平均值,浅色阴影部分是每个时间点负荷的分
布范围,由负荷最大值和最小值组成。可以看出随着渗透率的提升,日均负荷整体
水平都有所增加,且峰值部分较为重合。这是因为居民多在 16:00-20:00 之间乘 EV
回到住宅区,此时常规住宅负荷也随之开启,因此负荷叠加产生更高的峰值。比较
两幅图也可以发现在不同充电功率下日均负荷受 EV 接入的影响相似,平均负荷以及
峰值负荷都会随着渗透率的增加而上升。同时,7.0kW 充电功率下的负荷要高于
3.5kW 充电下的结果,与表 2-2 和表 2-3 统计结果相符。
除了电动汽车的日均负荷外,本例中还提供了充电功率为 7.0kW 时平均每周的
负荷曲线,如图 2-13 所示。图中表明在 25%渗透率下负荷变化的趋势比较小,在 100%
渗透率下负荷增加则更为明显,此时负荷主要集中在晚上停留在住宅时,与日均负
荷变化的分析相符。
25% 渗透率
3
无电动汽车
住宅负荷(kW)

含电动汽车
2

0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)
50% 渗透率
3
无电动汽车
住宅负荷(kW)

含电动汽车
2

0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)
75% 渗透率
3 无电动汽车
住宅负荷(kW)

含电动汽车
2

0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)
100% 渗透率
3
住宅负荷(kW)

无电动汽车
含电动汽车
2

0
0 12 24 36 48 60 72 84 96 108 120 132 144 156 168
时间(小时)

图 2-13 不同电动汽车渗透率周平均负荷曲线

37
华 中 科 技 大 学 博 士 学 位 论 文

2.4.2 对变压器负荷的影响

本例中考虑 10 户住宅连接在同一个变压器上,分析 EV 接入对变压器负荷的影


响。户均 EV 依旧为 1.5 辆,EV 平均速度以及充电偏好与 2.4.1 节中相同,变压器容
量为 30kVA。
表 2-4 和表 2-5 中展示了 10 户住宅一年的负荷曲线在不同充电功率下的统计结
果。在无 EV 负荷时,变压器的负荷峰值为变压器额定容量的 70%,负荷平均值为
容量的 24%,与文献[70]中的经验数据相似。数据表明在不同充电功率下,随着 EV
渗透率的提高,变压器负荷的平均值、峰值、标准差都逐渐提升。其中,在 7kW 充
电功率下,100%EV 渗透率时的负荷峰值为常规负荷的 3.01 倍;在 3.5kW 充电功率
下则是 2.36 倍。相较于 2.4.1 节中的结果,由于本例中最大同时充电数量比例较高,
负荷增长的速度更快。
表 2-4 不同电动汽车渗透率下变压器负荷(7.0kW 充电功率)

电动汽车渗透率 0% 25% 50% 75% 100%


负荷平均值/kW 7.292 8.495 10.055 11.661 13.237
负荷峰值/kW 21.156 38.542 49.075 55.366 63.786
负荷标准差/kW 2.920 4.580 6.326 7.975 9.516
峰值/平均值 2.901 4.537 4.881 4.748 4.819
最大同时充电数量 0/0 3/3 6/7 7/11 8/15
超变压器额定功率运行小时数 0 9 91 299 598
表 2-5 不同电动汽车渗透率下变压器负荷(3.5kW 充电功率)

电动汽车渗透率 0% 25% 50% 75% 100%


负荷平均值/kW 7.292 8.495 10.055 11.661 13.237
负荷峰值/kW 21.156 28.947 36.025 43.800 50.025
负荷标准差/kW 2.920 4.037 5.400 6.738 8.056
峰值/平均值 2.901 3.408 3.583 3.756 3.779
最大同时充电数量 0/0 3/3 6/7 9/11 11/15
超变压器额定功率运行小时数 0 0 13 120 366

EV 渗透率提升带来的负荷增加会加速变压器老化,降低其使用寿命。表 2-4 和
表 2-5 中表明,在 7kW 和 3.5kW 充电功率下超变压器额定功率运行时间分别增加到
598 小时和 366 小时,增长速度如图 2-14 所示。可以看出,随着电动汽车渗透率的
提高,超变压器额定功率运行小时数呈指数上升。且当充电功率变高时,变压器超
额定功率运行时间明显变高。

38
华 中 科 技 大 学 博 士 学 位 论 文

超额定功率运行时间(小时)
600
充电功率
400 7.0kW
3.5kW

200

0
0 0.25 0.5 0.75 1
电动汽车渗透率

图 2-14 超变压器额定功率运行时间随渗透率变化曲线

图 2-15 中给出了在不同充电功率下全年 8760 个小时的负荷分布情况。图中表示


全年大部分时间变压器负荷集中在 0-15kW。但 EV 渗透率的上升会使得全年负荷分
布整体向右偏移,且超出变压器额定容量(30kVA)的运行时间逐渐增多。
800
7.0kW 100
600 0%
时间(小时)

25% 50
50%
400 75%
100%
0
200 20 30 40 50 60

0
0 10 20 30 40 50 60
变压器负荷 (kW)
(a)
500
3.5kW
100
400 0%
时间(小时)

25% 50
300 50%
75%
200 100%
0
20 30 40 50 60
100

0
0 10 20 30 40 50 60
变压器负荷 (kW)
(b)

图 2-15 全年变压器负荷分布:(a)7.0kW 充电功率;(b) 3.5kW 充电功率

定义每小时住宅总负荷与变压器额定功率之间的比值为负荷因子,表征每个小
时变压器负荷的大小。图 2-16 中给出了负荷因子在一天内的分布情况。当住宅中没
有 EV 时,所有的负荷因子都小于 1,表明此时变压器负荷在额定功率之内。当 EV
渗透率为 50%或 100%时,负荷因子分布情况显著上升。其中在 16:00-22:00 期间,
电动汽车负荷与常规负荷峰值重叠,负荷总功率增加更为明显。上述分析表明,在

39
华 中 科 技 大 学 博 士 学 位 论 文

EV 接入配网后对变压器负荷影响明显,即增加了负荷峰值,也增加了变压器超额定
值运行时间。
2
渗透率0%

负荷因子
1.5

0.5

0
4 8 12 16 20 24 4
时间(小时)
(a)
2 2
渗透率50% 渗透率50%
1.5 充电功率7kW 1.5 充电功率3.5kW
负荷因子

负荷因子

1 1

0.5 0.5

0 0
4 8 12 16 20 24 4 4 8 12 16 20 24 4
时间(小时) 时间(小时)
(b) (c)
2 2
渗透率100% 渗透率100%
1.5 充电功率7kW 1.5 充电功率3.5kW
负荷因子
负荷因子

1 1

0.5 0.5

0 0 4
4 8 12 16 20 24 4 8 12 16 20 24 4
时间(小时) 时间(小时)
(d) (e)

图 2-16 负荷因子分布图:(a) 渗透率 0%;(b)渗透率 50%,充电功率 7kW;(c)渗透率 50%,充


电功率 3.5kW;(d)渗透率 100%,充电功率 7kW;(e)渗透率 100%,充电功率 3.5kW

2.4.3 不同充电偏好的影响

本例中研究 EV 用户充电偏好对负荷曲线的影响,充电偏好参数 socm 分别设定


为 100,60 以及 20。即用户在返回住宅时,只有电池 SOC 分别低于 100%,60%以
及 20%时才会选择充电至满能量。其余设置与 2.4.2 节中相同。
图 2-17 中给出了在不同充电偏好下的日均 EV 负荷曲线以及日均变压器负荷曲
线。结果表明随着 socm 的降低,EV 负荷出现右移的趋势。这是因为当 socm=100 时,
无论居民回到住宅区的时间偏早或者偏晚,都会直接选择充电,EV 负荷以及变压器
负荷开始增长的时间也就偏早。同时,由于开始充电的时间偏早,电量充满的时间

40
华 中 科 技 大 学 博 士 学 位 论 文

也会偏早。而当 socm=60 或者 20 时,只有居民在消耗较多的能量,电池 SOC 偏低的


时候才会选择充电。而消耗能量较多时一般意味着电动汽车行驶时长更久,从而导
致返回住宅区的时间较晚。从而导致开始充电的时刻偏晚,充满电的时间也随之向
后延迟。
20
电动汽车负荷 (kW)

socm=100
15 socm=60
socm=20
10

0
4 8 12 16 20 24 4
时间(小时)
(a)
30
变压器负荷 (kW)

socm=100
socm=60
20
socm=20

10

0
4 8 12 16 20 24 4
时间(小时)
(b)
图 2-17 不同充电偏好下:(a)日均电动汽车负荷;(b)日均变压器负荷

2.4.4 不同行驶距离的影响

本例研究 EV 每日行驶距离对负荷曲线的影响。本章在构建电动汽车连续轨迹生
成模型时,单次行程的行驶距离是通过采样行驶时间后再和平均速度相乘得到的。
为了研究行驶距离的影响,本例中通过修改平均速度来调整行驶距离,速度参数分
别设设定为 30km/h,50km/h,70km/h,90km/h。此外,考虑到速度增加后百功率耗
电量会增多,本节中假设速度每增加 20km/h,百功率耗电量增加到原来的 1.1 倍。
其余设置与 2.4.2 节中相同
图 2-18 中展示了不同行驶距离下日均变压器负荷的变化曲线以及 SOC 的变化曲
线。图中结果表明随着平均速度的增加,变压器负荷逐渐上升。由于行驶轨迹以及
充电偏好未变,日均变压器负荷的形状只是向上增加,并未出现左右平移。所有电
动汽车电池的平均 SOC 如图 2-18(b)所示,当行驶距离上升时,电池 SOC 也因能量

41
华 中 科 技 大 学 博 士 学 位 论 文

消耗的增加随之降低,且随着速度的提高 SOC 降低速率逐渐加快。


40
变压器负荷 (kW) 30km/h
30 50km/h
70km/h
20 90km/h

10

0
4 8 12 16 20 24 4
时间(小时)
(a)
1
电池平均SoC

0.95

0.9 30km/h
50km/h
0.85 70km/h
90km/h
0.8
4 8 12 16 20 24 28
时间(小时)
(b)

图 2-18 不同行驶速度下:(a)变压器负荷曲线;(b)电池平均 SOC

2.4.5 不同车辆类型的影响

本例中分析不同 EV 类型对负荷曲线的影响。本例中将 EV 换为微型车,电池容


量为 33kWh,里程为 280km。与 2.4.4 节一致,速度参数分别设设定为 30km/h,50km/h,
70km/h,90km/h。
40
30km/h
变压器负荷 (kW)

30
50km/h
70km/h
20 90km/h

10

0
4 8 12 16 20 24 28
时间(小时)
(a)
1
电池平均SoC

0.95

0.9 30km/h
50km/h
0.85 70km/h
90km/h
0.8
4 8 12 16 20 24 28
时间(小时)
(b)

图 2-19 微型车不同行驶速度下:(a)变压器负荷曲线;(b)电池平均 SOC

42
华 中 科 技 大 学 博 士 学 位 论 文

仿真结果如图 2-19 所示。在电动汽车里程能够满足日内行驶距离时,日内平均


负荷曲线与图 2-18 中型车的曲线基本相似。由于微型车的电池容量较小,因此 SOC
的变化范围更大。在行驶速度为 90km/h 时,中型车的平均 SOC 最低为 88.43%,而
微型车则为 82.05%。以上结果表明无论是中型还是微型电动汽车,日均消耗的能量
相对于电池容量都比较小。回顾此前的用户行为轨迹分析可知,EV 在一天内大部分
时间都停留在住宅区,在一定时间内特别是晚上不会发生位置移动,存在较长的可
调度时间。因此,EV 具有较大的潜能利用作为分布式储能快速吸收、释放能量,以
汽车到电网(V2G)的形式为电网提供功率平衡在内的辅助服务或参与负荷侧响应
来实现收益,降低 EV 用电成本和对电网的影响。

2.5 本章小结

本章主要研究 EV 接入后在无序充电控制下对住宅负荷特性的影响,作为后续基
于 DRL 算法的车网协同控制及能量管理的研究依据。为了能够获取到任意数量的电
动汽车负荷曲线模型,首先提出了基于马尔科夫链的 EV 高分辨率连续轨迹生成模型,
其中转移概率矩阵基于对公开数据集 2017NHTS 详细统计分析后得到。在轨迹生成
模型的基础上,考虑 EV 用户的充电偏好,充电可用性等因素,进一步构建了住宅负
荷曲线生成模型。其中 EV 类型、充电桩充电功率、户均汽车数量、汽车渗透率、平
均行驶速度等参数均可灵活调整以研究不同参数设置下负荷曲线的变化。最终的影
响分析表明:
(1)对住宅负荷:EV 接入后,户均负荷的负荷功率峰值,功率平均值,年度
电量需求都会明显增加。且随着渗透率以及充电功率的提高,住宅负荷增加的更为
明显。在 100%渗透率 7kW 充电功率下,住宅耗电量增加为无 EV 的 1.694 倍,EV
耗电量占总耗电量的 41%。负荷峰值也从 2.168kW 增加到 4.323kW,变为了原来的
1.99 倍。
(2)对变压器负荷:EV 接入后,无序充电带来的负荷峰值叠加效应导致变压
器的总负荷以及超额定功率运行时间显著上升。在 7kW 充电功率下,100%EV 渗透
率时的负荷峰值为常规负荷的 3.01 倍,年超额定功率运行时间也增加为 598 个小时。

43
华 中 科 技 大 学 博 士 学 位 论 文

(3)充电偏好、行驶距离、电池参数的影响:在不同充电偏好下,EV 负荷由
于用户对 SOC 的敏感度不同而发生时间上的偏移;行驶距离则主要影响电动汽车的
能量消耗,导致日均负荷增加;由于车辆里程远大于日均行驶距离,因此不同车辆
模型对负荷曲线的影响不大。
(4)充放电控制的必要性和可行性:在无序充电模式下,EV 大量接入后会导
致单个住宅负荷以及聚合负荷(变压器负荷)峰值明显上升,在增加居民用电成本
的同时给变压器等设备带来负面的影响。因此有必要对 EV 实施智能充放电控制。同
时,由于 EV 电池容量一般远大于日常消耗,且在住宅区停留时间较长,因此具有较
大的潜能以 V2G 的形式参与到电网服务以及能量管理中来,进而在智能充放电控制
下降低对电网的冲击,提高对居民的效益。即充放电控制的实施也具有可行性。

44
华 中 科 技 大 学 博 士 学 位 论 文

3 基于深度强化学习的单个 EV 充放电控制

本章研究考虑实时电价和用户动态行为的单个电动汽车的充放电控制策略。用
户动态行为由驾驶经验、充电偏好以及充电地点等多个因素定性描述。同时引入了
综合焦虑(Aggregate anxiety,AA)的概念表征用户对充电期间不确定事件以及充
电结束后续航里程不足的担忧,将用户的充电需求从原本的单时间点变量转为了整
个充电期间的连续性分布变量,并提出了相关的数学模型以定量描述。在考虑用户
详细动态行为的基础上,本章将 EV 充放电转化为了一个未知转移概率的 MDP 模型,
提出了一种基于 DRL 算法的充放电控制策略。智能体采用 Soft Actor-Critic(SAC)
框架进行训练,能够提供连续型充放电控制决策。为提高了算法的控制性能,训练
过程结合了监督学习和强化学习的优势。最后,基于真实世界数据构建的仿真实例
验证了所提算法的在线充放电控制效果。

3.1 引言

从用户个人的角度出发,单个 EV 充放电控制的目标是在满足用户出行需求的同
时降低充电成本。来自用户动态行为和实时电价的不确定性为 EV 的充放电控制带来
了极大的挑战。根据对模型的依赖程度可以将现有研究分为模型驱动型方法[88]-[103]
和数据驱动型方法[104]-[110]。传统的模型驱动方法依赖精确的系统动态模型或者不确
定性的预测结果,通过将 EV 充放电控制转化为一个凸优化模型进而求解,对不确定
性因素的适应能力较差。同时,当系统状态发生变化时,比如用户出行计划改变、
充电需求调整时,现有方法都需要再次进行完整的迭代求解,无法获得端到端的控
制方案,泛化能力较差。相较于模型驱动型方法,数据驱动型 DRL 方法通过直接与
环境交互收集经验优化控制策略,不依赖系统模型,并且在学习完成后得到的策略
可以用于直接端到端的控制。
但现有基于 DRL 的 EV 充放电控制研究对用户个人动态行为的考虑不足,仅使
用到达时间,出发时间和离开时的能量需求等因素表征 EV 负荷的随机性。用户动态
行为的复杂化与差异化加剧了 EV 负荷在时空分布上的不确定性,导致现有 DRL 方

45
华 中 科 技 大 学 博 士 学 位 论 文

法适用性下降。
本章将首先定性分析用户动态行为对 EV 负荷的影响,包括驾驶经验,充电偏好
以及充电位置、日期,并引入综合焦虑的概念表征用户对充电结束后的续航里程不
足以及充电过程中不确定事件中断充电的担忧,将用户的充电需求从原本的单时间
点变量转为了整个充电期间的连续性分布变量。然后提供相关数学模型来定量地描
述用户的驾驶经验和总体焦虑水平。在此基础上,将考虑用户动态行为的 EV 充放电
问题转化为具有未知状态转移概率的 MDP 模型,提出了基于 DRL 算法的充放电控
制策略以适应环境中的不确定性。所提控制算法结合了监督学习与强化学习的优势,
不依赖环境的精确模型。最后基于真实世界构建的仿真分析验证了所提算法的在线
EV 充放电控制性能。

3.2 考虑用户动态行为的 EV 充放电模型

本章研究针对单个 EV 的实时智能充放电控制策略,系统模型包括考虑用户动态
行为的 EV 充放电模型以及相应的马尔科夫决策过程(MDP),其中 MDP 形式将作
为后续的 DRL 算法设计的基础。

3.2.1 单个 EV 充放电模型

本章从用户个人的角度来构建 EV 充放电模型,相较于第二章中为研究无序充电
影响而构建的模型,对用户的驾驶经验、充电偏好提供了更详细的数学描述。EV 的
运行模式包含电网到汽车(Grid-to-Vehicle, G2V)和汽车到电网(Vehicle-to-Grid,
V2G)两种形式。在 G2V 模式下,电池处于充电状态以存储能量满足用户出行需求;
在 V2G 模式下,电池则处于放电状态释放能量到电网获取收益。电池的能量变化如
(3.1)所示。

 Et + c pt t pt  0

Et +1 =  pt (3.1)
 Et +  t pt  0
 d

Emin  Et  Emax (3.2)

其中 Et 是电池在时间 t 时储存的能量;pt 是充电/放电功率,充电为正,放电为负;

46
华 中 科 技 大 学 博 士 学 位 论 文

c(0,1]和d(0,1]分别是充电效率以及放电效率;Emax 和 Emin 分别是电池能量的上


下限,当电池可以满充的时候 Emax 等于电池容量 C。
同时,充放电功率由于充电桩的限制也具有上下限:

pmin  pt  pmax (3.3)

与第二章中相同,电池在 t 时刻的 SOC 表示为 soct[0,1],由当前电池储存能量


与电池容量 C 得到,如式(2.2)所示。使用 SOC 可以将不同容量电池的充放电动态过
程标准化。
假设电动汽车在到达时间 ta 与离开时间 td 之间与充电桩相连接,此时段内电池
的能量变化为:

(
Ec = Etd − Eta = C soctd − socta ) (3.4)

接下来,将从驾驶经验、充电偏好以及位置日期三个方面刻画 EV 用户的动态行
为。
(1)驾驶经验
用户的驾驶经验首先表现在对 EV 行驶里程的估计以及在驾驶过程中的里程焦
虑(Range Anxiety,RA)。EV 用户的基本需求是电池能量能够满足在下一次充电之
前的行驶距离。在行驶过程中,用户会担心在到达目的地之前电池电量就已经完全
耗尽。RA 就是用于表征用户对电池无法满足行驶距离的焦虑程度。车辆在离开充电
桩时保持较高的 SOC 水平能够适当缓解用户的 RA。对 EV 可行驶里程的过低估计
或者过高的 RA 会促使用户选择在充电结束时保持一个较高的 SOC 水平。这可能导
致电池储存远超实际需求的电量,并会降低用户参与 V2G 服务的热情。随着驾驶经
验的提升,用户对汽车可行驶里程的估计会更加准确,进而避免不必要的充电行为,
对行程中电池耗尽的焦虑也会得到缓解。相比于 RA 更关注 EV 在离开充电桩时储存
的能量,在充电过程中的电池能量变化同样需要考虑。由于在充电过程中可能发生
不确定事件导致行程提前且充电终止,进而使得电池电量不足。因此引入时间焦虑
(Time Anxity,TA)来刻画用户对充电期间不确定事件的担忧。当时间焦虑较高时,
用户更希望尽快充满电池来应对可能提前的行程。因此,TA 可以看做是 RA 在时间
轴上的展开,存在 TA 的充电时段可称为焦虑时段。在用户的焦虑时段使电池 SOC

47
华 中 科 技 大 学 博 士 学 位 论 文

持续保持在一个较高的水平可以适当的缓解 TA。TA 也与用户的驾驶经验相关,焦


虑时长以及焦虑的程度随驾驶经验的不同而变化。合并 RA 与 TA 得到综合焦虑
(Aggregate Anxiety,AA),可以用于表征用户在整个充电时段内对行驶里程和不确
定事件的估计。即 AA 是用户的电量需求倾向在整个充电时段内的分布。
上述定性分析中表明 EV 用户不同的驾驶经验和综合焦虑最终体现在充电时段
内对电池电量的需求分布。为了定量的描述经验和焦虑,本节参考文献[103]中对时
间焦虑的建模,构建电池 SOC 分布如式(3.5)所示。

k1 (e- k2 (t −ta )/(td −ta ) − 1)


se (t ) = (3.5)
e - k2 − 1
其中 (ta, td],ta 是到达时间与 td 是离开时间;se(t)是在充电时刻 t 的期望 SOC;k1

和 k2 分别是形状参数,满足 k1[0,1],k2(-,0)(0,)。
式(3.5)形式的依据是文献[164]中对决策者偏好的建模思路。在不同形状参数下,
se(t)的分布如图 3-1 所示。图 3-1(a)表示在离开时间 td 的期望 SOC 由参数 k1 决定,即
se(td)=k1。当 k1 较大时,用户期望一个在离开时刻较高的 SOC 水平。图 3-1(b)中固定
k1=1,结果表明 se(t)曲线的变化率由参数 k2 决定。当 k2 较大时,期望 SOC 迅速上升,
并且在整个充电时段内保持一个较高的水平。区别于第二章中式(2.3)充电概率的建
模,本节中的充电偏好是 SOC 在时间轴上的分布,目的是为了定量分析用户的电量
需求,并作为后续充放电控制策略的输入。而式(2.3)则是定义已知当下 SOC 时 EV
的充电概率,目的是为了直接决定当下时刻是否选择充电。
1 1
k2=8 k1=0.95 k1=1
0.8 k1=0.85 0.8 k2=8
k1=0.75
0.6 k1=0.65 0.6 k2=3
se(t)

se(t)

k1=0.55
0.4 0.4 k2=0.01
0.2 0.2 k2=-3
k2=-8
0 0t
ta td a td
时间(小时) 时间(小时)
(a) (b)

图 3-1 不同形状参数下的期望 SOC 分布:(a)k2=0.5, k1=[0.95, 0.85, 0.75, 0.65, 0.55];(b) k1=1, k2=[8,
3, 0.01, -3, -8]

48
华 中 科 技 大 学 博 士 学 位 论 文

回顾本节中对用户焦虑的定义,里程焦虑 RA 与电池在离开时间的 SOC 相关,


可以由参数 k1 来描述。而时间焦虑 TA 与电池在充电时段内的 SOC 相关,可以由参
数 k2 来描述。那么用户的综合焦虑 AA 就可以表征为 k1 和 k2 的组合。即用户可以根
据个人对未来行驶距离、充电期间不确定性事件以及驾驶经验来选择适合自己的参
数组合(k1,k2),进而确定自己的期望 SOC 曲线。比如,当用户的综合焦虑 AA 较高
时,可以将 k1 和 k2 都设定为较大值,此时用户在整个充电期间的期望 SOC 都将处于
一个较高的水平,包括焦虑时段。当用户对未来行程安排比较确定时,则可以选择
一个较低的 k2,因为此时充电时段比较固定,不太可能临时提前出发。并且,随着
用户驾驶经验的增加,对未来行程和电动汽车里程估计的准确度提高,可以适当降
低 k1 和 k2 的值以提高电池与电网交互的灵活性。
1 期望 SOC se(t) 未释放焦虑
实际 SoC sa(t) 已释放焦虑
0.8

0.6
SoC

充电能量

0.4

0.2

0
tx td
时间(小时)

图 3-2 充电时段内的综合焦虑分布

图 3-2 中给出了在焦虑时段[tx, td]之间的一组期望 SOC 曲线 se(t)和真实 SOC 曲


线 sa(t),那么用户焦虑可以定量表示为:

 AA =  tt =t max ( se (t ) − sa (t ), 0 )
d



x

 RA = max ( se (td ) − sa (td ), 0 ) (3.6)



TA =  t =t max ( se (t ) − sa (t ), 0 )
t −1

d

未释放焦虑即曲线 se(t)和 sa(t)之间差值。初始焦虑可以令 sa(t)=0 获取。


(2)充电偏好
用户对 EV 的充电行为可以理解为付出成本购买能量以降低综合焦虑的过程,因
此本章定义充电偏好为对成本的敏感度以及对焦虑的容忍度。区别于第二章中的充
电偏好仅关注当下的 SOC 水平,本章中的充电偏好更为详细和全面。假设所有的 EV

49
华 中 科 技 大 学 博 士 学 位 论 文

用户是理性的,倾向于在电价较低时充电而在电价较高的时候放电,从而降低用电
成本,并且不同用户对成本的敏感度不同。比如,成本敏感型用户可能会选择较低
的充电量以及较长的充电时间以获取更低的成本。
(3)位置日期
除了驾驶经验和充电偏好等个人因素外,用户的动态行为也受到位置和时间的
影响。在工作日,不同位置的到达时间和离开时间相对固定,因而对电量的需求也
比较确定。而在周末,行程随机性较高,不确定型事件发生的概率较大。从而,用
户的充电选择会发生变化。基于第二章 2.2.2 节的数据集分析结果以及实时电价数据
[165]
,图 3-3 中绘制了一天中电价趋势以及位置分布情况。在白天,EV 一般停靠在工
作区或者公共区,而在晚上则停放在住宅区。电价的分布曲线中表示一天中存在两
个电价峰值,即 18:00-20:00 和 6:00-8:00,与用电高峰重合以引导负荷侧响应。对于
EV 而言,在不同的位置充电需要掌握不同的电价变化趋势。在住宅区时,电价一般
先上升在下降。而在公共区或者工作区,则是先下降再上升。

1 1
电价 住宅
概率
电价

0.5 0.5

0 0
0 4 8 12 16 20 24 4 8 12 16 20 24
时间 (小时) 时间 (小时)
(a) (b)
0.4 0.4
工作区 公共区
0.3 0.3
概率

概率

0.2 0.2
0.1 0.1
0 0
0 4 8 12 16 20 24 0 4 8 12 16 20 24
时间 (小时) 时间 (小时)
(c) (d)

图 3-3 实时电价趋势(a)以及汽车停靠位置分布:(b)住宅区;(c)工作区;(d)公共区

3.2.2 EV 充放电模型的 MDP 形式

EV 充放电控制与序贯决策问题的形式一致,可以转化为一个马尔科夫决策过程
(MDP)。MDP 模型包含五个部分,{S, A, P, R,  },其中 S 代表智能体所处的环境

50
华 中 科 技 大 学 博 士 学 位 论 文

状态集合,A 代表可供选择的动作集合,P 代表状态转移概率,R 代表状态转移后获


得的即时奖励,  为奖励的折扣因子,详细定义见 1.2.1 节。

(1)状态 S
状态是智能体对环境的感知,并作为充电策略的输入。状态包括了电价信息,
用户充电偏好,电池电量以及当前时间。在时刻 t 的状态 st 表示为:

st = (t −n+1 , t −n+2 ,, t , ut , tx , td , soct , socx , socd ) (3.7)

其中(t-n+1, t-n+2, …, t)是过去 n 个小时的实时电价;ut 代表充电可用性,电动


汽车停靠在充电桩旁且充电桩可用时 ut =1,否则 ut=0;tx 是焦虑时段的开始时间;td
是电动汽车离开时间;soct 是时刻 t 的电池 SOC,表示电池储存的能量;socx 和 socd
分别是在焦虑时段以及离开时段用户的期望 SOC。
式(3.7)中包含了三类信息:电价信息,EV 电池状态以及用户充电偏好。其中历
史电价信息用于智能体提取电价的动态趋势。序列长度 n 可以根据电价的自回归分
析得到。电池状态采用 SOC 来表示,可以用来适应不同型号的电动汽车。socx 和 socd
表征用户动态的能量需求,根据用户经验,充电位置以及时间信息来确定。
(2)动作 A
动作 at 表示在智能体在时刻 t 时给出的电池充放电速率。为了提供更加精确的
控制,假设充放电速度是连续变化的。由于充电设置的限制,充电速率需要满足:

−amin  at  amax (3.8)

其中 amax 和 amin 分别是智能体决策的充放电速率的上下限。正的 at 表示电动汽车处


于 G2V 模式,电量增加;负的 at 则表示 V2G 模式,电量降低。动作 at 表示的是充
放电速率,经线性变化后可以得到充放电功率。
(3)状态转移概率 P
给定环境状态 st 和智能体决策 at,环境将会以概率 P 转移到下一个状态 st+1,即

P ( st , st +1 ) = Pr ( st +1 st , at , t ) (3.9)

式(3.9)表明状态转移概率不仅与当下状态和决策相关,还受到了环境中不确定
性因素t 的影响,比如用户行为以及实时电价,以表征的用户动态行为在充电期间

51
华 中 科 技 大 学 博 士 学 位 论 文

存在变化的可能。同时,尽管长时间的电价趋势信息存在可预测性,但是具体每小
时电价依然存在一定随机性。这些环境中存在的不确定性给 EV 的充放电控制带来的
巨大的挑战,也难以被准确建模。因此,本章在 3.3 节中采用数据驱动型 DRL 方法
来构建智能充放电控制策略。
(4)即时奖励 R
即时奖励 rt 表示当环境状态在智能体做出决策 at 从状态 st 转移到 st+1 后收到的反
馈。奖励的作用是使得智能体能够感知到决策的好坏,从而调整自身的控制策略以
向更好的方向发展。因此 rt 的设计与控制目标相关,包括降低充电成本以及缓解用
户综合焦虑。假设用户的购电价格与售电价格相同[104],rt 满足:

− p  t  at ta  t  t x


rt = − p  t  at −  x  ([ socx − soct ]+ )
2
t x  t  td (3.10)

− d  ([ socd − soct ]+ )
2

 t = td

其中,p 表示电动汽车用户对价格的敏感度;x 和d 分别表示用户对时间焦虑和里


+
程焦虑的容忍度。 [] = max(, 0) 。以上三个权重参数都是非负的。

当 at>0 时,式(3.10)中(tat)表示充电成本,因为此时用户从电网购电。相应的,

当 at<0 时,(tat)表示放电收益。 ([ socx − soct ]+ ) 和 ([ socd − soct ]+ ) 分别是对未释放


2 2

时间焦虑和里程焦虑的惩罚,当实际 SOC 值 soct 大于用户期望 SOC 时,这部分惩罚


为零。以上各项值越大,表明此时充电成本越高、收益越低、焦虑越大。因此需要
对各项取负,成为最终的奖励信号。
式(3.10)表明充放电控制的目标是降低充放电成本且降低用户综合焦虑。这两个
目标之间存在博弈关系。为了降低充电成本,用户不得不减少购入电量,此时电量
不足会导致较大的焦虑。反之为了降低用户焦虑,电池会储存较多电量导致充电成
本上升。当用户的期望能量(socx, socd)固定时,上述两个控制目标之间的权衡由参数
p 和(x, d)决定。为了定量的分析控制目标之间的关系,假设电价信息以及用户动
态行为等都是已知的,图 3-4 中给出了在固定焦虑容忍度(x, d)下充电成本和综合焦
虑随价格敏感度p 的变化曲线。其中充电成本和累计综合焦虑都归一化到[0,1]。图

52
华 中 科 技 大 学 博 士 学 位 论 文

中结果表示,随着价格敏感度p 的增加,EV 用户的充电成本逐渐降低而累计综合焦


虑逐渐上升。基于分析结果,可以将用户的充电偏好分为以下三个类型:
1)焦虑敏感型:此类 EV 用户更关注释放综合焦虑以满足用电需求。当出行计
划比较重要或者紧急时,用户可以选择这个类型中的参数。
2)成本-焦虑平衡型:此类 EV 用户对成本和焦虑的重视程度相近,希望控制策
略能够在充电时段兼顾成本和焦虑。当出行计划比较灵活时,可以选择这个类型中
的参数。
3)成本敏感型:此类 EV 用户对充电成本更为关注,希望充电成本尽可能低。
当没有出行计划或者出行距离较短时,用户可以选择这个类型的参数。

1 1
类型 2:
0.8 成本-焦虑平衡型 0.8
充电成本

累计综合焦虑
0.6 类型1: 类型3: 0.6
焦虑敏感型 成本敏感型
0.4 0.4
0.2 0.2
0 0
100 101 102 103 104
电价敏感度 (p)

图 3-4 充电成本与综合焦虑之间的博弈

基于对充电偏好的分类,用户可以根据自身的用电类型灵活的选择相应的奖励
函数权重参数。
(5)目标函数
奖励 rt 定义了智能体做出决策后环境的即时反馈,充放电控制策略的目标则是
在此基础上找到最大化整个充电时段内奖励信号的期望值:

max J = ( st , at ) ~ ( T
t =0
 t r ( st , at ) st = s, at = a ) (3.11)

其中  代表充放电控制策略,根据状态 st 产生决策 at;r(st, at)代表即时奖励;折扣因


子  表示当下奖励和未来奖励之间的权重,满足  [0,1] 。当  = 0 时,策略仅关注当

下的反馈。而当  = 1 ,此时无折扣,所有时刻的反馈具有同样的重要性。一般情况

下,折扣因子取 0-1 之间的值来平衡当下奖励和未来奖励,也避免无中断控制下目标


函数无法收敛的问题。而在有终止步数时则可以考虑无折扣的形式。

53
华 中 科 技 大 学 博 士 学 位 论 文

3.3 深度强化学习充放电控制策略

为了适应 EV 充放电环境的不确定性,本节基于数据驱动型 DRL 算法设计控制


策略  * 来产生 EV 充放电决策。所提算法包括了两个阶段的训练过程。在阶段一中,

采用监督学习直接使用提前获取的最优充电决策样本训练策略网络   。在阶段二中,

首先使用训练好的策略网络初始化动作网络   ,然后采用强化学习方法不断与环境

交互持续改进动作网络   ,最终得到优化的充放电策略。其中,阶段二中采用 SAC

(Soft Actor-critic)算法来更新网络参数。接下来,本节将会首先简要介绍 SAC 算


法,然后再给出所提控制算法的设计过程。

3.3.1 SAC 算法

SAC 是一种基于最大熵 RL 框架的异策略动作-评价算法,旨在解决无模型 DRL


方法的高样本复杂性和低稳定性问题。利用离线更新和最大熵框架的优势,SAC 相
较于其他包括 DDPG、TD3、PPO 等在内的异策略或同策略 DRL 算法,控制性能更
为优越。许多研究实验结果都表明 SAC 算法的采样效率和鲁棒性都优于其他 DRL
算法。对于标准的 RL 算法而言,控制目标是最大化折扣奖励的期望值,如式(3.11)所
示。SAC 采用最大熵 RL 框架来改善探索效率,目标函数在原来的基础上增加了策
略的熵值:

max J = ( st , at ) ~  ( T
t =0
 t [r ( st , at ) +    ( ( | st ))] ) (3.12)

其中  是温度因子,表征策略熵值和奖励期望值之间的权衡; ( ( | st ) 是策略  的

熵值,满足 ( ( | st )) = − log( ( | st )) 。当策略随机性越高时,策略中抽样的概率越平

均,熵值也就越大。
在 SAC 算法中,通过交替执行策略评估与策略迭代来更新策略以最大化目标函
数。同时温度因子  的更新也采用了自动熵调整的方法。
在策略评估中,Q 函数依据式(3.13)计算。

Q(st , at ) = r (st , at ) +  V (st +1 )


st +1 ~  (3.13)

54
华 中 科 技 大 学 博 士 学 位 论 文

其中 V (st +1 ) 是状态价值函数,表示为:

V ( st ) = at ~ ( Q(s , a ) −  log ( (a
t t t
st ) ) ) (3.14)

为了能够适应连续状态空间,式(3.13)中的 Q 函数一般使用神经网络参数化,表

示为 Q (st , at ) , 为神经网络参数。然后通过最小化贝尔曼残差来训练神经网络参数,

如式(3.15)所示:

1
 2 ( Q ( st , at ) − (r ( st , at ) +  )
2
J q ( ) = st +1 ~ V ( st +1 ))  (3.15)

( st , at )~ D

其中 D 是经验回放机制的数据缓存池,即经验池, V (st +1 ) 是用于估计状态价值函数

的目标网络。
在策略改进中,策略的提升方向是使得状态价值函数增加。同样策略函数也需

要通过神经网络参数化来适应连续的动作空间,即   (at st ) , 为神经网络参数。策

略网络通过最小化期望 KL(Kullback-Leibler)散度来更新,如式(3.16)所示:

J  ( ) =   log   (at st ) − q ( st , at )   (3.16)


st ~ D  at ~ 

温度因子  在策略迭代的过程中使用式(3.17)中的自动调节方法。

J ( ) = at ~   − log   (at st ) −  H  (3.17)

其中 H 是设定的最小策略熵值。
此外,强化学习中根据动作空间的属性可以分为连续控制和离散控制。不同的
策略函数形式可以提供不同属性的控制。考虑到在现实情况中,EV 充放电速率以及
电池电量都是可以连续变化的,而且连续控制的精度要远高于离散控制。因此,在
本文中采用高斯分布作为策略网络的基本形式,如式(3.18)所示。

(a − m )
2
1
  (a | s) = exp(− ) (3.18)
2s 2s
2

其中 m 和 s 分别是高斯分布的均值和标准差,均由神经网络计算得到。

策略网络   (at st ) 在给定状态 st 后输出均值 m 和标准差 s ,然后利用式(3.18)采

样动作 at。为了能够反向传播,采用重参数化将高斯分布重写为 y = m (s) + s  (s) ,

55
华 中 科 技 大 学 博 士 学 位 论 文

其中  ~ N (0,1) 。即先从标准正态分布中随机抽样得到  ,然后再根据神经网络输出

确定性的动作值。

3.3.2 充放电控制策略

所提电动汽车充放电控制策略包括 1)监督学习阶段用于策略网络的预训练;2)
强化学习阶段用于和环境交互以实现策略改进。算法结构如图 3-5 所示。

阶段1:监督学习
0

电价&用户动态行为 数据集D 
参数训练
网络初始化
st+1
q (st,at) at
q 经验池 B rt 
更新  更新
Jq() J() J ()
更新 
阶段2:强化学习 

图 3-5 所提算法结构图

MeanFC(1)
m Concat Relu1 Relu3 Linear
Relu1 Relu4
st Q
st FC1(128) FC4(128) s FC1(128) FC4(1)
StdFC(1) at
(a) (b)

图 3-6 神经网络结构:(a)策略网络(动作网络);(b)评价网络

(1)监督学习阶段

本阶段直接利用预先获得的 EV 优化充放电结果对策略网络   进行预训练。  

的结构如图 3-6(a)所示,输入的状态 st 由四个串联的全连接层(Fully Connected,FC)


进行映射。然后分别经并联的均值层 MeanFC 和标准差层 StdFC 映射得到均值 m 和

标准差 s 。其中,每个 FC 层后的激活函数都使用修正线性单元(Rectified Linear Unit,


ReLU)。然后使用重参数化方法获得最终的动作 at。
比较 AlphaGo[18]和 AlphaZero[19]的设计方法与实验结果可知,当智能体仅靠自身
对弈训练神经网络而不依赖已有的棋谱数据时的学习性能更好。这是因为智能体在

56
华 中 科 技 大 学 博 士 学 位 论 文

自身对弈过程中发现了更多棋谱中不曾记载的策略,即棋谱数据作为先验知识限制
了学习的性能,而先验知识是经验性的并不是最优的。与棋谱学习不同,EV 充放电
控制问题中的先验知识可以是最优的结果。假设实时电价t,用户行为(tx, td),充电
偏好(socx, socd)等不确定性信息都是已知的,EV 充放电控制可以转化为一个确定性

的优化问题并使用求解器得到最优的结果。因此为了收集数据对   进行预训练,在

监督学习阶段利用历史电价信息以及确定的用户行为数据采集了包含 1000 组完整充


电时段,13139 个充电决策的数据集 D。然后采用小批量梯度下降(Mini-Batch Gradient

Descent,MBGD)从数据集 D 中采样并训练神经网络   。

(2)强化学习阶段
在监督学习阶段虽然可以使用最优数据训练得到一个可以提供控制决策的策略
网络,但其控制性能由于缺乏对环境的探索而受限。为了进一步的探索环境以改善

策略网络,本节中使用预训练的   初始化动作网络   ,然后基于   与环境直接交互

来提高控制性能。强化学习阶段使用的训练框架是 SAC 算法,包括一个动作网络  

和两个柔性评价网络 Q 1 和 Q 2 。其中动作网络   的结构与   相同。评价网络 Q 1 和

Q 2 通过估计状态-动作价值函数对状态动作对(st, at)做出评估,结构如图 3-6(b)所示。

评价网络的输入是状态动作对(st, at),经过拼接(Concat)后输入到神经网络,最后
经过线性层(Linear)得到 Q 值。此外,SAC 采用了双评价网络结构来减少对 Q 值
的过高估计。目标网络和经验重放机制也应用在 SAC 的训练过程中。
所提基于深度强化学习的充放电控制策略算法的主要流程列在表 3-1 中。在强化

学习训练过程中,算法交替的执行数据收集与参数更新过程。在初始化动作网络   后,

动作网络将决策输入到环境中得到下一个状态以及即时反馈,同时将数据收集并存
储到经验池 B 中。然后基于经验池中的数据,采用 MBGD 来训练神经网络。由于使
用了双评价网络结构,神经网络  通过最小化式(3.19)中的残差来更新。

1 2
J q ( i ) = ( st , at )~ D  2 ( Q ( st , at ) − Qmin ) 
i
(3.19)

57
华 中 科 技 大 学 博 士 学 位 论 文

Qmin = rt +  min Qi ( st +1 ,  (st +1 ) ) (3.20)


i =1,2

其中 Qi 是目标评价网络。

对于动作网络   和温度因子,更新方式如(3.16)-(3.17)所示。最终充电决策由动

作网络   生成。

表 3-1 基于深度强化学习的电动汽车充放电控制策略

算法: 基于深度强化学习的电动汽车充放电控制策略
1: 输入:神经网络参数 , , 1, 2
监督学习阶段:
2: 收集训练数据集 D
3: 随机初始化策略网络 .
4: 对于批次 i=1, 2…3000
5: 从 D 中采样 128 个状态动作对(st,at)
6: 通过最小化最优动作和输出之间的均方差来更新神经网络参数
7: 结束
强化学习阶段:
8: 使用策略网络初始化动作网络
9: 随机初始化评价网络 Q1和 Q2.
10: 分别使用评价网络 Q1和 Q2 初始化目标评价网络 Q 1 和 Q 2
11: 初始化一个空的经验池 B.
12: 对于充电时段 i= 1, 2…1500
13: 对于充电时刻 j=1,2…
14: 动作网络根据当下状态 st 得到充电决策 at
15: 执行决策 at 转移到下一个状态 st+1 并获得及时奖励 rt
16: 储存数据{st, at, rt, st+1}到经验池 B.
17: 结束
18: 对于梯度更新次数 i=1,2…:
19: 更新评价网络参数
20: 更新动作网络参数
21: 更新温度因子
22: 更新目标评价网络参数
23: 结束
24: 结束
25: 输出: , 1, 2

58
华 中 科 技 大 学 博 士 学 位 论 文

3.4 仿真分析

3.4.1 仿真设置

EV 充放电环境中的实时电价以及用户行为都来源于真实世界数据。每小时电价
数据取自加州独立系统运营商(Independent System Operator,ISO)2019 年 7 月 1
日至 2020 年 6 月 31 日采集的信息[165]。其中每个月前 20 天的数据用于构建训练集,
后 10 天的数据用于测试集验证控制性能。为了确定状态中电价的序列长度 n,对电
价数据进行了自回归分析,如图 3-7 所示。结果表明电价序列数据存在逐渐衰减的周
期相关性,不同日期相同时段的电价相关性较高。峰值变化显示间隔周期为 24 小时,
与实际经验相符。因此,本章中选择过去 24 个小时的电价序列作为状态量(n=24)
用于智能体感知电价趋势。

1
自回归系数

0.8
0.6
0.4
0.2
0 24 48 72 96
滞后时间(小时)

图 3-7 实时电价自回归分析

用户的出行时间,包括出发时间,离开时间,出行位置等数据与第二章相同,
取自 2017NHTS 数据集。出行时间分布如图 2-3 和图 2-4 所示。为了适应不同的行驶
情况,假设电动汽车每次达到充电桩时电池 SOC 满足正态分布 N(0.5,0.12),限幅为
[0.2,0.8]。为了模拟不同用户的驾驶经验和充电偏好,期望 SOC 曲线的形状参数 k1
和 k2 分别采样自分布 N(0.9, 0.12)和 N(9, 12),限幅分别为[0.85, 0.95]和[6,12]。焦虑时
段的长度从离开时间向前计数,满足均匀分布 U[0,4]。此外,电池容量被归一化以
适应不同类型的电动汽车,充放电功率的上下限为容量的 20%。充放电效率系数均
设置为 0.98。基于图 3-4 中用户充电偏好的定量分析,设置用户为焦虑敏感型,奖惩
函数系数设定为p=7,x =17,d=35。
所提控制算法中的神经网络结构以及每层神经元个数如图 3-6 所示。在监督学习
阶段,学习率设置为 10-3,训练次数设置为 3000。在强化学习阶段,SAC 框架下动

59
华 中 科 技 大 学 博 士 学 位 论 文

作网络,评价网络以及温度因子的学习率分别设为 10-3,10-2,10-2。训练次数为 1500。


奖励折扣因子设置为 0.99。监督学习和强化学习过程中用于梯度下降的采样样本个
数为 128。经验池容量为 10000。
同时,为了对用户焦虑缓解程度进行定量的分析,基于(3.6)中的焦虑定义给出
剩余焦虑比例的计算方法:

(
 aa = AA /  ttd=t−1 socx + socd
 x
)

(
ta = TA /  t =t x socx + socd
td −1
) (3.21)

(
 ra = RA /  td=t x socx + socd
t −1
)
越大的剩余焦虑比例表示算法的焦虑缓解效果越差。
为了验证所提算法的性能,仿真分析中与以下方法进行了比较:
1)完全信息优化(Perfect Information Optimum,PIO):PIO 假设未来的电价
信息,用户的动态行为等充电环境中的不确定性都是已知的,然后将 EV 充放电决策
转化为确定性优化模型,并使用求解器 Gurobi 获取最优解。PIO 算法可以离线的获
得最优控制决策,在本章中作为所有算法的理想上限。在实际中由于缺乏不确定信
息,PIO 算法并无法直接应用。
2)基于 LSTM 的预测控制(Model Predictive Control with LSTM, MPC-LSTM):
本方法中使用长短时记忆(Long Short-Term Memory, LSTM)构建电价预测模型,并
基于预测结果使用 PIO 方法进行最优决策求解。LSTM 网络的输入也是过去 24 个小
时的电价序列。
3)模糊逻辑控制(Fuzzy Logic Control, FLC):FLC 是一种模仿人脑对不确定
性概念的判断推理方法,包括输入变量的模糊化,建立模糊规则并进行模糊推理以
及模糊变量到确切输出的解模糊等过程。本节中将电价、时间以及 SOC 作为输入量,
将充电功率作为决策量设计 FLC 算法。
4)双深度 DQN 算法(Double DQN, DDQN):DDQN 算法的动作空间是离散的,
充电速率离散化为 7 个等级,分别是[-0.2, -0.13, -0.067, 0, 0.067, 0.13, 0.2]。此外,
DDQN 的 Q 网络结构与 SAC 中评价网络架构相似。
5)双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy

60
华 中 科 技 大 学 博 士 学 位 论 文

Gradient,TD3):TD3 算法是 DDPG 算法的改进版本,通过引入两个评价网络来降


低 Q 值的过拟合。不同于 SAC 算法采用分布抽样确定动作,TD3 算法通过在动作网
络的输出中直接叠加一个高斯噪声来增加探索效率。TD3 中的网络结构和训练参数
与 SAC 相同。
6)近端策略优化算法(Proximal Policy Optimizatio,PPO):DDQN,TD3 以
及 SAC 均为异策略深度强化学习算法,而 PPO 是一种同策略算法,是 TRPO 算法的
改良版本。相较于 TRPO,PPO 的实施难度大大降低。PPO 算法中梯度下降次数设
定为 20。此外的网络结构和训练参数与 SAC 相同。
除了上述六种算法之外,监督学习阶段得到神经网络和不考虑预训练的 SAC 算
法也选择所提算法的比较对象。所有的算法都使用 Python 语言并基于 Pytorch 框架
搭建,计算机硬件包括一个 8-core Intel CoreTM i7-7700 [email protected] 和一个
NVIDIA RTX 2080 Super GPU。

3.4.2 算法训练效果

图 3-8 中给出了所提算法在监督学习阶段以及强化学习阶段的训练效果,浅色阴
影区和深色实线分别表示训练过程中目标的实际值和平均值。监督学习阶段,算法

从收集的最优数据中直接训练策略网络   ,图 3-8(a)表明经过 3000 次的训练,损失

函数逐渐收敛,平均值从 7.02 降低到了 0.495。这表明策略网络   已经较好的拟合

了最优充放电决策。为了避免过拟合,在监督学习阶段使用的最优数据并未用于初

始化强化学习阶段的经验池 B。在强化学习阶段,动作网络   和环境直接交互,探

索了更多从真实世界数据分布中抽样的实时电价以及用户动态行为,训练效果如图
3-8(b)-(d)所示。为了更直观的展示所提控制算法的充电成本降低效果以及用户焦虑
缓解效果,图 3-8(b)-(d)分别给出了在训练过程中总奖励,成本奖励以及焦虑奖励的
变化曲线。由于训练样本的不同,图中浅色阴影区域显示的实际奖励在训练过程中
一直存在上下抖动,但深色实线代表的整体平均值随着训练次数的增加逐渐上升且
趋于稳定。这表明所提算法能够通过与环境交互学习到一个稳定的策略。

61
华 中 科 技 大 学 博 士 学 位 论 文

(a) 8

损失函数值
6
4 监督学习损失函数
2
0
0 500 1000 1500 2000 2500 3000
训练次数
(b)
0
总奖励

-100 强化学习总奖励

-200
0 500 1000 1500
训练次数
50
(c)
成本奖励

0
强化学习成本奖励
-50

-100
0 500 1000 1500
训练次数
(d) 0
焦虑奖励

-50 强化学习焦虑奖励

-100
0 500 1000 1500
训练次数

图 3-8 所提算法训练效果:(a)监督学习阶段损失函数变化;(b)强化学习阶段总奖励;(c)充电成
本奖励;(d)综合焦虑奖励

3.4.3 连续实时充放电控制性能

为了验证所提算法的连续充放电控制性能,本例中构造了一辆 EV 连续一周的行
程记录。在工作日,用户上午从住宅出发到达办公区,下午从办公区出发回到住宅。
在周末,用户白天的活动场所则是公共区。实时电价选自 11 月中连续一周的数据。
每次行程的出发时间,到达时间,焦虑时间以及途中驾驶时间都存在差异以模拟用
户动态的出行行为。实际中,EV 在行驶途中消耗的能量可以通过车辆的百公里耗电
来计算。但本例为了能够更有效的验证算法性能,假设电动汽车每小时消耗 20%的
能量以实现较大程度的 SOC 变化。为了验证算法对各时段实时电价的适应性,本例
假设在 EV 在任何位置停留时都可以充放电。最终基于 3.4.2 节中训练的智能体做出
的充放电决策如图 3-9 所示。其中,不同位置的充放电决策由不同颜色标注。图 3-9(a)
中的充放电决策表明,在不同充电位置,智能体都会选择在电价较低时充电,而在

62
华 中 科 技 大 学 博 士 学 位 论 文

电价较高时放电。这些结果表明所提算法能够在动态电价和不同位置中学习到降低
充电成本,增加 V2G 收益的策略。图 3-9(b)展示了 7 天 15 个充电时段的 SOC 变化
曲线,可以看出在临近出发的焦虑时段,电动汽车电池会保持在一个较高的 SOC 水
平以降低用户时间焦虑。而在出发时刻,EV 电池基本充满来降低里程焦虑。电池
SOC 根据电价变化以及能量需求做出调整以充分发挥 EV 的控制潜能,在部分时段
可以充放电至 SOC=1 或 SOC=0(本文所设上下限)。在实际控制中充放电上下限可
以灵活设置以适应不同的用户特性。整个一周中剩余综合焦虑比例aa 为 3.19%,其
中剩余时间焦虑比例ta 为 1.40%,剩余里程焦虑ra 比例为 1.79%。这表明用户的综
合焦虑得到了极大的缓解。以上结果表明,所提方法可以学习到同时降低成本和缓
解焦虑的电动汽车充放电决策。
驾驶途中 1
0.3 住宅 工作区 公共区
0.2
充放电速率

动态电价
0.1
0.5
0
-0.1
-0.2 0
0 20 40 60 80 100 120 140 160 180
时间(小时)
(a)
住宅 工作区 公共区 驾驶途中
1
SOC

0.5

0
0 20 40 60 80 100 120 140 160 180
时间(小时)
(b)

图 3-9 连续时间下所提算法控制性能:(a)充放电速率;(b)SOC 变化

3.4.4 不同焦虑容忍度下控制性能

本例中以时间焦虑容忍度为变量,进一步验证所提算法在不同 EV 用户动态行为
下的表现。根据 3.2.1 节中分析,当用户的时间焦虑较大时,更希望电池在焦虑时段
内保持一个较高的 SOC 水平。为了模拟不同的时间焦虑程度,本例中设计了五个级
别的焦虑容忍度,L1 到 L5,x 分别设定为[0, 2, 4, 17, 20]。其中 L1 代表最高的焦虑
容忍度,此时用户不担心不确定性事件的发生,奖励函数中有关时间焦虑的部分权
重系数x 为最低。即 L1 型用户更关注充电成本以及里程焦虑。而 L5 则代表最低的

63
华 中 科 技 大 学 博 士 学 位 论 文

时间焦虑容忍度,此时权重系数x 为最高。L5 型用户更希望电池能够尽可能的多储


存电量以降低时间焦虑。对能量的需求程度满足 L1<L2<L3<L4<L5。同时,本例中
构造了 300 个独立的充电时段来研究不同焦虑程度下所提算法的控制性能。仿真效
果如图 3-10 所示。
图 3-10(a)中表明,L5 型电动汽车用户的累计时间焦虑最低,而 L1 型用户的累
计时间焦虑最高。图 3-10(b)中不同级别下焦虑时段的 SOC 分布也表明随着用户对能
量的需求程度上升,电池储存的能量也就越多。L1 到 L5 的平均 SOC 分别是 0.843,
0.849,0.867,0.876 和 0.884。即用户对焦虑的容忍度越低,智能体便充入更多的能
量来缓解焦虑。以上结果表明所提算法能够根据用户的焦虑程度来调整充电决策以
满足不同用户的充电需求。同时,充放电总收益从 L1 到 L5 随着充电能量的增加而
逐渐减少,分别是 714,693,653,631 和 560。这表明当用户更关注焦虑缓解时,
电池可调节空间下降且参与 V2G 的意愿降低,因此整体收益下降。

1
L1
累计时间焦虑

L2
L3
0.5 L4
L5

0
0 50 100 150 200 250 300
样本数
(a)
1
焦虑时段SOC分布

0.8

0.6

L1 L2 L3 L4 L5
时间焦虑容忍度
(b)

图 3-10 不同时间焦虑容忍度下的控制表现:(a) 累计时间焦虑;(b) 焦虑时段 SOC 分布

为了分析不同焦虑容忍度下所提算法在线控制表现,图 3-11 中给出了 L1 和 L5


下连续三个充电时段的控制效果。比较图 3-11(c)和(d)可知,在较低的焦虑容忍度水
平 L5 下,电动汽车出发前一段时间就已保持较高的 SOC 水平以缓解不确定事件带
来的焦虑。L1 和 L5 的三个焦虑时段的平均 SOC 分别为 0.635 和 0.853,对应的剩余

64
华 中 科 技 大 学 博 士 学 位 论 文

时间焦虑比例分别为 16.85%和 0.95%。即通过设定一个较低的焦虑容忍度可以有效


提升在焦虑时段的电池 SOC 水平。
L1 L5
1 1
0.2 0.2

动态电价
充放电速率
动态电价
充放电速率

0.1 0.1
0 0.5 0 0.5
-0.1 -0.1
-0.2 0 -0.2
0 10 20 30 40 50 60 0 10 20 30 40 50 60
时间(小时) 时间(小时)
(a) (b)
1 1
SoC

SoC

0.5 0.5

0 0
0 10 20 30 40 50 60 0 10 20 30 40 50 60
时间(小时) 时间(小时)
(c) (d)

图 3-11 不同时间焦虑容忍度下的充放电控制效果:(a) L1 下充放电速率;(b) L5 下充放电速率;


(c) L1 下 SOC 曲线;(d) L5 下 SOC 曲线

3.4.5 性能比较

为比较所提算法与对比算法的控制性能,图 3-12 中给出了各方法在构造的 300


个充电时段里的累计奖励曲线。详细的成本奖励以及焦虑奖励列在了表 3-2 中。结果
表明 PIO 算法得到的结果是最优的,累计奖励为 5358.22,在对比中作为理想上限。
所提算法结合了监督学习与强化学习的优点,累计奖励为 4296.26,是所有算法中最
接近最优结果的。异策略连续动作空间算法 SAC 和 TD3 仅通过与环境交互优化控制
策略,取得的效果接近,累计奖励分别为 4049.52 和 3875.72,都稍劣于所提算法。
DDQN 中动作空间是离散的,控制精度低于上述连续控制算法,控制效果也较差。
监督学习 SL 阶段拟合的策略网络由于缺乏对环境的探索,MPC-LSTM 方法则对预
测精度的敏感性较高,因此两者控制效果都较差。此外,同策略 PPO 算法在所有强
化学习方法中获得的累计奖励最低,表明异策略更适合所研究的充放电环境。FLC
算法依赖专家经验设计模糊规则,对系统中不确定性的适应能力较差,累计奖励也
是所有方法中最少的。

65
华 中 科 技 大 学 博 士 学 位 论 文

6000
4500 PIO MPC-LSTM SL
5000 PPO Duel-DQN TD3
FLC SAC
4000 3500
SL-SAC
累计奖励

3000 2500
280 290 300
2000

1000

0
0 50 100 150 200 250 300

图 3-12 不同控制算法的累计奖励
表 3-2 不同控制算法的累计奖励

累计奖励
算法
总奖励 成本奖励 焦虑奖励
PIO 5358.22 5621.04 -262.82
MPC-LSTM 3291.71 3521.71 -229.99
FLC 1118.58 1500.75 -382.16
SL 3529.71 5545.77 -2016.06
PPO 2789.02 3283.23 -494.21
DDQN 3629.29 4669.80 -1040.51
TD3 3875.72 4010.44 -134.72
SAC 4049.52 4567.49 -517.97
所提算法 4296.26 4648.04 -351.78

3.4.6 超参数影响

本例中研究算法中超参数对控制性能的影响,选取的超参数包括折扣因子以及
学习率 lr。图 3-13(a)中给出了在不同折扣因子下算法的训练效果。当=0.99 或 0.90
时,奖励曲线基本重叠,此时训练效果优于其他折扣因子。并且当=0.99 时收敛速
度稍快。当=0.70 或=0.50 时,智能体更多关注当下奖惩,训练效果变差。图 3-13(b)
中给出了在不同学习率下的训练效果。结果表明,当学习率过大时,lr=(10-2, 10-1, 10-1),
由于神经网络权值更新幅度较大,算法训练效果明显变差。而过小的学习率,lr=(10-5,
10-4, 10-4),则会导致收敛速度变慢。结果表明,当学习率适中时,lr=(10-3, 10-2, 10-2),
训练效果最好。

66
华 中 科 技 大 学 博 士 学 位 论 文

20

-20
奖励

-60
=0.99 =0.90 =0.70 =0.50
-100
0 500 训练次数 1000 1500
(a)
20

-20
奖励

lr = lr a, lrc, lr
-60 310-5,310-4,310-4 10-4,10-3,10-3
-3 -2
10 ,10 ,10 -2
10-2,10-1,10-1
-100
0 500 1000 1500
训练次数
(b)

图 3-13 算法超参数对训练效果的影响:(a) ;(b) lr

3.5 本章小结

本章主要研究针对单个 EV 的智能充放电控制,控制目标是实现在降低充电成本
的同时缓解用户的综合焦虑。首先将考虑用户动态行为的 EV 充放电问题转化为具有
未知状态转移概率的 MDP 模型。然后为了适应环境中的不确定性,提出了基于深度
DRL 算法的充放电控制策略。主要结论有:
(1)在构建电动汽车充放电环境时考虑了驾驶经验,充电偏好以及充电地点等
因素以模拟用户动态的驾驶行为和充电需求。为描述用户对电池行驶里程和充电过
程中不确定事件的担忧,引入了总体焦虑的概念,将用户的充电需求从原本的单时
间点变量转为了整个充电期间的连续性分布变量,并且提供了数学模型来定量地描
述驾驶员的经验和总体焦虑水平。
(2)所提控制算法结合了监督学习与强化学习的优势,不依赖环境的精确模型。
最终的充放电控制策略通过与环境的交互来进行优化。同时,为了获得高精度的控
制效果,强化学习阶段采用 SAC 训练框架以提供连续动作空间的充放电决策。
(3)基于真实数据构建的仿真实例表明,所提算法能够适应动态的实时电价以
及用户充电需求,在满足充电需求的同时降低了充电成本,控制性能相较于对比方
法也更为出色。

67
华 中 科 技 大 学 博 士 学 位 论 文

4 基于多智能体深度强化学习的 EV 集群协调充放电控制

第二章中影响分析表明大规模 EV 接入配网后产生的负荷叠加效应会加剧变压器
过载程度和过载时间。为了降低 EV 集群充放电对变压器的影响,本章在第三章单个
EV 充放电控制的基础上将研究对象扩展到 EV 集群,并提出了一种基于多智能体深度
强化学习(MADRL)的协调充放电控制策略。协调充放电环境中考虑了来自实时电价,
常规生活负荷以及用户动态行为的不确定性,并将协调控制问题表述成转移概率未
知的马尔科夫博弈(MG)。所提 MADRL 算法中的每个智能体都包含一个集体策略模型
和一个独立学习器。集体策略模型用于估计环境中其他智能体的联合控制策略,独
立学习器则用于和环境交互学习自身的充放电策略。此外,所提算法仅利用本地观
察量进行训练,在结构上完全分散,具有良好的扩展性和隐私保护性能。基于真实
世界数据构建的仿真验证了所提方法良好的在线协调控制性能。

4.1 引言

第二章中对 EV 接入配网后的影响分析表明用户在住宅区出行规律相似,夜间
EV 充放电时间重合度较高。因此住宅区大量 EV 无序充电带来的负荷叠加效应会加
剧变压器负荷峰值,导致变压器超额定功率运行时间显著上升。长时间过载运行会
引发变压器过热,降低运行寿命[77]-[78]。为了降低对变压器维修扩容的成本,EV 集
群的协调控制尤为关键。与第三章中仅针对 EV 个体的充放电控制不同,本章在满足
EV 用户基本需求的同时,进一步考虑了 EV 集群内充放电决策的协调配合以降低 EV
集群负荷对配网变压器的影响。
现有 EV 集群充放电控制根据模型假设和通信机制可以分为:1)集中式模型驱
动方法[111]-[115];2)分布式模型驱动方法[117]-[125];3)集中式数据驱动方法[126]-[128];4)
分布式数据驱动方法[129]。由于 EV 集群中各个用户的出行特性、用电偏好、车辆参
数等因素的多样性与差异性,EV 集群充放电环境比单个 EV 充放电环境更为复杂,
不确定性变量更多。同时 EV 集群充放电的状态变量和控制决策数量更多,对可扩展
性和实时控制的要求更高。这都导致模型驱动型方法和集中式数据驱动方法的适用

68
华 中 科 技 大 学 博 士 学 位 论 文

性降低。目前应用于 EV 集群的分布式数据驱动方法较少,文献[129]提出的协作算
法使用 Q-learning 进行训练,每个智能体在维护自身的“自私”Q-Table 外,还通过
通信和系统中所有节点建立了“协作”Q-Table。当系统中 EV 数量增多时,算法需
要更新的 Q-Table 数量将会指数式的增长,无法保障算法的可扩展性。
本章针对 EV 集群控制,提出了一种基于 MADRL 算法的协调充放电控制策略。
相较于第三章中的研究,本章将研究对象从单个 EV 扩展到 EV 集群,考虑了 EV 集
群负荷的叠加效应对变压器的影响;同时将控制算法从单智能体 DRL 扩展到多智能
体 DRL 算法,并针对多智能体环境中各个智能体策略动态变化的特点做出了改进,
提出了包含独立学习器与集体策略模型的协调控制算法。所提算法在结构是完全分
散的,仅依赖本地可观测信息实施控制决策,在保护用户隐私的同时具有高度的可
扩展性。最后基于真实世界数据构建的仿真实例从在线控制以及计算复杂度等方面
验证了所提算法的协调充放电性能和可扩展性。

4.2 EV 集群模型

本章研究配网中 EV 集群协调充放电控制,以在满足各 EV 用户能量需求的同时


降低对变压器的影响。系统模型包括 EV 集群充放电模型以及相应的马尔科夫博弈
(MG)形式。

4.2.1 EV 集群协调充放电模型

公共信息: 实时电价 & 变压器负荷 虚拟层 :控制策略

智能体 1 智能体 2 智能体 N

负荷信息 充放电决策 负荷信息 充放电决策 负荷信息 充放电决策

电力供应 变压器 住宅 1 住宅 2 住宅 N

Pres1 PEV1 Pres2 PEV2 PresN PEVN


物理层:含电动汽车住宅区

图 4-1 电动汽车集群控制模型

电动汽车集群实时协调充放电控制的框架如图 4-1 所示。配网内若干拥有 EV 的

69
华 中 科 技 大 学 博 士 学 位 论 文

住宅在物理层通过电力线路连接至变压器后与电力供应商实现能量交互。在虚拟层,
住宅用户通过通讯链路接收在配网中公开的实时电价信息以及变压器负荷信息来制
定本地电动汽车的充放电决策。
EV 集群充放电控制同样可以看做是一个序贯决策问题,在时间 t,住宅 i 中的
智能体观测本地环境信息 oi,t,包括本地 EV 状态、住宅常规负荷以及公共的实时电
价变化以及变压器负载。根据本地观测量 oi,t,智能体 i 做出 EV 充放电决策 ai,t,随
后本地 EV 电池储存能量发生变化。在所有智能体的联合充放电决策(a1,t, a2,t, a3,t…)
以及住宅常规负荷的共同作用下,变压器负载发生改变。此时,集群充放电环境转
移到下一个状态。出于隐私保护的考虑,在整个决策过程中本地住宅智能体仅依赖
本地可观测信息,并不需要其他住宅的私有信息,比如 EV 状态以及常规负荷功率。
同时,本章主要关注受到变压器容量限制的 EV 协调充放电问题,仅考虑 EV 在住宅
区充电时的控制。此外假设每户住宅有且仅有一辆 EV,其他生活负荷不可控,功耗
信息从数据集[163]中获取。

4.2.2 EV 集群协调充放电模型的 MG 形式

4.2.1 节中描述的 EV 集群协调充放电控制模型可以转化为一个部分可观测马尔


科夫博弈模型。马尔科夫博弈(MG)是马尔科夫决策(MDP)在多智能体系统中的
扩展,包含六个部分,{N, S, A, P, R,  },详细介绍见 1.2.2 节。本节中各部分定义

如下:
(1)环境状态 S
系统环境状态 S 是所有智能体本地观测量 oi,t 的联合值。t 时刻状态 st 满足 st=(o1,t,
o2,t, …, oN,t)。本地观测量中包含了公共信息和本地信息两部分,定义如下:

oi ,t = (t −23 ,, t , li ,t −23 ,, li ,t , ui ,t , ti ,d , ei ,t , ei ,d ),i = 1, 2,..., N (4.1)

其中(t-23, … t)是过去 24 小时的历史实时电价数据,(li,t-23, …li,t)是住宅 i 过去 24 个


小时的常规负荷功率(不含电动汽车负荷),取自数据集 HUE[163];ui,t 代表电动汽车
i 是否在住宅区且可以进行充放电控制,ui,t =1 时可以,ui,t =0 则不行。ei,t 是电动汽车
电池当前剩余能量,ei,d 为用户在离开住宅区时的期望电量。

70
华 中 科 技 大 学 博 士 学 位 论 文

实时电价信息由电力供应商提供,作为公共信息在所有住宅之间共享,而住宅
负荷信息和 EV 状态则是私有信息。与第三章相同,每辆电动汽车的出行时间相互独
立,并且期望电量 ei,t 由自身驾驶经验,充电偏好等因素决定。与第三章相比,本章
中为了突出主要控制目标简化了用户充电偏好设计,仅保留了里程焦虑。
(2)联合动作集合 A
在 EV 集群充放电环境中的动作集合包含了所有 EV 的充放电决策,即在 t 时刻
的联合动作为 at=(a1,t, a2,t, …, aN,t)。在本章中,单个 EV 充放电功率设置与第三章相
同,包含了 V2G 和 G2V 两种模式,且满足式(3.8)中的上下限约束。
(3)状态转移概率 P
与单个 EV 充放电控制不同,EV 集群充放电环境中环境状态转移不仅受到所有
住宅联合充电决策的影响,还受许多随机因素影响,包括实时电价,住宅常规负荷
以及用户的动态行为,因此很难得到状态转移概率的精确模型。为了应对环境中的
不确定性,本章继续基于数据驱动的多智能体 DRL 算法设计 EV 集群协调控制策略。
(4)奖励函数 R
EV 集群充放电环境中,每个智能体与环境的交互过程中仅能得到与自身信息相
关的奖励 ri,t。奖励与控制目标相关,包括 1)降低充电成本,2)缓解里程焦虑,3)
避免变压器过载。
EV 的充电成本可以在本地由实时电价数据与充放电决策直接获取,如式(4.2)所
示。

rp,i,t = −t  ai ,t ti ,a  t  ti ,d (4.2)

其中 ti,a 和 ti,d 分别是第 i 个电动汽车的到达时间与离开时间。


里程焦虑 RA 表示用户对电池在行程中间电量耗尽的担忧,保持较高的电池 SOC
水平可以缓解用户焦虑。与第三章相同,使用用户期望电量与实际电量之间的差值
来表示与焦虑相关的奖励,如式(4.3)所示。

rra ,i ,t = − ([ei ,d − ei ,t ]+ )
2
t = ti ,d (4.3)

+
其中 [] = max(,0) 。

71
华 中 科 技 大 学 博 士 学 位 论 文

式(4.2)-(4.3)中与充电成本和用户焦虑相关的奖励信息均可以在根据本地观测量
以及充放电决策计算得到,与其他智能体决策无关。而变压器负载则是有所有住宅
的常规负荷与电动汽车负荷共同叠加的结果。与文献[129]和[160]相同,本章对配网
中变压器和住宅的交互做出以下假设:
所有住宅通过变压器和电力供应商进行能量交互,因此可以通过变压器上安装
的硬件设施或配网运营商计算得到所有住宅的实时电力消耗。然后通过已构建的通
信设施将变压器负荷传递给各个住宅的智能体。即变压器负荷信息与实时电价信息
同样当做住宅区内共享的公共信息。在此假设下,仅总负荷信息被共享,每个住宅
的私有电量消耗信息并未传递给其他住宅。
基于以上假设,每个智能体可以根据变压器负荷计算得到和变压器过载相关的
奖励信号,如式(4.4)所示。

 pi ,t
− ([abs( pttf ) − ct ]) 2 , if abs ( pttf )  ct
ro ,i ,t =  pttf min{ti ,a }  t  max{ti , d } (4.4)
0, else

其中, pi ,t 是住宅 i 在时间 t 的电力消耗; pt 是变压器总负荷,满足 pt =  pi ,t ;


tf tf

ct 是变压器在时间 t 的可用容量。
式(4.4)表示,当变压器总负荷小于变压器容量时奖励为零。当出现变压器过载
时,奖励为负作为对当下充放电决策的惩罚。同时变压器负载惩罚按照住宅电力消
耗进行分配以保证各个住宅的用电公平性。
结合以上三类奖励信号,可以得到每一个智能体 i 在时刻 t 的总奖励为:

ri ,t =  p rp,i ,t +  ra rra,i ,t +  o ro,i ,t (4.5)

其中p,ra,和o 分别是成本奖励、焦虑奖励以及变压器负荷奖励的权重系数。三个
系数均为非负值。
与第三章中的分析相同,EV 集群充放电控制中的多个控制目标之间存在博弈,
由式(4.5)中各奖励的权重系数决定。在实际应用中,用户会根据自身的充电偏好以
及行程安排等个人因素选择不同的权重系数组合。为了方便实际中的权重系数的确
定,本节将进一步定量的描述权重系数与控制目标之间的关系。假设所有不确定信

72
华 中 科 技 大 学 博 士 学 位 论 文

息是已知的,集群充放电模型可以转化为一个确定性优化问题。由此得到的控制目
标随权重系数o 的变化如图 4-2 所示。其中用户满意度定义为成本降低以及焦虑缓解
带来的奖励之和。图中结果显示,随着变压器负载相关的权重系数的增加,用户满
意度逐渐降低而变压器负载奖励逐渐升高。基于此,用户可以定量的选择不同的权
重系数组合。
1 0

变压器负荷奖励
用户满意度奖励

0.5 成本奖励+焦虑奖励
变压器负载降低奖励
0 -0.5

-0.5
-1 -1
-1 0 1 2
10 10 10 10
o
图 4-2 控制目标随不同权重系数o 的变化曲线

4.3 多智能体深度强化学习集群协调控制策略

为了应对 EV 集群充放电控制中的不确定性,本章基于 MADRL 算法设计集群


协调控制算法实现在满足用户用电需求的同时避免变压器过载运行。接下来,本节
将会首先简要回顾多智能体 DRL 与单智能体 DRL 的差异,然后再给出所提控制算
法的设计过程。

4.3.1 多智能体强化学习

与传统单智能体深度强化学习相比,MADRL 主要应用在具有多个自主智能体交
互的序贯决策问题中。由于所有智能体都通过与共享的外部环境交互来收集收据并
训练自身的控制策略,因此学习过程变得更为复杂。从单智能体学习到多智能体学
习的演变中,自主学习(Independent Leaners,ILs)方法,比如独立 Q 学习(Independent
Q-Learning),是最为直接的方法。ILs 中每个智能体都将其他智能体视为环境的一部
分,进而在多智能体环境中直接应用单智能体强化学习方法。虽然可能带来非平稳
性问题,但是实验中 ILs 经常取得较好的控制效果,并且具有较高的可扩展性。为了
解决多智能体交互带来的非平稳性问题,多智能体深度确定性策略梯度方法
(MADDPG)采用了集中式训练与分散式执行的框架(CTDE)。在训练过程中,每

73
华 中 科 技 大 学 博 士 学 位 论 文

个智能体的评价网络都可以获得全局信息。但是集中式训练方法仅在小规模控制问
题上有效,可扩展性受到了限制。此外的分布式 MADRL 算法则依赖各个智能体之
间的信息交互,对通信网络的传输能力要求较高。

4.3.2 集群协调充放电控制策略
at
智能体 i
实时电价 集体策略模型 i êi,t-1 ôi,t-1 动作网络 i ai,t
at

Q-value
负荷信息 oi,t-1 a{-i},t
评价网络 i
经验池D1,i 经验池D2,i

环境 智能体{-i}
自主学习器 i
o{-i},t-1 t collective
ei,t ôi,t-1 ai,t ri,t ôi,t

图 4-3 基于 MADRL 的电动汽车集群协调充放电控制

在现有 MADRL 方法的启发下,本节基于自主学习框架设计了基于 MADRL 算


法的 EV 集群协调充放电控制算法:CPM-MADRL。算法框架如图 4-3 所示。每一个
智能体中包含两个部分:集体策略模型(Collecitve-policy Model,CPM)以及基于
SAC 框架的自主学习器(SAC-based Independent Learner,SAC-IL)。其中集体策略
模型基于深度神经网络(DNN)构造,用于评估环境中其他智能体的联合策略;自
主学习器则基于 SAC 框架训练,用于和环境交互来学习 EV 充放电策略。为方便展
示,图 4-3 中自主学习器由一个动作网络和一个评价网络表示。在算法实施过程中则
构建了两个评价网络以减少对 Q 值的过高估计。
(1)集体策略模型(CPM)
在 EV 集群充放电环境中,变压器过载是所有住宅用电共同作用的结果。因此,
每个智能体本地的充放电决策会受到其他智能体决策的影响。但是出于隐私保护的
考虑,每个智能体并不会共享自身的私有状态信息给其他智能体,比如本地电量消
耗,电动汽车状态以及充放电功率。为了能够估计其他智能体的控制策略以辅助本
地决策进而降低潜在的环境非平稳性的影响,本节引入了 CPM 来预测其他所有智能
体的联合用电行为。在实际充放电决策中,住宅用户一般倾向于在电价低时充电而
在电价高时放电以降低充电成本。对电价的一致响应通常会导致在电价低谷时期产

74
华 中 科 技 大 学 博 士 学 位 论 文

生负荷高峰,引发变压器过载。因此,在 CPM 设计中认为住宅的集体用电行为与电


价趋势紧密相关。智能体 i 中的 CPM 模型如式所示。

pˆ i ,t = Psi (t −23 , , t ) (4.6)

ˆ i ,t 表示智能体 i 对环境中所有其他智能体的电力消耗总和的评估。
其中 p

4.2.2 节中假设变压器负荷,即所有住宅总负荷,可以通过变压器上安装的设备
或配网运营商计算后传递到各个智能体。因此,每个智能体都可以根据得到的总负
荷与本地负荷计算其他智能体处的电力消耗总和,如式(4.7)所示。

picollective
,t = pttf − piev,t − li ,t (4.7)
ev
其中 pi ,t 和 li ,t 分别是智能体 i 处的 EV 负荷和住宅常规负荷。

在后续自主学习器与环境交互的过程中,CPM 中网络 Ps i 可以基于历史电价数据

和式(4.7)中得到的历史电力消耗数据进行训练更新。并且在训练过程中仅用到了本
地的电量消耗数据和公共信息,并不依赖其他住宅的私有信息。
(2)自主学习器(SAC-IL)
每个智能体的自主学习器用于和环境交互生成数据并学习协调充放电控制策略。

如图 4-3 所示,CPM 输出对其他智能体的电力消耗估计值 êi ,t 后,第 i 个自主学习器

合并本地观测量 oi ,t 与估计值 êi ,t 作为新的观测量 oˆi ,t 。基于 oˆi ,t ,自主学习器中的动作

网络输出充放电决策 ai ,t ,环境在所有智能体的充放电决策以及不确定因素的影响下

进入下一个状态 st +1 ,同时反馈给每个智能体相应的奖励信息。通过与环境交互,每

个智能体都可以更好的学习充放电环境的动态特性。自主学习器采用 SAC 算法进行


训练,包括评价网络,动作网络以及温度因子的更新。与 CPM 一样,自主学习器的
训练过程中也仅用到了本地信息而不需要来自其他智能体的私有观测量。
所提基于 MADRL 的电动汽车集群协调充放电控制算法的训练流程如表 4-1 所

示。训练中需要两个经验池储存与环境交互产生的数据。为了训练集体策略网络 Ps i ,

经验池 D1,i 中储存了历史实时电价数据以及其他智能体的电力消耗总和。为了训练自

75
华 中 科 技 大 学 博 士 学 位 论 文

主学习器,经验池 D2,i 中储存了经调整后的本地观测量 ȏi,t-1,充放电决策 ai,t,反馈


奖励信号 ri,t 以及下一个观测量 ȏi,t。集体策略网络和自主学习器的训练均在与环境的

交互中动态的执行。对于每一个智能体,首先训练集体策略网络 Ps i ,然后使用经训

练后的 Ps i 更新经验池中 D2,i 的本地观测量。经验池 D1,i 中存储的数据也需要周期性

的清空以保证 Ps i 能够保持对最新控制策略的评估。

表 4-1 基于 MADRL 的电动汽车集群协调充放电控制算法训练过程

算法: 基于 MADRL 的电动汽车集群协调充放电控制


1: 输入: s, , ,
2: 对于智能体 i=1,2,3…N
3: 随机初始化集体策略模型 Psi.
4: 随机初始化动作网络i
5: 随机初始化评价网络 Qi
6: 初始化经验池 D1,i 和 D2,i
8: 对于充电时段 k= 1, 2…6000
9: 对于充电时刻 j=1,2…
10: 获取每个智能体的充放电决策 ai,t
11: 执行联合动作 at=(a1,t,…, aN,t),得到反馈奖励 ri,t,进入下一状态 st
collective
12 根据式(4.7)计算各个智能体的 pi ,t
collective
13: 储存到历史电价信息与 pi ,t 到经验池 D1,i
14: 储存数据{ȏi,t-1, ai,t, ri,t, ȏi,t}到经验池 D2,i
15: 对于梯度更新次数 m=1,2…:
16: 对于智能体 i=1,2,3…
17: 更新集体策略模型 Psi 中的神经网络权重系数
18: 根据当前 Psi 更新经验池 D2,i 中的记录
19: 更新动作网络i 权重系数
20 更新评价网络 Qi 权重系数
21 清空经验池 D1,i
22: 输出: s, , 

图 4-3 中的算法结构以及表 4-1 中的训练过程都表示所提基于 MADR 算法的 EV


集群协调充放电控制策略是完全分散式的,在训练以及执行过程中并不依赖其他智
能体的观测量,保护了每个参与者的隐私。与 CTDE 的强化学习算法相比,所提算
法的计算复杂度并不会随着智能体规模的扩大而增加,可扩展性得到了保障。

76
华 中 科 技 大 学 博 士 学 位 论 文

4.4 仿真分析

4.4.1 仿真设置

EV 集群充放电环境同样使用真实世界数据构建,包括实时电价,住宅常规负荷
以及电动汽车在住宅区的出行时间。实时电价数据同样自取加州 ISO,从 2019 年 7
月 1 日开始延续 12 个月[165]。每个月前 20 天的数据作为训练数据,后 10 天用于验
证算法性能。根据电价数据的自回归分析选择过去 24 个小时的电价信息作为环境观
测量。住宅常规负荷数据选择数据集 HUE[163]。HUE 中记录了 28 个住宅 1-3 年的电
力消耗数据。为了匹配实时电价序列的长度,选择每个住宅最近一年的负荷记录构
成数据集。训练数据与验证数据的划分方式与电价数据相同。本章中仅考虑用户在
住宅区的到达时间与出发时间。基于 2017NHTS 数据集中的统计结果,得到电动汽
车的到达时间和出发时间分别满足正态分布 N(16.8, 3.32)和 N(9.5, 3.22),限幅分别为
[16, 20]和[6, 11]。为了更充分的研究所提算法的协调充放电性能,假设电动汽车在下
午返回住宅区时电量 SOC 较低,采样自分布 N(0.15,0.12),限幅为[0.0, 0.3]。同时在
出发时的期望 SOC 分布为 N(0.925,0.12),限幅为[0.85, 1]。基于以上电价及负荷的真
实数据和用户出行规律的统计分布采样构成所提算法的训练数据集和测试数据集。
EV 采用微型车模型,电池容量为 24kWh,最大充放电速率设定为容量的 20%,
即 4.8kW。变压器容量是构成充放电环境的重要因素,一般与配网内住宅数量相关。
为了验证所提算法在不同充放电环境中协调控制的表现,设计了如下两种环境类型:
1)紧凑型充放电环境:在该类型环境中,变压器容量设定为 3.36NkVA,其中 N
为连接到变压器的住宅数量。此时,配网内 EV 集群在无协调控制下将会频繁造成变
压器过载的现象。
2)宽松型充放电环境:该类型环境作为紧凑型环境的对比,变压器容量不设限。
即所有 EV 均保持最大充放电功率时依然不会引发变压器过载。
以上有关 EV 出行参数、电池参数以及充放电环境的设置均可以灵活调整以适应
实际的 EV 控制环境。
同时,为了验证所提算法的性能,仿真分析中与以下方法进行了对比:

77
华 中 科 技 大 学 博 士 学 位 论 文

1)完全信息优化(Perfect Information Optimum,PIO):与第三章中相同,PIO


假设未来的电价信息、所有住宅的电动汽车状态和常规负荷信息都是已知的。然后
将电动汽车集群充放电控制转化为确定性优化模型,并使用求解器 Gurobi 的获取最
优解。PIO 算法通过集中式离线优化获得的最优控制决策作为所有算法的理想上限。
2)基于 LSTM 的预测控制(Model Predictive Control with LSTM, MPC-LSTM):
与第三章中相同,本方法中使用 LSTM 网络构建电价预测模型,并基于预测结果使
用 PIO 方法进行集中式最优决策求解。
3)独立多智能体深度强化学习(Independent MADRL,I-MADRL):独立深
度强化学习方法直接将单智能体 DRL 应用在多智能体的环境中。其他智能体在训练
过程中被当做是环境的一部分。I-MADRL 方法中每个智能体与所提算法一致,均使
用 SAC 框架训练。
4)集中式多智能体强化学习(Centralized MADRL,C-MADRL):集中式多
智能体强化学习方法与 MADDPG 算法相似,采用集中式训练分布式执行的框架。在
训练过程中,每个智能体的评价网络均可以接收到所有智能体的本地观测信息以应
对多智能体环境中潜在的非平稳性问题。C-MADRL 方法中每个智能体也均采用 SAC
框架训练。
所提算法 CPM-MADRL 与 I-MADRL 方法均为完全分散式的结构,区别在于所
提算法引入了集体策略模型用于估计其他智能体的实时策略,并非将其他智能体直
接当做外部环境。而 C-MADRL 方法在训练过程中则采用了集中式的方法以应对非
平稳性问题。以上三种 MADRL 方法的训练参数保持一致。其中,动作网络和评价
网络均包含四个全连接层,每层神经元个数为 128。动作网络,评价网络以及温度因
子的学习率分别设为 10-3, 10-2, 10-2。训练次数为 6000。奖励折扣因子设置为 0.99。
训练过程中用于梯度下降的采样样本个数为 128。经验池容量为 10000。所有算法都
使用 Python 语言并基于 Pytorch 框架搭建,计算机硬件包括一个 8-core Intel CoreTM
i7-7700 [email protected] 和一个 NVIDIA RTX 2080 Super GPU。

4.4.2 算法训练效果

假设三户住宅连在在同一个变压器上,变压器容量依据紧凑型充放电环境设置,

78
华 中 科 技 大 学 博 士 学 位 论 文

图 4-4 和图 4-5 中给出了所提 EV 集群协调充放电控制算法的训练过程。浅色阴影和


深色实线分别代表实际奖励函数值和平均奖励函数值。其中,奖惩函数中各控制目
标权重系数设置为p=1,ra=5,o=20。

0
奖励函数值

-5

-10 总奖励 成本奖励


焦虑奖励 变压器负荷奖励
-15
0 1000 2000 3000 4000 5000 6000
训练次数
(a)
0 0 0
奖励函数值

-2 -2 -2

-4 智能体#1 -4 智能体#2 -4 智能体#3


总奖励 总奖励 总奖励
-6 -6 -6
0 2000 4000 6000 0 2000 4000 6000 0 2000 4000 6000
训练次数 训练次数 训练次数
(b) (c) (d)

图 4-4 智能体中自主学习器训练效果:(a)总奖励及各分量;(b)智能体 1 总奖励;(c)智能体 2


总奖励;(d) 智能体 3 总奖励

图 4-4(a)中显示在训练初始阶段,焦虑奖励较低,而变压器负荷奖励和成本奖励
较高。这是因为此时的智能体对充放电策略的学习还不够充分,EV 充电电量较少无
法满足用户的出行需求。因此里程焦虑较高,相应的奖励较低。由于充电较少也使
得充电成本较低,总负荷较低,因此和成本以及变压器负荷相关的奖励较高。随着
训练的持续进行,自主学习器通过与环境的交互不断改善协调充放电控制策略。在
2000 次训练之后,总奖励信息以及各个分量均稳定在一个较高的奖励值。图 4-4(b)-(d)
中给出了各个智能体的训练效果,可以看出所有智能体在训练过程中均独立实现了
控制策略的改进。
除此之外,图 4-5 中结果显示各智能体中集体策略模型在训练过程中的损失函数
值随着训练次数的增加逐渐减小,并收敛在一个较小的值。这表明引入的集体策略
模型能够准确的估计其他住宅的总电力消耗,从而实现对其他智能体的联合控制策
略的有效评估。

79
华 中 科 技 大 学 博 士 学 位 论 文

2.0
总损失函数值
1.5
损失函数值

1.0

0.5

0
0 1000 2000 3000 4000 5000 6000
训练次数
(a)
1 1 1
智能体#1 智能体#2 智能体#3
损失函数值

0.5 0.5 0.5

0 0 0
0 2000 4000 6000 0 2000 4000 6000 0 2000 4000 6000
训练次数 训练次数 训练次数
(b) (c) (d)

图 4-5 智能体中集体策略模型训练效果:(a)损失函数值总和;(b)智能体 1 损失函数值;(c)智能


体 2 损失函数值;(d) 智能体 3 损失函数值

4.4.3 EV 集群实时协调控制性能

本例研究所提控制算法的实时协调控制性能,给出了 4.4.2 节中训练完成的三个


智能体在连续五个测试日下的控制结果,如图 4-6 所示。
电动汽车#1 电动汽车#1
3.6 0.1 1
实时电价 ($/kWh)
充放电功率 (kW)

1.8
SoC

0 0.05 0.5
-1.8
-3.6 0 0
0 24 48 72 96 120 0 24 48 72 96 120
时间(小时) 时间(小时)
电动汽车#2 (a) 电动汽车#2 (b)
3.6 0.1 1
实时电价 ($/kWh)
充放电功率 (kW)

1.8
SoC

0 0.05 0.5
-1.8
-3.6 0 0
0 24 48 72 96 120 0 24 48 72 96 120
时间(小时) 时间(小时)
电动汽车#3 (c) 电动汽车#3 (d)
实时电价 ($/kWh)

3.6 0.1 1
充放电功率 (kW)

1.8
SoC

0 0.05 0.5
-1.8
-3.6 0 0
0 24 48 72 96 120 0 24 48 72 96 120
时间(小时) 时间(小时)
(e) (f)

图 4-6 电动汽车集群实时控制结果:(a) EV1 功率;(b) EV1 SOC;(c) EV2 功率;(d) EV2 SOC;
(e) EV3 功率;(f) EV3 SOC

80
华 中 科 技 大 学 博 士 学 位 论 文

为了模拟不同用户出行规律的差异,图中每辆 EV 每天的出行时间,初始 SOC


以及期望 SOC 均不同。灰色阴影区域表示表示 EV 不在住宅内。图 4-6 左栏的充放
电决策表示所有智能体都会在电价低的时候给 EV 充电储存能量,而在电价高的时候
释放能量以降低充电成本。同时,三个 EV 的充放电决策在各个充放电时段内因用户
行为的差异而有所区别。图 4-6 右栏中各 EV 的 SOC 变化表示无论 EV 在到达住宅
时的剩余电量是多少,在出发时刻都可以保持早一个较高的 SOC 水平以满足接下来
的出行需求。三辆 EV 五天的平均期望 SOC 分别是[0.889, 0.954, 0.937],而实际 SOC
平均值分别是[0.974, 1.000, 0.976],表明用户的里程焦虑得到了充分的缓解。以上结
果表示所提控制算法能够在实时电价以及不同用户需求下实现降低充电成本并缓解
用户焦虑。
在实时协调控制中,各个智能体的集体策略模型的表现如图 4-7 所示。结果显示
设计的集体策略模型均能够准确的估计 EV 在住宅区时其余住宅的电力消耗值。基于
各智能体处的电力估计值,所提协调控制算法能够实时调整自身的控制决策以在满
足用户电量需求的同时避免变压器过载情况的出现。
住宅#1
7.2 实际值 估计值
负荷 (kW)

4.8
2.4
0
-2.4
-4.8
0 24 48 72 96 120
时间(小时)
住宅#2 (a)
7.2 实际值 估计值
负荷 (kW)

4.8
2.4
0
-2.4
-4.8
0 24 48 72 96 120
时间(小时)
住宅#3 (b)
7.2 实际值 估计值
负荷 (kW)

4.8
2.4
0
-2.4
-4.8
0 24 48 72 96 120
时间(小时)
(c)

图 4-7 各智能体集体策略模型的电力消耗估计效果:(a)住宅 1;(b)住宅 2;(c)住宅 3

81
华 中 科 技 大 学 博 士 学 位 论 文

为了研究所提算法通过协调充放电决策降低变压器负荷的效果,图 4-8 中给出了


三个住宅在五天内总负荷的变化。在紧凑型环境中智能体的控制结果如灰色柱形图
表示,变压器容量为 10.08kVA。同时,红色柱形图表示在宽松型环境中智能体的控
制结果。其中宽松环境中的智能体在o=0 的权重系数下训练得到,此时所有 EV 可
以同时保持最大的充放电功率。观察负荷曲线形状可知,与宽松型环境(红色)相
比,在紧凑型环境中的负荷区域(灰色)更低且更宽,总负荷基本控制在了变压器
容量以内。宽松型环境中五天内负荷峰值的平均值是 15.25kW,而紧凑型环境中仅
为 10.12kW。这表明所提控制算法能够有效协调电动汽车的充放电决策,变压器过
载现象得到了极大的改善。

紧凑型环境 (变压器容量=10.08kVA) 宽松型环境


14.4 10.08
变压器负荷 (kW)

9.6
4.8
0
-4.8
-10.08
-9.6

0 24 48 72 96 120
时间(小时)

图 4-8 变压器负荷变化

4.4.4 奖惩函数权重影响

本例以变压器负荷奖励权重系数o 为代表研究奖励函数中的权重系数对协调控
制效果的影响。设定系数o 分别为[0, 5, 10, 15, 20, 30],图 4-9 中给出了所提控制算
法下 120 个样本中变压器负荷峰值的分布。

14
变压器负荷 (kW)

12

10
10.08
8
o =0 o =5 o =10 o =15 o =20 o =30

图 4-9 不同o 的变压器负荷峰值分布

图中结果显示负荷峰值的分布随着 o 的增加逐渐降低。峰值的平均值分别是

82
华 中 科 技 大 学 博 士 学 位 论 文

14.87kW, 10.92kW, 10.42kW, 10.18kW, 10.03kW, 9.69kW。即在o>15 时,变压器过载


情况极大改善,大部分样本中负荷峰值低于变压器容量。即通过设置一个较大的变
压器负荷奖励函数,可以引导用户改变自身的充放电决策参与协调控制以降低变压
器过载情况的发生。

4.4.5 性能比较

本例中根据测试数据集参数构造了 120 天的样本集用于比较所提算法与对比算


法的控制性能。同时为了研究不同方法对 EV 集群规模的适应能力,住宅数量分别设
定为 3,10,20。表 4-2 中列出了不同住宅数量下各方法在 120 个样本中的累计奖励。
表 4-2 不同算法的性能比较

累计奖励
住宅
算法 变压器负荷
数量 总奖励 成本奖励 焦虑奖励
奖励
PIO -60.78 -40.71 -18.41 -1.67
MPC-LSTM -142.61 -116.02 -25.40 -1.19
I-MADRL 3 -148.17 -4.57 -78.99 -64.61
C-MADRL -109.53 -4.20 -51.84 -53.49
CPM-MADRL -121.66 -12.05 -44.80 -64.81
PIO -488.54 -423.93 -63.52 -1.10
MPC-LSTM -826.16 -735.81 -89.61 -0.74
I-MADRL 10 -880.22 -399.35 -178.73 -302.14
C-MADRL -1497.08 -1363.68 -96.16 -37.23
CPM-MADRL -725.09 -325.40 -208.24 -191.45
PIO -1338.12 -1196.81 -140.21 -1.10
MPC-LSTM -2077.99 -1900.29 -176.94 -0.75
I-MADRL 20 -2136.65 -1078.44 -450.57 -607.64
C-MADRL -5542.50 -3819.06 -95.08 -1628.36
CPM-MADRL -1940.03 -1022.11 -496.42 -421.51

表中结果表明 PIO 算法作为理论上限,在任何住宅数量下都取得了最高的累计


奖励。当住宅数量为 3 时,集中式 MADRL 算法(C-MADRL)得到的累计奖励(-109.53)
与 PIO 算法的结果(-60.78)最为接近,而所提算法 CPM-MADRL 则略低。MPC-LSTM
与分散式 MADRL
(I-MADRL)算法结果接近,控制效果也劣于所提方法和 C-MADRL。
当住宅数量增加到 10 或 20 时,C-MADRL 算法的控制性能由于评价网络输入维度的

83
华 中 科 技 大 学 博 士 学 位 论 文

增加逐渐恶化,其累计奖励也成为所有方法中最低的。此时,所提协调控制算法由
于在扩展性方面的优势取得了更优的控制效果,且明显好于 I-MADRL 算法和
MPC-LSTM 算法。以上对比结果验证了所提算法在引入集中策略模型后能够有效改
善 EV 集群的协调控制效果,且能适应智能体规模的增加。

4.4.6 算法计算复杂度

4.4.5 节中算法性能比较表明,由于计算复杂度的上升,集中式多智能体强化学
习算法(C-MADRL)的控制性能随着智能体个数的增加逐渐恶化。而所提控制算法
结构是分散式的,并不依赖其他智能体的私有观测量,因此能够适应智能体个数的
增加。本例将进一步详细描述所提 CPM-MADRL 算法的计算复杂度,并给出与
C-MADRL 算法和 I-MADRL 算法的比较。
图 4-10 中给出了算法的计算复杂度变化趋势,分为时间复杂度和空间复杂度。
其中时间复杂度由单个智能体 1000 次训练耗费的时间表示,详细数据见表 4-3。空
间复杂度由构建单个智能体的所需的参数数量表示,详细数据见表 4-4。
3.8
训练时间(分钟)

3.4

3
I-MADRL CPM-MADRL C-MADRL
2.6
3 6 10 15 20
智能体个数
105 (a)
5.0
I-MADRL CPM-MADRL C-MADRL
参数数量

2.5

0
3 6 10 15 20
智能体个数
(b)

图 4-10 不同算法计算复杂度变化趋势:(a)时间复杂度;(b)空间复杂度
表 4-3 不同算法单个智能体平均 1000 次训练耗费时间

训练时间(分钟)
算法
N=3 N=6 N=10 N=15 N=20
I-MADRL 3.00 2.96 2.99 2.92 2.96
CPM-MADRL 3.15 3.00 3.14 3.03 3.08
C-MADRL 3.35 3.42 3.46 3.58 3.71

84
华 中 科 技 大 学 博 士 学 位 论 文

表 4-4 不同算法单个智能体网络参数量

网络参数量
算法
N=3 N=6 N=10 N=15 N=20
I-MADRL 200838 200838 200838 200838 200838
CPM-MADRL 220679 220679 220679 220679 220679
C-MADRL 229510 272518 329862 401542 473222

结果表明随着智能体个数的增加,所提 CPM-MADRL 算法以及 I-MADRL 算法


的训练消耗时间以及参数数量随着智能体个数的增加基本不变。这是因为这两种算
法结构上都是完全分散式的。其中,CPM-MADRL 由于引入的集体策略模型导致消
耗的时间和参数量略高。而 C-MADRL 算法采用集中式训练的框架,其每个智能体
中评价网络的输入是所有智能体本地观测量的组合。当智能体个数增加时,评价网
络输入量维度增加导致算法的训练时间和参数数量明显增加。
图 4-11 中给出了智能体个数分别为 3,10,20 时所提 CPM-MADRL 算法与
C-MADRL 的训练过程。结果表明随着智能体个数的增加,所提算法依然可以在 3000
次训练过程中收敛到稳定,而 C-MADRL 方法则难以在 6000 次训练中获得稳定结果。
结合 4.4.5 节中性能比较结果可知,集中式训练方法无法适应智能体个数较多的情况。
所提算法(CPM-MADRL) 集中式训练算法(C-MADRL)

0 0
奖励
奖励

-20 -20

-40 N=3 -40 N =3


0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(a) (b)
0 0
奖励
奖励

-100 -100
N = 10 N = 10
-200 -200
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(c) (d)
0 0
奖励
奖励

-200 -200
N = 20 N = 20
-400 -400
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(e) (f)

图 4-11 不同之智能体个数下算法训练过程:所提算法(a),(c),(e);集中式算法(b),(d),(f)

85
华 中 科 技 大 学 博 士 学 位 论 文

4.4.7 算法可扩展性能

为了进一步验证所提算法的可扩展性能,本例中给出了在住宅个数增加到 60 时
的实时控制效果。图 3-12 中给出了 60 个智能体在 120 个样本下的平均控制效果。可
以看出所提算法依然能够在电价较高时给 EV 放电,而在电价较低时充电以降低充电
成本。EV 在早上 5:00-9:00 之间会保持较高的 SOC 水平以满足用户当天的出行需求。
同时,日内各时刻变压器负荷都在控制在额定容量以内,与宽松型环境下的控制相
比能够显著降低变压器过载的情况。

6 0.1
充放电功率 (kW)

实时电价 ($/kWh)
4
2
0 0.05
-2
-4 0
16:00 20:00 24:00 4:00 8:00 12:00
(a)
1
SoC

0.5

0
16:00 20:00 24:00 4:00 8:00 12:00
(b)
300 201.6
变压器负荷 (kW)

200
100
0
-100 紧凑型环境 (201.6kVA) 宽松型环境
16:00 20:00 24:00 4:00 8:00 12:00
(c)

图 4-12 住宅数为 60 时所提算法的控制效果:(a)功率;(b)SOC;(c)变压器负荷

4.5 本章小结

本章研究对象为 EV 集群的协调充放电控制,提出了一种基于 MADRL 算法的


协调充放电控制策略,控制目标是在满足用户能量需求以及降低成本的同时,避免
由于负荷叠加导致的变压器过载情况的发生,主要结论有:
(1)EV 集群协调充放电问题转化为一个状态转移概率未知的 MG 模型,充分
考虑了来自实时电价,住宅常规负荷以及 EV 用户行为的不确定性。

86
华 中 科 技 大 学 博 士 学 位 论 文

(2)在所提的 CPM-MADRL 协调算法中,每个智能体都包含一个集体策略模


型和一个独立学习器。集体策略模型用于估计环境中其他智能体的联合控制策略,
独立学习器则用于和环境交互学习自身的充放电策略。集体策略模型可以有效近似
其他智能体的联合策略以辅助本地决策并降低潜在的环境不平稳性的影响。仿真结
果表明所提算法具有优异的在线协调控制性能,且优于对比算法。
(3)在训练和在线控制过程中所提算法均只需要本地信息,在结构上完全分散
且能保护参与者的信息。仿真结果表明,所提算法的计算复杂度不会随着智能体规
模扩大而增加,相较于集中式方法拥有更高的可扩展性和训练稳定性。

87
华 中 科 技 大 学 博 士 学 位 论 文

5 基于多智能体深度强化学习的住宅集群能量管理

本章在第四章 EV 集群协调充放电控制的基础上进一步考虑 EV 接入住宅后与原


有可控负荷之间的协同配合参与住宅内能量管理,研究对象从 EV 集群扩展到了含多
类型负荷的住宅集群。控制方法则延续了基于 MADRL 的 EV 集群协调充放电控制架构,
每个智能体包含一个集体策略模型和一个独立学习器。在此基础上调整了算法的动
作网络结构,使得算法具有了同时处理连续型动作空间和离散型动作空间的能力。
并且引入了奖励重塑机制以应对可时移负荷在控制中的奖励延后现象。改进后的
MADRL 算法能够兼顾住宅内多类型负荷控制需求、变压器的容量约束和公平分配、算
法可扩展性以及用户隐私保护等多种性能。基于真实世界数据构建的住宅集群仿真
分析结果验证了所提算法的有效性。

5.1 引言

EV 接入住宅后与传统的可控负荷构成了多类、异构的住宅能量管理环境,在实
时电价,用户出行行为的基础上增加了与其他负荷相关的用户行为及环境温度变化
等不确定性因素。虽然第四章 EV 集群协调充放电控制也考虑了住宅负荷的不确定性,
但未考虑住宅生活负荷的可控性,仅使用智能电表等监测设备实时记录的数据表示
负荷需求。区别于第四章中的研究,本章细化了住宅内的电力负荷类型,从原有的
EV,增加到 HVAC 系统以及洗碗机、洗衣机等可时移负荷。相应的,控制器的输出
从 EV 充放电功率扩充到所有可控负荷的功率指令。在细化住宅内部负荷类型的同时,
本章保留了多个住宅之间协同配合以降低变压器过载并实现容量公平分配的控制要
求,形成多数量住宅多类型负荷的统一能量管理模型。
由于研究对象的复杂度进一步增加,本章也对控制方法进行了改进。为了保证
控制算法的可扩展性和隐私保护性能,本章的算法框架延续了第四章中提出的基于
MADRL 算法的 EV 集群协调充放电控制策略,每个智能体依然包含一个集体策略模
型和一个独立学习器。为了适应多类型负荷的多维度控制需求,本章首先调整了算
法中动作网络的结构,在高斯分布的基础上增加了伯努利分布,使得算法拥有了同

88
华 中 科 技 大 学 博 士 学 位 论 文

时处理连续动作空间和离散动作空间的能力。其次,引入了奖励重塑机制以应对可
时移负荷在实时控制中出现的奖励延后现象,改善了训练过程的稳定性。同时根据
各个住宅的实际能耗分配变压器过载惩罚以保证变压器容量分配的公平性。最终基
于真实世界数据构建的仿真实例验证了改进 MADRL 算法的在线协调能量管理性能。

5.2 含多类型负荷住宅集群模型

本章研究包括电动汽车在内的含多类型可控负荷的住宅集群能量管理问题。系
统模型包括住宅多种类型负荷的动态模型以及相应的马尔科夫博弈(MG)形式。

5.2.1 住宅集群动态模型

虚拟层
智能体 1 智能体 N

负荷信息 控制决策 负荷信息 控制决策

电力供应 变压器
传感测量设备 传感测量设备

不可调负荷 可时移负荷 不可调负荷 可时移负荷

完全可控负荷 完全可控负荷
物理层

图 5-1 住宅集群系统结构

本章中住宅集群结构如图 5-1 所所示。在物理层,各住宅除了电力负荷外还安装


有必要的传感、测量以及通信设备,通过电力线路连接至变压器以及外部电力供应
商进行能量交互。在虚拟层,智能体收集住宅负荷信息后计算实时功率指令,控制
住宅内电力负荷的在线运行。本章主要考虑住宅内的常见生活负荷,类型包括完全
可控,可时移以及不可控三类。完全可控负荷在运行期间功率完全可调,包括电动
汽车和供暖、通风与空调(HVAC)系统。可时移负荷(Deferrable Appliance,DA)
的功率不可调,但可以对运行时间进行控制,比如洗衣机、洗碗机、烘干机等设备。
不可控负荷功率完全由用户个人习惯决定,比如日常照明、电视、电脑等设备。各
类电力负荷的详细动态模型如下所示。

89
华 中 科 技 大 学 博 士 学 位 论 文

(1)电动汽车模型
本章中 EV 模型与第三、四章中相同,在接入充电器后具有 G2V 与 V2G 两种模
式。假设电动汽车在 ta 时刻到达住宅并接入充电桩,并在 td 时刻离开。在 ta 至 td 时
间内,电池能量的变化如式(5.1)所示。

Etev+1 = Etev + pcev,t t cev − pdev,t t / dev (5.1)

其中 Et 是电动汽车电池在时刻 t 的能量, pc ,t 和 pd ,t 分别是充电和放电功率, c


ev ev ev ev

(0,1]和 d (0,1]分别是充放电效率。
ev

本章中充放电功率均是连续可调的,大小满足以下约束:

0  pcev,t  pcev,max ,0  pdev,t  pdev,max (5.2)

同时由于充电和放电无法同时进行,因此充放电功率满足 pc ,t  pd ,t =0 。
ev ev

EV 电池中储存的能量满足:

0  Etev  Emax
ev
(5.3)
ev
其中 Emax 为电池容量。

电动汽车在离开时刻 td 需要有充足的电量来满足接下来的出行需求。Eex 表示用


户的期望电量,与出行计划以及驾驶员习惯相关,需满足

Etevd  Eex (5.4)

(2)HVAC 系统模型
HVAC 的作用是保持住宅室内温度在合理范围内以维持居民的舒适度。参考文
献[166]中的定义,温度舒适度由一个室内温度区间表示:

Tmin  Tt in  Tmax (5.5)


in
其中Tt 表示时刻 t 的室内温度,Tmin 和 Tmax 分别表示温度舒适区间的上下限。当室内

温度在区间内时,居民的舒适度最高,并且保持一致。
时刻 t 的室内温度受到许多因素的影响,比如上一时刻的室内温度、当下的室外
温度、空气湿度以及 HVAC 系统功率。因此很难建立室内温度变化的详细动态模型。

90
华 中 科 技 大 学 博 士 学 位 论 文

本章中为了模拟室内温度的变化,采用以下动态模型[167]:

Tt in+1 = Tt in − (Tt in − Tt out +  hv Rhv pthv )t / (C hv Rhv ) (5.6)


hv out
其中 pt 为 HVAC 系统的功率;Tt 为 t 时刻室外温度;C hv 为 HVAC 系统的热容量,

表示温度变化一度所消耗的电量; R hv 为热阻; 
hv
为 HVAC 系统的效率系数。

本章中假设 HVAC 系统的功率是可以连续变化的,满足下式:

0  pthv  pmax
hv
(5.7)
hv
其中 pmax 为 HVAC 的最大功率。

(3)可时移负荷
与 EV 和 HVAC 等可控负荷不同,洗碗机、洗衣机等可时移负荷一旦开启后无
法立即中断,需要连续工作若干时间段来满足居民的生活需求。此类负荷的开启时
间是可以调整的,且用电功率一般是固定的。本章中假设住宅中所有可时移负荷一

天仅需要开启一次,其可工作时间段为时刻 t至 t,连续工作时长为 t dur ,可时移负

荷的运行特性可以定义为:


t −tdur
t =t
btda = 1, t  t + tdur (5.8)

da da da
其中 bt 是一个二元变量,表征在时间 t 是启动可时移负荷, bt =1 表示开启, bt
da
=0 表示不开启。注意, bt 仅表示负荷的开启动作而不表示负荷的运行状态,因此
da
在整个时间段[t, t]内,仅有一个时刻 bt =1。

5.2.2 住宅集群能量管理的 MG 形式

与 4.2.2 节 EV 集群协调充放电控制模型想同,本章的住宅集群能量管理模型同
样可以转化为(MG)形式,包含{N, S, A, P, R,  },各部分详细定义如下所示:

(1)环境状态 S
环境状态 S 是所有智能体在本地观测量 oi,t 的联合值,表示为:

oi ,t = (t , t −23 , , t ,, li ,t −23 , , li ,t , uiev , uihv , uida , Tt out , Eiev,t , Ei ,ex , ti ,d , Ti ,int , bida,t , ti , , ti , ) (5.9)

91
华 中 科 技 大 学 博 士 学 位 论 文

其中(t-23, … t)是过去 24 小时的历史实时电价数据,(li,t-23, …li,t)是住宅 i 过去 24 个


ev hv da
小时的不可控负荷功率; ui , ui , ui 分别表示电动汽车,HVAC 系统以及时移

负荷的安装情况,1 表示已安装,0 表示未安装。住宅类型由不同的电力负荷安装组

合表示。环境状态 st 是所有住宅本地观测量的联合值,表示为 st = (o1,t , o2,t ,..., on,t ) 。

式(5.9)中包含了电力供应商提供的实时电价信息,住宅智能电表提供的不可控
负荷功率信息,住宅类型、可控负荷和时移负荷的状态信息以及用户本身的用电需
求信息。
(2)联合动作集合 A
区别于第四章的 EV 集群控制,本章中的动作集合包含了住宅内所有可控负荷以
及时移负荷的控制指令,同时包含离散型变量和连续型变量,如式(5.10)所示。

ai ,t = (aiev,t , aihv,t , aida,t ) (5.10)


ev hv
其中 ai ,t [-1,1]是连续变量,表示 EV 充放电功率,充电为正,放电为负;ai ,t [-1,1]

同样是连续的,表示 HVAC 系统的功率需求,制冷为正,制热为负,本章假设制热


da
与制冷的动态模型相同,仅功率符号相反; ai ,t {0,1}是二元离散变量,表示时移负

荷的开启决策。所有住宅在时间 t 的联合动作为 at = (a1,t , a2,t ,..., an,t ) 。

(3)状态转移概率 P
在执行联合动作 at 后,系统状态 st 将以概率 P 转移到下一个状态 st+1,如式(5.11)
所示。

st +1 = P(st , at , t ) (5.11)

其中 t 表示环境中的随机因素。

环境状态的转移不仅与住宅中每个负荷的动态模型相关,也受到环境中的随机
因素的影响,包括动态电价、室外温度的变化、不可控负荷以及用户的动态行为。
因此很难得到状态转移函数的精确表达式。
(4)奖励函数 R
每个住宅中的智能体的奖励函数与系统控制目标相关,包括以下五项:1)降低

92
华 中 科 技 大 学 博 士 学 位 论 文

住宅整体用电成本,2)缓解电动汽车里程焦虑,3)保持室内温度在舒适区内,4)
确保时移负荷启动,5)避免变压器负荷过载。
住宅 i 在时刻 t 的电成本由实时电价和用电量决定:

,t = −t ( pi ,t +pi ,t + pi ,t + pi ,t )
ricost ev hv da no
(5.12)
da no
其中 pi ,t 和 pi ,t 分别表示时移负荷和不可控负荷的功率。

EV 里程焦虑与第三、四章中定义相同,表征用户对于行驶途中电量耗尽的担忧。
可以使用用户期望电量与实际电量的差值表示:

ri ev,t = − ([ Eexev − Etev ]+ ) , t = ti ,d


2
(5.13)

+
其中 [] = max(,0) 。
式(5.5)中定义当室内温度在舒适度区间内时,用户对温度的满意度最高。因此
对室内温度保持性能的奖励定义为:

ritemp
,t = −([Tt in − Tmax ]+ + [Tmin − Tt in ]+ ) (5.14)

即当室内温度在舒适区内时奖励最高,为 0。当温度过低或者过高时均产生负值奖励。
式(5.8)中表示时移负荷在可工作时间段[t,t]内必须启动一次以完成用户的使用
需求。若算法在时刻 t仍未给出启动决策,此时需要强制开启时移负荷完成任务,
同时给出负的奖励信息:


t
,t = −1
ri da if t =t
btda = 0 (5.15)

以上奖励信息均可根据本地信息直接获取,而变压器过载不同,由所有住宅的
电力负荷共同作用产生。变压器过载的奖励函数设置与第四章中相同,假设可以由
变压器上安装的计算单元或配网运营商计算得到所有住宅的实时电力消耗。然后每
个智能体可以根据变压器负荷得到和变压器过载相关的奖励信号:

 pi ,t
− tf ([abs( pt ) − ct ]) , if abs( pt )  ct
tf 2 tf

r trans
i ,t =  pt (5.16)
0, else

其中 pi ,t 是住宅 i 在时间 t 的电力消耗; pt 是变压器总负荷,满足 pt =  pi ,t ;ct


tf tf

93
华 中 科 技 大 学 博 士 学 位 论 文

是变压器在时间 t 的可用容量。其中变压器负载奖励将按照住宅电力消耗进行分配以
保证各个住宅的用电公平性。
结合以上五类奖励信号,可以得到每一个智能体 i 在时刻 t 的总奖励为:

ri,t = 1ricost
,t + 2ri,t + 3ri,t
ev temp
+ 4rida
,t + 5ri,t
trans
(5.17)

其中1,2,3,4,和5 均为非负参数,表征在总奖励中各个子奖励的相对重要性。

5.3 多智能体深度强化学习能量管理策略

本节继续采用第四章中提出的多智能体深度学习(MADRL)框架设计含多类型
负荷的住宅集群能量管理策略,基本框架与图 4-3 中 CPM-MADRL 算法一致。每一
个智能体中包含两个部分:集体策略模型 CPM 和基于 SAC 框架的自主学习器
SAC-IL。CPM 用于评估环境中其他智能体的联合策略,训练数据由所有住宅的总功
率消耗数据和历史电价信息组成。SAC-ILs 则用于和环境交互学习住宅内所有电力负
荷的控制策略,训练数据由 MG 模型中定义的环境状态与奖励信息组成。但由于住
宅内电力负荷的多样性以及动作空间的复杂性,适用于 EV 集群充放电控制的
CPM-MADRL 算法无法直接应用在住宅集群能量管理中,待解决的问题主要有以下
两点:
1)动作空间复杂
住宅集群能量管理模型中输出维数增加,动作空间复杂。住宅内既存在连续型
动作空间:EV 和 HVAC 系统的功率指令连续可调;也存在离散型动作空间:时移负
荷的控制指令为二元变量,且在整个运行期间仅动作一次。
2)奖励信号延迟
在马尔科夫决策/博弈模型中,奖励信息 rt 是环境由当前状态 st 在给定联合动作
at 后转移至下一个状态 st+1 后,对状态动作对(st,at)的评价。在 EV 以及 HVAC 模型中,
每个时刻智能体都会基于当前状态计算对应的动作指令,因此奖励信号与状态动作
对的关系是一一对应的。但智能体对时移负荷在 t 时刻做出一次启动控制 at 后,其
余时刻的动作 at+1,at+2 等均不参与直接控制,相应的奖励信号 rt+1,rt+2 并不能用于
评价此时的状态动作对(st+1,at+1),(st+2,at+2),而应该是启动时动作 at 的反馈。因此在

94
华 中 科 技 大 学 博 士 学 位 论 文

时移负荷控制中,奖励信息是延后的。
为了应对以上两个问题,本节中对 CPM-MADRL 算法进行了进一步的改进。
(1)多类型动作空间
对于连续型动作空间,3.3.1 节中给出了相应的动作(策略)网络设计方法,即
使用高斯分布作为基本形式。动作(策略)网络将输出高斯分布的均值 m 和标准差 s ,

进而通过采样的方法得到最终的实际动作值。
对于离散型动作空间,本节采用文章[143]和[162]中的方法,采用伯努利分布替
代原来的高斯分布。此时网络输出变为了时移负荷的启动概率,然后基于该概率进
行采样得到最终的决策。
即动作(策略)网络的形式变为:

(
 N m ( st ), s 2 ( st )
 ( at | st ) = 
) if at is continuous
(5.18)
 B ( p ( st ) ) if at is discrete

在得到控制器输出动作后,还需要进行相应的线性变化以确定各电力负荷的实
际功率指令。最终的动作网络结构如图 5-2 所示。
连续型
mev
采样 EV
sev
Relu1 Relu4 mhv
采样 HVAC
shv
st FC1(128) FC4(128)
pda 采样 DA
离散型

图 5-2 含多类型动作空间的动作(策略)网络结构图

(2)奖励函数重塑(Reward reshaping)
对于时移负荷的奖励延后问题,本节采用了奖励重塑机制来调整训练数据。在
智能体与环境交互的过程中,产生的训练数据呈现链条式分布,如图 5-3 所示。
s1 a1 s2 a2

ENV Actor ENV Actor ENV

s1 a1 s2 a2 s3

Reward Reward

r1 r2

图 5-3 智能体与环境交互结构

95
华 中 科 技 大 学 博 士 学 位 论 文

由于时移负荷特殊的动态特性,在负荷启动后的剩余控制周期内动作指令均无
效。因此图中所示呈链式分布的交互信息无法直接用于时移负荷的训练。
假设时移负荷在 tact[t, t]时开启,在(tact, t]内的动作指令无效。但此时负荷在
持续运行消耗功率,相关的即时奖励是对 tact 时刻动作的延后反馈。基于此,对收集
到训练数据中的奖励进行重塑,如式(5.19)所示。

rtactda =  t=t rt da
t

act
(5.19)

也就是将时移负荷启动后产生的相关奖励转移到启动时刻的动作值上。算法的
训练过程中以一天为单位,因此在训练过程中每收集 24 个小时的数据信息,就需要
对其中的奖励函数进行重塑以消除时移负荷奖励延后带来的影响。
基于以上分析,适用于住宅集群能量管理的 MADRL 算法训练流程如表 5-1 所
示。训练中依然需要两类经验池储存交互数据,分别用于 CPM 以及 SAC-IL 的训练。
在完成 24 小时的交互数据收集后,需要使用奖励重塑机制对 D2,i 中的数据进行调整。
表 5-1 基于 MADRL 的住宅集群能量管理算法训练过程

算法: 基于 MADRL 的住宅集群能量管理


1: 输入: 集体策略模型s, 动作网络, 评价网络
2: 对于所有智能体 i=1,2,3…N
3: 随机初始化 Psi,i 以及 Qi
4: 初始化经验池 D1,i 和 D2,i
5: 对于训练样本 k= 1, 2…6000
6: 对于控制时刻 j=1,2…24
8: 获取每个智能体的控制决策 ai,t
9: 执行联合动作 at=(a1,t,…, aN,t),得到反馈奖励 ri,t,进入下一状态 st
10: 储存到历史电价与总功率消耗到经验池 D1,i
11: 储存环境交互数据到经验池 D2,i
12 应用奖励重塑机制调整经验池 D2,i 中的数据
13: 对于梯度更新次数 m=1,2…:
14: 更新集体策略模型参数
15: 根据当前集体策略模型更新经验池 D2,i 中的记录
16: 更新动作网络权重系数
17: 更新评价网络权重系数
18 清空经验池 D1,i
19: 输出: s, , 

96
华 中 科 技 大 学 博 士 学 位 论 文

5.4 仿真分析

5.4.1 仿真设置

含 EV 的住宅集群能量管理环境同样基于真实数据集构建,主要包括实时电价数
据,室外温度数据以及住宅不可控负荷数据。其中实时电价数据与 4.4.1 节中相同,
取自加州 ISO 系统[165]。每小时室外温度数据取自公开数据集[168]。住宅不可控负荷
数据取自数据集 HUE[163]。数据长度均为 12 个月,每个月前 20 天的数据作用训练数
据,后 10 天的数据用于构建验证样本。表 5-2 中列出了电动汽车、HVAC 系统以及
可时移负荷的参数信息。其中电动汽车的到达时间,离开时间,起始电量和需求电
量均满足截断正态分布以适应不同的用户行为和驾驶情况。HVAC 系统和可时移负
荷的运行参数参考自文献[143]。假设每个住宅均有一个可时移负荷,且其需求运行时
长为 2 小时。
表 5-2 电力负荷运行参数

负荷 参数
ev
Emax = 24kWh, pcev,max = pdev,max = 6kW ,cev = dev = 0.98,
EV ta ~ N (18,12 ,17, 20), td ~ N (6.5,12 , 5,8),
Etev ~ N (3.6,12 , 0, 7.2), Etev ~ N (22.8,12 , 21.6, 24)
a d

Tmin = 66.2 F (19 C ), Tmax = 75.2 o F (24 oC ),


o o

HVAC hv
pmax = 1.75kW ,R hv = 13.5 o F /kW ,
C hv = 0.33kWh / o F , hv = 2.5
p da = 0.56kW , tdur
da
= 2h,
可时移负荷
t ~ N (21,12 ,19, 23), t ~ N (6,12 , 4,8)

基于以上数据集以及电力负荷运行参数抽样得到住宅集群能量管理策略的训练
样本和测试样本。
同时,为了验证所提算法的变压器过载现象改善性能与变压器容量分配的公平
性,本节假设三户住宅连在在同一个变压器上,所有住宅中均配置了 HVAC 系统、
可时移负荷以及不可控负荷,但只有住宅 1 和住宅 2 中配有电动汽车。即住宅 3 的
总能量需求会显著低于住宅 1 和 2。变压器容量设定与 4.4.1 节中相同,有紧凑型充

97
华 中 科 技 大 学 博 士 学 位 论 文

放电环境和宽松型充放电环境两种,其中紧凑型环境内设定变压器容量为 9.6kVA。
配网内电动汽车在无协调控制下将会频繁造成变压器过载的现象。
此外,强化学习算法的结构、超参数以及硬件平台均采用 4.4.1 节中的设置。

5.4.2 算法训练效果

图 5-4 和图 5-5 中给出了所提基于 MADRL 算法的住宅集群能量管理策略在紧凑


型环境中的训练过程。其中浅色阴影和深色实线分别代表每个训练样本的实际奖励
值和平均值。其中奖励函数中各子目标的权重系数设置为1=1.2,2=25,3=12,4=8
和5=10。
0

-20
奖励函数值

-40 住宅#1
住宅#2
住宅#3
-60

-80
0 1000 2000 3000 4000 5000 6000
训练次数

图 5-4 所提算法训练效果

0
0
奖励函数值

奖励函数值

-10
-20 -5
-30 成本奖励 温度奖励
-40 -10
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(a) (b)
0 0
奖励函数值
奖励函数值

-0.5
-1 -5
-1.5 焦虑奖励 变压器负荷奖励
-2 -10
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
训练次数 训练次数
(c) (d)

图 5-5 各控制目标训练性能: (a)成本奖励;(b)室内温度奖励;(c)焦虑奖励;(d)变压器负荷奖励;

图 5-4 中为三个住宅总奖励函数的变化曲线。结果表明三个住宅的奖励函数值均
随着训练次数的增加逐渐升高并稳定。其中住宅 3 的总奖励显著大于住宅 1 和住宅 2。

98
华 中 科 技 大 学 博 士 学 位 论 文

这是因为住宅 3 中未配置 EV 负荷,因此 EV 的充电成本以及驾驶员的里程焦虑均为


零,奖励最高。住宅 1 和住宅 2 收敛后的奖励值相似,但由于用户的动态行为存在
差异,因此训练曲线并不完全相同。图 5-5 中展示了训练过程中各子控制目标的变化
曲线(其中可时移负荷的启动奖励将在 5.4.3 节中给出)。训练初始阶段动作网络参
数是初始化得到的,并未得到充分训练,因此各子控制目标的奖励函数值均处在较
低水平。随着训练的进行,各控制目标均明显提升。其中温度奖励、焦虑奖励以及
变压器负荷奖励均收敛到零附近,表明此时用户的负荷用电满意度处于较高水平。
图 5-4 和图 5-5 中结果表明所提算法能够适应不同类型住宅的异质特性,同时可以兼
顾奖励函数中的各个子目标。
住宅集群能量管理算法中各智能体同样包括一个集体策略模型用于估计同一变
压器上其余住宅的总功率,训练效果如图 5-6 所示。可以看出随着训练的进行,CPM
模型的总损失值以及各个智能体处的损失值均有了明显的下降。即其策略评估效果
得到显著的提升。5.4.4 节将通过展示实时控制结果对训练性能做进一步的验证。
40
总损失值
30
损失函数值

20

10

0
0 1000 2000 3000 4000 5000 6000
训练次数
(a)
20 10 30
住宅#1 住宅#2 住宅#3
15
20
损失函数值

10 5
10
5

0 0 0
0 2000 4000 6000 0 2000 4000 6000 0 2000 4000 6000
训练次数 训练次数 训练次数
(b) (c) (d)

图 5-6 集体策略模型训练效果:(a)总损失值;(b)住宅 1;(c)住宅 2;(d)住宅 3

5.4.3 奖励重塑的影响

本例研究奖励重塑机制对训练效果的影响。为了应对时移负荷中奖励的延后效

99
华 中 科 技 大 学 博 士 学 位 论 文

da
应,5.3 节中设计了奖励重塑机制对训练数据进行调整。以时移负荷奖励 ri ,t 为例,

图 5-7 中给出了时移负荷奖励在奖励重塑机制下的表现。图 5-7(a)表明在不处理奖励


延后现象时,智能体与环境交互收集的数据无法正确对状态动作对进行评价,因此
训练结果始终无法收敛,在负荷可运行时段结束时智能体无法做出正确决策。图 5-7(b)
则表明随着训练的进行,奖励函数值收敛为零,表明此时可时移负荷能够正常运行。
结合 5.4.2 节中成本奖励的收敛曲线,可知在奖励重塑机制下,智能体与环境的交互
数据能够正确反映奖惩信号对动作的评价。
0 0
奖励函数值

奖励函数值
-0.5 -0.5
-1.0 -1.0 有奖励重塑
无奖励重塑
-1.5 时移负荷奖励 -1.5 时移负荷奖励
-2.0 -2.0
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
(a) (b)

图 5-7 时移负荷奖励:(a)有奖励重塑机制;(b)无奖励重塑机制

图 5-8 中给出了在 120 个测试样本中时移负荷的累计奖励。可以看出在有奖励重


塑机制下奖励始终为零,即三个住宅的所有时移负荷均正常工作。而无奖励重塑时
累计奖励为-12,即出现了 12 次非正常工作的现象。以上结果表明所提奖励重塑机制
能够有效应对奖励延后的影响。
0
累计奖励值

-5

奖励重塑
-10
无奖励重塑

-15
0 20 40 60 80 100 120
样本数

图 5-8 测试样本中的累计时移负荷奖励

5.4.4 住宅集群实时能量管理性能

本例中研究所提住宅集群能量管理策略的实时控制性能,包括电动汽车实时充
放电(见图 5-9),HVAC 系统室内温度保持(见图 5-10),时移负荷启动(见图 5-11),
变压器负荷降低(见图 5-12)以及集体策略模型的预测效果(见图 5-13)。
图 5-9 中给出住宅 1 和住宅 2 内的 EV 在连续五天内的实时控制效果,结果表明

100
华 中 科 技 大 学 博 士 学 位 论 文

EV 选择在电价高时放电,在电价低时充电以节省充电成本。两辆电动汽车的 SOC
均在离开住宅时保持一个较高的水平,此时用户的里程焦虑较低。同时,EV 每天的
初始 SOC 以及出行时间均不相同,表明所提算法能够适应用户动态的出行行为。
电动汽车#1 电动汽车#2
5 0.1 5 0.1
充放电功率 (kW)

充放电功率 (kW)
实时电价 ($/kWh)

实时电价 ($/kWh)
2.5 2.5
0 0.05 0 0.05
-2.5 -2.5
-5 0 -5 0
0 12 24 36 48 60 72 84 96 108 120 0 12 24 36 48 60 72 84 96 108 120
时间(小时) 时间(小时)
(a) (b)
1 1

SoC
SoC

0.5 0.5

0 0
0 12 24 36 48 60 72 84 96 108 120 0 12 24 36 48 60 72 84 96 108 120
时间(小时) 时间(小时)
(c) (d)

图 5-9 住宅 1 和住宅 2 内 EV 控制效果:(a) EV1 功率;(b) EV1 SOC;(c) EV2 功率;(d) EV2 SOC;

图 5-10 给出了三个住宅室内温度在连续控制下的变化曲线。在室外温度大范围
距离变化时,室内温度均保持在舒适区内。即所提算法能够适应室外温度的不确定
性以及大扰动性,保持室内温度在舒适区内变化。
40
住宅#1 住宅#2 住宅#3
室外温度 舒适区
30
温度 (℃)

20

10
0 12 24 36 48 60 72 84 96 108 120
时间(小时)

图 5-10 住宅集群室内温度变化
2 住宅#1 0.1
可时移负荷功率 (kW)

住宅#2
实时电价 ($/kWh)

住宅#3 实时电价

1 0.05

0 0
0 12 24 36 48 60 72 84 96 108 120
时间(小时)

图 5-11 可时移负荷实时控制

图 5-11 给出了时移负荷的启动控制结果。本节中三个住宅的时移负荷在开启后

101
华 中 科 技 大 学 博 士 学 位 论 文

需要保持两个小时的运行时长以满足用户需求。可以看出所有负荷均正常启动,且
所提策略会选择在可运行时段电价较低时启动负荷以降低运行成本。
为了验证所提算法对变压器过载的改善性能,保持其他设置不变,在宽松型环
境中重新训练各住宅内的智能体后,得到在不同环境下变压器的实时负荷,如图 5-12
所示。可见在宽松型环境中,变压器负荷显著高于容量,过载现象频繁出现,连续
五天的负荷峰值分别是 12.74kW,12.35kW,12.13kW,12.70kW,12.77kW。在紧凑
型环境中,负荷柱状图整体降低,但同时宽度增加,以在满足各住宅的用电需求的
同时降低变压器负荷峰值,连续五天的负荷峰值分别是 9.69kW,8.72kW,8.96 kW,
9.09 kW,8.84 kW,显著低于宽松型环境。

9.6
10
5
负荷 (kW)

0
-5 紧凑型环境
-9.6 宽松型环境
-10
0 12 24 36 48 60 72 84 96 108 120
时间(小时)

图 5-12 变压器实时负荷

5
负荷 (kW)

0
住宅#1
-5 估计值 实际值
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
(a)
5
负荷 (kW)

0
住宅#2
-5 估计值 实际值
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
(b)
10

5
负荷 (kW)

0
住宅#3
-5 估计值 实际值
0 12 24 36 48 60 72 84 96 108 120
时间(小时)
(c)

图 5-13 集体策略模型功率预测效果:(a)住宅 1;(b)住宅 2;(c)住宅 3

102
华 中 科 技 大 学 博 士 学 位 论 文

图 5-13 给出了各个智能体中集体策略模型的实时功率预测效果。结果表明 CPM


模型同样能够适应住宅的异质特性,住宅 1 和住宅 2 处观测的变压器上其余住宅的
总功率较低,因此 CPM 模型的功率估计值也较低。住宅 3 处观测的结果较高,因此
估计值也较高。整体功率估计结果与实际值较为接近,能够为各个住宅的实时能量
管理提供决策支撑。

5.4.5 变压器容量分配效果

在奖惩函数的设计中,为了各个住宅的用电公平性,与变压器过载相关的奖励
信号根据每个住宅对变压器负荷的贡献进行分配。即当变压器过载时,功率消耗高
的住宅需要承担更多的惩罚。为了验证此时变压器负荷的分配效果,本例给出了 120
个测试样本中各住宅负荷的平均表现,如图 5-14 所示。图 5-14 中的各个住宅的日均
负荷形状可以看出,紧凑型环境中住宅 1 和住宅 2 大幅度降低了在 0:00-6:00 的电动
汽车充电功率以降低变压器过载的发生。而住宅 3 由于负荷功率较小,因此紧凑型
环境和宽松型环境中负荷形状基本相似。
6 6 6
住宅#1 住宅#2 住宅#3
4 紧凑型环境 4 紧凑型环境 4 紧凑型环境
负荷 (kW)

负荷 (kW)
负荷 (kW)

2 宽松型环境 2 宽松型环境 2 宽松型环境

0 0 0
-2 -2 -2
4:00 12:00 20:00 4:00 12:00 20:00 4:00 12:00 20:00
时间(小时) 时间(小时) 时间(小时)
(a) (b) (c)

图 5-14 各住宅日均负荷曲线:(a)住宅 1;(b)住宅 2;(c)住宅 3

表 5-3 中进一步给出了 120 个测试样本中不同住宅每日负荷峰值的统计结果。可


以看出住宅 1 和住宅 2 的负荷下降比例远超住宅 3。以上仿真结果表明所提算法能够
在降低变压器过载的同时兼顾变压器容量分配的公平性。
表 5-3 不同变压器设置下样本集中住宅负荷峰值统计结果

宽松型环境 紧凑型环境
住宅 下降比例
平均值/kW 标准差/kW 平均值/kW 标准差/kW
住宅 1 6.60 0.40 4.93 0.56 25.30%
住宅 2 6.27 0.52 4.63 0.66 26.16%
住宅 3 1.26 0.42 1.23 0.36 2.38%

103
华 中 科 技 大 学 博 士 学 位 论 文

5.4.6 对温度扰动的鲁棒性

5.2.1 节中指出,在现实场景中室内温度往往受到多种不确定性因素的影响,因
此很难建立 HVAC 系统有关温度变化的详细动态模型。为了验证所提算法对温度干
扰的鲁棒性,在式(5.6)定义的动态模型中增加温度扰动∆T,此时 HVAC 的动态模型

能变为 Tt +1 = Tt − (Tt − (Tt


in in in out
+ T ) +  hv Rhv pthv )t / (C hv Rhv ) ,其中∆T 为室外温度的随
机干扰,从均匀分布 U[-Td,Td]中随机采样得到。分别设定 Td=2℃和 Td=4℃,得到室
内温度变化如图 5-15 所示。可以看出随着扰动的增加,三个住宅内的室内温度大部
分时间依旧保持在舒适区之内。即便超过了舒适区,偏离度也很低。

40 40
住宅#1 住宅#2 住宅#3 住宅#1 住宅#2 住宅#3
室外温度 舒适区 室外温度 舒适区
30
温度 (℃)

30
温度 (℃)

20 20

10 10
0 12 24 36 48 60 72 84 96 108 120 0 12 24 36 48 60 72 84 96 108 120
时间(小时) 时间(小时)
(a) (b)

图 5-15 不同扰动下的室内温度变化:(a) Td=2℃;(b) Td=4℃

图 5-16 中给出了在不同扰动下 120 个测试样本所有时间点温度的分布情况。在


扰动分别是 0℃,2℃,4℃时,完全落入舒适区的时间点个数比例分别是 85.64%,
83.91%和 75.66%。以上结果表明随机扰动增加会对室内温度保持效果有一定的影响,
但室内温度保持效果依然比较良好。
0.03 0.03 0.03
Td=0 Td=2 Td=4
0.02 0.02 0.02
概率

0.01 0.01 0.01

0 0 0
15 18 21 24 27 15 18 21 24 27 15 18 21 24 27
温度( ) 温度( ) 温度( )
(a) (b) (c)

图 5-16 不同扰动下室内温度变化的分布值:(a) Td=0℃;(b) Td=2℃;(c) Td=4℃

5.5 本章小结

相比于第四章,本章研究对象从 EV 集群进一步拓展到了含多类型电力负荷的住

104
华 中 科 技 大 学 博 士 学 位 论 文

宅集群。为实现住宅集群的能量管理优化,在原有的多智能体深度强化学习协调充
放电控制的基础上提出了多维多类型动作空间的处理方法以及奖励重塑机制,主要
结论有:
(1)本章构建的含多类型电力负荷住宅集群中电力负荷类型多样,包括 EV,
HVAC 系统,可时移负荷以及不可控负荷。控制变量从原来的一维增加到三维,动
作空间从原来的连续型也变为连续型和离散型并存。
(2)针对连续型动作空间和离散型动作空间并存的问题,使用高斯分布和伯努
利分布共同设计策略网络,实现了多维多类型控制变量的同时输出。
(3)针对时移负荷奖励延后问题,提出的奖励重塑机制对训练过程中收集的样
本进行调整,能够有效避免奖励延后造成的数据不匹配现象。仿真结果显示所提算
法可以实现时移负荷的正确训练及在线控制。
(4)基于真实世界数据构建的仿真表明所提算法能够实现住宅内各类电力负荷
的实时控制,能够在兼顾变压器容量分配公平性的前提下有效降低变压器过载的情
况,并且延续了算法的可扩展性和隐私保护性能,同时对温度扰动具有一定的鲁棒
性。

105
华 中 科 技 大 学 博 士 学 位 论 文

6 基于层级式深度强化学习的多住宅社区能量交易及管理

本章在第五章的基础上进一步考虑屋顶分布式光伏以及储能系统安装后的多住
宅社区能量交易及管理。研究对象从含多类型负荷的住宅集群进一步扩展到社区运
营商和住宅集群共存的能量交易市场。本章首先将社区内点对点能量交易和住宅集
群能量管理分解为两个子问题:内部交易动态定价和住宅集群实时能量管理。然后
提出了一种基于层级式深度强化学习(HDRL)的能量交易及管理策略。在上层,社
区运营商采用 DRL 算法根据所有住宅的能耗数据学习内部交易动态定价机制。在下
层,住宅集群采用 MADRL 算法根据本地观测量和运营商给定的内部交易价格学习住
宅内负荷的实时控制策略。最后,基于真实世界数据构建的仿真验证了所提基于 HDRL
算法的能量交易及管理策略的有效性。

6.1 引言

随着分布式光伏、储能系统以及 EV 的接入,配网内传统的电力用户逐渐从电力
消费者(Consumer)向电力产消者(Prosumer)过渡。电力交易形式从与电网交易
的基础上扩展到与社区内其他产消者或消费者交易,即点对点(P2P)能量交易。P2P
交易可以进一步扩大市场内所有参与者的收益,有助于分布式能源的本地消纳并降
低社区整体对电网的影响。
根据市场结构的去中心化程度,P2P 交易市场可以分为分散式市场和社区式市场
[145]
。在完全分散式的市场中,产消者之间通过协商制定交易方案,不需要集中运营
商或者任何代理机构。但协商过程中往往需要重复的迭代过程才能得到最终的交易
方案,耗时较长且通信负担较重。市场中的小规模产消者难以承受寻找交易对象的
时间成本。相对于完全分散式市场,社区式能量交易市场适用于一组在地理位置上
接近并且拥有相似目标的产消者。社区市场通过运营商或者管理员提供内部定价以
及能量分配等辅助服务,交易过程更为便利。
已有研究将基于 DRL 的数据驱动方法应用在含智能住宅的社区市场内部交易问
题中。部分研究在考虑内部社区运营商定价问题时往往忽略了内部多类型负荷的响

106
华 中 科 技 大 学 博 士 学 位 论 文

应特性,使用二次型效用函数等效住宅的响应过程 [155]-[158]。另一些研究则忽视了运
营商本身的效益,直接基于社区净功率线性计算内部交易电价,不利于社区能量交
易市场的长期运行[161]-[162]。同时,大量的参数共享也为现有的通信设施带来了严重
的负担[161]-[162]。总体而言,适用于社区市场能量交易和管理的方法较为匮乏。
基于此,本章提出了一种基于 HDRL 算法的社区市场能量交易和管理策略,同
时实现内部交易动态定价和住宅集群实时能量管理。其中上层通过收集产消者的历
史能耗信息以及外部电力供应商电价计算社区内的能量交易价格。下层的住宅能量
管理则仅依赖本地的观测量生成各电力负荷的控制决策。基于真实世界数据构建的
仿真分析表明所提方法能够有效应对社区内不同产消者的特性,同时生成内部能量
交易电价和住宅实时管理决策。

6.2 多住宅社区市场模型

本章研究含光伏以及储能系统的社区市场能量交易问题。为了更好的服务社区
市场内部的能量交易,在第五章智能住宅集群的基础上增加了社区运营商这一角色。
从而社区市场能量交易问题模型可以分解成两部分:社区运营商主导的内部能量交
易动态定价和智能住宅主导的实时能量管理,结构如图 6-1 所示。
社区市场
gb , gs
in in

运营商

in
内部能量交易
外部能量交易
gb: 电网售电价格 gs: 光伏上网电价 in: 社区内交易电价

图 6-1 社区市场交易框架

接下来本章将分别描述社区市场内产消者(住宅集群)和运营商的动态模型。

6.2.1 产消者(住宅集群)模型

本章中的智能住宅模型在第五章仅包含各类电力负荷的基础上增加了住宅屋顶
光伏以及储能系统。其中 EV,HVAC 系统以及可时移负荷的动态模型与 5.2.1 节中

107
华 中 科 技 大 学 博 士 学 位 论 文

的定义相同。本节中增加储能系统的动态模型:

Etes+1 = Etes + pces,t t ces − pdes,t t / des (6.1)

其中 Et 是储能系统在时刻 t 的能量,pc ,t 和 pd ,t 分别是储能的充电和放电功率,c


es es es es

(0,1]和 d (0,1]分别是充放电效率。
es

与 EV 一样,储能系统的充放电功率也是连续可调的,大小满足以下约束:

0  pces,t  pces,max ,0  pdes,t  pdes,max (6.2)

同时由于充电和放电无法同时进行,因此充放电功率满足 pc ,t  pd ,t =0 。
es es

储能系统中储存的能量满足:

0  Etes  Emax
es
(6.3)
es
其中 Emax 为储能的容量。

区别于电动汽车,储能系统并不存在空间移动性,因此可以在一天内连续工作
且不需要期望电量。

6.2.2 社区运营商模型

在社区市场内,所有产消者的地理位置是相近的,目标与利益是相同的。每一
个产消者都可以选择在社区内与其他个体进行能量交易或者与外部电力供应商进行
能量交易。社区运营商的任务则是通过设置内部能量交易价格来引导用户积极参加
社区内部交易,从而增加每个产消者的收益并降低社区整体对外部电网的影响。为

了提供比外部电力供应商更具吸引力的价格,社区内部能量交易价格 t 需要满足式
in

(6.4)中的约束。

tgs  tin  tgb (6.4)

其中 t 和 t 分别是社区内部产消者与外部电力供应商进行能量交易时的购电价
gb gs

格和售电价格(一般为上网电价)。
在式(6.4)约束下,社区内所有住宅存在功率盈余或缺额时会首选通过社区运营
商与其他产消者进行能量交易以提高自身发电收益或将降低自身用电成本。当社区

108
华 中 科 技 大 学 博 士 学 位 论 文

内交易无法满足自身需求时,再寻求与外部电力供应商进行交易。同时,式(6.4)中
内部能量交易时,每个产消者的购电价格和售电价格是相同的,光伏发电产生的收
益仅由所有住宅分享,社区运营商是无收益的。这种模式并不利于内部交易机制的
长期运行。参考文献[157]和[158]中的社区市场运营模式,运营商作为电力聚合商为
社区内部能量交易提供服务,并收取一定的服务费。此时在社区内部交易发生时,

每个产消者以价格 t 将能量盈余出售给社区,以价格 t 从社区中购入能量供给能


os ob

量缺额。此时内部交易价格从 t 分为了 t 和 t ,式(6.4)重写为:


in os ob

tgs  tos  tob  tgb (6.5)

由于 t 和 t 之间的差异,社区运营商将会在内部交易时获得一部分的收益作
os ob

为服务费用。通常, t 应该比 t 稍大以提供正的服务收益,但是程度应该受限以


ob os

保证价格公平性以维护住宅用户自身的收益[157]。即内部能量交易价格还应该满足:

tos  tob  tgb (6.6)

其中(0,1]是提前设置的价格约束系数。
除此之外,本章假设只有社区内部发生能量交易时运营商会收取一定的服务费,
当产消者选择与外部电网交易时则不收取额外的费用。同时,当产消者根据内部交
易电价以及自身负荷状态制定住宅能量决策后,产生的功率盈余或功率缺额信息传
递到运营商,由运营商对社区内总交易能量按比例进行分配。
基于以上分析,社区运营商的目标是提供一个有效的内部能量交易定价机制来
最大化社区内所有参与者(包括运营商自身和所有产消者)的整体收益。而所有住
宅的目标则是在给定外部电价和内部电价的前提下,根据自身的光伏出力优化所有
电力负荷的运行决策以在满足自身电力需求的同时降低用电成本。因此,本章将社
区市场能量交易问题分解为两个子问题:内部交易动态定价和住宅实时能量管理。

6.2.3 产消者(住宅集群)能量管理的 MG 形式

本节中产消者能量管理的 MG 形式与 5.2.2 节中定义的智能住宅模型相似,包含


{N, S, A, P, R,  }六个部分。由于每个产消者模型中新增了光伏与储能系统,且能量

109
华 中 科 技 大 学 博 士 学 位 论 文

交易形式增加了社区内部交易,因此相应的系统状态 S,动作 A 和奖励函数 R 均需


要做出调整。以下为各部分的详细定义。
(1)环境状态 S
对于住宅 i,t 时刻的环境观测量为:
oih,t = (t , tgs , tgb , tos , tob , Tt out ,
(6.7)
li ,t , uipv , uiev , uies , uihv , uida , pipv ev es in da
,t , Ei ,t , Ei ,ex , ti , d , Ei ,t , Ti ,t , bi ,t , ti , , ti ,  )

区别于 5.2.2 节中仅包含了外部电力供应商的历史电价数据,本节中使用当前时

间 t,外部售电价格 t 和光伏上网电价 t 作为外部交易电价信息,使用社区运营


gb gs

商售电价格 t 和社区运营商购电价格 t 作为内部交易电价信息。住宅类型在 ui ,


ob os ev

uihv ,uida 的基础上增加了 uipv 和 uies 表示光伏和储能的安装情况。当光伏或储能均未


pv es
安装时,住宅成为纯粹的电力消费者。此外,还增加了 pi ,t 和 Ei ,t 表示时刻 t 光伏系

统的发电功率以及储能系统的剩余能量。

联合所有住宅本地观测量,可以得到所有产消者的状态为 st = (o1,t , o2,t ,..., on,t ) 。


h h h h

(2)联合动作集合 A
产消者的动作集合中除了电动汽车,HVAC 系统以及时移负荷的控制决策外还
新增了储能系统的充放电决策,最终的动作集合如下:

aih,t = (aiev,t , aies,t , aihv,t , aida,t ) (6.8)


es
其中 ai ,t [-1,1]表示储能系统的充放电决策。

(3)状态转移概率 P
产消者的状态转移概率与 5.2.2 节相同,不仅与住宅中每个负荷的动态模型相关,
受到环境中众多随机因素的影响,包括内外部实时交易电价、室外温度、光伏出力、
不可控负荷以及用户的动态行为。
(4)奖励函数 R
产消者本地的奖励函数组成与 5.2.2 节相同,包括了以下五项:1)降低住宅整
体用电成本,2)缓解电动汽车里程焦虑,3)保持室内温度在舒适区内,4)确保时

110
华 中 科 技 大 学 博 士 学 位 论 文

移负荷启动,5)避免变压器负荷过载。但由于能量交易形式发生了变化,因此与供
电成本相关的奖励函数需要重新定义:

ricos
,t
t
= −tgb pigb,t − tob piob,t + tgs pigs,t + tos pios,t (6.9)
gb ob
其中 pi ,t 和 pi ,t 分别表示产消者 i 在 t 时刻从外部电力供应商和内部社区运营商购入
gs os
的电量; pi ,t 和 pi ,t 分别是向外部电力供应商和内部社区运营商售出的电量。

以上功率满足以下平衡关系:

pigb,t + piob,t + pipv,t = piev,t +pies,t +pihv,t + pida,t + pino,t + pios,t + pigs,t (6.10)

式(6.10)表明每个产消者本地购入电量和光伏发电之和等于本地售出电量和消
耗电量之和。每个产消者可以根据当下光伏发电量和电力负荷消耗量确定此时的功
率盈余或者缺额值,然后社区运营商根据所有产消者的净功率决定此时在社区内部
可达成的交易电量。
除了用电成本相关的奖励外,其余奖励函数的定义与 5.2.2 节相同。

6.2.4 社区运营商模型的 MDP 形式

社区运营商通过收集各个产消者的聚合信息以及外部电力供应商电价来决定实

时的内部能量交易价格 t 和 t 。以下为相应的 MDP 形式。


os ob

(1)环境状态 S
在 t 时刻,社区运营商观测到的环境状态为:

sto = (t , tgs , tgb , ptnet−23 ,..., ptnet ) (6.11)


net net
其中 ( pt −23 ,..., pt ) 为所有住宅净功率总和过去 24 个小时的历史信息。

与文献[161]和[162]中相同,社区市场内部交易价格与外部电力供应商价格和社
区内净功率相关。同时,社区运营商获取到的净功率为所有住宅的聚合信息,因此
在决策过程中并没有泄露各个住宅内电力负荷的运行状态。
(2)动作集合 A

社区运营商需要根据当前观测到的状态信息决定内部交易电价 t 和 t 。此前
os ob

111
华 中 科 技 大 学 博 士 学 位 论 文

对于运营商模型的描述中提到,运营商收益的来源是其购电价格 t 和售电价格 t
os ob

之间的差异。因此本章中采用 MMR 定价机制[154]计算当下的运营商购电价格 t ,


os

即社区内部能量交易的价格为外部供应商实时售电价格和上网电价的中值。此时,

运营商的动作集合缩减为 1 维,即售电价格 t 。注意,此时的售电价格需要满足式


ob

(6.6)中的约束以保证内部价格的优势。
(3)状态转移概率 P
根据式(6.11)中状态量的定义可知,社区运营商的状态转移受到所有产消者能量
管理策略以及外部电价的影响。而且在运营商的决策过程中,各个住宅内的负荷管
理策略是不对运营商公开的。因此内部交易定价机制的状态转移函数同样无法获得。
(4)奖励函数 R
内部交易定价机制的目的是在最大化运营商收益的同时保证社区内各个用户的
用电满意度,因此其奖励函数设计为:

rto =  rto,benefit + (1 −  ) i =1 ri h,t


n
(6.12)
o ,benefit
其中 rt 表示运营商自身的收益,定义为:

rto,benefit =  i =1 ( tob piob,t − tos pios,t )


n
(6.13)

ri h,t 表示产消者 i 的用户满意度,为产消者模型中各项奖励之和,如式(6.14)所示。

rih,t = 1ricos
,t + 2ri,t + 3ri,t
t ev temp
+ 4rida
,t + 5ri,t
trans
(6.14)

[0,1]表示运营收益与用户满意度之间的相对重要性。

6.3 层级式深度强化学习能量交易及管理策略

6.2 节中将社区市场能量交易问题分解为 1)内部交易动态定价和 2)住宅实时


能量管理。动态定价策略和能量管理策略相互关联,彼此影响。在产消者处的住宅
能量管理策略需要定价机制给出的内部交易价格;在社区运营商处的动态定价策略
也依赖每个住宅根据自身能量管理策略得到的功率消耗结果。因此如何使运营商和
产消者同时得到满足自身优化目标的决策方案并且有效应对环境中存在的诸多不确

112
华 中 科 技 大 学 博 士 学 位 论 文

定性成为本节需要解决的问题。
对此,本节提出了一种基于层级式深度强化学习(HDRL)的社区市场能量交易
策略,控制结构如图 6-2 所示。

at Actor i+2 Critic i+2


Actor Critic Actor i+1 Critic i+1
环境
st Actor i Critic i
tob, tos
Q
Q
at
FC1(128) FC4(128) FC1(128) FC4(128)
社区运营商 oi,t FC1(128) FC4(128) FC1(128) FC4(128)
住宅 i
在线实时控制&离线样本收集 Buffer D1
运营商处智能体训练过程 Buffer D2,i
{st ,t ,rt ,st+1}
产消者处智能体训练过程 {oi,t, ,ai,t ,ri,t ,oi,t+1}

图 6-2 基于层级式深度强化学习的社区能量交易及管理策略

在上层社区运营商处,智能体以集中式结构收集社区内所有住宅的聚合信息以
及外部电价学习内部交易的动态定价策略。在下层的每一个产消者处,智能体以分
散式结构使用本地的观测量以及上层给定的内部交易电价学习实时的住宅电力负荷
能量管理策略。
o
两层的学习过程相互依赖同时进行。运营商的智能体观测到环境状态量 st 后,

使用动作网络 o 输出内部交易电价 t ,并结合 MMR 机制得到 t 。然后每一个产


ob os

消者处的智能体结合本地各电力负荷观测量 oi ,t 并使用自身的动作网络 h ,i 产生各个

电力负荷的控制决策。基于所有住宅的联合控制量以及环境中的不确定性,社区市
o h
场转移到下一个状态值,并且返回所有智能体的奖励函数值 rt 和 ri ,t 。训练过程中包

含两类经验池,用于动态定价策略的经验池 D1 和用于住宅能量管理的经验池 D2。虽


然数据收集过程是同时的,但是两类智能体的训练过程是独立进行的,如表 6-1 所示。
所提社区能量交易策略中的每一个智能体都包含相同的组件并且基于 SAC 框架进行
训练。为了方便显示,图 6-2 中的智能体仅包含一个动作网络和一个评价网络。在算
法实际部署中,使用了两个评价网络来降低对 Q-值得过拟合。同时也使用了目标网
络的结构以及经验重放机制。
不同于集中式训练框架,所提社区能量交易策略中,下层的产消者能量管理算

113
华 中 科 技 大 学 博 士 学 位 论 文

法仅使用本地观测量,在训练以及执行过程中并不需要社区内其他智能体的观测量。
同时在上层的动态交易定价过程中,社区运营商仅需要住宅的聚合信息,并不需要
每个住宅内部电力负荷的具体运行状态以及控制策略。因此所提算法一定程度上保
护了社区内参与者的隐私信息。同时,本章中所提算法延续了第四、五章中多智能
体算法在可扩展性上的优势,算法的计算复杂度不会随着产消者个数的增加而增长。
表 6-1 基于层级式深度强化学习的社区能量交易及管理策略

算法: 基于层级式深度强化学习的社区能量交易策略
1: 输入各智能体神经网络参数 o ,o ,h,1 , h,1 ,...,h, n , h, n
2: 对于每一个智能体
3: 随机初始化所有动作网络和评价网络的参数
4: 初始化所有的经验池为空
5: 对于训练样本 k= 1, 2…5000
6: 对于控制时刻 j=1,2…24
获得内部交易电价 t , t
ob os
7:
h
8: 获得住宅负荷控制决策 a t
h h h
o o
9: 执行 a t , 得到奖励函数值 rt , rt 并且转移到下一状态 st +1, st +1
10: 存储交互数据到经验池 D1, D2,1, …, D2,n
11 对于运营商处的智能体:
12: 更新网络参数 o ,o
13: 对于产消者处的智能体:
14: 更新网络参数 h,1 , h,1 ,...,h,n , h,n
15: 输出: o ,o ,h,1 , h,1 ,...,h, n , h, n

6.4 仿真分析

6.4.1 仿真设置

本节中用于构建社区能量交易环境的数据集包括外部电力供应商电价,室外环
境温度变化,每户住宅的光伏发电以及不可控负荷数据。其中,分时电价(Time of use,
TOU)数据[169]和光伏上网电价数据[170]用于构成外部供应商电价数据,如表 6-2 所示。
表 6-2 外部电力供应商电价数据
分时电价($/kWh) 光伏上网电价 ($/kWh)
7am-9am,5pm-8pm 9am -5pm, 8pm-10pm 10pm-7am
0.04
0.44 0.22 0.15

114
华 中 科 技 大 学 博 士 学 位 论 文

室外温度数据取自数据集[168]。由于社区内所有住宅的地理位置接近,因此本节
假设所有住宅的室外温度变化是相同的。家庭的光伏发电和电力需求来自太阳能家
庭电力数据集[171]。该数据集中记录了 Ausgrid 电网中的 300 名太阳能住宅的光伏发
电以及负荷数据。由于每户住宅的屋顶面积不同,因此光伏发电机的容量随住宅的
不同有所差异。室外温度与住宅光伏数据均取自澳大利亚,年度曲线如图 6-3 所示。
南半球六月至八月为冬季,因此室外温度与光伏出力均较低,而在其余季度则相对
较高。以上数据集的长度均取为 12 个月,每个月前 20 天的数据作用训练数据,后
10 天的数据用于构建验证样本。住宅中电动汽车,HVAC 系统以及时移负荷的运行
信息与 5.4.1 节中相同,如表 5-2 中所示。新增的储能系统的容量为 10kW,最大的
充放电功率为 2kW,充放电效率均为 0.98。
40
35
30
温度 (oC)

25
20
15
10 室外温度
5
一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月
(a)
4
3.5 光伏出力
3
光伏出力(kW)

2.5
2
1.5
1
0.5
0
一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月
(b)

图 6-3 室外温度(a)与住宅光伏发电量(b)的变化曲线

同时,为了验证所提层级式深度强化学习方法的性能,仿真分析中与以下方法
进行了对比。
1)无内部交易策略(Independent Training,IDP):IDP 方法不考虑社区内部
的能量交易,每一个产消者仅与外部电力供应商进行能量交互。因此社区运营商处
不需要训练动态定价策略,仅社区内产消者基于外部电价处优化自身的电力负荷能
量管理策略。

115
华 中 科 技 大 学 博 士 学 位 论 文

2)基于 DDQN 的动态电价策略(DDQN-based Pricing Method,DDQN):参


考文献[157]和[158],本方法采用 DDQN 算法学习运营商处的动态定价策略。DDQN
中的 Q 网络结构与所提层级式强化学习策略中 SAC 算法的评价网络相同。同时,内
部能量交易价格离散化为 7 个等级[-1, -0.67, -0.33, 0, 0.33, 0.67, 1],其中 1 和-1 分别
表示内部交易电价的上下限。
3)基于 SAC 的动态电价策略(SAC-based Pricing Method,SAC):基于 SAC
的定价机制为本文所提策略,采用 SAC 框架学习动态定价策略。与 DDQN 方法不同,
基于 SAC 的定价策略可以适应连续动作空间的控制问题。
以上方法中的产消者能量管理策略训练过程均基于 6.3 节所提下层多智能体强
化学习完成,网络结构与超参数与所提方法保持一致。其中,动作网络和评价网络
均包含四个全连接层,每层神经元个数为 128。动作网络,评价网络以及温度因子的
学习率分别设为 10-3, 10-2, 10-2。训练次数为 5000。奖励折扣因子设置为 0.99。强化
学习过程中用于梯度下降的采样样本个数为 256。经验池容量为 10000。

6.4.2 算法训练效果

本例主要验证所提社区能量交易策略的训练过程。为了体现产消者(智能住宅)
的异质性,假设社区内共有 3 个住宅,住宅 1 安装了所有的电力负荷,并且配备了
光伏以及储能系统。住宅 2 除了未安装电动汽车外,其余配置与住宅 1 相同,但是
光伏系统容量小于住宅 1。住宅 3 仅安装了 HVAC 系统,时移负荷以及不可控负荷。
运营商处奖励函数中权重系数设定为 =0.6,产消者处系数设置为 1=1.2, 2=25,
3=12,4=8 和5=10。
基于以上设置,所提算法上层内部交易动态定价和下层住宅实时能量管理的训
练过程分别如图 6-4 和图 6-5 所示。图 6-4(a)中表明运营商的总奖励随着训练的进行
逐渐提高并且稳定。图 6-4(b)中显示运营商的收益在所提定价策略下总是正的,即运
营商在协调内部交易的过程获得了收益。结合图 6-4(c)中的用户满意度曲线可知,训
练初始时期由于产消者未能学习到稳定的能量管理策略,因此运营商收益较高,而
用户满意度较低。随着训练次数的增加,用户满意度提高,运营商收益也回落到合
理水平。

116
华 中 科 技 大 学 博 士 学 位 论 文

奖励函数值 0

-20
运营商总奖励
-40

-60
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
训练次数
(a)
1.5 0
奖励函数值

奖励函数值
1 运营商收益 -20 用户满意度

0.5 -40

0 -60
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000
训练次数 训练次数
(b) (c)

图 6-4 运营商处智能体训练过程:(a)总奖励;(b)运营商收益;(c)用户满意度

0
奖励函数值

-5

-10
住宅总奖励
-15 住宅1 住宅2 住宅 3
-20
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
训练次数
(a)
0 0
奖励函数值

-10 -10

-20 -20
用电成本 里程焦虑
-30 -30
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000
训练次数 训练次数
(b) (c)
0 0
奖励函数值

-10 -10

-20 -20
室内温度 变压器负荷
-30 -30
0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000
训练次数 训练次数
(d) (e)

图 6-5 产消者处智能体训练过程:(a)总奖励;(b)用电成本;(c)里程焦虑;(d)室内温度;(e)变
压器负荷

117
华 中 科 技 大 学 博 士 学 位 论 文

图 6-5 中给出了三个住宅各自总奖励以及各个子控制目标的变化曲线。可以看出
所有住宅的奖励均在经过 2000 次训练上升到稳定值。其中住宅 3 由于仅含有负荷,
成为完全的电力消费者,因此其奖励值最小。而住宅 1 和住宅 3 可以通过自身光伏
发电而降低相应的用电成本,提高总奖励值。图 6-5(b)-(e)中显示和各子控制目标相
关的奖励值同样逐渐升高,并趋于稳定。其中里程焦虑,室内温度以及变压器负荷
相关项都接近零,表示此时所有住宅的电力负荷运行都满足用户需求。

6.4.3 实时能量交易及管理性能

本例展示所提方法的实时控制性能。运营商处智能体提供连续三天的动态交易
电价,如图 6-6 所示。产消者处智能体提供住宅内电力负荷的实时控制决策,如图
6-7 所示。

图 6-6 中的运营商售电价格 t 的变化趋势与外部电力供应商售电价格 t 相同,


ob gb

并且总是保持在上限 max 和下限 t 之间,其中上限系数=0.9。即所提动态定价策


ob os

略在为供应商提供收益的同时也能维护产消者的收益。

0.5  ob
gb


 os
电价($/kWh)

0.4
 gs
0.3 max
ob

0.2

0.1

0
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)

图 6-6 社区市场内电价变化曲线

图 6-7 中给出了三个住宅内部分电力负荷的实时控制效果。图 6-7(a)-(b)表明 EV


在电价低时充电,在电价高时放电或保持较小的充电功率以节省用电成本。同时在
离开住宅时保持较高的 SOC 水平。图 6-7(c)-(d)中储能系统在白天光伏功率为正的时
候吸收功率,在夜间放电供给社区内电力负荷。同时,由于储能容量的限制,光伏
发电量并不会完全储存在储能系统内。无法存储的光伏功率将会直接供给到当下的
负荷或社区内的其他产消者。图 6-7(e)表示在室外温度在大幅变化下,三个住宅的室

118
华 中 科 技 大 学 博 士 学 位 论 文

内温度均保持在舒适区内。图 6-7(f)则表示时移负荷均能够正确启动,并在电价低时
工作以降低用电成本。
6
电动汽车功率 TOU电价 0.5 1
EV充放电功率 (kW)

电价($/kWh)
0.4
电动汽车SOC
2

SOC
0.3
0.5
0 0.2

-2 0.1
0
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时) 时间(小时)
(a) (b)
储能功率 光伏发电量 1
6
储能SOC
功率 (kW)

4
SOC

2 0.5

0
-2 08:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时) 时间(小时)
(c) (d)
30 1.5
住宅1 住宅2 住宅3 TOU电价 0.5
时移负荷功率(kW)

电价($/kWh)
25 0.4
1
)

0.3
温度(

20
0.5 0.2
15 住宅1 住宅2 住宅3
室外温度 舒适区 0.1
10 0
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时) 时间(小时)
(e) (f)

图 6-7 住宅内电力负荷实时控制效果:(a)住宅 1 电动汽车充放电功率;(b) 住宅 1 电动汽车 SOC;


(c)住宅 1 储能充放电功率;(d)住宅 1 储能 SOC;(e)所有住宅室内温度变化;(f)所有住宅时移负
荷功率

7.2
变压器负荷(kW)

-5 -7.2

0 24 48 72 96 120 144 168 192 216 240


时间(小时)

图 6-8 变压器负荷在连续十天内的变化

同时,图 6-8 中给出了变压器负荷在连续十天内的变化曲线。可以看出仅在第


47 个小时变压器负荷超过了额定容量 7.2kVA。在大部分时间所提算法都能将社区总
负荷控制在变压器容量内。以上结果表明所提层级式社区能量交易策略能够同时实

119
华 中 科 技 大 学 博 士 学 位 论 文

现内部交易的动态定价以及产消者负荷的实时管理。

6.4.4 社区能量交易结果

本例主要研究在所提能量交易策略下,社区内的实时能量交易情况。在考虑社
区内部能量交易后,每个产消者的能量流向有了四种可能:1)卖向电网,2)卖向
社区,3)买自电网,2)买自社区。图 6-9 中给出了连续三天内,社区内所有产消者
以及社区总体在所提控制下的能量交易流向。
卖向电网 卖向社区 买自电网 买自社区
5
住宅1
2.5
负荷 (kW)

-2.5

-5 8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(a)
1 住宅2
负荷 (kW)

0.5
0
-0.5
-1
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(b)
0
负荷 (kW)

-0.5

住宅3
-1
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(c)
5
社区总能量流
2.5
负荷 (kW)

0
-2.5
-5
8:00 16:00 24:00 8:00 16:00 24:00 8:00 16:00 24:00 8:00
时间(小时)
(d)

图 6-9 各产消者以及社区总的能量交易细节:(a)住宅 1;(b)住宅 2;(c)住宅 3;(d)社区

120
华 中 科 技 大 学 博 士 学 位 论 文

由于各个住宅本身安装的光伏系统容量以及电力负荷类型不同,因此各自的能
量交易情况均不同。由于配置了光伏系统,图 6-9(a)-(b)中住宅 1 和住宅 2 会在白天
的 8:00-16:00 将多余的电能卖向社区或者电网。而在夜晚,则会选择从电网或者社
区购入电能以满足自身需求。图 6-9(a)中还显示住宅 1 很少从社区内购入电量。这是
因为住宅 1 中配置的光伏容量较大且电力负荷较多,当自身无法满足能量需求时,
社区内其他产消者也很难提供能量支撑。同时,受到储能容量的限制,住宅 1 在夜
晚还需从电网购入能量以满足 EV 等大功率负荷的需求。图 6-9(b)中显示住宅 2 不仅
在白天光伏高发时将多余能量卖向电网以及社区。同时还在住宅 1 光伏高发时从社
区购入能量以满足自身需求。住宅 3 为完全的电力消费者。图 6-9(c)中显示,住宅 3
在住宅 1 或住宅 2 有功率盈余时从社区购电,而在社区内无多余能量时从电网购电。
且住宅 3 大部分能量需求由社区内交易满足。图 6-9(d)提供了整个社区总体的能量流
情况。其中卖向社区和买自社区的能量是完全相等、符号相反的。结果表明社区内
交易大部分发生在白天光伏高发时,而在夜晚则需要从电网购入能量以满足需求。

6.4.5 性能比较

图 6-10 中提供了不同算法在 120 个测试样本上的累计奖励函数值,表 6-3 和表


6-4 中为详细结果。图 6-10(a)和表 6-3 中的数据显示所提基于 SAC 算法的定价策略
取得了最高的运营商累计奖励,为-160.83。图 6-10(b)-(c)同时表明,在所提策略下的
管理员收益和用户满意度均高于 IDP 算法和 DDQN 算法。基于 DDQN 的定价策略
由于只能适应离散型动作空间,因此性能要劣于所提算法。图 6-10(b)中 IDP 算法的
管理员收益为零,这是因为 IDP 算法中未考虑社区内的能量交易,因此运营商无法
收取相应的服务费。同时,表 6-4 显示在考虑社区内部交易时,即便运营商收取了部
分服务费,DDQN 以及 SAC 算法依然可以显著降低各个产消者的用电成本。以上结
果表明所提算法的社区交易控制性能优于其他方法,能够有效体现社区内交易的优
势,提高运营商和所有住宅的整体收益。

121
华 中 科 技 大 学 博 士 学 位 论 文

0
累计奖励
-100
-160.83
-200 运营商总奖励 -176.72
SAC DDQN IDP
-256.28
-300 0 20 40 60 80 100 120
样本数
(a)
80 77.41
60 运营商收益 62.42
累计奖励

SAC DDQN IDP


40
20
0 0.0
0 20 40 60 80 100 120
样本数
(b)
0

-400
累计奖励

-800 用户满意度
-1113
SAC DDQN IDP
-1200 -1133
0 20 40 60 80 100 120 -1280
样本数
(c)

图 6-10 不同算法下运营商智能体在训练样本集上的累计奖励:(a)运营商总奖励;(b)运营商收
益;(c)用户满意度
表 6-3 运营商智能体在训练集上的累计奖励

累计奖励
定价方法
总奖励 运营商收益 用户满意度
IDP -256.28 0.0 -1281.40
DDQN -176.72 62.42 -1133.29
SAC -160.83 77.41 -1113.79
表 6-4 产消者智能体在训练集上的累计奖励

累计奖励
定价方法
总奖励 用电成本 里程焦虑 室内温度 变压器负荷
IDP -1284.40 -1084.98 -0.925 -4.68 -0.86
DDQN -1133.29 -940.09 -0.178 -5.79 -2.53
SAC -1113.79 -941.41 -0.245 -4.84 -1.39

6.4.6 奖惩函数权重影响

本例以运营商奖励函数中系数为例研究不同权重系数对社区交易的影响。设定
分别为[0.8, 0.6, 0.4, 0.2],图 6-11 中给出了所提社区能量交易策略下 120 个样本的
运营商收益分布情况。由于系数代表运营商收益在奖励函数中的重要性。因此,随

122
华 中 科 技 大 学 博 士 学 位 论 文

着的减小,运营商收益也逐渐降低。
1.5

1
管理员收益

0.5

0
=0.8 =0.6 =0.4 =0.2

图 6-11 不同权重系数下运营商日均收益的分布

6.4.7 算法可扩展性能

本例中验证所提算法的可扩展性能。参照 6.4.2 节中三个住宅的类型,设定社区


内每类住宅数量分别为[1, 5, 10],即住宅总个数分别为[3, 15, 30]。图 6-12 中给出了
所提算法在不同社区规模下的训练效果。结果表明所提算法在社区住宅数量增多时
依然可以学习到稳定的能量交易控制策略。

0
奖励函数值

-50
运营商总奖励
住宅数=3 住宅数=15 住宅数=30
-100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
训练次数

图 6-12 不同社区规模下的运营商处智能体训练结果
表 6-5 不同社区规模下算法计算时间及网络参数量

住宅数量 3 15 30
总训练时间(min.) 56.35 235.38 456.20
每个智能体平均训练时间(min.) 18.78 15.69 15.21
总网络参数量 868522 3536698 6871918
每个智能体平均网络参数量 289507 235780 229064

表 6-5 中列出了 5000 次训练所需的时间以及相应的智能体网络参数总量。可以


看出,随着住宅数量的增多,总的训练时间和网络参数量显著增加。但是每一个产
消者智能体的平均训练时间和网络参数总量并不增加,反而轻微的降低。这是因为
社区运营商的个数始终保持在一个,由所有产消者共享。并且运营商处智能体的输

123
华 中 科 技 大 学 博 士 学 位 论 文

入维度并不随产消者个数的增加而变多,因此其计算复杂度是固定的。这也导致平
均到每个产消者智能体的训练时间和网络参数量轻微降低。
图 6-13 给出了当产消者个数为 30 时,所提算法的平均控制效果。图 6-13(a)表
明所有住宅的平均室内温度均在舒适区内。图 6-13(b)中为每个小时社区内的最大变
压器功率,可以看出变压器过载情况在所提控制下也很少发生。图 6-13(c)-(f)表明电
动汽车以及储能装置的平均控制效果与 6.4.3 节中的实时控制结果相似。即所提策略
能够根据电价和光伏出力的变化调整相应电力负荷的控制决策。
25 50
变压器负荷 (kW) 变压器负荷
)

20 0
温度 (

舒适区
15 室外温度 -50
室内温度
-72
10 -100
4:00 8:00 12:00 16:00 20:00 24:00 4:00 8:00 12:00 16:00 20:00 24:00
时间(小时) 时间(小时)
(a) (b)
6 24
电动汽车功率 TOU电价 0.5
电动汽车SOC
电动汽车功率(kW)

4
Energy (kWh)

0.4
电价($/kWh)

2 0.3 12
0 0.2
-2 0.1
0
4:00 8:00 12:00 16:00 20:00 24:00 4:00 8:00 12:00 16:00 20:00 24:00
时间(小时) 时间(小时)
(c) (d)
8
2 储能SOC
6
Power (kW)

Energy (kWh)

4
0
2
储能功率 光伏发电量
-2 0
4:00 8:00 12:00 16:00 20:00 24:00 4:00 8:00 12:00 16:00 20:00 24:00
时间(小时) 时间(小时)
(e) (f)

图 6-13 住宅数量为 30 时的电力负荷日均控制效果:(a)室内温度变化;(b)每小时最大变压器负


荷;(c)电动汽车充放电功率;(d) 电动汽车 SOC;(e)储能充放电功率;(f)储能 SOC

6.5 本章小结

本章在第五章含多类型负荷住宅集群的基础上,进一步考虑增加光伏和储能后
社区市场内能量交易和负荷管理问题。为了能够同时获得协调社区市场内能量交易
的动态定价机制和住宅的实时能量管理方案,提出了基于层级式强化学习的社区能

124
华 中 科 技 大 学 博 士 学 位 论 文

量交易策略。主要结论有:
(1)本章将社区内产消者能量交易问题分解为内部交易动态定价和住宅实时能
量管理两个互相依赖、彼此影响的子问题。并建立了含外部电力供应商,内部社区
运营商,产消者光伏出力以及各类型电力负荷的社区市场交易模型以及其对应的马
尔科夫决策模型。
(2)所提基于层级式强化学习的社区交易策略能够同时获得两个子问题的控制
策略。其中上层的交易动态定价过程采用 DRL 算法训练,通过收集产消者的历史功
率信息以及外部电力供应商电价计算社区内的能量交易价格。下层的住宅能量管理
采用 MADRL 算法训练,仅依赖本地的观测量生成各电力负荷的控制决策。训练和
在线控制过程均有效保护了参与者的隐私信息并具有较高的可扩展性。
(3)仿真分析表明所提方法能够有效应对社区内不同产消者的特性,同时生成
内部能量交易电价和住宅实时管理决策。各产消者实时能量流向也证明了内部交易
的存在可以提高社区运营商以及各个产消者的收益。

125
华 中 科 技 大 学 博 士 学 位 论 文

7 总结与展望

7.1 全文总结

发展新能源汽车是我国从汽车大国迈向汽车强国的必由之路,是应对气候变化,
推动绿色发展的战略举措。在政策、市场、技术等多重要素引领下,我国电动汽车
产业在近年实现了高速发展。尽管潜力巨大,但电动汽车负荷功率大,随机性强,
接入住宅后显著增加了车网协同环境的复杂性并带来诸多不利影响。因此,开展 EV
充放电控制及住宅能量管理研究是推进 EV 接入,促进车网融合发展的必然需求。相
较于传统的模型驱动型优化算法,基于 DRL 的数据驱动型方法不依赖系统模型,对
不确定性因素适应性强,同时可以获得端到端的控制决策,是解决 EV 充放电控制及
住宅能量管理的有效途径。基于此背景,本文围绕基于 DRL 的 EV 充放电控制及住
宅能量管理开展研究,首先对 EV 接入配网后的影响进行了定量分析,然后深入探讨
了不同场景下基于 DRL 算法的 EV 充放电控制及住宅能量管理方法。研究对象和研
究方法均以递进式推进,涵盖内容逐步复杂化和全面化。其中,研究对象从单个电
动汽车到电动汽车集群,再扩展到含多类型负荷的住宅集群和含光伏储能的多住宅
社区能量交易市场;研究方法从单智能体 DRL 算法到多智能体 DRL 算法,再到多
维多类型输出的多智能体 DRL 算法和层级式 DRL 算法。
具体的研究工作和主要结论如下:
(1)针对 EV 接入住宅后的影响分析,首先基于马尔科夫链设计了一个高分辨
率 EV 连续行驶轨迹生成模型,其中转移概率矩阵根据数据集的详细统计分析得到,
包含了 EV 的时空分布特性。在轨迹生成模型的基础上,考虑 EV 用户的充电偏好、
充电可用性、车辆类型、户均车辆、汽车渗透率等因素进一步构建了住宅负荷曲线
生成模型。仿真算例首先从住宅户均负荷和变压器聚合负荷的角度定量分析了 EV 接
入后的影响。结果表明 EV 接入后会显著增加住宅户均负荷的功率峰值、平均值以及
年度需求电量;大规模 EV 负荷的叠加效应会使得变压器过载运行的程度和时间显著
上升。因此具备智能充放电以降低影响的需求。然后分析了不同行驶距离、EV 类型

126
华 中 科 技 大 学 博 士 学 位 论 文

以及充电偏好对 EV 负荷变化的影响,结果表明 EV 具有较高可调度时间和可调度容


量,具备参与智能充放电控制的潜能。
(2)针对单个 EV 的充放电控制,提出了基于 DRL 算法的充放电控制策略。为
了详细描述 EV 用户的动态行为,首先定性分析了驾驶经验、充电偏好以及充电地点
等因素对用户充电需求的影响,并提出了综合焦虑的概念表征用户对续航里程和不
确定事件的担忧。然后提拱了相关的数学模型定量描述用户经验和总体焦虑水平,
将用户的充电需求从原本的单时间点变量转为了整个充电期间的连续性分布变量。
所提控制算法结合了监督学习与强化学习的优势,最终的充放电控制策略通过直接
与环境的交互来进行优化,并且在强化学习阶段采用 SAC 训练框架以提供连续动作
空间的充放电决策。仿真结果表明所提算法能够提供良好的在线控制性能,在降低
充电成本的同时有效缓解了用户的综合焦虑。
(3)针对 EV 集群的协调充放电控制,提出了基于 MADRL 算法的协调控制策
略。在所提控制策略中,每个智能体包含一个集体策略模型用于估计其他智能体的
联合行为和一个独立学习器用于和环境交互改善本地控制策略。算法在结构上是完
全分散的,训练和在线控制过程中只需要本地观察量,不依赖其他智能体的私有信
息。仿真结果表明所提算法能够在满足用户能量需求,降低用户充电成本的同时避
免变压器过载。同时,单个智能体的计算复杂度不会随着电动汽车规模的增长而增
加,相较于集中式 MADRL 方法,训练稳定性和扩展性得到了显著提高。
(4)针对含多类型负荷的住宅集群能量管理,提出了基于 MADRL 算法的能量
管理策略。面对连续和离散动作空间并存的多类型负荷控制,所提方法使用高斯分
布和伯努利分布共同设计策略网络,实现了多维多类型控制变量的同时输出。面对
可时移负荷奖励滞后的问题,所提算法在训练过程中引入了奖励重塑机制,有效提
高了训练的稳定性。仿真结果表明所提算法延续了 EV 集群协调控制算法的完全分散
结构,并且能够实现住宅内各类电力负荷的实时控制,在兼顾变压器容量分配公平
性的同时有效降低变压器过载的情况。
(5)针对含光伏储能的多住宅社区市场能量交易及管理,提出了基于 HDRL 的
交易动态定价及实时能量管理策略。其中上层的动态定价通过收集各个住宅的历史

127
华 中 科 技 大 学 博 士 学 位 论 文

能耗信息以及外部电力供应商电价计算社区内的能量交易价格。下层的住宅能量管
理则仅依赖本地观测量以及内部交易电价生成各类电力负荷的控制决策。定价过程
仅需要能耗信息,不需要各个住宅内部的负荷运营情况和控制决策,实时能量管理
过程也仅依赖本地信息,因此所提方法可以有效保护用户的隐私。仿真分析表明所
提算法能够适应不同住宅的异质性,可以同时在线生成内部交易电价和住宅能量管
理策略,并且具有良好的可扩展能力。

7.2 本文主要创新点

与现有 EV 充放电控制及住宅能量管理的研究相比,本文的主要创新点包括:
(1)提出了一种基于深度强化学习(DRL)算法的单个 EV 充放电控制策略。
其中用户动态行为使用驾驶经验、充电偏好、综合焦虑等因素定性描述,并提供了
数学模型定量分析用户经验和总体焦虑水平的关系,实现了将用户充电需求特性从
单个离开时间扩展到了整个充电时段。所提算法结合了监督学习与强化学习的优势,
相较于传统模型驱动算法和已有 DRL 算法,能够有效应对环境中的不确定性,显著
提高了 EV 充放电的在线控制效果。
(2)提出了一种基于多智能体深度强化学习(MADRL)算法的 EV 集群协调
控制策略。所提算法中每个智能体均包含一个集体策略模型估计其他智能体的联合
行为和一个独立学习器改善本地控制策略。算法实现了 EV 集群的在线协同控制,且
在结构上完全分散,仅依赖本地信息进行训练和学习,具有高度的可扩展性和隐私
保护性能。相较于传统的集中式训练 MADRL 算法,所提算法的计算复杂度不会随
着问题规模扩大而增加,控制稳定性高。
(3)提出了一种基于 MADRL 算法的住宅集群能量管理策略,在独立学习器与
集体策略模型框架的基础上,引入了多类型分布构造策略函数以适应离散和连续并
存的动作空间;引入了奖励重塑机制应对奖励信号延后造成的训练不稳定现象。所
提算法延续了 EV 集群协调控制算法在分散式结构上的优势,并且实现了多维多类型
控制变量的输出以及对住宅集群的实时能量管理,在兼顾变压器容量分配公平性的
同时有效降低了变压器过载情况的发生。

128
华 中 科 技 大 学 博 士 学 位 论 文

(4)提出了一种基于层级式深度强化学习(HDRL)算法的多住宅社区能量交
易与管理策略,算法上层采用 DRL 算法根据各个住宅的能耗信息为运营商制定动态
交易电价,下层采用 MADRL 算法根据内部交易电价和负荷状态制定住宅集群能量
管理决策。上下层的智能体互相影响、同时训练,能够有效适应不同住宅的异质特
性,实现了在线生成内部交易电价和住宅能量管理策略,并且具有良好的可扩展能
力。

7.3 工作展望

本文针对基于深度强化学习(DRL)的 EV 充放电控制及住宅能量管理展开了研
究,最终形成了完整的包含电动汽车、多类型住宅负荷以及分布式光伏在内的多住
宅社区能量交易与能量管理框架以及相应的 DRL 优化控制算法,取得了一定的成果,
但仍存在改进的空间。总体上,作者将值得进一步研究的问题归纳到算法,场景以
及应用三个层面:
(1)算法:本文中采用的 DRL 算法,包括单智能体、多智能体以及层级式,
与现在主流的 DRL 算法研究相同,都是通过实验验证的方式证明其优异的控制性能,
缺乏理论分析的支撑,可解释性较弱。现有的理论分析研究也较少,因此本文也未
就算法收敛性分析进行深入探讨。同时,第四、五、六章中的多智能体 DRL 算法面
临着环境非平稳性的挑战,本文采用的集体策略模型属于应对方式的一种,还有许
多其他方面的研究,比如依赖智能体通信等,也都值得进一步的尝试。因此,就算
法层面,下一步的研究工作将聚焦于先进方法的采用、改进以及理论分析的加强。
(2)场景:首先,为了研究各类型负荷在不确定性环境下的控制决策,本文中
含 EV、住宅以及运营商的配网模型主要考虑了能量平衡以及变压器容量约束,未涵
盖配网中的潮流约束、电压约束以及功率损耗等因素。其次,本文假设住宅负荷与
充电设施是一体的,主要研究 EV 在住宅区充电控制,而随着建筑楼宇的停车场中多
充电桩的安装以及充电站、充换一体站的建设,车网协同环境将更为复杂。因此,
就场景层面,下一步的研究工作将对现有场景进行精细化,向实际配网环境靠拢;
然后再对场景进行扩充,考虑建筑楼宇中的充放电控制以及交通网下的最优充电站

129
华 中 科 技 大 学 博 士 学 位 论 文

路径导航和充电站内的控制。
(3)应用:本文的研究主题涉及到了电动汽车产业以及人工智能技术两个领域,
因此推进应用落地有双重的意义,也面临双重的挑战。基于 DRL 的控制算法需要对
环境不断的探索,这对实际应用的条件要求极高。未来应用过程中需要进一步搭载
数字技术的优势进行推进,比如数字孪生等技术。通过构建实际物理系统的虚拟镜
像,DRL 算法的应用难度也会随之降低。同时,在实际应用中 EV 以及住宅的特性
很难完全满足本文假设,因此算法设计过程中还需要对所有可能的场景进行分类讨
论,提高算法应用的效率。因此,就应用层面,下一步的研究工作将对实际应用环
境细化区分,同时对学习训练环境进行构建部署。

130
华 中 科 技 大 学 博 士 学 位 论 文

参考文献

[1] 国务院办公厅关于印发新能源汽车产业发展规划(2021-2035 年)的通知. 中华人


民共和国国务院公报, 2020(31): 16-23
[2] 庄幸, 姜克隽. 我国纯电动汽车发展路线图的研究. 汽车工程, 2012, 34(02):
91-97
[3] 高 赐 威 , 张亮 . 电 动汽车充电对电网影响的综述 . 电网 技术 , 2011, 35(02):
127-131
[4] 四部委联合印发关于《提升新能源汽车充电保障能力行动计划》. 能源研究与利
用, 2019(01): 9
[5] GB/T 33594-2017, 电动汽车充电用电缆
[6] 任沁沁. 全国机动车保有量达 3.95 亿辆,驾驶人达 4.81 亿人. 新华每日电讯,
2022-01-12(002)
[7] 郑雪芹. 截至 2021 年充电基础设施累计 261.7 万台. 汽车纵横, 2022(02): 116-117
[8] International Energy Agency. Global EV Outlook 2021. https://www.iea.org/repo
rts/global-ev-outlook-2021
[9] 李惠玲, 白晓民. 电动汽车充电对配电网的影响及对策. 电力系统自动化, 2011,
35(17): 38-43
[10] 王敏, 吕林, 向月. 计及 V2G 价格激励的电动汽车削峰协同调度策略. 电力自动
化设备, 2022, 42(04): 27-33+85
[11] 祝月艳, 石红, 方海峰. 我国电动汽车与电网协同发展现状分析与发展建议. 汽
车工业研究, 2021(04): 8-11
[12] 工信部. 全球环境基金(GEF)中国新能源汽车和可再生能源综合应用商业化推广
项目启动会在京举行. 稀土信息, 2018(9): 1
[13] 秦建华, 潘崇超, 张璇, 金泰, 李天奇, 王永真. 基于充电行为分析的电动汽车充
电负荷预测. 电测与仪表, 2022. http://kns.cnki.net/kcms/detail/23.1202.TH.20210
701.1713.002.html

133
华 中 科 技 大 学 博 士 学 位 论 文

[14] Q. Gong, S. Midlam-Mohler, V. Marano, G. Rizzoni. Study of PEV charging on


residential distribution transformer life. IEEE Transactions on Smart Grid, 2011, 3(1):
404-412
[15] N. G. Paterakis, O. Erdinç, I. N. Pappi, A. G. Bakirtzis, J. P. S. Catalão. Coordinated
operation of a neighborhood of smart households comprising electric vehicles, energy
storage and distributed generation. IEEE Transactions on Smart Grid, 2016, 7(6):
2736-2747
[16] 周华嫣然, 周羿宏, 胡俊杰, 谢东亮. 人工智能技术支撑的集群电动汽车实时优
化调度策略. 电网技术, 2021, 45(04): 1446-1459
[17] 赵星宇, 胡俊杰. 集群电动汽车充电行为的深度强化学习优化方法. 电网技术,
2021, 45(06): 2319-2327
[18] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Driessche, et al. Mastering
the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587):
484-489
[19] J. Schrittwieser, I. Antonoglou, T. Hubert, K. Simonyan, L. Sifre, S. Schmitt, et al.
Mastering atari, go, chess and shogi by planning with a learned model. Nature, 2020,
588(7839): 604-609
[20] O. Vinyals, I. Babuschkin, W. M. Czarnecki, M. Mathieu, A. Dudzik, J. Chung, et al.
Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature,
2019, 575(7782): 350-354
[21] M. Jaderberg, W. M. Czarnecki, I. Dunning, L. Marris, G. Lever, A. G. Castaneda, et
al. Human-level performance in 3D multiplayer games with population-based
reinforcement learning. Science, 2019, 364(6443): 859-865
[22] S. Levine, P. Pastor, A. Krizhevsky, J. Ibarz, D. Quillen. Learning hand-eye
coordination for robotic grasping with deep learning and large-scale data collection.
The International Journal of Robotics Research, 2018, 37(4-5): 421-436
[23] J. Kober, J. A. Bagnell, J. Peters. Reinforcement learning in robotics: A survey. The
International Journal of Robotics Research, 2013, 32(11): 1238-1274
[24] D. Kalashnikov, A. Irpan, P. Pastor, J. Ibarz, A. Herzog, E. Jang, et al. Scalable deep
reinforcement learning for vision-based robotic manipulation, in: Conference on

134
华 中 科 技 大 学 博 士 学 位 论 文

Robot Learning, Zurich, Switzerland, 29-31 Oct. 2018, PMLR, 2018: 651-673
[25] A. E. Sallab, M. Abdou, E. Perot, S. Yogamani. Deep reinforcement learning
framework for autonomous driving. Electronic Imaging, 2017, 2017(19): 70-76
[26] B. R. Kiran, I. Sobh, V. Talpaert, P. Mannion, A. Sallab, S. Yogamani, et al. Deep
reinforcement learning for autonomous driving: A survey. IEEE Transactions on
Intelligent Transportation Systems, 2022, 23(6): 4909-4926
[27] T. Chu, J. Wang, L. Codecà, Z. Li. Multi-agent deep reinforcement learning for
large-scale traffic signal control. IEEE Transactions on Intelligent Transportation
Systems, 2019, 21(3): 1086-1095
[28] X. Liang, X. Du, G. Wang, Z. Han. A deep reinforcement learning network for traffic
light cycle control. IEEE Transactions on Vehicular Technology, 2019, 68(2):
1243-1253
[29] G. Zheng, F. Zhang, Z. Zheng, Y. Xiang, N. J. Yuan, X. Xie, et al. DRN: A deep
reinforcement learning framework for news recommendation, in: Proceedings of the
2018 World Wide Web Conference, Lyon, France, 23-27 Apr. 2018, International
World Wide Web Conference Committee, 2018: 167-176
[30] Z. Zhang, D. Zhang, R. C. Qiu. Deep reinforcement learning for power system
applications: An overview. CSEE Journal of Power and Energy Systems, 2019, 6(1):
213-225
[31] M. L. Puterman. Markov decision processes: discrete stochastic dynamic
programming. John Wiley & Sons, 2014
[32] R. Bellman. A Markovian decision process. Journal of Mathematics and Mechanics,
1957: 679-684
[33] C. H. Watkins, P. Dayan. Q-learning. Machine Learning, 1992, 8(3): 279-292
[34] R. S. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy gradient methods for
reinforcement learning with function approximation, in: Advances in Neural
Information Processing Systems, Denver, CO, USA, 29 Nov.-04 Dec. 1999, NIPS,
1999: 1057-1063
[35] J. Boyan, A. Moore. Generalization in reinforcement learning: Safely approximating
the value function, in: Advances in Neural Information Processing Systems, Denver,
CO, USA, 28 Nov.-01 Dec. 1994, NIPS, 1994:1-7

135
华 中 科 技 大 学 博 士 学 位 论 文

[36] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, et al.


Human-level control through deep reinforcement learning. Nature, 2015, 518(7540):
529-533
[37] H. Van, A. Guez, D. Silver. Deep reinforcement learning with double q-learning, in:
Proceedings of the AAAI Conference on Artificial Intelligence, Phoenix, AZ, USA,
12-17 Feb. 2016, AAAI, 2016: 2094-2100
[38] T. Schaul, J. Quan, I. Antonoglou, D. Silver. Prioritized experience replay. arXiv
preprint arXiv:1511.05952, 2015
[39] Z. Wang, T. Schaul, M. Hessel, H. Hasselt, M. Lanctot, N. Freitas. Dueling network
architectures for deep reinforcement learning, in: International Conference on
Machine Learning, New York, NY, USA, 20-22 Jun. 2016, PMLR, 2016: 1995-2003
[40] M. Hessel, J. Modayil, H. Van, S. Tom, O. Georg, D. Will, et al. Rainbow:
Combining improvements in deep reinforcement learning, in: Proceedings of the
AAAI Conference on Artificial Intelligence, New Orleans, LA, USA, 02-07 Feb.
2018, AAAI, 2018: 3215-3222
[41] M. Hausknecht, P. Stone. Deep recurrent q-learning for partially observable mdps, in:
The Association for the Advancement of Artificial Intelligence, Arlington, VA, USA,
12-14 Nov. 2015, AAAI, 2015: 29-37
[42] V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, et al.
Asynchronous methods for deep reinforcement learning, in: International Conference
on Machine Learning, New York, NY, USA, 20-22 Jun. 2016, PMLR, 2016:
1928-1937
[43] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, et al. Continuous
control with deep reinforcement learning. arXiv preprint arXiv:1509.02971, 2015
[44] J. Schulman, S. Levine, P. Abbeel, M. Jordan, P. Moritz. Trust region policy
optimization, in: International Conference on Machine Learning, Lille, France, 07-09
Jul. 2015, PMLR, 2015: 1889-1897
[45] J. Schulman, F. Wolski, P. Dhariwal, A. Radford. Proximal policy optimization
algorithms. arXiv preprint arXiv:1707.06347, 2017
[46] S. Fujimoto, H. Hoof, D. Meger. Addressing function approximation error in
actor-critic methods, in: International Conference on Machine Learning, Stockholm,

136
华 中 科 技 大 学 博 士 学 位 论 文

Sweden, 10-15 Jul. 2018, PMLR, 2018: 1587-1596


[47] T. Haarnoja, A. Zhou, P. Abbeel, S. Levine. Soft actor-critic: Off-policy maximum
entropy deep reinforcement learning with a stochastic actor, in: International
Conference on Machine Learning, Stockholm, Sweden, 10-15 Jul. 2018, PMLR, 2018:
1861-1870
[48] M. L. Littman. Markov games as a framework for multi-agent reinforcement learning,
in: Machine Learning Proceedings, Rutgers University, New Brunswick, NJ, USA,
10-13 Jul. 1994, Morgan Kaufmann, 1994: 157-163
[49] M. L. Littman. Value-function reinforcement learning in Markov games. Cognitive
Systems Research, 2001, 2(1): 55-66
[50] G. Qu, N. Li. Exploiting fast decaying and locality in multi-agent mdp with tree
dependence structure, in: IEEE Conference on Decision and Control, Nice, France,
11-13 Dec. 2019, IEEE, 2019: 6479-6486
[51] S. Kar, J. M. F. Moura, H. V. Poor. QD-Learning: A collaborative distributed strategy
for multi-agent reinforcement learning through consensus + innovations. IEEE
Transactions on Signal Processing, 2013, 61(7): 1848-1862
[52] J. Hu, M. P. Wellman. Nash Q-learning for general-sum stochastic games. Journal of
Machine Learning Research, 2003, 4(4): 1039-1069
[53] V. Könönen. Asymmetric multiagent reinforcement learning. Web Intelligence and
Agent Systems: An International Journal, 2004, 2(2): 105-121
[54] M. Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents, in:
Proceedings of the Tenth International Conference on Machine Learning, San
Francisco, CA, USA, 27-29 Jul. 1993, Morgan Kaufmann, 1993: 330-337
[55] Y. Shoham, R. Powers, T. Grenager. If multi-agent learning is the answer, what is the
question?. Artificial Intelligence, 2007, 171(7): 365-377
[56] L. Matignon, G. J. Laurent, N. Le. Independent reinforcement learners in cooperative
markov games: a survey regarding coordination problems. The Knowledge
Engineering Review, 2012, 27(1): 1-31
[57] S. Sukhbaatar, R. Fergus. Learning multiagent communication with backpropagation,
in: Conference on Neural Information Processing Systems, Barcelona, Spain, 05-10
Dec. 2016, NIPS, 2016: 2244-2252

137
华 中 科 技 大 学 博 士 学 位 论 文

[58] P. Peng, Y. Wen, Y. Yang, Y. Quan, T. Zhenkun, L. Haitao, et al. Multiagent


bidirectionally-coordinated nets: Emergence of human-level coordination in learning
to play starcraft combat games. arXiv preprint arXiv:1703.10069, 2017
[59] R. Lowe, Y. Wu, A. Tamar, J. Harb. Multi-agent actor-critic for mixed
cooperative-competitive environments, in: International Conference on Neural
Information Processing Systems, CA, USA, 04-09 Dec. 2017, NIPS, 2017:
6379-6390
[60] J. Foerster, G. Farquhar, T. Afouras, N. Nardelli, S. Whiteson. Counterfactual
multi-agent policy gradients, in: Proceedings of the AAAI Conference on Artificial
Intelligence, New Orleans, LA, USA, 02-07 Feb. 2018, AAAI, 2018: 2974-2982
[61] P. Sunehag, G. Lever, A. Gruslys, W. M. Czarnecki, V. Zambaldi, M. Jaderberg, et al.
Value-decomposition networks for cooperative multi-agent learning. arXiv preprint
arXiv:1706.05296, 2017
[62] T. Rashid, M. Samvelyan, C. Schroeder, G. Farquhar, J. Foerster, S. Whiteson. Qmix:
Monotonic value function factorisation for deep multi-agent reinforcement learning,
in: International Conference on Machine Learning, Stockholm, Sweden, 10-15 Jul.
2018, PMLR, 2018: 4295-4304
[63] M. Hutsebaut-Buysse, K. Mets, S. Latré. Hierarchical reinforcement learning: a
survey and open research challenges. Machine Learning and Knowledge Extraction,
2022, 4(1): 172-221
[64] R. S. Sutton, D. Precup, S. Singh. Between MDPs and semi-MDPs: A framework for
temporal abstraction in reinforcement learning. Artificial Intelligence, 1999, 112(1-2):
181-211
[65] R, Parr, S. Russell. Reinforcement learning with hierarchies of machines, in:
Advances in Neural Information Processing Systems, Denver, CO, USA, 01-06 Dec.
1997, NIPS, 1998: 1043-1049
[66] T. G. Dietterich. Hierarchical reinforcement learning with the MAXQ value function
decomposition. Journal of Artificial Intelligence Research, 2000, 13: 227-303
[67] P. L. Bacon, J. Harb, D. Precup. The option-critic architecture, in: Proceedings of the
AAAI Conference on Artificial Intelligence, San Francisco, CA, USA, 04-09 Feb.
2017, AAAI, 2017: 1726-1734

138
华 中 科 技 大 学 博 士 学 位 论 文

[68] H. Estes, S. Santoso, G. Fisher. Analysis of high-resolution electric vehicle charging


on time-of-use grid demands, in: IEEE Power & Energy Society General Meeting,
Denver, CO, USA, 26-30 Jul. 2015, IEEE, 2015: 1-5
[69] M. Neaimeh, G. Hill, P. Blythe, R. Wardle, J. Yi, P. Taylor. Integrating smart meter
and electric vehicle charging data to predict distribution network impacts, in:
IEEE/PES Innovative Smart Grid Technologies Europe, Lyngby, Denmark, 06-09
Oct. 2013, IEEE, 2013: 1-5
[70] G. Razeghi, L. Zhang, T. Brown, S. Samuelsen. Impacts of plug-in hybrid electric
vehicles on a residential transformer using stochastic and empirical analysis. Journal
of Power Sources, 2014, 252: 277-285
[71] A. Ashtari, E. Bibeau, S. Shahidinejad, T. Molinski. PEV charging profile prediction
and analysis based on vehicle usage data. IEEE Transactions on Smart Grid, 2011,
3(1): 341-350
[72] 乔文娟. 基于蒙特卡洛模拟的电动汽车充电负荷预测. 华电技术, 2018, 40(06):
19-22+77
[73] R. C. Green II, L. Wang, M. Alam. The impact of plug-in hybrid electric vehicles on
distribution networks: A review and outlook. Renewable and Sustainable Energy
Reviews, 2011, 15(1): 544-553
[74] J. Munkhammar, J. Widén, J. Rydén. On a probability distribution model combining
household power consumption, electric vehicle home-charging and photovoltaic
power production. Applied Energy, 2015, 142: 135-143
[75] K. Clement-Nyns, E. Haesen, J. Driesen. The impact of charging plug-in hybrid
electric vehicles on a residential distribution grid. IEEE Transactions on Power
Systems, 2009, 25(1): 371-380
[76] A. S. Masoum, S. Deilami, P. S. Moses, A. Abu-Siada. Impacts of battery charging
rates of plug-in electric vehicle on smart grid distribution systems, in: IEEE-PES
Conference on Innovative Smart Grid Technologies Europe, Gothenburg, Sweden,
11-13 Oct. 2010, IEEE, 2010: 1-6
[77] Q. Gong, S. Midlam-Mohler, V. Marano, G. Rizzoni. Study of PEV charging on
residential distribution transformer life. IEEE Transactions on Smart Grid, 2011, 3(1):

139
华 中 科 技 大 学 博 士 学 位 论 文

404-412
[78] D. Hilshey, P. D. H. Hines, P. Rezaei, J. R. Dowds. Estimating the impact of electric
vehicle smart charging on distribution transformer aging. IEEE Transactions on
Smart Grid, 2012, 4(2): 905-913
[79] C. Weiller. Plug-in hybrid electric vehicle impacts on hourly electricity demand in the
United States. Energy Policy, 2011, 39(6): 3766-3778
[80] L. Calearo, A. Thingvad, K. Suzuki, M. Marinelli. Grid loading due to EV charging
profiles based on pseudo-real driving pattern and user behavior. IEEE Transactions
on Transportation Electrification, 2019, 5(3): 683-694
[81] 许威, 吕林, 许立雄, 向月. 基于马尔可夫链的电动汽车充电需求计算. 电力系
统及其自动化学报, 2017, 29(03): 12-19
[82] 常东胜, 蔺红. 基于马尔科夫链模拟的电动汽车充电需求分析. 现代电子技术,
2022, 45(05): 90-96
[83] 张美霞, 蔡雅慧, 杨秀, 李丽. 考虑用户充电差异性的家用电动汽车充电需求分
布分析方法. 电力自动化设备, 2020, 40(02): 154-163
[84] M. Muratori. Impact of uncoordinated plug-in electric vehicle charging on residential
power demand. Nature Energy, 2018, 3(3): 193-201
[85] D. Fischer, A. Harbrecht, A. Surmann, R. McKenna. Electric vehicles’ impacts on
residential electric local profiles–A stochastic modelling approach considering
socio-economic, behavioural and spatial factors. Applied Energy, 2019, 233: 644-658
[86] G. Doluweera, F. Hahn, J. Bergerson, M. Pruckner. A scenario-based study on the
impacts of electric vehicles on energy consumption and sustainability in Alberta.
Applied Energy, 2020, 268: 114961
[87] K. Chaudhari, N. K. Kandasamy, A. Krishnan, A. Ukil, H. B. Gooi. Agent-based
aggregated behavior modeling for electric vehicle charging load. IEEE Transactions
on Industrial Informatics, 2018, 15(2): 856-868
[88] Y. He, B. Venkatesh, L. Guan. Optimal scheduling for charging and discharging of
electric vehicles. IEEE Transactions on Smart Grid, 2012, 3(3): 1095-1105
[89] L. Yao, W. H. Lim, T. S. Tsai. A real-time charging scheme for demand response in
electric vehicle parking station. IEEE Transactions on Smart Grid, 2016, 8(1): 52-62

140
华 中 科 技 大 学 博 士 学 位 论 文

[90] B. Sun, Z. Huang, X. Tan, D. H. K. Tsang. Optimal scheduling for electric vehicle
charging with discrete charging levels in distribution grid. IEEE Transactions on
Smart Grid, 2016, 9(2): 624-634
[91] M. A. Ortega-Vazquez. Optimal scheduling of electric vehicle charging and
vehicle-to-grid services at household level including battery degradation and price
uncertainty. IET Generation, Transmission & Distribution, 2014, 8(6): 1007-1016
[92] M. G. Vayá, G. Andersson. Self scheduling of plug-in electric vehicle aggregator to
provide balancing services for wind power. IEEE Transactions on Sustainable Energy,
2015, 7(2): 886-899
[93] D. Wu, H. Zeng, C. Lu, B. Boulet. Two-stage energy management for office
buildings with workplace EV charging and renewable energy. IEEE Transactions on
Transportation Electrification, 2017, 3(1): 225-237
[94] Y. Xu, F. Pan, L. Tong. Dynamic scheduling for charging electric vehicles: A priority
rule. IEEE Transactions on Automatic Control, 2016, 61(12): 4094-4099
[95] Q. Huang, Q. S. Jia, Z. Qiu, X. Guan, G. Deconinck. Matching EV charging load with
uncertain wind: A simulation-based policy improvement approach. IEEE
Transactions on Smart Grid, 2015, 6(3): 1425-1433
[96] Y. Shi, H. D. Tuan, A. V. Savkin, T. Q. Duong, H. V. Poor. Model predictive control
for smart grids with multiple electric-vehicle charging stations. IEEE Transactions on
Smart Grid, 2018, 10(2): 2127-2136
[97] Y. Zheng, Y. Song, D. J. Hill, K. Meng. Online distributed MPC-based optimal
scheduling for EV charging stations in distribution systems. IEEE Transactions on
Industrial Informatics, 2018, 15(2): 638-649
[98] W. Yang, Y. Xiang, J. Liu, C. Gu. Agent-based modeling for scale evolution of
plug-in electric vehicles and charging demand. IEEE Transactions on Power Systems,
2017, 33(2): 1915-1925
[99] J. Neubauer, E. Wood. The impact of range anxiety and home, workplace, and public
charging infrastructure on simulated battery electric vehicle lifetime utility. Journal of
Power Sources, 2014, 257: 12-20
[100] M. Esmaili, H. Shafiee, J. Aghaei. Range anxiety of electric vehicles in energy
management of microgrids with controllable loads. Journal of Energy Storage, 2018,

141
华 中 科 技 大 学 博 士 学 位 论 文

20: 57-66
[101] H. Jahangir, S. S. Gougheri, B. Vatandoust, M. A. Golkar, A. Ahmadian, A.
Hajizadeh. Plug-in electric vehicle behavior modeling in energy market: A novel deep
learning-based approach with clustering technique. IEEE Transactions on Smart Grid,
2020, 11(6): 4738-4748
[102] H. M. Chung, S. Maharjan, Y. Zhang, F. Eliassen. Intelligent charging management
of electric vehicles considering dynamic user behavior and renewable energy: A
stochastic game approach. IEEE Transactions on Intelligent Transportation Systems,
2020, 22(12): 7760-7771
[103] A. Alsabbagh, B. Wu, C. Ma. Distributed electric vehicles charging management
considering time anxiety and customer behaviors. IEEE Transactions on Industrial
Informatics, 2020, 17(4): 2422-2431
[104] Z. Wan, H. Li, H. He, D. Prokhorov. Model-free real-time EV charging scheduling
based on deep reinforcement learning. IEEE Transactions on Smart Grid, 2018, 10(5):
5246-5257
[105] N. Sadeghianpourhamami, J. Deleu, C. Develder. Definition and evaluation of
model-free coordination of electrical vehicle charging with reinforcement learning.
IEEE Transactions on Smart Grid, 2019, 11(1): 203-214
[106] S. Wang, S. Bi, Y. A. Zhang. Reinforcement learning for real-time pricing and
scheduling control in EV charging stations. IEEE Transactions on Industrial
Informatics, 2019, 17(2): 849-859
[107] A. Chiş, J. Lundén, V. Koivunen. Reinforcement learning-based plug-in electric
vehicle charging with forecasted price. IEEE Transactions on Vehicular Technology,
2016, 66(5): 3674-3684
[108] K. L. López, C. Gagné, M. A. Gardner. Demand-side management using deep
learning for smart charging of electric vehicles. IEEE Transactions on Smart Grid,
2018, 10(3): 2683-2691
[109] F. Zhang, Q. Yang, D. An. CDDPG: A deep-reinforcement-learning-based approach
for electric vehicle charging control. IEEE Internet of Things Journal, 2020, 8(5):
3075-3087
[110] H. Li, Z. Wan, H. He. Constrained EV charging scheduling based on safe deep

142
华 中 科 技 大 学 博 士 学 位 论 文

reinforcement learning. IEEE Transactions on Smart Grid, 2019, 11(3): 2427-2439


[111] C. Sabillón Antúnez, J. F. Franco, M. J. Rider, R. Romero. A new methodology for
the optimal charging coordination of electric vehicles considering vehicle-to-grid
technology. IEEE Transactions on Sustainable Energy, 2016, 7(2): 596-607
[112] J. F. Franco, M. J. Rider, R. Romero. A mixed-integer linear programming model for
the electric vehicle charging coordination problem in unbalanced electrical
distribution systems. IEEE Transactions on Smart Grid, 2015, 6(5): 2200-2210
[113] L. Hua, J. Wang, C. Zhou. Adaptive electric vehicle charging coordination on
distribution network. IEEE Transactions on Smart Grid, 2014, 5(6): 2666-2675
[114] D. Said, H. T. Mouftah. A novel electric vehicles charging/discharging management
protocol based on queuing model. IEEE Transactions on Intelligent Vehicles, 2019,
5(1): 100-111
[115] V. Aravinthan, W. Jewell. Controlled electric vehicle charging for mitigating impacts
on distribution assets. IEEE Transactions on Smart Grid, 2015, 6(2): 999-1009
[116] N. I. Nimalsiri, C. P. Mediwaththe, E. L. Ratnam, M. Shaw, D. B. Smith, S. K.
Halgamuge. A survey of algorithms for distributed charging control of electric
vehicles in smart grid. IEEE Transactions on Intelligent Transportation Systems, 2019,
21(11): 4497-4515
[117] N. Rahbari-Asr, M. Y. Chow. Cooperative distributed demand management for
community charging of PHEV/PEVs based on KKT conditions and consensus
networks. IEEE Transactions on Industrial Informatics, 2014, 10(3): 1907-1916
[118] Y. Mou, H. Xing, Z. Lin, M. Fu. Decentralized optimal demand-side management for
PHEV charging in a smart grid. IEEE Transactions on Smart Grid, 2014, 6(2):
726-736
[119] A. Ghavami, K. Kar, A. Gupta. Decentralized charging of plug-in electric vehicles
with distribution feeder overload control. IEEE Transactions on Automatic Control,
2016, 61(11): 3527-3532
[120] J. Li, C. Li, Y. Xu, Z. Y. Dong, K. P. Wong, T. Huang. Noncooperative game-based
distributed charging control for plug-in electric vehicles in distribution networks.
IEEE Transactions on Industrial Informatics, 2016, 14(1): 301-310
[121] A. Alsabbagh, H. Yin, C. Ma. Distributed electric vehicles charging management

143
华 中 科 技 大 学 博 士 学 位 论 文

with social contribution concept. IEEE Transactions on Industrial Informatics, 2019,


16(5): 3483-3492
[122] M. A. Tajeddini, H. Kebriaei. A mean-field game method for decentralized charging
coordination of a large population of plug-in electric vehicles. IEEE Systems Journal,
2018, 13(1): 854-863
[123] X. Zhou, S. Zou, P. Wang, Z. Ma. ADMM-based coordination of electric vehicles in
constrained distribution networks considering fast charging and degradation. IEEE
Transactions on Intelligent Transportation Systems, 2020, 22(1): 565-578
[124] S. Stüdli, E. Crisostomi, R. Middleton, R. Shorten. A flexible distributed framework
for realising electric and plug-in hybrid vehicle charging policies. International
Journal of Control, 2012, 85(8): 1130-1145
[125] O. Ardakanian, S. Keshav, C. Rosenberg. Real-time distributed control for smart
electric vehicle chargers: From a static to a dynamic study. IEEE Transactions on
Smart Grid, 2014, 5(5): 2295-2305
[126] F. Tuchnitz, N. Ebell, J. Schlund, M. Pruckner. Development and evaluation of a
smart charging strategy for an electric vehicle fleet based on reinforcement learning.
Applied Energy, 2021, 285: 116382
[127] T. Ding, Z. Zeng, J. Bai, B. Qin, Y. Yang, M. Shahidehpour. Optimal electric vehicle
charging strategy with Markov decision process and reinforcement learning technique.
IEEE Transactions on Industry Applications, 2020, 56(5): 5811-5823
[128] J. Jin, Y. Xu. Optimal policy characterization enhanced actor-critic approach for
electric vehicle charging scheduling in a power distribution network. IEEE
Transactions on Smart Grid, 2020, 12(2): 1416-1428
[129] F. L. D. Silva, C. E. H. Nishida, D. M. Roijers, A. H. R. Costa. Coordination of
electric vehicle charging through multiagent reinforcement learning. IEEE
Transactions on Smart Grid, 2019, 11(3): 2347-2356
[130] B. Zhou, W. Li, K. W. Chan, Y. Cao, Y. Kuang, X. Liu, et al. Smart home energy
management systems: Concept, configurations, and scheduling strategies. Renewable
and Sustainable Energy Reviews, 2016, 61: 30-40
[131] N. G. Paterakis, O. Erdinç, A. G. Bakirtzis, J. P. S. Catalão. Optimal household
appliances scheduling under day-ahead pricing and load-shaping demand response

144
华 中 科 技 大 学 博 士 学 位 论 文

strategies. IEEE Transactions on Industrial Informatics, 2015, 11(6): 1509-1519


[132] A. Anvari-Moghaddam, H. Monsef, A. Rahimi-Kian. Optimal smart home energy
management considering energy saving and a comfortable lifestyle. IEEE
Transactions on Smart Grid, 2014, 6(1): 324-332
[133] Y. Du, L. Jiang, Y. Li, Q. Wu. A robust optimization approach for demand side
scheduling considering uncertainty of manually operated appliances. IEEE
Transactions on Smart Grid, 2016, 9(2): 743-755
[134] Z. Chen, L. Wu, Y. Fu. Real-time price-based demand response management for
residential appliances via stochastic optimization and robust optimization. IEEE
Transactions on Smart Grid, 2012, 3(4): 1822-1831
[135] X. Wu, X. Hu, S. Moura, X. Yin, V. Pickert. Stochastic control of smart home energy
management with plug-in electric vehicle battery energy storage and photovoltaic
array. Journal of Power Sources, 2016, 333: 203-212
[136] M. Shafie-Khah, P. Siano. A stochastic home energy management system considering
satisfaction cost and response fatigue. IEEE Transactions on Industrial Informatics,
2017, 14(2): 629-638
[137] Y. Huang, L. Wang, W. Guo, Q. Kang, Q. Wu. Chance constrained optimization in a
home energy management system. IEEE Transactions on Smart Grid, 2016, 9(1):
252-260
[138] F. Luo, W. Kong, G. Ranzi, Z. Y. Dong. Optimal home energy management system
with demand charge tariff and appliance operational dependencies. IEEE
Transactions on Smart Grid, 2019, 11(1): 4-14
[139] R. Lu, S. H. Hong, M. Yu. Demand response for home energy management using
reinforcement learning and artificial neural network. IEEE Transactions on Smart
Grid, 2019, 10(6): 6629-6639
[140] L. Yu, W. Xie, D. Xie, Y. Zou, D. Zhang, Z. Sun, et al. Deep reinforcement learning
for smart home energy management. IEEE Internet of Things Journal, 2019, 7(4):
2751-2762
[141] E. Mocanu, D. C. Mocanu, P. H. Nguyen, A. Liotta, M. E. Webber, M. Gibescu, et al.
On-line building energy optimization using deep reinforcement learning. IEEE
Transactions on Smart Grid, 2018, 10(4): 3698-3708

145
华 中 科 技 大 学 博 士 学 位 论 文

[142] X. Xu, Y. Jia, Y. Xu, Z. Xu, S. Chai, C. Lai. A multi-agent reinforcement


learning-based data-driven method for home energy management. IEEE Transactions
on Smart Grid, 2020, 11(4): 3201-3211
[143] H. Li, Z. Wan, H. He. Real-time residential demand response. IEEE Transactions on
Smart Grid, 2020, 11(5): 4144-4154
[144] T. Sousa, T. Soares, P. Pinson, F. Moret, T. Baroche, E. Sorin. Peer-to-peer and
community-based markets: A comprehensive review. Renewable and Sustainable
Energy Reviews, 2019, 104: 367-378
[145] W. Tushar, T. K. Saha, C. Yuen, D. Smith, H. V. Poor. Peer-to-peer trading in
electricity networks: An overview. IEEE Transactions on Smart Grid, 2020, 11(4):
3185-3200
[146] J. L. Crespo-Vazquez, T. AlSkaif, Á. M. González-Rueda, M. Gibescu. A
community-based energy market design using decentralized decision-making under
uncertainty. IEEE Transactions on Smart Grid, 2020, 12(2): 1782-1793
[147] M. R. Alam, M. St-Hilaire, T. Kunz. Peer-to-peer energy trading among smart homes.
Applied Energy, 2019, 238: 1434-1443
[148] L. Ma, N. Liu, J. Zhang, L. Wang. Real-time rolling horizon energy management for
the energy-hub-coordinated prosumer community from a cooperative perspective.
IEEE Transactions on Power Systems, 2018, 34(2): 1227-1242
[149] S. Zhou, F. Zou, Z. Wu, W. Gu, Q. Hong, C. Booth. A smart community energy
management scheme considering user dominated demand side response and P2P
trading. International Journal of Electrical Power & Energy Systems, 2020, 114:
105378
[150] N. Liu, X. Yu, C. Wang, C. Li, L. Ma, J. Lei. Energy-sharing model with price-based
demand response for microgrids of peer-to-peer prosumers. IEEE Transactions on
Power Systems, 2017, 32(5): 3569-3583
[151] M. Zhang, F. Eliassen, A. Taherkordi, H. A. Jacobsen, H. M. Chung, Y. Zhang.
Energy trading with demand response in a community-based P2P energy market, in:
IEEE International Conference on Communications, Control, and Computing
Technologies for Smart Grids, Beijing, China, 21-23 Oct. 2019, IEEE, 2019: 1-6
[152] S. Lilla, C. Orozco, A. Borghetti, F. Napolitano, F. Tossani. Day-ahead scheduling of

146
华 中 科 技 大 学 博 士 学 位 论 文

a local energy community: An alternating direction method of multipliers approach.


IEEE Transactions on Power Systems, 2019, 35(2): 1132-1142
[153] M. H. Ullah, J. D. Park. Peer-to-peer energy trading in transactive markets
considering physical network constraints. IEEE Transactions on Smart Grid, 2021,
12(4): 3390-3403
[154] C. Long, J. Wu, C. Zhang, L. Thomas, M. Cheng, N. Jenkins. Peer-to-peer energy
trading in a community microgrid, in: IEEE Power & Energy Society General
Meeting, Chicago, IL, USA, 16-20 Feb. 2017, IEEE, 2017: 1-5
[155] T. Chen, W. Su. Indirect customer-to-customer energy trading with reinforcement
learning. IEEE Transactions on Smart Grid, 2018, 10(4): 4338-4348
[156] X. Lu, X. Xiao, L. Xiao, C. Dai, M. Peng, H. V. Poor. Reinforcement learning-based
microgrid energy trading with a reduced power plant schedule. IEEE Internet of
Things Journal, 2019, 6(6): 10728-10737
[157] R. Lu, S. H. Hong, X. Zhang. A dynamic pricing demand response algorithm for
smart grid: reinforcement learning approach. Applied Energy, 2018, 220: 220-230
[158] X. Xu, Y. Xu, M. H. Wang, J. Li, Z. Xu, S. Chai, et al. Data-driven game-based
pricing for sharing rooftop photovoltaic generation and energy storage in the
residential building cluster under uncertainties. IEEE Transactions on Industrial
Informatics, 2020, 17(7): 4480-4491
[159] C. Zhang, S. R. Kuppannagari, C. Xiong, R. Kannan, V. K. Prasanna. A cooperative
multi-agent deep reinforcement learning framework for real-time residential load
scheduling, in: ACM/IEEE International Conference on Internet of Things Design
and Implementation, Montreal, Canada, 15-18 Apr. 2019, ITDI, 2019: 59-69
[160] J. Sun, Y. Zheng, J. Hao, Z. Meng, Y. Liu. Continuous multiagent control using
collective behavior entropy for large-scale home energy management, in Proceedings
of the AAAI Conference on Artificial Intelligence, New York, NY, USA, 07-12 Feb.
2020, AAAI, 2020: 922-929
[161] D. Qiu, Y. Ye, D. Papadaskalopoulos, G. Strbac. Scalable coordinated management
of peer-to-peer energy trading: A multi-cluster deep reinforcement learning approach.
Applied Energy, 2021, 292: 116940
[162] Y. Ye, Y. Tang, H. Wang, X. P. Zhang, G. Strbac. A Scalable Privacy-Preserving

147
华 中 科 技 大 学 博 士 学 位 论 文

Multi-Agent Deep Reinforcement Learning Approach for Large-Scale Peer-to-Peer


Transactive Energy Trading. IEEE Transactions on Smart Grid, 2021, 12(6):
5185-5200
[163] S. Makonin. HUE: The hourly usage of energy dataset for buildings in British
Columbia. Data in brief, 2019, 23: 103744
[164] R. T. Clemen, T. Reilly. Making hard decisions with DecisionTools. Cengage
Learning, 2013
[165] California Independent System Operator. http://oasis.caiso.com/mrioasis/logon.do
[166] L. Yu, Y. Sun, Z. Xu, S. Chao, Y. Dong, J. Tao, et al. Multi-agent deep reinforcement
learning for HVAC control in commercial buildings. IEEE Transactions on Smart
Grid, 2020, 12(1): 407-419
[167] N. Lu. An evaluation of the HVAC load potential for providing load balancing
service. IEEE Transactions on Smart Grid, 2012, 3(3): 1263-1270
[168] Australian Government. Rainfall, temperature and wind forecast and observations.
https://data.gov.au/data/dataset/rainfall-and-temperature-forecast-and-observations-ve
rification-2017-05-to-2018-04.
[169] Watt ever. Time of use periods by electricity network. https://wattever.com.au/ti
me-of-use-periods-electricity-network/
[170] Energy Australia. Solar rebates and feed-in tariffs. https://www.energyaustralia.c
om.au/home/electricity-and-gas/solar-power/feed-in-tariffs.
[171] E. L. Ratnam, S. R. Weller, C. M. Kellett, A. T. Murray. Residential load and rooftop
PV generation: an Australian distribution network dataset. International Journal of
Sustainable Energy, 2017, 36(8): 787-806

148

You might also like