第45卷第5期 中国电机工程学报 Vol.45 No.5 Mar.5 2025 2025年3月5日 Proceedings of the CSEE C2025 Chin.Soc.for Elec.Eng 1729 DOI:10.13334/j.0258-8013.pcsee.231908文章编号:0258-8013 (2025)05-1729-12中图分类号:TM73;TP18文献标识码:A 基于多智能体深度强化学习的 配电网三相不平衡在线治理方法 李彬贤1,李佳勇,海征,万灿3,朱利鹏,张聪,李杨1 (1.湖南大学电气与信息工程学院,湖南省长沙市410082:2.国网郑州供电公司,河南省郑州市450052; 3.浙江大学电气工程学院,浙江省杭州市310058) Online Mitigation Method for Three-phase Imbalance in Distribution Network Based on Multi-agent Deep Reinforcement Learning S I NVHZ Z NMSZ IHSuo 1 ux 1 (1. College of Electrical and Infomation Engineering Hunan University Changsha 410082 Hunan Province China; 2. Zhengzhou Power Supply Company of State Grid Zhengzhou 450052 Henan Province China; 3. College of Electrical Engineering Zhejiang University Hangzhou 310058 Zhejiang Province China) ABSTRACT: With the growing integration of distributed efficient coordinated mitigation of three-phase imbalance in energy resources the phenomenon of thre-phase imbalance in DN. The peoposed approuch is tested in the modified IEEE the distribution network (DN) bees inereasingly prominent 123-bus DN. Through parison with four other benchmark posing significant threats to the secure stable and economic approaches the effectiveness and superiority of the proposed operation of DNs. To resolve this issue this paper proposes an method in three-phase imbalances mitigation are verified. online three-phase imbalance mitigation method using KEY wORDS: distribution network; distributed cenergy distributed photovoltaic (PV) for DNs based on multi-agent resource; three-phase imbalance; reinforcement leaming deep reinforcement learning. First the causes of three-phase 摘要:随着分布式电源的并网规模不断增加,配电网三相不 imbalance in DNs are analyzed and the collaborative goals for 平衡现象日益突出,对配电网的安全、稳定与经济运行造成 three-phase imbalance mitigation are proposed. Then by 了重大成胁.
针对此问题,以分布式光伏为控制对象,提出 dividing the DN into multiple regions according to 一种基于多智能体深度强化学习的配电网三相不平衡在线治 geographical location and assigning a PV action strategy 理方法.
首先,分析配电网三相不平衡的成因,提出三相不 learning agent for each region a multi-agent coordinated 平衡协同治理目标.
其次,通过将配电网按照地理位置划分 framework for three-phase imbalance mitigation is established. 为多个区域,且在各区域设立一区域内光伏动作策略学习智 Subsequently based on the multi-actor-attention-critic 能体,建立配电网三相不平衡多智能体协调治理架构.
然后, e aog we Sun pozge e po (v) 基于多智能体注意力动作-评价(muli-actor-attention-critic, action strategy is proposed to achieve coordinated optimization MAAC)方法,提出智能体动作策略集中训练算法,实现配电 of action strategies for a large number of geographically 网内海量分散光伏系统动作策略的协调优化.
最后,将训练 dispersed PV systems. Finally the welltrained action network 好的动作网络部署到各区域,基于区域内实时观测信总在线 is deployed in each region and the PV system action 生成光伏系统动作指令,实现了配电网三相不平衡分布式高 instructions are generated online based on the real-time 效协同治理,利用改进的IEE123节点配电系统对所提方法 regional observation information realizing the distributed 进行仿真分析,通过与其他4种典型方法对比,验证了所提 方法在三相不平衡治理方面的有效性与优越性.
基金项目:国家自然科学基金项日(S2377095 ); 湖南省科技创新计划项日(2023RC3114);博士后创新型人才支持计划项 关键词:配电网:分布式资源:三相不平衡:强化学习 H(BX20220100)- Project Supported by National Natunal Science Foundation of China 0引言 ( S2207094); The Scicce and Technology Innovatice 在“双碳”目标和整县光伏政策的驱动下,高 Program of Hunan Province(2023RC3114); Postdoctoral Innovatin Talents Suppoet Program of China (BX20220100). 比例分布式新能源接入配电网已成为我国能源发
1730 中国电机工程学报 第45卷 展的重要方向.
然而,分布式光伏规模化并网会对考虑节点电压偏差、网络损耗、微网功率调节变化 配电网的安全可靠运行带来一系列新的挑战.
具体量等多个优化目标,建立了一种主动配电网协调优 而言,光伏出力的随机性与波动性会造成配电网电 化模型,并采用深度确定性策略梯度(deep 压频繁波动,大幅增加系统电压的越限风险!
.并 deterministic policy gradient,DDPG)算法实现了配电 且由于配电网中负荷三相分布不均衡,配电网存在 网优化运行.
文献[12]提出一种基于柔性动作-评价 不同程度的电压与电流三相不平衡现象,而高比例 (soft actor-critic,SAC)网络的 DRL 算法,用于优化 分布式光伏的接入则进一步加剧了三相不平衡程 配电网电压控制的离线策略,与基于物理建模法相 度.
为有效解决上述问题,重需研究含高比例分布 比,可以实现更低的网络损耗.
虽然上述单智能体 式光伏的新型配电网三相不平衡在线治理方法,实 DRL方法可以应对配电网复杂的动态运行环境,实 现电压与电流三相不平衡的高效协同治理.
现较好的控制效果,但控制策略均以集中式方法执 目前,配电网中常见的三相不平衡治理方法 行,需要高度可靠的通信网络来传输系统全局观测 有:网络重构-3、负荷换相、传统无功补偿、 信息,并依赖中央控制器集中调控分布式资源,因 逆变器无功调节以及储能调度等.
除网络重 此这类方法对计算能力与通信手段的要求较高.
随 构外,其他方法均是通过对分布式资源的协同调 着控制设备数量的快速增长,这类DRL方法还存在 控,实现配电网三相不平衡的有效治理.
配电网分 学习速度较慢、Q值估计过高及训练不稳定等问题.
布式资源协同调控的本质是1个高维、时变、非线 为解决上述间题,学者提出多智能体深度强化学习 性最优控制问题.
按建模方法分,可分为基于物理 方法.
比较有代表性的,文献[13]提出一种基于策略 建模法2-10和数据驱动法114两大类.
梯度求解的多智能体DDPG(multi-agentDDPG, 基于物理建模法的控制策略通常将分布式资 MADDPG算法,实现了含高比例分布式电源配电网 源的协同调控建模成最优潮流问题,在保障配电网 电压的高效控制.
文献[14]考虑时空尺度的不确定 安全运行的前提下,以系统三相不平衡程度最低为 性,提出一种基于MADDPG算法的配电网区域协 目标来优化各类可调设备的控制参数.
由于该类 调电压控制方法,有效降低了节点电压偏差和网络 问题通常为非凸问题,学者们一般采用粒子群等启 功率损耗.
虽然多智能体深度强化学习方法可以实 发式算法2或凸化/线性化等模型简化法36进行 现多智能体分布自治,但是此类方法目前仅仅应用 求解.
比较有代表性的,文献[7]利用粒子群算法实 于三相平衡的配电网电压控制领域,尚未拓展到配 现了开关智能换相,有效解决了配电网三相不平衡 电网三相不平衡在线治理领域.
问题:文献[8]针对配电网电压三相不平衡间题,提 为有效解决中低压配电网的三相不平衡问题, 出了1种基于线性规划的中低压配电网无功优化方 本文提出一种基于多智能体深度强化学习的配电 法.
虽然上述2类方法可以一定程度上改善配电网 网三相不平衡在线治理方法.
本文在配电网三相不 三相不平衡程度,但是启发式算法无法保证结果为 平衡治理的物理模型基础上,采用多智能体注意力 全局最优,极易陷入局部最优,而凸化或线性化等 动作-评价(multi-actor-attention-critic,MAAC)算法 模型简化法假定拓扑结构、线路参数、分布式资源 将多区域协同的配电网三相不平衡治理模型转化 与负荷状态等信息全局可知,因而难以适用于状态 为1个含有多个智能体的部分可观测的马尔可夫决 快速变化的含高比例分布式电源的新型配电网.
策过程:在此基础上搭建1个集中式训练-分布式执 近年来,机器学习、强化学习等数据驱动方法 行的框架,协同训练各区域智能体.
并且在MAAC 的快速选代更新,为各种复杂动态系统的控制和决 算法中引入了注意力机制,从面有效提升模型对全 策提供1种新的思路,其中,深度强化学习(decp 局关键信息的筛选与挖掘能力,显著提升对配电网 reinforcement learning,DRL)是解决上述难题的1种 不平衡程度的补偿能力.
最后通过仿真算例验证本 行而有效的方法.
在涉及高维状态空间的模型中, 文所提方法的有效性和优越性.
传统强化学习方法存在“维数灾”问题,极大地限 1配电网三相不平衡分析 制了其在配电网中的实际应用,因此,学者们提出 深度强化学习方法来解决上述“维数灾”问题.
针 如引言所述,中低压配电网普遍存在三相不平 对配电网调压设备连续动作控制问题,文献[11]综合 衡的现象,具体表现为各支路三相电流以及各节点
第5期 李彬贤等:基于多智能体深度强化学习的配电网三相不平衡在线治理方法 三相电压幅值不等、相位差不等于120°.
造成这种 流分量:P和Q分别为通过输配联络节点g相的有 配电网电压与电流三相不平衡的主要原因包括线 功和无功功率:U为p相电压幅值,α=ex2=3.
路参数的不对称以及负载和分布式电源的不均衡 2基于MAAC的三相不平衡在线治理 分布.
由于配电线路不进行三相循环换位,线路的 在研究配电网三相不平衡问题时,系统未来状 自阻抗与互阻抗都不相等,导致无法使用对称分量 态仅与当前状态和动作有关,而与前序的状态无 法进行解耦分析.
同时,负荷与分布式电源三相分 关,因此适合用强化学习方法进行分析.
现有的强 布不均衡,导致各节点三相注入功率不相等以及各 化学习方法大致分为集中式与分布式2类.
集中式 线路上的三相潮流不一致,进一步加剧了配电网的 方法由1个光伏系统管理器控制配电网内的光 三相不平衡问题.
伏逆变器,但由于配电网规模庞大、运行状态复杂, 配电网三相不平衡会导致电力设备过热,寿命 仅通过单一智能体对整个配电网的状态进行观测 缩短,线损增加,电能质量降低,甚至可能导致保 在实际工程应用中难以实现.
完全分布式方法则 护设备误动作,增大了停电风险,对电力系统的安 全、稳定和经济运行造成重大威胁s-16.
因此,为 为每个光伏逆变器设置了1个独立决策的智能体, 但这类方法存在性能不稳定和学习效率低下的间 保证配电系统安全稳定运行,节点电压不平衡度必 题,算法收敛性差".本文在上述2类方法基础上, 须保持在给定阔值以下,并且需要尽可能降低输配 根据地理位置,以园区为单位,将配电网划分为多 联络节点处的三相电流不平衡度,防止三相不平衡 个区域,在各区域内设置1个区域光伏系统管理器 现象往输电网进行传播.
本文采用IEEE141-1993标准来对电压不 对区域内光伏逆变器进行协同调控,采用多智能体 平衡度进行量化,即: 深度强化学习方法进行求解分析.
所提方法介于集 中式与完全分布式之间,既提高了智能体训练的效 max 率,又兼顾了实际工程应用的可行性.
%=- x100%(1) 2.1基于MAAC的三相不平衡在线治理架构 式中:U为节点i的相电压均值:U为节点1 本文利用MAAC算法求解配电网三相不平衡 的p相电压幅值.
治理模型,采用“集中式训练-分布式执行”的学习 为保证配电网的电压不平衡程度在安全范围 框架,搭建了基于MAAC的三相不平衡在线治理 内,各节点电压不平衡度需满足: 架构,如图1所示.
该架构由智能体和环境组成, 环境是三相不对称配电系统,智能体是各区域的光 u ≤2 (2) 伏系统管理器.
环境随时间不断改变状态,智能体 此外,配电网的电压幅值也需要满足系统要 对这些状态进行观测,并根据新的观测信息实时调 求,如式(3)所示.
整光伏逆变器无功出力,从而改变配电网的潮流分 0.95 ≤U .
≤1.05 (3) 布,改善整个系统的电压分布和三相不平衡程度, 本文还考虑了电流的不平衡性.
在满足式(2)、 实现配电网三相不平衡的在线治理.
(3)的要求后,最小化输配联络节点的零序与负序电 其具体步骤为:首先,利用部署在配电网的传 流分量之和,如式(4)所示,进一步降低配电网的三 感器动态采集并存储配电网各节点的电压幅值、有 相不平衡程度.
由于输配联络节点电压可视为三相 功负荷、无功负荷、光伏逆变器有功出力等状态观 测信息与光伏递变器的无功出力等动作信息.
然 平衡,零序和负序电流分量可由式(5)计算获得.
后,采用集中式训练方法,随机抽取存储的数据, min(||] (4) 对光伏系统管理器的动作网络与评价网络进行训 f = - =(P-iQaR-iaP-jQ) 练,分别用于决策光伏递变器的实时动作与评价当 u.
1 前动作的优劣.
最后,各区域的光伏系统管理器利 (5) =(-iQaB-i²P-iQ) 用训练好的动作网络,根据实际环境运行状态,采 用分布式方式确定各自的动作指令,并下发给区域 式中:bo、分别为输配联络节点的零序和负序电 内各个光伏逆变器进行无功出力实时调整,实现对
1732 第45卷 状态 三租 环境 观测信息 不对称 区域 区域m 负有功 状态 尼网 (oa) (0m.a) 负无功 分布式 三相线路 光状出力 丙相线路 节点 单相线路 各区城部署 电压幅信 光伙安装位置 个智的体 智能体m 智能体 智能体 风政域冲区 更新 最小化 作 最大化 批量采样 参数 损失通数(6) 策略梯度 参数 注意力机制 软更新 目标 软更新 评价网络 评价网络/ 函数: 动作网络/ 动作网络/ 评价网络部分 动作网络部分 集中式调练 分布式执行 图1基于MAAC的三相不平衡在线治理架构 Fig. 1 Three-phase imbalance online management framework based on MAAC 配电网电压幅值、电压三相不平衡度和电流三相不 别表示配电网区域m内节点的有功负荷、无功负 平衡等多个目标的协同优化.
在执行阶段,各智能 荷、光伏系统的有功功率、无功功率及节点电压幅 体都以独立决策的方式确定动作策略,只需采集对 值.
联合观测空间O=o }则包含了智能 应区域内的状态观测信息即可做出决策,无需与其 体的观测信息,因此在部分可观测配电网中OcS.
他智能体进行通信,从而保障了三相不平衡在线治 2)动作空间:考虑到光伏逆变器的无功功率 理的可行性.
连续可调,各智能体的动作空间可表示为a= 2.2马尔可夫决策过程建模 {aca:-1≤a≤1),其中a表示区域m内光 本文将基于光伏逆变器协同调控的配电网三 伏逆变器的动作集合,a表示为该区域内第k个光 相不平衡治理问题建模成1个含多智能体的部分可 伏逆变器的无功调节量与其最大无功可调出力的 观测的马尔可夫决策过程(partiallyobservable 比值,即a=9/√(sx)²-(p)}².
若a>0,则 markov decision process,POMDP|2,并用1个八 向配电网注入无功功率,反之则吸收无功功率.
元组来描述:(G S O A P r p Y),其中,G为智 3)状态转移概率函数:由于配电网下一时刻 能体集合,S为状态空间集合,O为联合观测空间 的状态只取决于当前时刻的状态及当前策略下所 集合,A为联合动作空间集合,P:SxAxS→[0 1] 采取的动作,因此状态转移概率函数P:Sx 为状态转移概率函数,r为奖励函数,p为初始状态 AxS→[0 ]服从马尔可夫决策过程.
状态转移概 的概率函数,(0 1)为折扣因子,用以平衡即时奖 率函数量化了2个部分不确定性,包括光伏系统动 励和未来奖励的权重.
下面对状态与观测空间、动 作的不确定性和配电网负荷及光伏有功出力波动 作空间、状态转移函数和奖励函数等组成部分进行 的环境不确定性.
本文采用文献[21]所提的前推回 具体描述: 代法得到的潮流计算结果用于模拟配电网的实际 1)状态与观测空间:状态集包含了三相不对 运行工况,且在模型训练全过程中,状态转移关系 称配电网的全局状态信息,记为S=LxPxQxV.
满足电路基本定律.
其中,L={p,q}为配电网内节点有功负荷和 4)奖励函数:如上文所述,本文综合考虑配 无功负荷集合:P={p和Q={q}分别为配电网 电网电压幅值、电压三相不平衡度与电流三相不平 内光伏系统的有功功率与无功功率集合: 衡度3个控制目标,设计了式(6)的智能体奖励函 U={u为配电网节点电压幅值集合.
各智能 数.
该奖励函数由3个部分组成:节点电压幅值越 体的状态信息可用局部测量信息表示,记为0= 限惩罚项R,电压不平衡度越限惩罚项Rv,以及 {pq,P,q,u}.
其中,p,q,p,qu分 三相不平衡电流的零序和负序分量之和R.
智
第5期 李彬贤等:基于多智能体深度强化学习的配电网三相不平衡在线治理方法 1733 能体共享1个奖励函数r.
性.
同时,为鼓励各智能体积极探索未知空间,避 r=-K R-K,RuyK(R-R ) (6) 免过早收敛到非最优策略,评价网络还加入策略 项,即-In[x²(ao)]. 式中R为三相不平衡电流基准值:假设配电网各节 MAAC算法的损失函数如式(11)所示,用来量 点电压幅值及电压不平衡度均在安全范围内,若选 化评价网络评估的价值2(o a)和预期累计奖励y 代过程中通过输配联络节点的零序与负序电流分 之间的差异,其中预期累计奖励y利用贝尔曼方程 量之和小于所设基准值,则函数值为正,反之为负.
结合策略项计算得到,如式(12)所示.
评价网络 K、K、K分别为节点电压越限、电压不平衡度越 通过最小化损失函数L(6进行选代更新.
具体表现 限与输配联络节点不平衡电流的权重系数.
为:在集中训练阶段中,根据三相不对称配电网的 R的表达式如式(7)所示: 观测状态和区域光伏系统管理器的动作指令,衡量 R =|]|| (7) 区域光伏系统管理器当前动作策略的优劣,并不断 式中I、分别为输配联络节点的零序与负序电流 提升动作评价的准确性与稳定性.
分量,由式(5)计算所得.
本文依据电压越限量设计了节点电压幅值越 限惩罚项Ru,如式(8)所示: y=r(0 a)yB(Q(0 a)- R=∑(UU) (8) βln[x²(a1 o)]} (12) 式中:N为配电网中三相节点电压的集合: 式中:M为整个系统的智能体总数:T1表示期望 U、U分别为三相节点i的相电压超过上限 值:D表示经验回放缓冲区,用以存储智能体与环 与下限的程度,由式(9)计算得到.
境交互产生的经验数据(o a r 6):r为奖励值,由 式(6)计算得到:6为动作后新观测到的状态:为 U =max(|U1.05 0) 智能体m的目标动作网络参数:βB为正则化系数, (9) =max(0.95|0) 用以控制的重要程度.
值得注意的是MAAC算法在评价网络部分引 电压不平衡度越限惩罚项Ruv可以设计为 入了注意力机制2-24,使得每个智能体在状态-动作 Ruv =max(||2.0 0) (10) 评价函数Q(oa)估计过程中有选择性地关注其他区 式中U为三相节点i的电压不平衡度,可由式(1) 域智能体的关键信息,提高了对三相不对称配电网 计算得到.
的全局信息挖掘能力,从面提升了配电网三相不平 2.3MAAC智能体网络结构搭建 衡的综合治理效果.
图2给出了引入注意力机制的 基于上述的马尔可夫决策过程建模,对MAAC 多智能体状态-动作评价网络示意.
从图2中可以看 智能体的评价网络和动作网络进行搭建.
出,智能体m的状态-动作评价函数Q(o a)的计算 2.3.1评价网络部分 0.a) 每个智额体特有供息 在本文提出的三相不平衡在线治理架构下,根 智能体共享信息 据MAAC算法搭建评价网络,用以评估区域光伏 MLP 系统管理器在各种状态下决策动作的优劣,指导光 伏逆变器动作策略的选择.
MAAC算法中智能体评价网络的输入为配电 暗放点权 网局部环境观测状态o和光伏逆变器动作a,输出 注意力头 M 为衡量智能体对应动作策略优劣的状态-动作评价 /e MLP 函数Q(o a)的估计值,待优化参数为评价网络参 数9与目标评价网络参数6.
每个智能体的评价网 4s 络包括主评价网络和目标评价网络,目标评价网络 图2基于注意力机制的Q评价网络 的作用是为了提高评价网络训练的稳定性和收敛 Fig. 2 Attention mechanism based Q value network