编者按
光伏(photovoltaic,PV)在主动配电网(active distribution network,ADN)中比重的提升可能引发严重的电压越限问题。此外,由于配电线路阻抗大,有功、无功功率之间存在较强的耦合关系。因此考虑经济性和安全性,需要同时优化ADN中的有功及无功资源。
《中国电力》2024年第3期刊发了焦昊等人撰写的《基于安全强化学习的主动配电网有功-无功协调优化调度》一文。文章提出一种基于离线策略的安全强化学习方法来解决ADN有功-无功协调优化问题。首先,基于ADN拓扑结构、线路和设备参数等信息构建约束马尔可夫决策过程(constrained markov decision process,CMDP)。在马尔可夫决策过程(markov decision process,MDP)的基础上添加了成本函数,规避了MDP模型难以处理约束的弊端;其次,以深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)为基础提出基于原始对偶的安全强化学习方法(primal dual DDPG,PD-DDPG);最后,结合ADN海量历史样本数据进行离线训练,获得ADN最优有功无功优化调度策略。所提方法能够满足配电网络运行约束,具有更高的安全性。
摘要
提出一种基于离线策略的安全强化学习方法,通过离线训练大量配电网历史运行数据,摆脱了传统优化方法对完备且准确模型的依赖。首先,结合配电网络参数信息,建立了基于约束马尔可夫决策过程的有功无功优化模型;其次,基于原始对偶优化法设计了新型安全强化学习方法,该方法在最大化未来折扣奖励的同时最小化成本函数;最后,在配电系统上进行仿真。仿真结果表明:所提方法能够根据配电网实时观测信息,在线生成满足复杂约束条件且具有经济效益的调度策略。
01 强化学习模型
1.1 ADN有功-无功协调调度模型
1.1.1 目标函数
本文从经济性出发,协调控制可投切电容器组(switchable capacitor banks,SCB)、有载调压变压器(on-load tap-changers,OLTC)、微型燃气轮机(micro-gas turbines,MT)、分布式储能系统(distributed energy storage system,DESS),使得ADN在总调度时段T内的运行成本最小。目标函数f为
1.1.2 约束条件
本文所构建优化调度模型的约束条件为潮流约束、节点电压幅值约束、线路传输功率约束、ADN与上级输电网的交互功率约束及各可调设备的运行约束。
1.2 基于CMDP的调度模型
02 基于原始对偶优化的安全强化学习
为求解CMDP的目标函数,本文通过引入拉格朗日乘子λ,将目标函数的不等式约束问题转化为无约束问题。基于原始对偶优化方法,在迭代中依次更新网络参数θ及对偶变量λk。
为求解CMDP模型,本文将原始对偶优化方法与DDPG算法相结合,提出一种基于PD-DDPG的ADN优化方法。
2)更新对偶变量及各项参数,具体可参考文献[20]。
2.1 离线训练流程
03 算例分析
3.1 算例设置
为验证所提安全强化学习方法在ADN有功-无功协调调度上的有效性,本文在修改的IEEE 123节点配电算例上进行验证。其中,节点23、121、42、40、116处接有光伏,装机容量均为100 kW。节点5、60、47、84、76处接有风电机组,装机容量均为100 kW。节点25、95、115处分别接入MT,节点21、57处接有DESS,DESS和MT的设备参数如表1所示。节点77、109处接入SCB,共有4个调节挡位,每档为300 kV·A,动作次数上限为5次。节点0、1之间接入OLTC,共有5个调节挡位;节点68、108之间,节点26、27之间,节点10、15之间分别接入OLTC,各有33个调节挡位;OLTC分接头每天动作上限均为6次,调节范围为–10%~10%。变电站容量上限为5000 kV·A。节点电压幅值约束范围为0.95~1.05 p.u.。总调度周期为24 h,以1 h为一个调度时段。本文算例基于CAISO2018—2020年的数据进行分析,前两年作为训练集,后一年作为测试集。本文工作基于pytorch框架实现,所提方法参数设置如表2所示。算例仿真在Intel(R) Core(TM) i7-11800H处理器2.30 GHz的工作站进行。
表1 DESS和MT设备参数
Table 1 DESS and MT equipment parameters
表2 所提方法参数设置
Table 2Parameter settings of the proposed method
3.2 离线训练表现
不同方法的离线训练和在线测试的平均耗时对比如表3所示。由表3可知,不同方法的在线测试时间均在1 s以内。PD-DDPG的离线训练时间更长,这可能是由于其算法结构复杂造成的。不同方法奖励和成本情况如图1~2所示,其中实线是平均值,阴影部分是波动范围。由图1~2可知,PD-DDPG的成本值接近于0,奖励值仅次于DDPG(ρ=1),但是DDPG(ρ=1)的成本值明显不能满足ADN安全运行。DDPG(ρ=10)、DDPG(ρ=20)的奖励成本值均劣于PD-DDPG方法。上述结果说明,ρ越小,DDPG越注重优化奖励项,而忽视成本项。PD-DDPG的性能最佳,能够在保证ADN安全的同时,最小化ADN日运行成本,避免了对惩罚系数的盲目选定,实现了拉格朗日乘子的自动学习。
表3 不同算法的训练和测试时间
Table 3Training and testing time of different algorithms
图1不同算法奖励值曲线
Fig.1Different algorithm reward value curves
图2不同算法成本值曲线
Fig.2Cost value curves of different algorithms
3.3 在线测试表现
在线决策阶段测试结果如图3~4所示。由图3可知,由于数据驱动方法随机性的存在,不能保证在测试过程中各智能体100%满足约束。PD-DDPG方法在大多测试集下成本值均接近0,能够满足配电系统的安全性。由图4可知,PD-DDPG方法和ρ=1、ρ=10、ρ=20的DDPG方法累计年运行成本分别为357.00万元、358.12万元、485.08万元、500.31万元。总体而言,PD-DDPG方法以最少的违反约束情况和最低的运营成本优于基于惩罚系数的DDPG方法。
图3在线测试成本值分布情况
Fig.3Online test cost value distribution
图4在线测试阶段运行成本
Fig.4Running costs during online testing phase
取测试集中某天数据进行测试,各类可调度资源有功调度结果如图5所示。由图5可知,00:00—04:00和11:00—14:00时段电价处于低谷且总负荷需求较小,MT有功功率减小,并随着可再生能源出力的增加进一步减小出力比例。同时,向上级电网的购电功率增加,DESS进行充电以备后续高峰时段,并就地消纳可再生能源,避免功率倒送。06:00—09:00和17:00—23:00时段电价处于高峰且负荷需求较大,可再生能源出力相对较低,ADN几乎不购电,MT有功出力上升。其中,节点95处的MT由于发电成本低而成为有功出力主力,DESS此时段放电,从而减小ADN运营成本。
图5有功调度结果
Fig.5Active power dispatch results
各类可调度资源的无功调度结果如图6~8所示。由图6可知,在负荷无功需求增多的05:00—10:00时段,MT增大无功补偿;在负荷无功需求减弱的16:00—17:00及23:00时段,节点109处的SCB减小挡位,避免过多的无功补偿造成节点电压升高;结合有功无功出力情况得到各个MT功率因数均在0.8以上。
图6无功调度结果
Fig.6Reactive power scheduling results
图7OLTC和SCB档位变化
Fig.7OLTC and SCB gear change
由图7OLTC和SCB档位变化可知,SCB和OLTC通过调节档位响应无功负荷需求,避免节点电压越限;调度周期内OLTC累积动作次数分别为0、3、4、4次,SCB的累计动作次数分别为0、4次,均在约束范围以内。由图8节点电压分布可知,节点电压在负荷减少时降低,在负荷增大时升高。在无功调压设备的协同动作下,各节点电压大都为0.975~1.000 p.u.,满足本文所建模型中的电压范围约束。
图8 不同节点的电压分布
Fig.8 Voltage distribution at different nodes
综上,经训练过的智能体生成的调度策略,能够根据电价和负荷需求,动态地调整DESS和MT出力,降低运行成本。此外,经无功调节设备的共同作用,改善了ADN电压质量。上述调度方式起到了削峰填谷的作用,减小了可再生能源波动性对ADN的干扰。
04 结语
本文针对ADN有功无功协调调度问题,基于原始对偶优化方法设计了新型DDPG方法,结合算例分析,本文所采用的离线策略算法,通过离线训练大量历史数据,能够在线生成调度结果,提升了电力系统决策效率。与此同时,避免了传统DRL方法对惩罚因子的敏感性,提升了ADN运行安全性。