摘要在电力现货市场下,为实现售电商长期收益最大化,提出采用强化学习的需求响应动态优化方案。首先建立售电商和用户的需求响应模型,通过建立用户舒适成本函数的前后联系,构建出售电商动态优化收益函数;利用用户的需求响应收益函数确定其响应负荷,并将售电商当前需求响应的收益函数转化为立即奖励函数;

首页 > 配售电 > 售电服务 > 评论 > 正文

在电力现货市场下如何最大化售电商参与需求侧响应的长期收益?

2019-10-22 11:42 来源: 电网技术 

摘要

在电力现货市场下,为实现售电商长期收益最大化,提出采用强化学习的需求响应动态优化方案。首先建立售电商和用户的需求响应模型,通过建立用户舒适成本函数的前后联系,构建出售电商动态优化收益函数;利用用户的需求响应收益函数确定其响应负荷,并将售电商当前需求响应的收益函数转化为立即奖励函数;然后采用BP神经网络构建强化学习的Q函数,采用迭代方法训练BP神经网络直到Q函数收敛。最后,通过1个售电商和5个工业用户的仿真算例结果表明所提方法的有效性。

(来源:电网技术 作者:冯小峰1, 谢添阔2, 高赐威3, 林国营1, 陈亮1, 卢世祥1)

1.广东电网有限责任公司 计量中心,广东省 广州市 510080

2.华北电力大学 电力工程系,河北省 保定市 071003

3.东南大学 电气工程学院,江苏省 南京市 210096

冯小峰(1984),男,博士,通信作者,主要研究方向为电力市场需求响应,电力系统优化与控制,E-mail:ucihqtep@163.com;

谢添阔(1995),男,硕士研究生,主要研究方向为电力市场需求响应,E-mail:1963228605@qq.com;

高赐威(1977),男,教授,博士生导师,主要研究方向为电动汽车接入电网、电力规划、电力市场、需求侧管理及电力安全等,E-mail:ciwei.gao@126.com。

基金项目:中国南方电网有限责任公司科技项目(GDKJXM20161607); Project Supported by Science and Technology Foundation of China Southern Power Grid Company Limited (GDKJXM20161607);

0 引言

《中共中央国务院关于进一步深化电力体制改革的若干意见(中发〔2015〕9号)》开启的新一轮电改,其核心目标:使市场在资源配置中起到决定性作用。2018年10月,南方(以广东起步)电力现货市场相关文件的发布,开启了电力现货市场的试运行。

在电力现货市场中,除了长协购电和月度竞价购电外,售电商还需要从现货市场购电。在运营过程中,随着供需紧张关系的变化,现货市场的价格也会随之波动。而售电商卖给用户的电价通常是固定的,当售电商在现货市场购电的价格高于其售电价格,为了减少损失,售电商有动力发布需求响应。同时售电商向其代理用户的发布需求响应,减小峰谷差,也有利于提高其向发电厂购电时的议价能力。

国内外对需求响应的运行机制、调节手段、框架结构等进行了很多研究。文献[1]对智能电网环境下需求响应的机理和建模进行了分析。文献[2]从需求响应概念、激励手段、收益评定等方面对国内外的研究成果进行归纳与总结。文献[3]从运行机制、调控手段、负荷潜力等方面重点研究了将需求响应

应用于辅助服务市场的相关问题。文献[4]对国内外综合需求响应的概念、框架结构、模型、市场运行机制以及关键技术问题等进行了研究和总结。

在需求响应过程中,用户的响应行为的确定非常重要,国内外对不同类型用户的需求响应行为进行了很多研究。文献[5]针对温控负荷,使用基于成本-效益分析的方法确定用户在中长期需求响应过程中的响应行为。文献[6]建立了温控负荷设备的预测模型,以减少需求响应期间的信息传输量。文

献[7]研究了基于用户报量不报价的需求响应方式,分析了用户响应行为机理,并基于此建立了发电计划优化模型,仿真结果验证了该模式和方法的有效性。文献[8]建立了直接负荷控制模型,实现了清洁能源消纳的目标。文献[9]研究了电网中用户的电力调度问题,通过为用户提供一种电力调度策略,以实现用户的收益与舒适度之间的期望权衡。文

献[10]主要介绍了用户对售电公司和用电合同的选择方式,研究了考虑可中断负荷的售电公司营销策略制定方法。文献[11]针对激励型需求响应,建立了用户侧响应模型,用于制定微电网的负荷削减策略。文献[12]基于节点电价,构建了两阶段负荷需求响应模型,对需求响应策略进行了研究,实现了部分用户负荷由高电价节点转移到低电价节点的过程。

国内外对需求响应过程中多方主体互动用电时策略制定方法开展了大量的研究。文献[13]针对电网中的售电商和用户建立了一种分层系统模型,以售电商的利益最大化为目标,求解售电商与用户的Stackelberg博弈均衡解,结果表明,存在一个最优的售电商数量,可以使得其整体利润最大化。文献[14]为了降低峰值,将用户负荷转移与分布式发电的使用相结合,开发了两种算法,算例结果表明将这两种需求响应方式相结合可以有效节省成本。文献[15]基于综合需求响应和博弈方法,设计了一种两阶段优化调度策略,对博弈模型进行了求解。文献[16]研究了多个售电公司间的非合作博弈和用户间的演化博弈,并使用分布式算法实现了售电公司与用户间的两级博弈,仿真结果表明该方案能够显著减少峰值负荷。文献[17]提出了一种实时定价方案,每个用户对售电商发布的价格做出反应并最大化其收益,售电商根据预测的用户反应设计实时价格以最大化其利润,在售电商方面,开发了基于模拟退火的价格控制算法来解决非凸价格优化问题,结果表明所提出的实时定价方案能有效削减峰值,降低售电商成本,提高用户收益。文献[18]基于消费者心理学原理和需求响应不确定性规律,设计了一套激励型和价格型需求响应与常规资源和新能源等在不同时间尺度上优化配置的方案,建立了日前—日内时间尺度下的源荷互动决策模型。文献[19]针对激励型需求响应,建立了基于模型预测控制的多时间尺度家庭能量管理模型,以用户净支付和用电负荷波动最低为目标,设计了一系列的用电策略。文献[20]建立了电网公司、新增实体与用户之间的三方博弈模型,并求解其纳什均衡解,具有一定的可行性。文献[21]针对多个微电网运营商参与配电侧市场交易的问题,提出了一种双层优化方法,并基于完全信息下的动态博弈方法,确定市场的纳什均衡点。文献[22]研究了多种用户价格机制下的售电公司参与市场竞价购电的策略问题。

在制定各主体的需求响应策略时,已有的研究往往只考虑了发布需求响应时的收益最大化,而忽略了当次需求响应行为,对后续需求响应的影响。在实际的需求响应中,售电商的历史发布价格,会影响用户的舒适成本感知。本文从该角度出发,计及售电商的决策对用户舒适成本的长期影响,建立不同主体多时间尺度的需求响应优化模型,以离线学习在线使用的架构,结合强化学习算法求解优化策略,并使用基于神经网络构建强化学习算法,解决了状态和动作空间过大导致的维数灾问题。

1 基于强化学习的用户与售电商需求响应模型

1.1 用户与售电商需求响应模型

在需求响应过程中,用户与售电商两个主体的决策,在时间尺度上表现不一。其中,售电商作为需求响应的主导方,以追求长期收益最大化为目标;用户以追求当次需求响应自身利益最大化为目标。造成这种差别的原因是:1)售电商与用户对需求响应的重视程度不同。需求响应是售电商为了减小自身损失而发起,其获得的收益远高于单个用户的收益,因此售电商对需求响应更加重视,单个用户由于对信息了解不全,且收益较低,只能被动接受售电商制定的策略,因此对需求响应的重视程度偏低。2)售电商与用户对需求响应的掌控能力不同。售电商是需求响应的主导者,全面了解电价、用户负荷等信息,能在考虑到用户决策的前提下,决定需求响应发布的时间和价格;用户作为跟随者,处于被动的地位,单个用户的响应行为难以影响售电商的整体决策,只能在主导者制定决策的基础上选择最佳策略,因此只能追求短期收益的最大化。

售电商通过寻求最优的补贴价格ptrprt,以最大化自身参与需求响应的长期收益,可以表示为如下的动态优化问题求解。

1.png

在求解最优补贴价格的动态优化问题中,售电商为了最大化长期收益,在考虑短期利润的同时,还需要考虑补贴价格对后续需求响应过程中,用户的舒适成本产生的影响,从而影响后续的用户响应负荷。即当次的售电商的补贴价格,除了影响当次的售电商收益,也会影响后续的用户响应行为,从而影响后续的售电商的收益。强化学习算法适合求解这种前后时间状态耦合的动态优化问题。下面将对强化学习进行简介。

1.2 强化学习简介

在Q学习过程中,Q值的收敛指的是经过迭代,每组状态-动作对对应的Q值最终都以概率1收敛于一个最优值,为了训练好Q值,必须充分探索所有动作,以求得所有状态-动作对对应的Q值,所以在学习时保持对动作进行随机选择。

11.png

2 用户与售电商最优决策

2.1 用户参与需求响应收益函数

用户参与需求响应时,从以下3个方面来构建其收益函数:付出的响应成本、减少的购电成本和获得的响应补贴。

1)付出的响应成本。

用户付出的响应成本是指用户削减负荷的代价,包括经济成本和舒适成本,其中,经济成本表示负荷削减对其自身收益的影响,舒适成本表示负荷削减对其自身舒适度体验的影响。

①对于经济成本,使用以下二次函数表示[23]。

12.png

13.png

同时在每次训练时设置一个最大训练次数,若超过该训练次数仍未收敛,则重新进行训练;若在训练达到最大次数后,由式(21)判断已经收敛,则固定神经网络权值,输入20次需求响应数据进行验证。

14.png

图4为根据式(21)得到的神经网络输出值误差,经判断,训练在第298次之后达到式(21)的收敛要求,固定训练后的神经网络权值。

图4 训练过程中的神经网络输出值误差Fig. 4 Neural network output value error during training

训练结束后,选择其中连续20次的需求响应进行测试,以检验强化学习效果,售电商当次发布的补贴价格为1,1.1,1.2,…,2元/(kW·h)中的值。测试结果如下:

其中,图5为5个用户在这20次参加需求响应前的负荷,图6表示在20次需求响应时的实时电价。

15.png

图5 5个用户20次需求响应前的负荷Fig. 5 Load of five users before 20 demand responses

16.png

图6 在20次需求响应时的实时电价Fig. 6 Real-time electricity price at 20 demand responses

图7表示计及了长期收益的强化学习算法和只计及当次收益最大的方法分别计算得到的当次需求响应发布的最优补贴价格,其中,只计及当次收益最大的方法是指对当次需求响应前用户的负荷遍历所有的补贴价格,选出其中使得售电商当次收益最大的价格。可以看出,如果售电商只考虑当次需求响应收益最大化,其得到的补贴价格较为平稳,而强化学习算法计算得到的补贴价格则起伏较大,这是因为本文参考鲁棒优化的思想,加大了如图2所示的上一次发布的补贴价格pt−1rprt−1对5个用户舒适成本的影响,若在该极端的场景下本方案可行,那么在用户舒适成本小范围波动的情况下,本方案也是可行的。

17.png

图7 售电商在20次需求响应时发布的补贴价格Fig. 7 Subsidy price issued by the electricity seller in 20 demand responses

现对算例中用户的响应结果进行分析,其中,图8和图9分别表示使用当次收益最大方法和强化学习方法得到的20次需求响应中用户的响应负荷,可以看出,强化学习方法得到的用户响应负荷普遍较高,一方面是因为该方法得到的补贴价格比较高,另一方面是因为当上一次的补贴价格较高时,用户的舒适成本会相应降低,从而使得用户的响应负荷提高。图10表示了这两种方法得到的20次需求响应中用户的总响应负荷,可以看出,强化学习方法能明显提高用户的响应量。

21.png

图11 20次需求响应时获得的当次收益Fig. 11 Current income obtained from 20 demand responses

图11表示强化学习方法和当次收益最大方法在20次需求响应过程中分别获得的收益,可以发现,虽然有时强化学习算法获得的收益比较低,但多数情况下还是高于常规算法的,这是因为强化学习算法有时会牺牲一定的短期收益,以达到长期收益最大化的目的。

为了便于分析,现将图7和图11放在同一个图中表示,如图12。可以看出,当强化学习方法得到的补贴价格较高时,售电商的收益较低,且普遍低于使用当次收益最大方法获得的收益;当强化学习方法得到的补贴价格较低时,售电商获得的收益明显高于当次收益最大方法获得的收益,这是因为当强化学习方法得到的补贴价格偏高时,售电商的收益会降低,但用户由于获得了更多的奖赏,在后续的需求响应中切除负荷时的痛苦程度降低,舒适成本下降,能够响应更多的负荷,因此售电商在下一次需求响应中发布较低的补贴价格时,也能得到高的响应负荷,从而获得高的收益。

22.png

图12 两种方法得到的补贴价格与收益Fig. 12 Subsidized prices and benefits from both methods

图13表示强化学习方法和当次收益最大方法在20次需求响应过程中分别获得的累积收益,可以看出,计及了长期收益的强化学习算法能明显使售电商获得更高的利益。

01.png

图13 20次需求响应时获得的累积收益Fig. 13 Cumulative gains from 20 demand responses

4 结论

在电力现货市场环境下,为了减少售电商在用电高峰期实时电价过高带来的损失,本文提出了采用基于神经网络的强化学习的售电商动态优化需求响应方案,通过向用户发布需求响应补贴价格来减少用电负荷,以实现其长期收益最大化。考虑了售电商发布的历史补贴价格对用户舒适成本感知的影响,构建了售电商与用户前后时间状态耦合的动态优化问题。通过选取5个工业用户的实际用电数据进行训练,结果表明使用基于神经网络的强化学习算法能够有效完成训练,计算得出的补贴价格可以有效提高售电商的长期收益。

参考文献

[1]杨旭英,周明,李庚银.智能电网下需求响应机理分析与建模综述[J].电网技术,2016,40(1):220-226.YangXuying,ZhouMing,LiGengyin.Survey on demand response mechanism and modeling in smart grid[J].Power System Technology,2016,40(1):220-226(in Chinese).

[2]田世明,王蓓蓓,张晶.智能电网条件下的需求响应关键技术[J].中国电机工程学报,2014,34(22):3576-3589.TianShiming,WangBeibei,ZhangJing.Key technologies for demand response in smart grid[J].Proceedings of the CSEE,2014,34(22):3576-3589(in Chinese).

[3]沈运帷,李扬,高赐威,等.需求响应在电力辅助服务市场中的应用[J].电力系统自动化,2017,41(22):157-167.ShenYunwei,LiYang,GaoCiwei,et al.Application of demand response in ancillary service market[J].Automation of Electric Power Systems,2017,41(22):157-167(in Chinese).

[4]徐筝,孙宏斌,郭庆来.综合需求响应研究综述及展望[J].中国电机工程学报,2018,38(24):84-95+336.XuZheng,SunHongbin,GuoQinglai.Reviewandprospect of integrated demand response[J].Proceedings of the CSEE,2018,38(24):84-95+336(in Chinese).

[5]王剑晓,钟海旺,夏清,等.基于成本-效益分析的温控负荷需求响应模型与方法[J].电力系统自动化,2016,40(5):45-53.WangJianxiao,ZhongHaiwang,XiaQing,et al.Model and method of demand response for thermostatically-controlled loads based on cost-benefit analysis[J].Automation of Electric Power Systems,2016,40(5):45-53(in Chinese).

[6]卫文婷,王丹,贾宏杰,等.一种基于模型预测的城市园区分层分布式温控负荷需求响应控制策略[J].中国电机工程学报,2016,36(8):2049-2056.WeiWenting,WangDan,JiaHongjie,et al.A hierarchical and distributed control strategy of thermostatically controlled appliances for city park based on load model prediction[J].Proceedings of the CSEE,2016,36(8):2049-2056(in Chinese).

[7]陈雨果,张轩,罗钢,等.用户报量不报价模式下电力现货市场需求响应机制与方法[J].电力系统自动化,2019,43(9):179-186.ChenYuguo,ZhangXuan,LuoGang,et al.Demand response mechanism and approach of electricity spot market in bidding mode without price on the user side[J].Automation of Electric Power Systems,2019,43(9):179-186(in Chinese).

[8]艾欣,赵阅群,周树鹏.适应清洁能源消纳的配电网直接负荷控制模型与仿真[J].中国电机工程学报,2014,34(25):4234-4243.AiXin,ZhaoYuequn,ZhouShupeng.Direct load control model and simulation for clean energy accommodation in distribution network[J].Proceedings of the CSEE,2014,34(25):4234-4243(in Chinese).

[9]KaiMa,TingYao,JieYang,et al.Residential power scheduling for demand response in smart grid[J].International Journal of Electrical Power & Energy Systems,2016,78:320-325.

[10]罗琴,宋依群.售电市场环境下计及可中断负荷的营销策略[J].电力系统自动化,2015,39(17):134-139.LuoQin,SongYiqun,Marketing strategy in competitive retail market considering interruptible load[J].Automation of Electric Power Systems,2015,39(17):134-139(in Chinese).

[11]周保荣,黄廷城,张勇军.计及激励型需求响应的微电网可靠性分析[J].电力系统自动化,2017,41(13):70-78.ZhouBaorong,HuangTingcheng,ZhangYongjun.Reliability analysis on microgrid considering incentive demand response[J].Automation of Electric Power Systems,2017,41(13):70-78(in Chinese).

[12]曹佳,马洪艳,刘扬,等.基于节点电价的需求响应策略研究[J].电网技术,2016,40(5):1536-1542.CaoJia,MaHongyan,LiuYang,et al.Research on demand response strategy based on nodal price[J].Power System Technology,2016,40(5):1536-1542(in Chinese).

[13]MaharjanS,ZhuQ,ZhangY,et al.Demand response management in the smart grid in a large population regime[J].IEEE Transactions on Smart Grid,2016,7(1):189-199.

[14]LiuZ,WiermanA,ChenY,et al.Data center demand response: Avoiding the coincident peak via workload shifting and local generation[J].Performance Evaluation,2013,70(10):770-791.

[15]徐业琰,廖清芬,刘涤尘,等..XuYeyan,LiaoQingfen,LiuDichen,et al.(in Chinese).

[16]ChaiB,ChenJ,YangZ,et al.Demand response management with multiple utility companies:a two-level game approach[J].IEEE Transactions on Smart Grid,2014,5(2):722-731.

[17]Qian LP,Zhang YJ,HuangJ,et al.Demand response management via real-time electricity price control in smart grids[J].IEEE Journal on Selected Areas in Communications,2013,31(7):1268-1280.

[18]孙宇军,王岩,王蓓蓓,等.考虑需求响应不确定性的多时间尺度源荷互动决策方法[J].电力系统自动化,2018,42(2):106-113.SunYujun,WangYan,WangBeibei,et al.Multi-time scale decision method for source-load interaction considering demand response uncertainty[J].Automation of Electric Power Systems,2018,42(2):106-113(in Chinese).

[19]张禹森,孔祥玉,孙博伟,等.基于电力需求响应的多时间尺度家庭能量管理优化策略[J].电网技术,2018,42(6):1811-1819.ZhangYusen,KongXiangyu,SunBowei,et al.Multi-time scale home energy management strategy based on electricity demand response[J].Power System Technology,2018,42(6):1811-1819(in Chinese).

[20]张忠会,刘故帅,谢义苗.基于博弈论的电力系统供给侧多方交易决策[J].电网技术,2017,41(6):1779-1785.ZhangZhonghui,LiuGushuai,XieYimiao.A game theory approach to analyzing multi-party electricity trading on supply side[J].Power System Technology,2017,41(6):1779-1785(in Chinese).

[21]刘一欣,郭力,王成山.多微电网参与下的配电侧电力市场竞价博弈方法[J].电网技术,2017,41(8):2469-2476.LiuYixin,GuoLi,WangChengshan.Optimal bidding strategy for microgrids in electricity distribution market[J].Power System Technology,2017,41(8):2469-2476(in Chinese).

[22]尹龙,刘继春,高红均,等.考虑多种用户价格机制下的综合型能源售电公司购电竞价策略[J].电网技术,2018,42(1):88-97.YinLong,LiuJichun,GaoHongjun,et al.Study on bidding strategy of comprehensive power retailer under multiple user-price mechanisms[J].Power System Technology,2018,42(1):88-97(in Chinese).

[23]FahriogluM,Alvarado FL.Using utility information to calibrate customer demand management behavior models[J].IEEE Transactions On Power Systems,2001,16(2):317-322.

[24]朱兆霞,邹斌.PJM日前市场电价的统计分析[J].电力系统自动化,2006,30(23):53-57.ZhuZhaoxia,ZouBin.Statistical analysis of day-ahead prices in PJM market[J].Automation of Electric Power Systems,2006,30(23):53-57(in Chinese).

售电实务.png

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。
展开全文
打开北极星学社APP,阅读体验更佳
2
收藏
投稿

打开北极星学社APP查看更多相关报道

今日
本周
本月
新闻排行榜

打开北极星学社APP,阅读体验更佳