随着中国新型电力系统建设和电力市场进程的不断推进,火力发电商面临的市场压力与日俱增。在未来较长时期,火电作为电力系统压舱石的地位不会改变。
《中国电力》2024年第11期刊发了张兴平等撰写的《基于多智能体深度确定策略梯度算法的火力发电商竞价策略》一文。文章提出基于MADDPG的火力发电商竞价策略模型,在不完全信息环境下与发电商竞价策略相结合,优化发电商在多维连续动作以及状态空间下的报价报量策略,研究市场效益最大化目标下各类型机组的最优决策,明确不同火电机组的市场定位;比较不同出清机制下的市场出清结果,分析不同出清机制的适用性,并探讨新能源渗透率对各种不同出清机制的影响。
(来源:《中国电力》作者:张兴平, 王腾, 张馨月,张浩楠)
摘要
火电是新型电力系统的重要支撑,研究火力发电商的竞价策略以及不同出清机制的影响,对保障其低碳高效运营具有重要意义。构建基于多智能体深度确定策略梯度算法的竞价策略模型,分析不同火力发电商组合的竞价差异化策略,优化多主体报价报量策略,探究边际统一出清、按报价支付出清和随机匹配出清3种典型出清机制的市场影响。结果表明,该策略模型可引导火力发电商采取合理的竞价方式以提高市场效率;在新能源渗透率较低时,不同出清机制对各类型机组的影响有所不同;随着新能源渗透率的提高,采用按报价支付出清机制可以兼顾经济和环境效益;当新能源渗透率达到较高水平时,采用随机匹配出清机制可有效应对市场波动风险。
01月度集中电力市场出清机制理论
1.1 集中撮合交易基本原理
中国月度集中电力市场采用集中撮合交易的方式,交易组织者将发电商申报电量按各申报价格从低到高排序形成供给曲线,将购电商按各申报价格从高到低排序形成需求曲线,并依照排序依次撮合购售双方成交,如图1所示。若匹配的需求方与供给方申报的电量相同,则直接形成交易对;若匹配的需求方与供给方申报成交的电量不同,则进行交易,未完成的交易与下一个交易对进行匹配,形成新的交易,直至全部申报购电量或售电量为零,或购售双方申报价差为负为止。而基于集中撮合交易方式下的出清机制各不相同,不同的出清机制会影响市场的出清结果。
图1 月度集中市场撮合竞价过程
Fig.1 Matching bidding process in the monthly centralized market
1.2 电力市场出清机制
1.2.1 边际统一出清机制
边际统一出清机制是在集中撮合交易原理下,以最后一笔交易双方申报电价的平均值作为市场撮合交易统一出清价格。边际统一出清机制在中国电力现货试点市场以及中长期市场使用范围最广,如广东就采用边际出清方式形成价格。
1.2.2 按报价支付出清机制
按报价支付出清机制是在集中撮合交易原理下,采用每个成交交易对的申报价格平均值作为双方出清价格。有部分地区采用按比例对需求双方的电价进行分配,比如山西和河南采用按报价支付出清机制形成价格。湖南、江苏和陕西既采用边际出清方式,也采用交易对均价出清方式。
发电商i与购电商j的单笔成交价格为
式中:pij为成交价格;为发电商报价;为购电商报价。
当发电商i与k个购电商成交时,交易均价pi为
式中:为发电商i和购电商j在月度集中市场成交的电量。
1.2.3 随机匹配出清机制
随机匹配出清是在按报价支付出清规则基础上提出的,发电商按照申报价格由低到高进行排序,依次随机选择申报价格高于自身报价的任意购电商进行交易,若匹配完成后进行下一次竞价匹配,直至全部申报购电量或售电量为零,或购售双方申报价差为负。随机匹配出清机制下,造成发电商利润低的原因除了双方成交价格低外,还可能是随机匹配时选取了一个出价较低的购电商,对发电商的竞价行为有一定程度的影响。
本文考虑将随机匹配出清机制结合多智能体深度确定性策略梯度算法,随机匹配机制下发电商会随机选择高于自身报价的任意购电商,在多智能体深度确定性策略梯度算法下,每一轮迭代中各智能体会根据上一次迭代求得的利润重新调整策略。随机匹配出清机制不仅可以减少电力市场中主体串谋的概率,而且可以增加市场的交易量,但增加交易电量的同时可能会导致碳排放量增加,且随机匹配存在一定的不稳定性,因此对该机制的利弊有必要进一步探讨。
02基于多智能体的火力发电商竞价策略模型
月度集中竞价市场的参与主体主要包括发电商和购电商,在电力市场中的竞价交易属于不完全信息动态博弈问题,市场参与者在不同出清机制下寻求自身利益最大化的策略,进而通过相互作用形成市场整体的交易结果。市场成员参与市场的目的和行为相对独立,在基于多智能体的电力市场框架中,发电商被设计成独立的且能够实现交互作用的智能体,市场出清信息反馈至各个智能体,通过不断迭代积累经验,得到均衡状态下的各发电商竞价行为。基于MADDPG的发电商竞价框架模型如图2所示。
图2 基于多智能体深度确定性策略梯度算法下的发电商竞价模型框架
Fig.2 Bidding model framework for power generation companies based on MADDPG
2.1 火力发电商竞价模型
2.1.1 目标函数
发电商以自身收益最大化为目标参与竞价,主要通过出售电量的方式获取收入,目标函数为
式中:Ri为发电商i在当月集中竞价中的收入;pij为发电商i与购电商j的出清电价;为发电商i在集中竞价中申报的电量;Ci为发电商i的总燃煤成本;C为碳排放成本;为发电商i和购电商j在月度集中市场成交的电量;为购电商j在集中竞价中申报的电量。
2.1.2 火力发电商运行成本
燃煤机组的供电煤耗率u可表示为
式中:P为机组的出力;a、b、c分别为机组的特性系数,与机组的类型、燃烧品质等因素有关。
发电商的机组报价依据以边际成本为主,燃煤机组的边际成本可表示为
式中:S为煤价;C为燃煤机组的总燃煤成本;C为燃煤机组的边际成本,通过计算各发电商在本月的平均负荷率来计算燃煤机组的边际成本。
2.1.3 碳市场交易成本
目前中国碳排放额分配主要通过免费分配的方式进行,发电商根据碳排放实际情况考虑买入或是卖出碳排放权。初始碳排放权的分配为
式中:为企业i获取的初始碳排放额;B为单位产量的碳配额基准值;qi为发电商i在集中竞价市场交易的总电量,即实际发电量;为发电商i负荷系数修正系数;为发电商i的总碳排放量;为发电商i的碳排放因子,通过各类型机组的典型发电碳排放因子和发电量估算得到;w为碳价。C>0表明发电商为卖方可出售配额;
2.2 马尔可夫博弈模型设计
多智能体强化学习(multi-agent reinforcement learning,MARL)主要研究在复杂环境中训练多智能体通过协作或竞争达到目标,每个智能体在选择动作的同时会观察其他智能体的信息,MADDPG可以有效模拟发电商在不完全信息市场下的竞价策略。发电商的竞价策略可以模拟为马尔可夫博弈过程,设置对应的环境、状态空间、动作空间以及奖励。
1)环境:将不同出清机制下的电力月度集中竞价市场作为多智能体的外部环境,设置智能体发电商,在环境中各火力发电商不了解对方的申报价格以及申报电量,是一个不完全信息的环境,通过竞价策略来获得更高的利益。而MADDPG中引入智能体协作的功能,各智能体发电商会根据其他智能体的行为来追求奖励最大化。
2)状态空间:采用发电商上一次的申报电量、申报电价以及成交电量在月度市场总需求中的占比作为状态空间s,如式(13)所示,状态变量能够帮助发电商制定更优的竞价策略。
式中:为发电商i上一次的申报电价;为发电商i申报电价的最大值;为发电商i上一次的申报电量;为发电商i申报电量的最大值;为市场总需求量。
3)动作空间:将动作值设定为一个二元组,根据月度集中竞价市场中发电商报量报价的方式设计动作空间,在月度集中竞价电力市场中发电商的申报电量以及申报电价都将影响发电商的收益。α为发电商的策略报价系数,β为发电商的策略报量系数。智能体发电商采用αC的报价方式,以及的报量方式,α和β的取值范围可根据实际竞价规则进行修改。
4)奖励:发电商通过计算式(3)得到各自的收益作为奖励函数,通过多智能体之间的协作寻求市场整体效率最大化。
2.3 多智能体深度确定性策略梯度算法
MADDPG在Actor-Critic框架下处理多智能体问题,每一个智能体都有不同的学习能力、学习速度以及社交网络。每一个智能体都有一个独立的Actor网络用于学习策略,有一个Critic网络用于估计动作的值函数。Critic网络的输入包含智能体的状态以及动作等信息,在Critic网络中每一个智能体在计算梯度的同时会考虑其他智能体的策略,能够更好地实现协同与竞争,适用于电力市场中复杂的市场环境。
MADDPG采用深度确定性策略,策略梯度可以表示为
式中:表示集中的动作值函数,包括所有智能体的动作
神经网络进行Q值计算时很容易出现不稳定的情况,从而影响下一次的更新迭代。为降低算法的波动性,MADDPG中复制了Actor网络以及Critic网络的神经网络,形成当前网络以及目标网络,有利于智能体更有效学习更好的策略,通过最小化每个智能体的损失函数来优化更新参数。Critic当前网络的损失函数为
式中:L(θi)为损失函数;为Critic目标网络参数θi的策略集;ri为智能体所获得的奖励;y为目标Q值;γ为折扣系数;为目标Critic网络的值函数。
Actor目标网络以及Critic目标网络均采用软更新的方式来更新网络参数,即
式中:τ为软更新系数;分别为当前Actor网络以及目标Actor网络的参数;为当前Critic网络以及目标Critic网络的参数。
2.4 基于MADDPG的发电商竞价策略过程设计
每个独立发电商均采用智能模式报价,ISO收到所有智能体报价信息后,根据市场出清规则计算市场出清价格和各发电商的出清电量,并将市场出清信息反馈至智能体,智能体根据竞价收益和竞价经验迭代优化后续竞价策略。
具体步骤如下。
1)初始化各发电商的状态、Actor网络以及Critic网络参数;设定迭代最大次数、经验池缓冲区大小等参数。
2)计算各智能体动作值,在不同出清机制下通过市场出清得到各发电商的中标电量和电价。根据式(9)计算出每个智能体奖励值,并计算每个智能体下一个时段的状态值。
3)将计算出的动作、状态、奖励以及下一时段的状态值储存在经验池中。
4)判断经验池是否溢出。如果经验池中样本数量小于经验池容量,则重复步骤2)和3)。
5)更新当前Actor、当前Critic网络参数以及软更新目标Actor、目标Critic网络参数。
6)如果迭代次数大于最大迭代次数时,则训练结束;否则重复步骤 2)~5)。
03算例分析
3.1 参数与方案设置
本文各算例测试基于NVIDIA RTX 3060Ti Intel(R) Core(TM) i5-13490F CPU实现。在各算例中,MADDPG算法和市场竞价模型均在 Python中执行,仿真环境为TensorFlow。本文采用某地区数据进行模拟,共有12台燃煤发电机组,包括300 MW、600 MW和MW燃煤机组,分别称作小型、中型和大型机组。将每台机组视作一个发电商,相关技术参数根据实际数据拟合得出,每台机组可申报电量通过结算分解年度电量以及月度双边协商电量后的剩余电量求得,具体信息详见表1。
表1 发电商技术参数
Table 1 Technical parameter of power generators
参考该地区月度电力市场规则,申报电量不得低于机组当月可申报电量的10%,设定机组报量系数β为[0.1,1];为避免市场力操纵及恶性竞争需要对报价设置上下限,设定机组报价系数α为[0.8,1.2]。本文主要目标是研究发电商的竞价策略,因此仅考虑设置发电商为智能体,购电侧通过实际数据将购电商的申报电价及申报电量按区间进行划分。
为探讨不同类型发电机组在策略性报价报量下的竞价策略,对设置为智能体的发电机组进行组合,如表2所示。设置为智能体的发电机组可以参与策略性竞价,在设定的范围内调整自身报价以及报量;未设置为智能体的发电机组采取边际成本报价的方式。
表2 不同智能体组合方案
Table 2 Different agent combination schemes
3.2 不同出清机制下智能体组合方案结果
3.2.1 排放收益率对比
考虑到低碳转型的长期性和市场机制的前瞻性需求,电力市场的发展需要兼顾碳减排与经济效益,因此本文用总收益与碳排放量的比值(即排放收益率)来衡量市场出清的效率,评估不同出清机制下多主体参与策略性竞价的效果。如表3所示,未设置任何智能体方案(S8)的碳排放收益率最低,设置智能体的方案能进一步优化机组竞价决策,因此方案S8不列入对比中。
表3 排放收益率
Table 3 Emission return rate of different clearing mechanisms
在所有设置智能体的方案中,机组联合参与策略性竞价下的碳排放收益率整体明显高于单独参与策略性竞价,发电机组能够根据更多的信息优化各自的竞价策略,提高市场效率。而当所有类型机组共同联合时(方案S7),各类型机组可以在共享信息的同时做出最优的决策,找准自身的市场定位,取得最佳的碳排放收益。
S3以及S6方案下的碳排放收益率较低,S4与S7方案下碳排放收益率较高。S4与S7均有小型机组参与而S3与S6只包含中大型机组,尽管小型机组的技术性能不如中型及大型发电机组,但小型机组在市场中占比仍然比较高,其竞价策略对市场起到重要性作用,可以帮助市场进一步调整,提高整体的市场效率。
算例结果表明,设置智能体组合方案可以进一步优化机组的决策,并且机组联合参与策略性竞价比单独参与策略性竞价效果更好。所有类型发电机组联合参与策略性竞价时碳排放收益率最高,同时小型机组参与策略性竞价对目前电力市场效率的提高起到重要作用。
3.2.2 不同定价机制的适用性分析
不同智能体组合在不同出清机制下的出清结果如图3所示。所有机组同时采用策略竞价(S7)以及大型和小型机组联合采用策略竞价(S5)的情景下,按报价支付出清以及边际统一出清机制的出清结果近似,都优于随机匹配出清机制。而不同方案下各类型机组所面临的环境有所差异,因此对应的行为决策也不同。
图3 不同智能体组合下市场出清结果对比
Fig.3 Comparison of market clearing results under different agent combinations
1)按报价支付出清机制更适合于小型和大型发电机组分别参与策略性竞价(S1和S3)的情况。小型机组边际成本较高,大型机组边际成本较低,小型机组单独参与策略性竞价时(S1)会选择让渡大部分发电空间给中型和大型机组,由于有10%的报量限制,小型机组在报低量的同时以较低的报价保证中标来维持基础收益;大型机组单独参与策略性竞价时(S3),按报价支付出清机制能够更充分地让低成本的大型机组选择报高价报高量策略,获得更多的收益。
2)边际统一出清机制更适合于中型机组单独采用参与策略性竞价(S2)以及中小型机组联合参与策略性竞价(S4)的情况。边际统一出清机制的核心是边际出清价格,该机制下边际机组出清价格十分重要。在集中撮合交易中,中型以及部分小型机组的排序位于靠近供需双方边际交点的位置,大型与部分小型机组的报价对出清价格影响有限。在方案S2与S4下,部分机组会选择牺牲中标电量而选择高报价,以期成为边际出清位置的机组来提高整个市场的出清价格,使得整体的收益总量达到更高水平,因此边际统一出清机制更适合中型机组参与策略性竞价的方案。
3)随机匹配出清则更适合于中型和大型机组联合参与策略性竞价(S6)的情况。在随机匹配出清机制下,所有出价高于发电商的购电商都可以参与匹配过程,因此随机匹配出清机制下可以降低交易风险,提高市场的交易效率。在中型和大型机组联合参与策略性竞价(S6)时,中型与大型机组可以通过抬高报价提高成交交易对的价格,随机匹配机制下市场成交量大幅上升,方案S6下市场通过高成交量高成交价格来提高整个市场的效率。
3.3 最优智能体组合方案竞价策略分析
3.3.1 各发电商竞价行为分析
所有机组联合参与策略性竞价下的方案中,按报价支付出清以及边际统一出清机制的S7出清结果均为最优,本文选择方案S7下按报价支付出清的结果进一步分析各机组的行为。图4展示在S7方案下所有机组参与策略性竞价的行为决策。在训练开始时,发电机组由于经验不足而不断探索竞价策略,导致波动性较大,在学习寻优的过程中竞价策略以及总收益逐渐趋于收敛。
图4 报价支付出清机制下机组报价及报量策略系数
Fig.4 Strategic coefficient of prices and quantities for units under pay as bid mechanism
小型机组G6具有边际成本较低的优势,因此选择高申报价格和高申报量的策略,而小型机组G2在所有发电机组中边际成本最高,通过提高申报价格来退出市场避免成交后造成负收益,其余小型机组均申报低电量低电价,将份额让渡给效率更高的发电机组。中型机组中,边际成本较低的2台机组选择高申报价格和高申报量的策略,边际成本较高的2台机组选择低申报价格和低申报量的策略。大型机组都选择高申报价格和高申报量的策略。在所有机组联合参与策略性竞价时,各机组尽管在不完全信息条件下追求各自利益的最大化,但可以通过多智能体深度确定性策略梯度算法中Critic网络在迭代过程中共享全局的信息,从而在一定的市场条件下做出最合理的竞价策略,充分发挥自身优势,促进发电侧的激励相容。
3.3.2 出清结果分析
图5是12台机组出清后个体的收益以及碳排放量,图6是各类型机组中碳排放收益率最大与最小机组的供电煤耗率曲线。图5中,G11与G12为大型机组,在市场中获得的收益量高并且收益下的碳排放量低;G6与G9分别为小型与中型机组,在市场中的排放收益率仅次于大型机组;G3与G10则是小型与中型机组中排放收益率最低的机组。由图6可以看出,G3与G10的供电煤耗曲线高于G6以及G9。在方案S7下各发电机组做出最合理的竞价策略,让煤耗及运行成本较高的机组更少地参与市场,煤耗较低的机组多参与市场,充分发挥各主体的优势。
图5 机组出清结果对比
Fig.5 Comparison of unit clearing results
图6 部分机组供电煤耗率曲线
Fig.6 Coal consumption rate curve for power supply of some units
图7展示了各类机组的收益情况。由图7可看出,模拟场景期限内,在均衡状态下小型以及中型机组的收益水平近乎相同,维持在600万元左右,而大型机组的收益维持在万元左右,总体收益约为万元。
图7 按报价支付出清机制下各类型机组的收益变化
Fig.7 Changes in revenue for various types of units under pay as bid mechanism
综上,在联合采用竞价策略的情况下,各类型机组可以根据自身的机组特性做出相应的策略,边际成本低的高性能机组可以根据竞价策略进一步获得市场份额,而边际成本高的机组将让渡发电空间。所有机组共同参与竞价策略的调整,使得总体收益大幅度提高且碳排放量降低,实现电力行业低碳减排和经济高效的目标协同。
3.4 新能源渗透率对不同出清机制结果的影响分析
图8是当前电力市场条件下,不同出清机制中智能体组合方案的总收益和碳排放数值。由图8可知,按报价支付出清机制的总收益波动范围小,较为稳定;边际统一出清机制的出清价格随不同方案的变化而波动,总收益波动范围大;随机匹配出清机制中小型机组中标概率大幅度提升,造成碳排放量增多。按报价支付出清机制的平均碳排放量最小,平均总收益仅次于随机匹配出清机制,且稳定性更强,更适合目前的电力市场。
图8 不同出清机制下市场效率对比
Fig.8 Comparison of market efficiency under different clearing mechanisms
考虑到未来新型电力系统中新能源占比将越来越高,本文设置新能源渗透率按照0.1的间隔由0.1提高到0.6,采取市场出清效率最高的方案S7作为基础情景进行分析。对各数据进行归一化处理,不同出清机制下出清结果随新能源渗透率的变化如图9所示。当新能源渗透率较低(低于0.2)时,各机制下出清结果和各机组的竞价策略没有发生改变。
图9 不同新能源渗透率下出清结果变化
Fig.9 Changes in clearing results under different new energy penetration rates
不同新能源渗透率下排放收益率如表4所示。当新能源渗透率为20%~40%时,按报价支付出清机制的碳排放收益率比较稳定,此时市场对火电的需求仍比较大。当新能源渗透率为40%~50%时,报价支付出清机制的碳排放收益率大幅下降,此时火电需求量的减少使市场的竞争更加激烈,部分中小型机组开始降低申报价格以获得发电权,大型机组同时面临市场需求减少以及中小型机组竞价压力。当新能源渗透率为50%~60%时,市场对火力发电的需求较低,此时火力发电商中市场份额几乎被中大型机组抢占,市场进入比较稳定的阶段。
表4 不同新能源渗透率下排放收益率
Table 4 Unit emission return rate under different new energy penetration rates
当新能源渗透率为20%~40%时,边际统一出清机制的排放收益率波动非常大,在市场整体需求减少的情况下,边际出清价格交点也发生变动,各发电商都面临出清价格大幅度下降的风险。当新能源渗透率为50%时,边际统一出清机制进入比较稳定的状态,此时市场份额主要由大型机组以及部分中型机组占据。
当新能源渗透率为20%~40%时,随机匹配出清机制的排放收益率有一定幅度的下降,但下降的幅度比较稳定,随机匹配出清机制下各发电商都能够与购电商进行匹配的机会。当新能源渗透率到达50%及以上时,其余2种出清机制下市场交易量小,主要交易对象为大型及部分中型机组,排放收益率都出现了大幅度下降,随机匹配出清机制能够在市场竞价激烈的火电竞价市场上通过提高交易量维持市场的稳定。
04结论
本文通过多智能体深度确定性策略梯度算法模拟发电商在月度集中市场中的动态行为演化规律,优化发电商竞价策略。主要结论如下。
1)本文构建的基于多智能体深度强化学习的发电商竞价策略模型可以有效提高月度集中竞价市场的整体效率,发电机组联合采用策略性竞价时整体碳排放收益率最高。
2)当新能源渗透率较低时,按报价支付出清机制适合于小型或大型机组单独参与策略性竞价,边际统一出清机制适合于中型机组单独参与或中小型机组联合参与策略性竞价,而随机匹配出清机制适合于大中型机组联合参与策略性竞价。
3)新能源渗透率对不同出清机制下的市场出清结果具有显著影响。当新能源渗透率提升至20%~40%时,按报价出清机制下的市场经济效益、碳减排效率和运行稳定性最佳;当新能源渗透率到达50%及以上时,随机匹配出清机制下碳排放收益率最高,且有利于降低市场波动风险。
本文的报价策略考虑在实际成本一定范围内进行调整,后续会考虑结合历史数据对月度市场进行分解,分析不同时段下机组的负荷率差异,结合不同类型机组的煤耗曲线进行报价。同时,本文在建模时没有考虑购电商的竞价策略对市场竞价的影响,如何在考虑购电侧的情况下优化发电商的竞价行为,也是未来需要深入研究的重点。
原标题:华北电力大学 张兴平等|基于多智能体深度确定策略梯度算法的火力发电商竞价策略