随着GPT等生成式人工智能技术的规模化应用,社会愈发关注算力基础设施的建设与高能耗问题。2023年12月25日,国家发展改革委、国家数据局等五部门联合印发的《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》中,利用“源网荷储”等新型电力系统模式、电力算力协同试点、数据中心节能降耗等内容与能源电力行业企业高度相关。
来源:微信公众号“ 中能传媒研究院”
作者:刘键烨 傅成程 高晓楠 (国网能源研究院有限公司)
一、算力的高质量发展,需要着重考虑负荷因素
随着GPT、Sora等生成式人工智能模型迭代升级,其算力需求呈指数型上升趋势。虽然当前GPT4.0模型训练用电量为每次5000万千瓦时,依旧在电力系统的可承受范围内,但大模型迭代升级的超高增速值得特别关注。
以历次GPT模型升级为例,如表1所示,在1年内,GPT4.0相较于GPT3.5模型,参数增长约9倍,预训练数据增长约40倍,训练时长增长约7倍。
表1 GPT模型历次升级算力需求对比
国内人工智能大模型现正处于高速起步阶段,截至4月2日,我国已备案了116个生成式人工智能大模型2,预计未来我国人工智能大模型将进入高速迭代期。国内相关设备供应商普遍看好算力基础设施赛道,华为预计2030年人工智能算力将增长500倍3,英伟达计划将深度学习计算能力提高100万倍4。
为满足大模型的训练及推理需求,国内外均加速推进算力基础设施建设。截至2023年底,我国在用机架总规模超过810万标准机架,算力总规模达到230 EFLOPS。根据《算力基础设施高质量发展行动计划》,预计到2025年,我国算力规模超过300 EFLOPS,复合年均增长率约15%。
目前,国家“东数西算”工程建设加速推进。除长三角、芜湖、重庆外,多数枢纽节点和数据中心集群已完成建设方案和整体规划的出台,多数枢纽节点规划的未来标准机架在50万~80万个,预计单个枢纽节点满载电力负荷约为150万~250万千瓦,将对所在地造成较大的电力保供压力。
二、预测未来算力负荷,需要重点关注五大因素
对于未来算力的电力负荷预测,其影响因素复杂,归纳起来,主要包括五个方面的因素。
一是人工智能规模化应用导致的算力基础设施规模的变化。随着人工智能的规模化应用、算力基础设施的适量超前建设、创新型应用的凸显和计算精度的提升,预计我国算力基础设施规模在十五五期间将实现量的变化和质的飞跃。根据中国信息通信研究院2023年9月发布的《中国算力发展指数白皮书(2023)》,预计2025年全球算力总规模3000 EFPLOS,2030年全球算力总规模20000 EFLOPS,这意味着全球2030年算力规模是2025年的6.67倍,折合年均增速46.15%。
二是人工智能应用发展的专业程度上升导致的芯片技术路线变化。当前,主流的AI芯片技术路线分为通用型AI芯片GPU(图像处理器)、半定制化AI芯片FPGA(现场可编辑门阵列)、全定制化AI芯片ASIC(专用集成电路)5,其中GPU占据绝对优势。未来,随着应用场景的变化,GPU在AI领域的占比可能受到FPGA和ASIC挤压,形成三足鼎立态势。相较于FPGA和ASIC路线而言,目前主流的GPU路线能耗相对较高,技术路线的变化可能会压降未来算力的整体能耗。
三是芯片制造本身的技术进步导致的单位算力能耗降低。业内对AI芯片未来算力增长水平的预测差异较大,芯片制造行业普遍看好其技术进步。类比英特尔酷睿系列芯片历史发展,根据初代酷睿到十代酷睿发展过程中,新指令集、IPC和频率提升带来的CPU性能提升,折算求得酷睿系列芯片单位能耗年均算力增长约为8.1%。鉴于智能AI芯片处于发展初期,酷睿CPU芯片处于发展平稳期,预计未来智能芯片的技术进步将大概率高于这一速度。
四是随着浸没式液冷等技术应用,算力中心降温能耗的下降促使PUE降低。我国算力行业PUE6降低是大势所趋,当前,算力行业公开的全国平均PUE水平约为1.4~1.6;未来,根据《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》《GB 40879-2021 数据中心能效限定值及能效等级》相关文件标准,新增数据中心PUE水平约为1.2,因此使用浸没式液冷、余热回收等技术进一步降低数据中心PUE,是算力发展的大势所趋。
五是社会需求的波动导致算力基础设施的利用率及利用水平的变化。算力基础设施的负载率或者是开工率是一个对电力需求影响较大的因素。受超前建设导向、算力结构性失衡等因素影响,当前国内数据中心负载率普遍低于30%,但未来算力中心负载率可能出现大规模提升。此外,由于在大模型调试、训练及推理阶段,相较于普通数据中心,智能算力负荷曲线可能存在更大波动,因此算力设备设施的利用率也是影响负荷的核心因素。
三、推动算力电力协同,电力侧有四大发力方向
能源电力行业支撑算力行业高质量发展,进一步推动算力电力协同,有以下四个发力方向。
一是加强网架改造,保障算力中心电力可靠。一方面,为满足各级算力中心新增大容量负荷的供电和可靠性要求,电力行业新建相应变配电设备设施,改造相应配网网架回路布局;另一方面,为满足算力中心新能源发电及储能设施建设需求,电力行业增加相应电网改造及建设投资。
二是增强绿电供给,保障算力中心绿色转型。在算力中心园区配套分布式新能源发电,已逐渐成为绿色算力基础设施建设发展共识。“东数西算”国家枢纽节点新建数据中心,要求绿电占比超过80%。北京等地已对绿电标杆示范性智算中心提出“零碳”目标,希望绿电供给占比逐渐上升至100%。为满足高比例绿电要求,电力行业在绿电消纳、优先交易、储能配置、调度安排、新能源电力专线等方面均应承担相应责任。
三是提供监测服务,支撑算力中心运行优化。算力中心运行过程中,其电力负荷变化情况可以作为算力调度运行优化的基础数据。电力行业可以依托省市两级大数据中心,针对相关园区企业,开展相应新能源出力监测预测、PUE能耗监测、算力电力联动辅助决策等服务,支撑算力中心运行优化。
四是配合政策落实,促进算力中心节能降耗。在进一步降低算力中心能耗PUE的措施实施中,电力行业有必要配合数据资源局等上级部门,通过执行差异化电价标准,引导算力中心节能降耗。以安徽芜湖算力集群为例,安徽省人民政府办公厅印发的《推进长三角枢纽节点芜湖数据中心集群建设若干举措》中规定,对于PUE>1.4且≤1.8的项目,执行的电价加价标准为0.11元/千瓦时;对于PUE>1.8的项目,加价0.5元/千瓦时,促进数据中心降低能耗和二氧化碳排放。
注:
1. 均折算成1024张A100型号显卡计算。
2.数据来源:2024年4月2日,国家互联网信息办公室,《生成式人工智能服务已备案信息的公告》。
3.数据来源:华为孟晚舟2023年4月的全球分析师大会演讲,“预计到2030年,通用算力将增长10倍、人工智能算力将增长500倍。”
4.数据来源:2024年3月4日,英伟达(人工智能芯片主要供应商)CEO表示,英伟达计划使深度学习的计算能力再提高100万倍。
5.三种芯片技术路线主要区别在于:GPU灵活性好、冗余度大、功耗高、单片功耗200~500W;FPGA通用可编辑、冗余适中、功耗低、单片功耗30~50W;ASIC以硬件实现软件算法、定制化无冗余、功耗最低、单片功耗10W以内。
6.Power Usage Effectiveness,数据中心能源效率,即数据中心消耗的所有能源与IT负载消耗的能源的比值。