DeepSeek通过模型算法优化,在显著降低训练成本与能耗的情形下,实现了与国际顶尖大模型相当的智能水平。对于算力行业的电力需求而言,一方面,DeepSeek的系列优化技术可以有效减少芯片运算,降低当前算力行业的电力需求;另一方面,DeekSeek将适配更多的国产GPU芯片,有效缓解“卡脖子”问题并激发社会的普遍应用,进而导致用电总量的提升。因此,有必要分析DeepSeek的电力影响逻辑,研判未来算力行业的电力需求变化趋势并有效应对。
技术上看,DeepSeek引领的算法优化、叠加开源的传播优势,将促使算力行业由“算力”驱动转向“算力+算法”并重,进而影响未来算力行业的电力需求。
以ChatGPT为代表的传统大模型,主要由堆砌算力和样本量提升大模型能力。DeepSeek带来的系列大模型技术,通过“样本、架构、编程、应用”四方面优化算力需求,将影响未来算力行业的电力需求逻辑。
样本方面,传统的通算、智算训练一般采用32位或16位精度,而DeepSeek的训练采用了16位和8位混合精度框架。如未来算力行业均采用该精度,则相较于传统的32位精度,训练量将降低50%,甚至75%。且随着GPU芯片对低精度样本更好地适配,将带来算效的提升,从而使训练能耗显著降低。
架构方面,通过仅激活部分参数,大模型推理可以实现更低的算力消耗。DeepSeek的MLA和MOE架构,相较于其他大模型激活的参数量占比更少,叠加“开源”优势,有望吸引其他大模型模仿学习。若其他大模型未来推理过程中,激活参数占比降至DeepSeek同等水平,则能够整体降低推理能耗的60%~70%。
编程方面,DeepSeek通过高水平编写更底层的PTX语言,绕开英伟达成熟的CUDA架构,提升GPU利用率(MFU)约60%,向全球展示了算力紧张情景下的高效解决方案。但该技术的实现依赖于高级编程人才,预计多数大模型公司仍将选择CUDA架构,未来能耗压降有限,但能有效缓解算力“卡脖子”问题。
应用方面,DeekSeek使用知识蒸馏技术,从6710亿全参数模型中蒸馏出15亿、70亿、140亿、700亿参数的多类型小模型,避免重新训练。由于“免费+开源”的叠加效应,DeepSeek极大降低了大模型应用门槛,预计未来社会应用将爆发式增长,带动能耗的整体上升。
行业来看,DeepSeek引发的生态变革,叠加国内政策与国际竞合因素,将促使社会应用需求发生变化,预计未来将呈现出“先稳后升”的用电态势。
模型技术主要影响算力需求,除算力需求外,用电量还受到数据中心PUE、算力设备负载率等因素的综合影响。DeepSeek引发模型技术之外行业生态变革,可能改变行业生态因素,从而影响整体用电需求。
目前,我国智能算力占比不足40%,虽然预计在2028年将达到75%,但目前仍以通用算力为主。DeepSeek带来模型技术变革,当前主要作用于智算行业,通算和超算行业应用该类技术需进一步适配和调整。因此,DeepSeek带来的能耗压降影响,将不会在短期内大量释放。
传统大模型对算力规模的高要求,决定了主要的训练工作在中大型算力中心完成。DeepSeek对算力规模需求的降低,将使得中小型算力中心也具备模型训练和微调的能力。一方面,社会使用的扩大将对冲掉部分先进技术对能耗的压降;另一方面,中小型算力中心PUE(约1.3~1.5)相较于大型算力中心PUE(约1.1~1.3)普遍较高,也将对冲掉部分能耗压降的规模。
目前,英伟达GPU市场占有率超过90%,随着AMD、华为等公司宣布针对DeepSeek进行芯片适配,英伟达的芯片垄断将被打破,引入竞争将进一步降低GPU价格。根据杰文斯悖论,预计芯片国产化适配后,未来大模型在制造、信息、材料、家居等行业的应用将更为普遍,长远来看将进一步拉升全社会用电量。
能源行业有必要积极关注社会训练、推理算力的用电趋势分化,未来可以考虑将部分社会应用模式创新纳入能源行业大模型应用体系。
从全国一体化算力网加快建设的态势来看,未来训练需求将集中于各枢纽节点。短期内,DeepSeek模型优化技术将对冲训练需求上升,电力电网设施配套不宜过早、过多、过快;长远看,未来训练算力需求将持续增加,枢纽节点是算力保电重点,有必要因时因地、分层分级地精细划分裕度区间,避免资源错配错位。
研究认为,由于数字、电商、高端制造等产业的聚集效应,以及大模型应用的可复制性和扩散效应,DeepSeek带来的社会应用增长,将率先在数字经济发达区域出现,需及时研判供电保电压力变化。
DeepSeek类蒸馏小模型推理算力需求低、能耗低、开源优势明显,有望在用户侧以小规模算力实现大量部署,催生出多种创新应用模式。建议持续关注社会应用模式创新,优化能源行业“集中—分散”硬件资源布局,借鉴纳入无人机智能巡检、智能机器人等能源行业专业应用。
(作者单位:国网能源研究院有限公司)