“发现一起IP异常行为,请及时处置。”7月13日14时26分,国网江苏省电力有限公司网络流量分析平台发出告警提示,网络安全值班员陈石立即阻断了这起攻击,并判断出该攻击类型疑似勒索病毒。定位攻击涉及的机器及影响范围后,他迅速通知相关负责人赴现场排查,隔离疑似感染病毒的机器并开展杀毒。
随着江苏电网规模的扩大和各类终端的大量接入,国网江苏电力网络安全防御关口增多、边界外延,网络安全风险随之增大。该公司通过搭建网络流量分析平台、推进系统双活容灾改造、创新全链路监控模式,持续提升网络安全风险防范能力,支撑系统安全运行。
分析流量 主动防范风险
2021年,国网江苏电力发现和拦截的网络攻击达116万余次。面对海量的网络流量数据,如何提升网络安全防护能力?该公司聚焦及时主动锁定风险源头,搭建网络流量分析平台。
2021年9月,国网江苏电力网络流量分析平台上线。该平台基于数据通信与广域网工作,覆盖国网江苏电力及所属13个地市公司、51个县公司,把该公司全部变电站、供电营业厅和17万余个在用IP地址纳入实时监控范围,结合大数据和人工智能技术,实现了用户异常行为、网络攻击的自动监测和告警。
“平台运行以来,日均监测约4太字节的网络流量数据。我们还开发了10类智能算法,可以识别出弱口令密码、勒索病毒攻击、跨单位未备案扫描等不同类型的异常流量,并对这些流量进行关联分析,确定其来源、应用类型、发生时间、传输路径和目的地等,实现异常流量的定位、跟踪、溯源。”江苏电力信通公司运检中心主任夏飞介绍。
上线至今,国网江苏电力网络流量分析平台累计监测和协助修复各类安全漏洞200余个。4月,该平台相关成果入选“国家电网公司2021年信息运维创新最佳实践案例”。
补强系统 提升容灾能力
“主数据中心服务器宕机、核心存储设备发生故障,导致系统无法正常运行。”1月14日22时,随着模拟告警信息的发布,国网江苏电力统一权限系统双活容灾切换演练开始,系统业务转由备用数据中心接管。次日22时主数据中心服务器和核心存储设备的故障消除后,系统业务成功回切至主数据中心。其间,各项业务工作未受影响。
“考虑到新系统不断接入、业务量日渐增加,数据库承载的压力越来越大,推动双活容灾建设十分必要。”江苏电力信通公司运检中心副主任袁国泉介绍,国网江苏电力在现有的主、备数据中心基础上,通过大容量光传送网(OTN)传输数据,建立跨机房的数据备份,优化信息系统运行方式,提升信息系统的健康水平。一旦主数据中心遇到突发故障,且短时无法恢复,各类信息系统可快速切换至备用数据中心运行,确保系统运行可靠、数据存储安全。
统一权限系统是国网江苏电力的核心系统之一。该公司历时半年余,于2021年9月完成了对该系统的双活改造,并于今年将双活链路传输通道割接至带宽为100吉字节的OTN,进一步提升数据传输的容量与速度。截至目前,该公司企业资源管理系统、信息通信一体化调度运行支撑平台、新一代设备资产精益管理系统等关键系统和平台都已完成双活改造。
为支撑业务系统运行更稳定,国网江苏电力还建成了开发运维一体化平台,贯通开发、测试、生产、发布全环节,实现业务系统一键部署、快速迭代。“当系统更新版本时,以往需要人工手动部署,至少耗时1周。现在点击一下鼠标,通过平台就能远程发布系统新版本,供各单位、各专业使用。”江苏电力信通公司业务组组长李萌介绍。上半年,江苏电力信通公司已开展1293次信息系统升级工作,单次升级用时在30分钟左右。
监控链路 精确定位故障
6月17日22时47分,国网江苏电力营销2.0运维负责人刘子寒接到全链路监控平台发来的告警短信:营销2.0调用交费微服务接口1分钟内报错50次。刘子寒立即进行应急处置,一键重启了营销2.0交费模块。约15分钟后,交费业务恢复正常。
目前,国网江苏电力在运业务系统共有669个,包含应用7685个。信息运检人员负责监控这些系统的运行情况,及时处置相关故障。
“大部分监控平台的技术路径决定了平台主要关注后台数据安全和故障处置,很少从业务应用的视角去考虑网络安全和相关问题。这种模式常常只能判断系统整体是否出现故障,而无法对具体业务的运行情况作出分析,难以适应更精细化的专业管理需求。”全链路监控平台研发负责人邹昊东介绍。
今年2月,国网江苏电力转变思路,开始探索建设全链路监控平台。该平台于6月建成上线,目前已接入24个业务系统,覆盖368个业务模块,在无人机巡检、输电可视化、配网抢修智能管控等业务场景中深度应用。
全链路监控平台能够针对具体的业务场景,展现从用户侧到后台的全过程链路拓扑,便于及时发现各业务模块的运行故障或缺陷,并以短信方式告知业务管理人员、信通运维人员。这样一来,在用户感知到异常之前,问题就已经被快速解决,提升了用户的使用体验。
以营销2.0的交费场景为例。信息运检人员在该平台上可以查看供电营业厅、银行专线、各类手机应用等不同交费渠道的交费微服务功能调用次数、失败次数和时延,以及与之关联的网络设备、业务系统等,并基于这些信息快速跟踪分析业务异常。
全链路监控平台上线至今,累计协助定位信息系统问题800余次,支撑了信息系统稳定运行和性能优化。
原标题:快速识别异常流量 保障信息系统安全运行