风电企业生产数据有其自身的特点,主要是风机回传的传感器数据,其符合典型机器大数据的特点,具体而言:(1)体量大。假设每台风机每秒回传500个数据点,那么1台风机1年产生的数据为60GB。按1万台风机估算,1年产生的数据若不压缩大概900TB。针对风电企业PB级别的生产数据,需要低成本可扩展的大数据平

首页 > 风电 > 风电产业 > 报道 > 正文

基于云平台的风电大数据系统搭建策略研究

2016-09-18 17:20 来源:《中国国电》 作者: 王寅生 朱志成 王其乐 尹诗

风电企业生产数据有其自身的特点,主要是风机回传的传感器数据,其符合典型机器大数据的特点,具体而言:(1)体量大。假设每台风机每秒回传500个数据点,那么1台风机1年产生的数据为60GB。按1万台风机估算,1年产生的数据若不压缩大概900TB。针对风电企业PB级别的生产数据,需要低成本可扩展的大数据平台架构来存储数据。当数据不断增多的时候,包括未来增加传感器的属性,可以通过增加节点和本地存储实现水平扩展。(2)速率高。针对风机回传的时间序列数据而言,每台风机每秒回传500个数据点,1万台风机向数据中心回传的数据率为650万点/秒。针对风电企业回传数据的特点,如果把这些数据加载到关系数据库,根据这一数据库的产生速率,无论是批量导入还是实时插入,远超过商用的通用数据库的加载速率。因此,需要定制数据存储和查询平台,支持每秒千万数据点的导入。(3)格式特定。首先,风电企业的主要动态数据为风机产生的时间序列数据。其次,由于风机型号和出场时间的差异,风电企业回传的机器大数据格式多样。基于风电大数据的这些特点,加之对风电数据的实时分析、查询和存储区需要大量计算资源,为了弥补物理设备的不足,建议采用云平台架构。

本文详细介绍了基于云平台的风电大数据系统搭建策略,通过分析风电企业数据资源特点(体量大、速率高、格式特定)制定平台架构和部署方式。平台采用成熟的商业hadoop软件加私有云的架构方式,包括:平台基础层、平台服务层、平台应用层,分别提供数据预处理、存储、安全、共享等服务。通过云平台可节省投资、实现快速部署,平台安全稳定不受物理设备存储计算容量的限制,可实现计算资源的快速横向扩展,为风电企业实现大数据平台建设提供了新的思路与想法。

平台技术架构

1.大数据云平台技术架构

大数据的基础设施采用云资源架构;大数据平台主要基于hadoop技术提供大数据分析计算功能;大数据应用服务基于大数据云平台搭建,同时又通过应用服务总线提供大数据应用服务。如图1所示。

基础云平台,由虚拟化调度管理系统、服务器、存储和网络设备统一构成,对外提供计算、存储、网络等基础资源功能。大数据平台层,主要是实现PB级数据存取和快速计算分析功能,实现分布式的文件系统、实时数据库,分布式数据库等不同级别的存储区域;同时实现流计算、内存计算、分布式并行计算等多种计算引擎,且集成通用的挖掘算法和挖掘工具,便于应用业务进行挖掘分析处理。应用开发服务平台基于J2EE技术路线,采用SOA、模块化和构件化架构,平台总体架构分为4层:模块化引擎、基础组件、核心组件、展示组件。

2.云支撑平台

整个云支撑平台系统结构如图2所示。云平台由一个运营管理平台和一个或多个资源池系统组成。物理设备主要包括X86服务器、网络设备、存储设备,为IaaS服务提供最底层的物理资源。在虚拟化层是通过虚拟化软件(如VMware ESXi、Citrix XenServer或KVM)对物理层的硬件设施进行虚拟化处理,形成Hypervisor虚拟层面的资源池系统。采用虚拟化软件将物理设备资源形成一个或多个虚拟出来的资源池,提供计算能力、网络功能和存储能力。该资源池系统可提供用户传统使用基础IT资源、计算能力、网络功能和存储能力。该资源池系统可根据需要动态改变资源分配的规模,快速适应不同应用的扩容需求,实现“弹性”资源的分配能力。

管理系统是通过云管理平台来实现资源统一管理和业务统一管控的自动化系统。云管理平台作为资源管理系统,主要是管理资源池系统及资源池系统中的各种资源的调度、分配和调整。

1)数据支撑平台。

大数据平台由分布式文件系统、分布式资源管理框架、数据采集标准工具、多租户数据探索平台,实时数据在线处理,交互式多租户数据探索,接口访问层,如图3所示。

数据采集工具:外部关系数据利用Sqoop技术导入数据到分布式数据库中,外部的日志数据利用Flume工具进行数据导入,实时生产数据用Kafka消息队列进行数据收集。

分布式文件系统:基于 HDFS 的大数据存储和在线服务系统,同时支持Erasure Code以及HDFS文件加密。Hadoop分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。

实时数据在线处理引擎:采用内存处理技术,快速进行数据的实时存储和分析在线处理引擎应用逻辑以DAG形式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以Pipeline方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到HBase等存储集群或者告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控。

内存计算引擎:提供大数据的交互式SQL统计和R语言挖掘能力;支持将二维数据表缓存入独立的分布式内存(或SSD)中,建立列式存储、分区/分块和索引,采用改进后的Apache Spark作为执行引擎,SQL执行性能比 Apache Hadoop/Hive快10~100倍左右,性能超过主流MPP数据库2倍到10倍。同时兼容Oracle PL/SQL和HiveQL语法,自动识别不同语法,支持存储过程和函数,支持常用 Oracle扩展函数。完整的SQL支持帮助用户平滑地从原有关系数据库迁移到大数据平台。

分布式资源管理框架:将资源封装在容器中,资源包括内存、CPU等。不同的应用根据实际资源需求,请求不同个数以及大小的容器。基于YARN的资源调度与隔离,用户可以根据不同需求,启用多个内存分析计算引擎。如对流处理的分析应用,对于在线实时数据内容的统计分析应用,对于离线数据仓库的统计分析应用,以及使用R语言进行数据探索以及挖掘的应用等。

2)应用支撑平台。

应用开发服务平台基于J2EE技术路线,采用SOA、模块化和构件化架构,平台总体架构分为四层:模块化引擎、基础组件、核心组件、展示组件,如图4。

基础组件为平台底层基础功能的实现,平台基于业界成熟的Spring、Hibernate框架,并经扩展完善,使之能正常运行于Equinox模块化引擎之上,实现Equinox、Spring、Hibernate等框架的融合,为上层组件提供常用的MVC、IOC、AOP、数据缓存、数据持久化、日志等平台基础核心功能。

核心组件基于平台基础组件构建,是平台提供的核心功能,这些组件以服务的方式向外提供,为展示组件及业务功能开发提供服务支撑。核心组件依据功能独立性划分,每个组件都提供一些相对独立的功能,核心组件主要依赖基础组件,也可能依赖别的更底层的核心组件。核心组件层构成平台的主要功能。

展示组件为平台提供的展示框架,分为业务建模工具和业务运行环境两部分。业务建模工具是平台的开发与管理工具,用户可以通过它定义各类模型,开发出各类业务系统。业务运行平台是业务系统的最终用户使用平台,用户通过它完成各项业务操作,实现业务功能。

3.数据迁移原则

对于历史数据迁移有两种处理方式,一种是针对历史数据的相关业务系统不再使用的数据迁移;一种是针对历史数据相关业务系统继续使用的数据迁移。

1)历史数据相关系统不再使用。

可对历史数据相关系统的数据结构进行分析,在原系统开发商或运维商的协助下,将历史数据按照大数据的数据标准,一次性迁移到大数据中。

2)历史数据相关系统继续使用。

对于继续使用的业务系统,需要开发业务系统到大数据的数据采集接口。该接口开发时,需要考虑历史数据接入和正常运行两种运行模式。

当接口开发完成后,可将接口设置为历史数据接入模式,集中接入历史数据;待历史数据接入完成后,再设置为正常运行模式,正常运行接口。

3)数据迁移原则。

标准先行原则。数据迁移必须满足大数据的数据质量标准,并在数据迁移完成后,由龙源组织数据质量检查。

源头负责原则。数据迁移工作由各系统原厂商负责迁移。各厂商按大数据统一的数据标准迁移,大数据基础平台提供数据导入和实时数据清洗工具。

部署架构

大数据云平台服务区,资源分为两个部分,第一部分为大数据服务区共有3个物理集群,分别是存储挖掘集群、实时出力集群、分析计算集群;第二部分为云服务提供的虚拟资源区,用于部署大数据应用软件和关系数据库,具体如图5所示。

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。
展开全文
打开北极星学社APP,阅读体验更佳
2
收藏
投稿

打开北极星学社APP查看更多相关报道

今日
本周
本月
新闻排行榜

打开北极星学社APP,阅读体验更佳