传统典型数据仓库体系结构作为一个数据仓库系统,从数据源(一般为业务系统或其它外购数据)到最终展现给最终用户,中间需要经过一系列过程:抽取适当的数据源数据。数据仓库不是简单的生产系统的业务数据的堆积,简单地将生产系统的数据进行堆积的结果将会建成一个数据垃圾堆而不是数据仓库。我们只要选取对现在和将来决策分析有用的业务数据进行积累就可以了。转化、清洗、重构等数据加工过程。因为数据仓库中的数据是面向分析和决策的,必须将业务数据进行重组才能达到这个目的。数据仓库中的数据结构往往与业务系统中的数据结构是有非常大差异的。建立海量、高效的企业级数据仓库。这个数据仓库必

首页 > 发电信息化 > 技术 > 正文

电力数据仓库解决方案

2013-08-20 11:30 来源:IBM中国 

传统典型数据仓库体系结构

作为一个数据仓库系统,从数据源(一般为业务系统或其它外购数据)到最终展现给最终用户,中间需要经过一系列过程:

抽取适当的数据源数据。数据仓库不是简单的生产系统的业务数据的堆积,简单地将生产系统的数据进行堆积的结果将会建成一个数据垃圾堆而不是数据仓库。我们只要选取对现在和将来决策分析有用的业务数据进行积累就可以了。

转化、清洗、重构等数据加工过程。因为数据仓库中的数据是面向分析和决策的,必须将业务数据进行重组才能达到这个目的。数据仓库中的数据结构往往与业务系统中的数据结构是有非常大差异的。

建立海量、高效的企业级数据仓库。这个数据仓库必须能够在海量数据基础上服务于大量并发用户,并且无论是数据处理速度还是查询速度都应该满足一定的速度要求。依靠数据仓库应该能够完成设计范围内的一切分析。

针对特定的分析主题,建立专门的数据集市。仅仅依靠数据仓库进行分析,其速度往往不足够快。为了使某些常用分析的速度足够快,有必要为这些分析问题分别单独进行进一步的数据重组和优化,即建立数据集市以加快分析速度。

 针对特定业务问题,使用特殊的数理统计算法进行数据挖掘。数据挖掘技术以建立在概率论和数理统计基础之上。特定的数据挖掘算法需要特定格式的数据输入,这种特定的格式往往不是数据仓库中直接具有的,需要大量的数据加工准备过程。模型挖掘、模型验证等过程也是一个需要反复进行的过程。另外,挖掘的结果--模型,必须作用到样本上--在样本上打分--才能真正发挥作用。

元数据管理--整个数据仓库的所有描述性信息、管理信息、调度信息等都是数据仓库的元数据。一个数据仓库要想得到很好的持续性建设和被很好地使用,元数据管理是必不可少的。

前端展现应用--最终用户的界面,这个界面必须简单易用且功能强大,必须具有良好的权限控制;两外,前端展现应用必须维护简单。

IBM数据仓库解决方案的体系结构IBM数据仓库的体系结构在上一节中描述的各个方面都具有卓越的表现。

核心技术

IBM数据仓库/商业智能解决方案是一个完整的端到端的解决方案,其核心技术包括:

1.IBM DB2 UDB作为海量数据仓库引擎

高扩展性

在单UNIX主机CPU扩展方面,TPC-C(OLTP)和TPC-H(Ad-Hoc Query),显示了DB2在扩展性方面的能力。

在集群技术方面,采用Share Nothing的MPP体系结构,每个节点独享各自的硬盘空间,各个节点间通过网络交换数据。可伸缩性强,最多可以扩充到2000个节点。国外有512节点的实例。每个数据库中单个表的大小可以达到512GB*1000=500TB。在全球范围有许多TB级的数据仓库。

高性能

DB2的基于成本优化技术已经有27年历史,积累了大量独有专利技术。针对任意的查询,DB2独特的查询重写功能将所有SQL语句改写成为语义上完全相同,但是可以使用优化器所有优化功能的语句,优化器再自动选择最优的查询路径完成查询。此功能特别适用于以图形化界面生成的数据仓库应用。针对OLAP应用做了相当多的优化。强大的基于成本的优化,独特的星型连接算法、动态位图索引、OLAP算子等。

高可靠性

支持Cluster、Standby等双机热备份、联机快速备份、快速加载数据和快速备份数据恢复。提供双日志功能,具有表空间级的备份和恢复功能,可以从整个数据库备份集中选择需要的单元进行恢复。提供在线重组织表,在线重组织索引,在线配置主要参数的能力,在线创建、删除和修改缓冲池的能力。

易管理性

IBM DB2是一个SMART的数据库,即自我管理及资源调度的智能数据库系统。DB2由数据库系统自己进行错误分析、可能的解决方案建议及自我修复的功能,提供部分核心配置参数进行自动配置,而不需数据库管理员进行指定和修改。

2. 信息集成平台 DB2 Information Integrator

IBM特有的企业信息集成平台,通过联邦数据库,复制等技术实现企业内各种信息资源的透明访问和数据同步,真正意义上实现企业信息的集成。

该技术具备以下特点

提供实时的数据仓库,弥补传统的单向而不实时的数据仓库的不足,提高基于数据仓库的分析决策的及时性。

提供无缝的连接手段,将目前电力行业的各个子系统包括营销、生产、调度等的数据连接在一起,形成一个统一的数据视图。在不对数据进行搬移的情况下,对数据进行实时访问。不管是访问本地表和还是访问远程数据源,都象所有的数据都在本地一样操作。 在不影响,更改已有系统应用的前提下,对原有子系统进行包装,对外提供Web Service、消息队列、XML数据交换的能力。

提供高效的各子系统数据传输方案,如利用各异种数据库的本地接口进行互相通讯。 提供异种数据库之间数据复制的能力。

3. ETMCL工具 Warehouse Manager

IBM的Warehouse Manager提供了建立数据仓库强大的、方便的功能:

开发简单。只需要用简单的点击、拖拉等Windows常用操作,系统会自动生成标准的SQL语句,当然,也可以自己定义SQL。一般情况下 不需要编写程序,但提供接口为满足特殊需要,用户也可以自己用VB、C/C++等写数据处理程序。

 维护简单。由于基本不需要编程实现,因此可以适应于变化的需求。当需求发生变化时,只需要改变数据仓库中的定义即可。

自动化的执行。通过调度(schedULe),数据仓库可以自动完成所有的数据抽取、整理、转换,以及分发等功能。

支持众多的关系数据库,以及非关系数据库。从个人机到NT服务器、Unix服务器以及IBM的主机系统。

提供分布式数据处理功能。利用Agent技术,可以分布式处理来自多个数据源的数据。这一点对于企业级数据仓库来说非常重要,因为它可以提供良好的可扩展性。

元数据管理。DataGuide提供方便的手段管理数据仓库的元数据,用户可以用各种方式查看它们。同时,IBM正在致力于制定数据仓库元数据的国际标准(以Warehouse Manager的TAG文件为基础),以实现不同数据仓库厂商之间的数据交换。

众多的第三方工具。如DataStage、VaLIty、ETI等可以和Warehouse Manager非常好的集成在一起,为数据处理提供增强的功能。

 DB2 UDB是业界公认的性能优良、开放、具有出色可扩展性的数据库。Warehouse Manager和DB2 UDB密切协同工作,为数据仓库的良好运作提供保证。这也是为什么世界上许多大型跨国公司,如花旗银行、联邦快运等都将数据仓库建立在IBM方案之上。

4. DB2 多维分析工具 DB2 Cube Views

IBM DB2 Cube Views 是 DB2 通用数据库的附加功能部件,它增强了 DB2,使 DB2 作为开发和部署商业智能产品和应用程序的平台。特别地,DB2 Cube Views 有助于加速位于 DB2 上的 OLAP 解决方案和应用程序的开发和管理。

DB2 Cube Views 功能部件是如何做到这一点呢?首先,它允许 DB2 支持 OLAP。如果没有多维数据视图,关系数据库对于不熟悉数据库结构和内容的人来说似乎是一组令人生畏的带有一些列的表。DB2 Cube Views 元数据使您能够更完整地记录 DB2 数据库中的底层结构。

通常,仓库或数据集市是特别为维分析设计的。在这种情况下,数据库通常由被组织为一个或多个星型(或雪花型)模式的表组成。简单的星型模式包含一个事实表,事实表周围有一些维表。例如,事实表可以记录公司各个产品和分店每日销售数据。维表(或许是 PRODUCTS 和 STORES 表)可能包含有关各个产品和分店的详细信息,并且与事实表相连接。

5. 多维分析服务器DB2 OLAP Server

优秀的设计理念。用户只需要关系需要分析的要素(outLIne),具体的物理实现由DB2 OLAP Server完成,如数据的存放,索引的建立等。

方便的实现。一般情况下,用户不需要编写复杂的计算公式,DB2 OLAP Server提供强大的计算功能和函数等,帮助用户获得所需要的数据。

维护简单。由于物理实现由DB2 OLAP Server完成,当需求变化时,用户只需要改变逻辑结构(outLIne)即可。

分布式处理能力。通过DB2 OLAP Server提供的分区功能(partition),可以方便的实现分布式处理,把运行在不同机器(或同一机器)上的多维立方体统一起来。这些机器可以运行不同的操作系统。

出色的性能。由于数据可以预先计算好,所以用户可以有较好的查询响应时间。

与数据仓库良好集成。DB2 OLAP Server可以与Warehouse Manager集成在一起,利用Warehouse Manager的调度功能,实现OLAP的自动维护、数据加载、计算等。

完全开放的、事实上的客户端接口标准。有100多家公司为DB2 OLAP Server提供前端工具。它除了支持IBM自己的DB2Alphablox之外,几乎所有多维分析前端工具都支持DB2 OLAP Server,例如:Business Objects、Brio、Cognos、、Excel、Lotus 1-2-3等。这些工具提供丰富的展现功能,并且大都支持通过Web方式访问,支持Java、JavaScript、CGI等标准方法。

6. 数据智能挖掘 DB2 IntelLIgent Miner

IBM的数据挖掘服务器DB2 IntelLIgent Miner支持六大类十三种数据挖掘算法和多重统计算法,并且可以将其挖掘的模型以预测模型描述语言PMML格式输出,与其它挖掘和打分工具进行模型交换。而其它一些的数据挖掘工具则只能支持少数机中挖掘算法,并且不支持模型输出。

数据挖掘打分工具DB2 IntelLIgent Miner Scoring支持倒入PMML格式的挖掘模型,并直接在数据仓库或生产系统中对样本进行实时打分智能挖掘。

7. 前端分析组件DB2 Alphablox

DB2 Alphablox是基于JAVA开发的分析组件,基于DB2 Alphablox可快速开发出基于浏览器三层架构的在线分析应用。利用该产品可构建:

强大功能的报表繁忙的信息技术部门可以在几分钟内创建用于在企业中分发的完善的报表。,决策人员可以从该Web页面上找到可用的一系列报表。

图形化分析

远远超出对数据的静态图形化步骤。决策人员可以根据需要排序、分组数据并改变"图表"(Chart)的类型(直方图、饼形图、线图、堆积图)。图表中的元素可以被"钻取"到其他的细节层次,并可以返回来恢复一个概要性的步骤。

多种图表步骤:直方图、线图、组合图、饼形图、堆积图和离散点图

可在任何地方"钻取"-没有路径的预先定义

完善的报表

复合报表通过用各种不同的形式(交叉表、图表、表格或以上几种形式的组合来表现分析结果,对工作进行概括。优美格式的商用报表

交互式的、立即的"所见即所得"(WYSIWYG)显示

此外,作为一个功能完善的系统,其门户建设和系统管理、数据存储管理等也是必不可少的。

IBM提供如下软件解决这部分问题

消息传输服务器WebSphere MQSeries及企业应用集成(EAI)服务器Websphere Business Integration Message Broker;

WEB应用服务器WebSphere AppLIcation Server;

可定制化的门户服务器WebSphere Portal Server;

 数据存储管理软件TivoLI Storage Manager;

系统管理软件TivoLI等;

另外,IBM的软件是以开放为设计原则的。IBM数据仓库解决方案支持各种第三方前端展现工具,例如Brio、BO、Cognos、Excel等。

此外,IBM的咨询服务部门可以提供完整的数据仓库概念设计、逻辑设计、物理设计、集成等各种相关咨询服务。

主要产品列表

1. DB2 Data Warehouse Edition(DWE)数据仓库企业版

DWE 组件列表功能

⑴ 数据仓库存储的海量关系型数据库: DB2 UDB ESE企业版,数据仓库引擎/DB2 UDB ESE

⑵ 数据分区模块DB2 UDB DPF: DB2 UDB DPF模块,提供分区支持,支持多机并行

⑶ 调度复杂即席查询的查询管理器: 基于成本的查询负载管理工具, 提高数据Query Patroller 仓库吞吐量

⑷ 多维分析工具DB2 Cube Views: a. OLAP元数据交换工具 /b. 模型级物化查询表生成器,加速OLAP多维分析

⑸ 实时数据仓库及信息集成器 IBM DB2 Information Integrator: a. 关系数据库联接Relation Connect/ b. 非关系数据库联接LIfe science Connect

⑹ ETMCL工具DB2 Warehouse Manager: a. 用于数据抽取、清洗、加工和装载的ETL工具DB2 Warehouse Manager Transformer; /b. 用于分布数据仓库ETL过程的数据仓库代理Agent。 /c. 数据仓库的开发、监控以及Meta Data管理工具DB2 Warehouse Center; /d. 数据仓库信息目录Information Catalog; /e. 报表生成工具QMF

⑺ DB2 IntelLIgent Miner Scoring: 数据挖掘评分工具在数据仓库中直接实现(实时)评分

⑻ DB2 IntelLIgent Miner Modeler: 数据挖掘建模工具,从数据仓库中发现规律(模型)

⑼ DB2 IntelLIgent Miner VisuaLIzation: 数据挖掘模型图示化工具

⑽ IBM Office Connect: Excel多维分析插件,在Excel中实现查询、报表、多维分析

⑾ 前端分析工具DB2 Alphablox

2. 多维服务器DB2 OLAP Server

系统功能流程图

数据仓库系统的实现需要经过以下一系列操作:

 数据仓库系统的实现需要经过以下一系列操作:

数据整合(形成统一视图访问分布式的异构或同构数据)

数据抽取(从业务源数据到企业数据仓库)

建立数据仓库的数据模型

 数据移动(从企业数据仓库到数据集市)

 建立数据集市的数据模型

 前台应用的定制

数据仓库实现过程

1. 企业级数据仓库的实现

企业级数据仓库是指集成了电力决策分析之所需的业务数据的关系型数据库,这些数据是经过鉴定的和经过清洗的,并由数据仓库管理工具定义其存储的数据模型和监控其数据导入操作。

建立企业级数据仓库的步骤包括以下五部分

数据模型的建立--数据模型是数据仓库的蓝图,它根据数据仓库的用户需求而设计。没有数据模型的数据仓库如同盖房子没有蓝图,其成功机会可以想见。成功的数据模型往往需要技术人员和企业业务人员的共同努力。

数据抽取--以定时或事件触发的方式实现对业务源数据的抽取,并将数据转移到企业级数据仓库。抽取方式包括全刷新和增量抽取方式;覆盖的源数据范围尽量广泛。由于数据仓库提供给用户的是准实时的数据,因此数据抽取的工作可选取定期地在业务系统空闲的时候进行,对反应时间的要求并非象交易系统那么严格。

数据整理--将抽取来的源数据进行去冗余、消偏差、数据格式转换等一系列操作,保证数据一致性,并进行数据汇总、聚合运算,使数据符合数据模型的要求。在此阶段工具应提供丰富的数据重组功能。在数据抽取和整理阶段,所有操作应自动完成并可自动进行作业管理。

数据存储管理--考虑到数据仓库的数据量相当大,数据存储的关系型数据库系统应支持大数据量的处理和访问。

 数据访问--对数据仓库进行的客户端访问,往往具有一次性操作数据量大、只查询不更新、操作方式多变等特征,与OLTP处理不一样。

这一系列工作完全可以由数据仓库管理软件配合后台关系型数据库来完成,IBM 就是通过可视化数据仓库和DB2 来实现的。

2. 数据集市的实现

数据集市是集中包含某一特定业务领域的数据的、面向部门或工作组的小型数据仓库。数据集市可以存在于关系型数据库或非关系型数据库,事实上它往往存在于不同的应用分析工具中,其特点是满足客户端对数据的迅速查询和浏览。

建立数据集市的工作包括

 建立数据集市的数据模型--包括OLAP模型、报表模型、关系型模型或挖掘分析模型;

 数据移动--数据从企业级数据仓库移动到数据集市

数据整理--按分析方式和工具的特点,将数据进行索引、汇总、抽样等操作。

数据存储和管理--由不同的应用工具进行管理。虽然数据量没有企业级数据集市大,但应用工具对大数据量的支持仍然是考虑的重点。

 数据访问--支持灵活、迅速的分布式的客户端访问。

在数据集市一级,数据模型的建立仍然至关重要。但数据模型的特点将随应用分析工具的不同而改变。

实现数据集市的应用分析工具包括

报表/资料检索工具

OLAP工具及前端工具

数据挖掘工具--用于发掘隐含在数据中的规律

3. 客户端访问

相对而言,数据仓库的客户端访问不象中心数据结构那么重要。它侧重于使用的灵活性和接口的开放性,为了最大限度地减少信息人员的负担,简单的可视化定制开发功能必不可少。理想的前台工具,甚至只通过简单的培训,熟悉计算机的高级业务用户便可以直接定制自己想了解的信息。

数据仓库主要实现的部分功能

1. 信息种类

数据仓库管理系统能对所有关系型数据库、电子表格文件、文本文件、Access文件等进行直接的数据抽取、清洗和转换,并可将其内部数据存储在数据仓库中。对Word,PDF文件,HTML等所有其他文件,可以采用功能调用、URL链接等方式进行处理,其内部信息独立于数据仓库,但可为数据仓库所调用。

2. 数据主题域业务规划:

由业务系统源数据与决策分析主题的对应关系,以下主题都是可实际构造的:

1、内部机构主题

2、电力客户主题

3、电力规划主题

4、电网运行主题

5、生产技术主题

6、生产运行主题

7、电力营销主题

8、人力资源主题

9、物资主题

10、财务主题

11、综合指标主题

12、电力计划主题

13、全面计划全面预算管理主题

在构造过程中,需要根据源数据的相关性、电力的分析需求、主题内容相关性等方面,具体情况具体分析,来定义全局数据模型和主题共享内容,例如:综合指标主题里的综合指标与财务主题中的财务数据、营销主题的营销数据、内部机构主题有一定重叠,而综合指标主题分析的电力营销与电力客户主题联系性非常强,甚至可以进行归并。

3. 应用系统规划

对应用系统而言,每一个应用系统都与后台分析主题有密切的联系。在系统建设中,我们建立电力营销主题,可以支持电费收缴情况分析,并提供营销数据给经营管理指标统计应用和客户关系管理系统。

对于营销应用分析,我们可以采取的分析应用角度可以包括、但不局限于以下各点

电量销售情况分析,

电力需求分析,

典型用户分析(包括大型用电用户分析和欠费用户分析),

电力市场需求预测(用电形势预测),

业扩报装,

用电检查,

装表修试(包括电表统计和装表修试),

等等

其中,电力需求分析分别从时间、机构、电价类型、用电类型等角度对用电量、售电量、用电负荷等指标进行全面分析,发现各行业用电量的构成特点,企业生产经营活动基本态势,为科学地进行电力需求预测提供合理的依据,促进电力市场的进一步发展。

而典型用户分析可以分别从时间、机构、用电类别、电价类别、收费方式、力调标准、有功表状态、用户类型、行业类型、缴费方式等角度对实用电度、总电费、户数、欠收金额、电度电费、农网改造税、迟纳金、增值税、三峡基金税、市政附加电费等数据指标进行全面分析,揭示大型用电用户和欠费用户这两类典型用户的构成特点、变化趋势,从大量的客户数据中,细致地发现和分析不同用户地客户地用电习惯,用电量变化,个人用电规律,缴费方式和经济能力等信息,确定不同的信誉度、不同经济能力、不同用电爱好和不同缴费方式的用户群,为客户提供体贴温馨的个性化服务,稳固地拓展电力市场,有效地提高供电企业地形象。

4. 数据集市规划需求

数据集市以功能划分,使用OLAP工具来完成模型的定义和数据集市的建立。数据模型的定义继承数据仓库的模型划分标准。

对省公司的下属机构,有两种处理方案

 一是可以采用在省公司数据中心的数据仓库基础上建立视图的方式来建立多个逻辑型数据集市,视图安全性由数据仓库控制,OLAP数据分析模型的数据来源于数据仓库,不同的视图形成多个同构的业务动态分析模型,每个同构的模型具有同样的复杂分析功能设计;

 另一种现实可行的方案是数据仓库的模型无需划分视图,在OLAP工具中形成全局性的业务动态分析模型,然后在OLAP模型中划分省公司的下属机构可访问的信息切面,信息切面的视图安全性由OLAP工具控制;

两种方案均可实现,在实施过程中我们可以根据数据特性和安全管理的复杂度灵活使用。

5. 主要技术功能

系统的结构设计能满足以下要求

对电力公司的业务数据进行全面的采集和集中存储,并建立物理数据模型,对采集上来的数据进行各种规整处理。

依据各部门的实际应用需求,设计相对应的逻辑数据模型。

支持后台任务调度与管理-从数据采集、清洗、转换到集中存储到数据仓库中,到OLAP数据的应用下载和计算,一系列数据仓库任务,都可以进行定时或者顺序、并行调度。

开发前端应用-前端工具的开发支持多种开发方式,包括JAVA,C,C++,VB,VC,PowerBuilder,Delphi等等语言和工具均可进行前端应用开发。

具备数据的管理能力、与应用系统的交流与协调机制。

具有完善的元数据管理机制。

具备或支持实现适当粒度的权限控制--对粒度的权限控制可以从多个角度进行严密控制,包括关系型数据库、OLAP服务器均有相应功能提供。

具备足够的扩展性--本建议书提供了对硬件扩展性、数据量扩展性和应用扩展性的支持。

可以整合其它软硬件系统和不同开发商应用,如Oracle,BEA等等。

成功案例

国内数据仓库成功案例

IBM在书库仓库方面拥有国内最多的成功案例,积累了大量的实施经验和教训,锻炼出了一批资深工程师。这些资源对保证客户项目的成功具有不可估量的作用。部分国内数据仓库客户:

用户名称 应用说明

黑龙江省电力营销决策支持系统:

2003年,黑龙江省电力有限公司采用了IBM BI数据仓库解决方案建立了全省的营销数据中心,基于全省营销数据中心建立了营销实时数据仓库建立并对该数据进行基于指标的营销决策分析,同时基于实时的营销数据仓库实施对全省的营销状况进行实时的监管

软件:

DB2 UDB ESE

DB2 Information Integrator

DB2 Warehouse Manager

DB2 OLAP Server

WebSphere Application

Server WebSphere Portal Server

辽宁省电力营销综合管理与决策支持系统:

2002年,辽宁省电力有限公司采用IBM BI商业智能解决方案建立辅助决策的模型库、方法库、知识库,对电力营销进行定性和定量的分析,同时利用专家系统和人工智能技术,对各种错综复杂的问题,甚至在情况不是十分明朗的条件下提出解决问题的方案,实现对电力系统的智能化管理。

软件:

DB2 UDB

DB2 Warehouse Manager

DB2 OLAP Server

DB2 OLAP Server Analyzer

WebSphere Application Server

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。
展开全文
打开北极星学社APP,阅读体验更佳
2
收藏
投稿

打开北极星学社APP查看更多相关报道

今日
本周
本月
新闻排行榜

打开北极星学社APP,阅读体验更佳