随着现代企业信息化进程的不断深人,一个现代化企业对各类企业信息系统的依赖性越来越强。在企业必须依靠各类信息系统运转的今天,存储于各信息系统后台的结构化数据或非结构化数据,就成为企业最为重要的资产。特别对于运营商来说,存储于核心业务系统的大量用户数据成为企业生存和发展的基础,这些存储于磁盘上的重要数据一旦发生丢失或错误,又没有相应的备份或容灾数据可用,那对于企业的打击将是毁灭性的。因此,对各类核心数据进行容灾备份保护刻不容缓。随着存储技术的不断发展,就单个存储系统而言,其IO性能、可靠性、可扩展性及可管理性已相当成熟,诸如EMC、DELL、ORACLE、

首页 > 发电信息化 > 技术 > 正文

浅议企业核心数据容灾备份系统建设方案

2013-10-16 10:04 来源:万方数据 

随着现代企业信息化进程的不断深人,一个现代化企业对各类企业信息系统的依赖性越来越强。在企业必须依靠各类信息系统运转的今天,存储于各信息系统后台的结构化数据或非结构化数据,就成为企业最为重要的资产。特别对于运营商来说,存储于核心业务系统的大量用户数据成为企业生存和发展的基础,这些存储于磁盘上的重要数据一旦发生丢失或错误,又没有相应的备份或容灾数据可用,那对于企业的打击将是毁灭性的。因此,对各类核心数据进行容灾备份保护刻不容缓。

随着存储技术的不断发展,就单个存储系统而言,其IO性能、可靠性、可扩展性及可管理性已相当成熟,诸如EMC、DELL、ORACLE、IBM等公司的高端存储系统,已被广泛运用于企业的核心信息系统,特别是SAN存储网络技术已成为企业结构化数据存储的首选方案。但在实际的应用过程中,我们发现SAN存储技术在带来性能、使用和管理上的提升时,也带来了对数据存储的风险。SAN存储网络的运用,使得数据进一步集中,而风险也随之集中和递增。

那么如何保证数据的安全,如何保证在存储系统出现故障后,能够快速恢复应用系统的正常访问,则是需要通过容灾备份系统来解决的问题。通常我们把容灾备份系统简称为灾备系统,灾备系统是在企业信息系统发生故障甚至崩溃时,能迅速将系统恢复到可用状态的辅助IT系统。它可以保证企业信息系统在发生崩溃时,最大限度地保护企业资源,最快速地恢复企业地信息系统服务。

1.容灾与备份

通常我们实现信息系统数据灾备有两种方式:Backup和Replicationo Backup就是我们通常所说的数据备份,是通过数据库自身或专业备份软件实现的,基于系统数据文件的数据保护方式;Replication通常指的是存储设备自身或通过专业设备、软件,实现数据在异机或异地的复制,作为生产系统的远程容灾系统。

备份是指为防止系统出现操作失误或系统故障导致数据丢失,而将全系统或部分数据从主机的硬盘或阵列复制到其它存储介质的过程,是将在线数据转移成离线数据的过程。但是备份的数据不可直接使用,也不可挂载给主机,必须执行恢复措施后才可使用。

而容灾的目的在于保证系统数据和服务的“在线性”,即当系统发生故障时,仍然能够正常的对外提供数据和服务,以使系统应用不致中断。做容灾复制后的数据不需要恢复即可使用。

容灾系统会完整地把生产系统的任何变化复制到容灾系统中,包括你不想让它复制的工作,比如由于误操作将业务系统中的用户信息表删除了,同时容灾端的用户信息表也会完整地删除。这时如果想恢复被删除的数据,就需要从备份系统中取出最新备份的数据,通过恢复操作来恢复被误删除的数据。通过这一点我们可以看出,虽然在容灾等级划分上,备份也是一种容灾方案,但基于数据复制的容灾系统的建设是不能替代备份系统的建设的。因此备份的目的在于处理系统数据中的逻辑错误和历史数据保存,是整个数据安全体系的基础,就算建立了最高级别的容灾系统,数据备份工作也是最基础的、必须要做的工作。

那么有了备份数据,是否还需要容灾系统呢?这就要看对具体信息系统的要求了,如果是企业内部的普通应用系统,允许有一定的停机时间,并允许有少量的数据丢失,那么备份系统就能满足要求。但如果是企业的核心业务系统,对提供服务时间和数据安全性有相当高的要求,那容灾系统就是必不可少的了,容灾系统可以保证在灾难发生时数据的完整性和业务的连续性,并在最短时间内恢复业务系统的正常运行,将损失降到最小。

2.灾备系统等级划分

我们都知道灾备系统的建设是一个投人维护成本巨大,但很难能见到它发挥作用的一个应急系统。对于关系国家命脉的关键性行业,有国家的政策法规强制性的灾备系统建设要求,这些行业在灾备中心的建设和维护上会投人巨大的资金和精力。而对于中小企业来说如果没有大型企业那样的实力,那我们该如何建设自己的灾备系统呢?是只建备份系统,还是只建容灾系统,还是需要两者同时建设?设计一个灾备系统,需要考虑多方面的因素,如备份胶复数据量大小、生产中心和灾备中心之间的距离和数据传输方式、灾难发生时所要求的恢复速度、灾备中心的管理及投人资金等。

根据SHARE78国际标准组织提出的标准,将容灾系统定义成7个层次(见图1),这7个层次对应的容灾方案在功能、适用范围等方面都有所不同,因此我们在选择容灾方案时应重点区分它们各自的特点和适用范围,结合自己对灾备系统的要求判断选择哪个层次的方案。

图1 容灾等级划分

恢复系统所需要的时间

0级:无异地备份数据

在0级容灾方案中,数据仅在本地进行备份,没有异地备份数据,未制定灾难恢复计划。这种方式虽然是成本最低的灾难恢复解决方案,但不具备真正灾难恢复能力。

在这种容灾方案中,最常用的是备份管理软件加磁带机的方式,随着近几年磁盘技术的发展,此处可供选择的磁带机有物理磁带机和虚拟磁带机。它是所有容灾方案的基础,从个人用户到企业级用户都广泛采用了这种方案。其优点是用户投资较少,技术实现简单。缺点是一旦本地发生毁灭性灾难,将丢失全部的本地备份数据,业务无法恢复。

1级:本地备份异地保存

第1级容灾方案是将关键数据备份到本地磁带介质上,然后送往异地保存,但异地没有可用的备份中心、备份数据处理系统和备份网络通信系统,未制定灾难恢复计划。灾难发生后,使用新的主机,利用异地数据备份介质(磁带)将数据恢复起来。

这种方案成本较低,运用本地备份管理软件,可以在本地发生毁灭性灾难后,恢复从异地运送过来的备份数据到本地,进行业务恢复。但难以管理,即很难知道什么数据在什么地方,恢复时间长短依赖于何时硬件平台能够被提供和准备好。以前被许多进行关键业务生产的大企业所广泛采用,作为异地容灾的手用户中采用较多。对于要求快速进行业务恢复和海量数据恢复的用户,这种方案是不能够被接受的。

2级:热备份站点备份

第2级容灾方案是将关键数据进行备份并存放到异地,制定相应灾难恢复计划,一旦发生灾难,利用热备份主机系统将数据恢复。它与1级容灾方案的区别在于异地有一个热备份站点,该站点有主机系统,平时利用异地的备份管理软件将运送到异地的数据备份介质(磁带)上的数据备份到主机系统。当灾难发生时可以快速接管应用,恢复生产。

由于有了热备中心,用户投资会增加,相应的管理人员也要增加。技术实现简单,利用异地的热备份系统,可以在本地发生毁灭性灾难后,快速地进行业务恢复。但这种容灾方案由于备份介质是采用交通运输方式送往异地,异地热备中心保存的数据是上一次备份的数据,可能会有几天甚至几周的数据丢失。这对于关键数据的容灾是不能容忍的。

3级:在线数据恢复

第3级容灾方案是通过网络将关键数据进行备份并存放至异地,制定相应灾难恢复计划,有备份中心,并配备部分数据处理系统及网络通信系统。该等级方案特点是用电子数据传输取代交通工具传输备份数据,从而提高了灾难恢复的速度。利用异地的备份管理软件将通过网络传送到异地的数据备份到主机系统。一旦灾难发生,需要的关键数据通过网络可迅速恢复,通过网络切换,关键应用恢复时间可降低到一天或小时级。这一等级方案由于备份站点要保证持续运行,对网络的要求较高,因此成本相应有所增加。

4级:定时数据备份

第4级容灾方案是在第3级容灾方案的基础上,利用备份管理软件自动通过通信网络将部分关键数据定时备份至异地,并制定相应的灾难恢复计划。一旦灾难发生,利用备份中已有资源及异地备份数据恢复关键业务的系统运行。

这一等级方案的特点是备份数据采用自动化的备份管理软件备份到异地,异地热备中心保存的数据是定时备份的数据,根据备份策略的不同,数据的丢失与恢复时间达到天或小时级。由于对备份管理软件设备和网络设备的要求较高,因此投人成本也会增加。但由于该级别备份的特点,业务恢复时间和数据的丢失量还不能满足关键行业对关键数据容灾的要求。

5级:实时数据备份

第5级容灾方案在前面几个级别的基础上使用了硬件的镜像技术和软件的数据复制技术,也就是说,可以实现在应用站点与备份站点的数据都被更新。数据在两个站点之间相互镜像,由远程异步提交来实现同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅很小部分的数据被丢失,恢复的时间被降低到了分钟级或秒级。由于对存储系统和数据复制软件的要求较高,所需成本也大大增加。

这一等级的方案由于既能保证不影响当前交易的进行,又能实时复制交易产生的数据到异地,所以这一层次的方案是目前应用最广泛的一类,正因为如此,许多厂商都有基于自己产品的容灾解决方案。如存储厂商EMC等推出的基于智能存储服务器的数据远程拷贝;系统复制软件提供商VERITAS等提供的基于系统软件的数据远程复制;数据库厂商Oracle和Sybas。提供的数据库复制方案等。

6级:零数据丢失

第6级容灾方案是灾难恢复中最昂贵的方式,也是速度最快的恢复方式,它是灾难恢复的最高级别,利用专用的存储网络将关键数据同步镜像至备份中心,数据不仅在本地进行确认,而且需要在异地(备份)进行确认。因为,数据是镜像地写到两个站点,所以灾难发生时异地容灾系统保留了全部的数据,实现了零数据丢失。

这一方案在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,不仅保证了数据的完全一致性,而且存储和网络等环境具备了应用的自动切换能力。一旦发生灾难,备份站点不仅有全部的数据,而且应用可以自动接管,实现零数据丢失的备份。通常在这两个系统中的光纤设备连接中还提供冗余通道,以备工作通道出现故障时能及时接替工作,当然由于对存储系统和存储系统专用网络的要求很高,用户的投资巨大。但在实际应用过程中,由于完全同步的方式对生产系统的运行效率会产生很大影响,所以适用于生产交易较少或非实时交易的关键数据系统,目前采用该级别容灾方案的用户还很少。

3.案例分析

图2是一个典型的企业核心信息系统后台数据存储容灾备份结构图。

图2 某公司业务系统数据存储灾备结构图

3.1存储系统

为了防止数据库主机层面的单点故障,选用了高可用集群技术,可以支持7x24有效的数据库应用系统,在低成本的服务器上构建高可用的数据库系统,实现数据库主机层面的故障容错和无缝切换功能,将由硬件和软件错误造成的对数据库访问的影响最小化;同时多节点可进行负载分担,以减轻业务系统对数据库访问的压力。

基于RAC的要求,整个业务运营系统的核心数据存储于基于SAN存储网络上的共享存储阵列上。存储阵列选用双控制器,存储磁盘采用RAID模式,以保证存储阵列层面的数据安全性。

3.2备份系统

业界采用磁带备份已经有了几十年的历史,现在最新的磁带技术已经能够达到较高的备份/}I复速度,因此,物理磁带库以其存储容量大、便于离线保存、价格低廉等优势,一直占据着数据备份领域的主导地位,是目前能够解决备份与灾难性数据恢复的最经济的解决方案之一。但是,物理磁带库同时也存在备份恢复能力差、备份失效率高、无容错方式、机械部分可靠性低、对环境要求苛刻等天然的局限性,已经在制约着数据可靠性及可用性的进一步提升。随着磁盘技术的成熟,虚拟带库技术弥补了物理磁带库的不足,从而使得备份更安全、快捷、恢复速度很快。

所谓虚拟带库是指使用基于磁盘的存储(而非磁带)介质,仿真磁带库功能的存储设备。从物理角度看,虚拟带库是服务器和磁盘阵列的组合;但是从备份软件的角度,通过SAN网络,“看到”的是具有机械手/磁带驱动器和磁带的磁带库。虚拟带库采用基于RAID保护的磁盘阵列代替无容错能力的磁带作为备份存储介质,从而将备份的可靠性较常规磁带备份提高了若干量级。

基于以上磁盘备份的优势,数据备份部分采用三层数据存储架构的解决方案,即硬盘(数据保存)—硬盘(一级数据备份)—磁带(二级数据备份)的方式。这种存储架构,综合应用了磁盘和磁带两者的技术优势,又回避了他们自身的不足,是一种具备高性价比,各方面都比较均衡而合理的解决方案。在方案中可采用第三方备份管理软件,将核心业务数据通过SAN存储网络的LAN-Free方式,首先备份至虚拟带库,再通过虚拟带库的归档功能,将数据归档至物理磁带库保存。采用D2D2T这种方式,对于整个备份环境来说,既提供了相当好的访问性能和数据安全性,同时又具备了将大容量数据长期异地保存的能力,是一个比较理想的备份解决方案。

3.3容灾系统

有了备份系统,我们也只是具备了数据的基本保护功能,在发生数据库失效、数据误操作、数据丢失等数据库层面的故障时,我们可依靠备份的数据进行恢复,以还原某一时间点上的数据,但使用备份恢复这种方式,存在数据丢失、数据恢复时间长、对业务访问影响大等问题。这些问题对于普通的系统可以容忍,但对于关乎企业核心运营和管理的业务系统却是无法容忍的。因此,通常会在异地建立生产系统的容灾环境,能够在最短的时间内接管生产系统,快速、安全地恢复对业务系统的正常访问。

在容灾系统的设计中,在异地同样部署一套基于SAN存储网络的同平台数据库存储系统,两地数据库实实时同步,其中生产系统数据库为主库,负责对外提供数据访问、数据处理等服务,容灾系统数据库为物理备库,作为生产系统的应急切换数据库,同时作为经营分析系统的数据分析源,提供数据抽取、查询等功能,以减轻主库的访问压力。同时在容灾端部署应用服务器,当主备数据库发生切换后,用户即可访问容灾端的应用服务器,以保证业务访问的连续性,实现生产系统的应用级远程容灾保护。

Data Guard是Oracle企业版集成的数据库容灾解决方案,该技术可以将主数据库复制一个或多个同步备份,以实现对主数据库的保护和负载分担。

Data Guard的基本原理:在Data Guard 中可以配置写日志过程,Oracle数据库除了把日志记录到本地的联机日志文件和归档日志文件中,还可以通过网络,把日志信息发送到远程的备用数据库服务器上。这个备用日志文件写人过程可以是实时、同步的,也可以是异步的。当备份数据库接收到日志信息后,Data Guard可以自动利用日志信息实现数据的同步。当主数据库打开并处于活动状态时,备用数据库可以执行恢复操作,如果主数据库出现了故障,备用数据库即可以被激活并接管生产数据库的工作。

Oracle DataGuard原理图如图3所示。

图3 Oracle DataGuard原理图

在Oracle 11g以前,DataGuard物理备库在被以只读方式打开时,利用Redo日志进行数据同步的过程就停止了,如果物理备库处于恢复的过程中数据库就不能打开查询,也就是说日志应用和只读打开两个状态是互斥的。Oracle 11g中推出的Active DataGuard 功能解决了这个矛盾,在利用日志恢复数据的同时可以用只读的方式打开数据库,用户可以在备用数据库上进行查询、报表等操作,这类似逻辑Data Guard备用数据库的功能(查询功能方面),但是,数据同步的效率更高、对硬件的资源要求更低。这样可以更大程度地发挥物理备库的硬件资源的效能。

不同的解决方案,如SharePlex利用数据库实例外部的流式处理过程,资源占用极小,对数据库性能和网络容量的影响也保持在最低限度。

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。
展开全文
打开北极星学社APP,阅读体验更佳
2
收藏
投稿

打开北极星学社APP查看更多相关报道

今日
本周
本月
新闻排行榜

打开北极星学社APP,阅读体验更佳