数据容灾是指建立一个异地的数据系统,为了保护数据安全和提高数据的持续可用性,企业要从RAID保护、冗余结构、数据备份、故障预警等多方面考虑,将数据库的必要文件复制到存储设备的过程,备份是系统中需要考虑的最重要的事项,虽然他们在系统的整个规划。
简介
数据容灾系统,对于IT而言,就是为
计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,
容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用
容灾)。可以说,容灾系统是
数据存储备份的最高层次。
一般来说,为了保护
数据安全和提高数据的持续可用性,企业要从RAID保护、冗余结构、
数据备份、故障预警等多方面考虑。一套完整的容灾系统应该包括本地容灾和
异地容灾。对于那些关键业务不能中断的用户和行业如电信、海关、金融行业来说更应如此。以下,本文将探讨
容灾系统的一些关键技术,包括数据备份、数据复制、网络存储,并以HP存储设备举例说明如何构造三级容灾体系。
实现方式
一.
数据备份 所谓备份,就是通过特定的办法,将数据库的必要文件复制到转储设备的过程。其中,转储设备是指用于放置数据库拷贝的磁带或磁盘。
选择备份的依据是:丢失数据的代价与确保数据不丢失的代价之比.还有的时候,硬件的备份有时根本就满足不了现实需要,比如误删了一个表,又想恢复该表的时候,
数据库备份就变得重要了。
Oracle提供了强大的备份与恢复策略,包括常规数据库备份(逻辑备份,
冷备份与
热备份)和
高可用性数据库(如备用数据库与
并行数据库),以下的备份主要指数据库的常规备份。
1.备份的重要性
备份是系统中需要考虑的最重要的事项,虽然他们在系统的整个规划,开发和测试过程中甚至占不到1%,看似不太重要且默默无闻的工作只有到恢复的时候才能真正体现出其重要性,任何数据的丢失与长时间的数据down机,都是不可以被接收的。如果备份不能提供恢复的必要信息,使得恢复过程不能进行或长时间的进行(如一个没有经过严格测试的备份方案),这样的备份都不算或不是一个好的备份。
如果出现系统崩溃的灾难,数据库就必须进行恢复,恢复是否成功取决于两个因素,精确性和及时性。能够进行什么样的恢复依赖于有什么样的备份。作为DBA,有责任从以下三个方面维护数据库的可恢复性:
(1)使数据库的失效次数减到最少,从而使数据库保持最大的可用性。
(2)当数据库失效后,使恢复时间减到最少,从而使恢复的效益达到最高。
(3)当数据库失效后,确保尽量少的数据丢失或根本不丢失,从而使数据具有最大的可恢复性。
数据备份是
容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。传统的数据备份主要是采用内置或外置的
磁带机进行
冷备份。但是这种方式只能防止操作失误等人为故障,而且其恢复时间也很长。随着技术的不断发展,数据的海量增加,不少的企业开始采用
网络备份。网络备份一般通过专业的
数据存储管理软件结合相应的硬件和存储设备来实现。
(1)定期磁带备份数据。
(2)远程
磁带库、
光盘库备份。即将
数据传送到远程备份中心制作完整的备份磁带或光盘。
(3)远程关键数据+磁带备份。采用磁带备份数据,生产机实时向备份机发送关键数据。
远程
数据库备份。就是在与主数据库所在生产机相分离的备份机上建立主数据库的一个拷贝。
(4)网络数据镜像。这种方式是对
生产系统的数据库数据和所需跟踪的重要目标文件的更新进行监控与跟踪,并将更新日志实时通过网络传送到备份系统,备份系统则根据日志对磁盘进行更新。
(5)远程镜像磁盘。通过高速
光纤通道线路和磁盘控制技术将镜像磁盘延伸到远离生产机的地方,镜像磁盘数据与主磁盘数据完全一致,更新方式为同步或异步。
数据备份必须要考虑到数据恢复的问题,包括采用
双机热备、
磁盘镜像或容错、备份磁带异地存放、关键部件冗余等多种灾难预防措施。这些措施能够在系统发生故障后进行系统恢复。但是这些措施一般只能处理计算机
单点故障,对区域性、毁灭性灾难则束手无策,也不具备灾难恢复能力。
二.数据复制
SAN专注于企业级存储的特有问题,主要用于存储量大的工作环境。当前企业存储方案所遇到问题的两个根源是:数据与应用系统紧密结合所产生的结构性限制,以及
小型计算机系统接口(
SCSI)标准的限制。大多数分析都认为SAN是未来企业级的存储方案,这是因为SAN便于集成,能改善数据可用性及网络性能,而且还可以减轻
存储管理作业。
SAN是人们公认的最具有发展潜力的存储技术方案,而未来SAN的发展趋势将是开放、智能与集成。
NAS是增长最快的一种存储技术,然而就二者的发展趋势而言,在应用层面上SAN和NAS将实现充分的融合。可以说,NAS和SAN技术已经成为当今数据容灾备份的主流技术,关键在于如何在此基础上开发完善全方位、多层次的数据容灾备份系统,在分布式网络环境下,通过专业的
数据存储管理软件,结合相应的硬件和存储设备,来对全网络的
数据备份进行集中管理,从而实现自动化的备份、
文件归档、数据分级存储以及灾难恢复等功能。
三级体系
比较完善的
容灾系统设计一般为三级体系结构的
容灾系统,整套系统包括存储、备份和灾难恢复部分。以下使用惠普生产的备份服务器,
模块化磁盘阵列,备份
磁带库和相关容灾软件举例三级体系结构的容灾系统的建立。
正常情况下,业务系统运行在主中心服务器上,业务数据存储在主中心存储磁盘阵列EMA12000中。EMA12000具有从12个
磁盘驱动器到最多126个磁盘驱动器的扩展能力,能跨越多个大型主机和混合的
UNIX、多厂商的Windows NT、Windows 2000以及其他开放系统的平台。
惠普为EMA12000系统设计的ASC阵列控制软件,实现了对跨多服务器平台数据的集中式控制,使数据不管在何时、在何地、以及何种方式需要,其可用性都能以真正的零停机时间得到成分保证。
为了实现业务数据的实时灾难备份功能,关键应用可设置两个数据中心,分别是主中心和备份中心。主中心
系统配置主机包括两台或多台HP ALPHA服务器以及其他相关服务器,通过构成SCSI CLUSTER组成多机高可靠性环境。主中心通过ATM/E3/
WDM与备份中心连接。
在
容灾系统解决方案中,正常情况下,业务系统运行在主中心服务器上,业务
数据存储在主中心存储磁盘阵列EMA12000中,同时在备份中心配置EMA12000存储磁盘阵列。主中心存储磁盘阵列通过ATM/E3/WDM连接到备份中心磁盘阵列,
DRM(数据复制管理器)使主中心存储数据与备份中心数据保持实时完全一致。
3、灾难恢复子系统
方案中,备份数据的
磁带库安置在备份中心,利用备份服务器直接连接到
存储阵列EMA12000和磁带库TL895,通过EBS(企业
数据备份)和Legato NetWorker
数据存储管理系统控制系统的备份。万一主数据中心出现意外灾难,系统可以自动切换到备份数据中心,在保持连续运行的基础上,快速恢复主数据中心的业务数据。
该套三级体系
容灾方案具有高度的可用性。第一级,为了避免系统单点失败而影响整个系统的情况出现,采用了冗余的手段,大到主机,存储设备,小到
光纤适配器,均具备冗余容错功能;第二级,无论是主机或存储设备出现故障,均可通过主/备份中心
光纤交换机之间的连接来保证通信和数据的完整性;第三级,万一主数据中心出现意外灾难,系统可以自动切换到备份数据中心。三级体系的科学设计保证了数据容灾系统的高度可用性和可靠性。
不仅如此,惠普独有的HP OpenView网络设备管理软件从根本上将
系统管理人员解脱出来。整个系统的设备虽然很多,但不论是
主机系统,存储设备,还是光纤交换机,
光纤卡,均能通过一台工作站进行集中的管理和监控,从另一个方面保证了整个业务系统的连续不断地运行。除正常的计划性停机外,该系统可以做到365×24的可用性。
远程容灾
远程
容灾作为一种新的概念,已经被国内大多数行业所接受,特别是在金融、电信等信息密集型企业,实施远程
数据保护的工作已经被提上了日程。然而对于中国的企业和机构来说,远程容灾的实现仍然面临着多方面的难题。其中,除了投入过高这一普遍因素外,对容灾如何确切地理解、在具体实施过程中存在的技术问题等,都成为企业建立远程备份中心的屏障。
在谈容灾技术之前,要先了解一下什么是灾难。在日常的计算环境中,
系统管理人员有时候会遇到系统出现问题而中断的情况,但是“中断”并不完全等同于“灾难”。广义上说灾难大致包括三种类型:不可预测的自然灾害(地震、台风、水灾、雷电、火灾等);基础设施的损坏(CPU、硬盘损坏、建筑物倒塌、电源中断等); 操作失误(误操作、人为蓄意破坏等)。总之,对于一个计算机系统而言,一切引起系统非正常停机的事件都称之为灾难。
据统计,导致系统灾难的原因一般为: 硬件故障占44%、人为错误占32%、软件故障占14%、病毒影响占7%、
自然灾难占3%。因而,尽早制定和建立完备的灾难恢复计划,以增强系统的抗灾能力,最大限度地减少损失是当务之急。
如何使数据在遇到任何灾难时都能够被完整地保存下来,这一想法从计算机系统产生时就有了。一提到容灾,大多数人会立刻讨论如何将两个距离足够远的存储系统连接起来,但实际上容灾的实现并非如此简单。容灾追求业务的连续性,要求实现网络上的查询和商务活动,它包括对服务器的长距离集群,以及两地服务器和应用系统的镜像备份。
博科通讯公司中国区系统
工程部经理马司聪先生认为,真正的容灾必须满足三个要素: 首先是系统中的部件、数据都具有冗长性,即一个系统发生故障,另一个系统能够保持
数据传送的顺畅; 其次,具有长距离性,因为灾害总是在一定范围内发生,因而充分的长距离才能够保证数据不会被一个灾害全部破坏;第三,
容灾系统要追求快速的数据恢复,也称为
容灾的“3R”(Redundance、Remote、Replication)。
从实时性上看,容灾应分为三个级别:最低级为磁带级容灾,之上是带镜像功能和数据恢复的容灾,最高级的容灾应该是:镜像+数据恢复+
服务器集群。