关注数据中心的灾难恢复绿色数据中心
基础设施
目前,由于关键基础设施变得更加复杂,提高了容错性和并行维护能力,数据中心关键设施的运营和维护的重要性变得日益明显。 数据中心灾难恢复成为企业关注重点。
许多大型企业在全球各地建立有多个数据中心,这些企业通常使用现有的数据中心作为DR(灾难恢复)站点,基础设施和IT人员都是现成的。许多大型企业正在实施或已经完成了虚拟化,将以前的多个数据中心进行了资源整合,在这个过程中存在许多可变因素:需要确定许多标准和流程,需要对人力资源进行组织,需要对技术进行整合,需要辨别不同应用间的差异并为其排定优先次序。加上内部与灾难相关的一些不确定因素,无论发生何种事件,整个在哪恢复的过程都会变得异常复杂。
在执行灾难恢复计划过程中,IT员工是否都能参与,他们如何到达备用的灾难恢复站点,这些都是企业考虑的,在灾难发生后,一部分员工要待在总部,而不是立即就参与到数据中心恢复中去。
另外,火灾、飓风等灾难随时可能毫无警告地袭击数据中心。拥有可靠的灾难恢复预案,就能及时恢复信息,而不至于束手无策。如果没有健全的灾难恢复预案,公司可能就得祈祷系统不发生任何故障了。
由此,企业的可恢复性设想往往与实际的IT技能不符。事实上,如果这些假设因素没有得到明确的界定和处理,你昨日的灾难恢复功臣就有可能变成明日的替罪羊。尽管一些IT公司都一致宣誓要做好灾难恢复,但它们很少有人利用高级虚拟化软件进行灾难恢复。那么,在灾难恢复时企业最容易犯得错误是什么?下面,我们一起来看看。
灾难恢复测试易犯错误
灾难恢复测试人人都在做,巧妙也各自不同,怎样才能算是"正确"的方式呢?笔者认为,至少要先能够避免以下5点容易犯的错误,才不至于让平日辛苦的DR测试工作,最后都变成在作白工。
1)不完整的DR设定或不足够的DR资源:几乎大多数的公司都会犯上这样的毛病。明明就期望DR Site能够在Production Systems出状况时成功地接手进行Failover,而且RPO (Recovery Point to Object)和RTO (Recovery Time to Object)期望又其高无比,但分配给DR的资源却与Production天差地远。试想,贵公司系统出状况时,分配给DR Site的内存与CPU,真的足以撑起整个Production Load吗?
2)不同RDF群组所导致的数据复制不一致:在需要复制群组(Remote Data Facility, RDF)的大型EMC SRDF/S与SRDF/A环境中,特别容易产生这种状况,因为当不同的RDF群组同时提供储存容量给主机,并且被相同的数据库使用时,每个RDF群组都会对应不同的复制接收器与(或)网络基础架构,并产生不一致的复制数据。每次关闭应用程序、数据库或是主机时,或多会少都会让这些数据处于不一致的状况之下。
所谓“失之毫厘,差之千里”,每个复制版本有些微的差距,最后就会复制出差别超大的复制数据,而DR Site在接手救援工作时,要嘛就是救回错误的数据,不然就是救援时间会被拖得很长。然而多数的DR 测试当中,很容易会忽略RDF群组导致的数据不一致,也并不容易模拟。
3)数据毁损风险:通常我们并不会同时启动所有的主机,而且多数的DR 测试也只选择用小群组方式分批测试。然而在灾难发生时,这些主机很可能会被同时启动,如果其中部分主机存取数据库的权限设定有误,很容易造成RTO违规错误,拉长救援时间,而且也容易造成数据毁损。然而如果储存管理员能经常注意磁盘Mapping问题,避免发生失误的话,就比较能避免这样的惨事发生。
4)无用或错误的时间点数据快照备份(PiTC):一般来说,PiTC快照通常被认为是避免人为疏失的第二道防线,但除非应用程序与数据一致性都经过严格的测试,否则这些PiTC仍然容易存在不一致的状况。如果在DR 测试时能针对所有服务进行测试,并同时开启、监控DR服务器与应用程序,比较可以发现系统中是否有这样的问题存在。
5)最后一项容易犯的DR 测试错误,就是自以为测试成功了,但其实根本就没做。这听起来很吊诡,但其实原因很简单。有些公司在进行DR测试时,忽略应把CIFS或NFS与Production Devices分开,而DR Site不管如何反正就是要从CIFS/NFS存取数据,因此无形中也使用了Production Devices的资源。换言之,Production Devices出状况的情况根本没有被考虑进去,而真实的灾难往往就是发生在Production环境中。
数据中心备份的十种方法
对于企业的数据来说,当数据遭到破坏时,这就是一场灾难。定期进行备份是必不可少的。即使你有大量的备份数据都没有使用,备份也肯定不是在浪费时间。你也许很幸运,从来没有经历过数据丢失。但是,由于这种事情极少发生以及保持数据的完整性是非常重要的,通过跳过备份来“节省”时间和资源似乎是没有问题的。
许多备份的最佳做法的要点实际上就是每个人都知道和使用的一些常识。不管怎样,下面是有关备份的一些最佳做法:
1.制定规则和程序。许多技术人员都讨厌文件之类的东西,但是,充分的规定是任何行动成败的关键。备份的规则和程序内容就是:什么时间进行备份、什么内容需要备份、谁负责进行备份、谁可以访问备份内容等等。
2.测试备份。有一个损坏的备份肯定是没有用的。更糟糕的是你还以为这个备份是好的,能够用于灾难恢复,结果却不能用。因此,要避免这种情况,一定要总是测试备份,特别是在备份重要数据的时候。
3.标记和排列备份。当你有2个至3个备份的CD光盘的时候,要猜测每个光盘中的内容是比较容易的。当你在各种备份介质中有若干PT的数据的时候,光靠猜测是不行的。因此,你必须标记你的每一个备份并且把这些备份排列在一个库中。标记备份包括使用有意义的名称、备份数据的日期和时间、数据的内容、谁创建的数据以及一些说明等。
4.将备份存储在安全的地方。你的安全规定很可能包含备份存储的内容。但是,如果不包含这些内容,你要在恰当的时机制定这些规定以便改正这个问题。安全的地方是一个广义的词汇,通常意味着你存储备份的地方是受到保护的,防止非法访问和防止受到火灾、洪水和地震等灾害物理破坏的地方。
5.实时进行备份。最新的备份总是有用的。例如,在银行、在线交易等方面,只有实时的备份才是有用的。实时的备份不需要更多的资源。但是,如果你的数据是时间敏感性的,那么,实时备份只是一种选择。即使你的数据不是时间敏感性的,它对于实时备份也没有影响。
6.备份已经备份的数据。为了增加额外的保护,你可以备份已经备份的数据。这看起来好像是你一天都在反复地进行备份,但是,对于重要的数据来说,对已经备份的数据进行备份不是浪费时间。
7.考虑加密。备份包含敏感的数据。即使你不担心安全问题,你也要想到如果入侵者要获得备份数据可能发生的情况。即使你采取了严格的访问控制并且其他人非法访问你的备份数据的风险非常小,你仍然要使用加密。许多自动备份工具都提供了可靠的加密功能,为什么不用呢?
8.知道要备份什么。在任何情况下,根据重要性对数据分类,至少要定期备份重要的数据和非常重要的数据。的确,备份的数据越多就越好。但是,如果你的运行有严重的局限性,你必须要保证照顾到重要的数据。
9.定期备份。备份需要时间和取决于你在使用的具体备份程序。有些数据在正在运行的时候是不能进行备份的,需要机器首先停下来,然后再进行备份。如果可能的话,计划好这种数据的备份时间,在机器工作量不大的时候进行备份。
10.备份虚拟机。备份虚拟机不是一个单独的科学,但是,它确实需要一些技巧。因此,除非你不需要备份虚拟机,否则你就要用一些时间学习正确备份虚拟机的一些方法。在某些情况下,虚拟化解决方案厂商的说明文件中会提供一些指南,但是,并非每一个厂商都是如此。
数据备份最佳做法是没有固定规范。在某些情况下是好用的,而有些规则总是合理的。不管怎样,备份都是非常重要的和不可忽视的。因此,试验各种方法并且看看哪一种方法最适合自己。