大自然挑战 数据中心如何摆脱停电噩梦?绿色数据中心

2011-09-30    来源:51CTO    
如果自然灾害持续侵袭,是该果断拔下插头还是硬扛扮演英雄?当飓风艾琳四处肆虐,将主要及后备数据足以同时断电被证明是一个明智的选择。 大家可能已经注意到了,东海岸近来正

  如果自然灾害持续侵袭,是该果断拔下插头还是硬扛扮演英雄?当飓风艾琳四处肆虐,将主要及后备数据足以同时断电被证明是一个明智的选择。

  大家可能已经注意到了,东海岸近来正被大自然反复蹂躏。我们已经亲眼目睹了地震、飓风、远超承受能力的雨水以及狂风,而这一切才刚刚过去。如果我们能够把其中一部分推给东德克萨斯州,我们肯定会毫不犹豫地将其付诸实践;然而上天就是这么小心眼,一面把新英格兰淋成落汤鸡,另一面又把德克萨斯州晒了个须发皆枯。

  这些地质灾害与大气风暴的影响使得保持数据足以的稳定工作变得极具挑战性。电源及数据连接同时损坏,这使得确保足够的正常运行时间彻底沦为空谈;再者说,天气糟到这个程度,维护人员哪敢出门干活啊。

  在这种情况之下,如果数据中心实在无法保证全天候的设备运作(例如主机托管及代管业务),那么在狂风暴雨袭来之前主动断电也许是更好的选择。因为一旦正常运转中的设备在遭遇这些灾害时,电力中断及数据丢失几乎是无法避免的悲剧。我知道自己的说法一旦抛出,肯定会遭到不少朋友的质疑。但这种看似消极的处理方式却有着相当显着的优势,特别是大灾大难在周末这类工作人员较少的时段袭来,其积极意义就愈发明确。

  即使在大型企业中,周末的资源利用率也是相对较低的。假设员工们多数休假在外,负责检查邮件的内部人员--不是想通过周末加班尽快赶完项目的家伙、就是完全没有社交生活的工作狂;又或许两者兼而有之。在这样平静的周末,一场大型飓风倘若袭来,数据中心的运作保障可以说几乎为零。

  但是大家也许会问,服务器与存储设备的潜在损坏风险又有多大呢?事实上,即使有最可靠的UPS系统及后备发电机组保驾护航,损坏风险仍然不容忽视。比如说,恶劣的气候环境导致建筑物顶板破损,暴露于室外的设备必然危如累卵。此外,常见的通信线路中断意味着除非整个设施的各个部分都有专人看管并手动操作,否则管理员们将无法通过远程控制的方式检测设施状况或者是进行断电后的关机保护。具体的应对措施取决于大家设施部署中的种种细节,但我们永远要把安全放在第一位,因此消极回避显然是下下之选。

  由于飓风艾琳的影响,我选择了通过远程手段关闭两个处于不同状态的数据中心,其共同点是都处于飓风前进的路线之上。关闭后数据中心中只有交换机与VPN设备仍在运作。当然,这些数据中心内的几乎任何组成部分都能够进行远程控制,从开启、关闭服务器到在网络上获取每台相关设备的控制台访问权,其中包括存储控制器、核心切换等等。关闭数据中心的工作只花费半个小时,会用到的是通过特殊命令关闭每台Linux服务器的脚本工具--值得一提的是,当下普及度极高的虚拟化应用使关闭虚拟机的工作异乎寻常的简单。

  遗憾的是,另一家网站则没有采取同样的应对措施。本来他们计划在下午三点实施关闭,但该网站却在当天中午十一点四十五分莫名其妙地遭遇电力中断,这时风暴其实还尚未袭来。而且,他们受相关规定及网站自身的限制,也没有准备后备发电机组。就在那个时段,我刚刚在某个停车场中通过自己的iPhone将服务器全部关闭。我利用脚本关闭了约半数的服务器,但在存储系统中Windows对话框却恼人地弹出,导致脚本无法顺利执行。关于数据中心,我最后收到的信息来自一条残缺的短信,通知那套怪物级UPS系统中的电池已经用尽。接下来就是一团沉寂。不过想想也好,毕竟我所管理的基础设施在两百五十英里之外,任何所谓积极的应对措施都只能在风暴经过之后才有可能得以开展。

  但电力供给恢复正常,后备数据中心立即自动开始备份工作。由于除了弹出对话框的设备之外,其它大部分硬件早已正常关闭,因而在检测到电力供应后其它服务器按照预定计划自动启动起来。网络设备运行良好,存储系统也同样未受损伤。实际上,与发生故障时的启动过程不同,这次的灾后启动极为顺畅无阻。对于某几台服务器,我不得不手动开机、对存储状况发生异常的网络文件系统进行重新安装,这一异常影响到了其它几台服务器的正常启动并连带给几套虚拟机系统带来麻烦,不过也就仅此而已,并未发生太糟的事态。

  有组织、有计划地关闭数据中心设施带来的良好结果令人欣慰,而负面影响相比之下也为害甚轻。在飓风到来之前,我从来没打算真正着手搞一次关机流程测试;但就在上个周末我刚刚实际操作了一回,两个数据中心都表现出色。这次小小的练习还让我注意到了管控框架中的几处轻微纰漏,不过发现及修复过程都很轻松。

  如果大家所运维的数据中心除了自然灾害之外,还有可能在正常的业务操作中遇上需要彻底关闭的情况,那么尽早制订一套具备可操作性的关闭计划绝对比临时抱佛脚要好得多。每当新设施建立起来时我都会进行规划工作,但临时停机确实是比较少见,灾害的侵袭才是导致设施整体停转的首要因素。总的来说,这次关机经历增强了我对硬件事故承受能力的信心。对我来说,这正是艾琳飓风带来的万里阴霾中那一丝希望的曙光。

1
3