专家答疑:数据中心系统宕机的成因与代价运营维护

2011-08-01    来源:TechTarget中国    编辑:Robert Macfarlane
IT管理者痛恨系统宕机,残酷的现实却告诉我们:哪怕最佳的计划和准备也无法彻底避免宕机,同时最小的疏忽也会像滚雪球一样越滚越大,直到无法控制。

  IT管理者痛恨系统宕机,残酷的现实却告诉我们:哪怕最佳的计划和准备也无法彻底避免宕机,同时最小的疏忽也会像滚雪球一样越滚越大,直到无法控制。因此我们请到了几名Advisory Board的专家,对数据中心宕机的成因,以及对人员工作状态的影响和带来的IT花费进行解读。

  Robert McFarlane是Shen Milsom Wilke Inc的总裁,同时也是数据中心设计专家。

 

  权威研究已经表明大约75%的宕机是由人为引起。但是说到这些人为错误的根本原因,人们很容易把责任推给“训练不足”,但是训练再好,人也会出错,比如在赶工导致注意不足,或者身心疲惫无法全力工作,甚至可能是为了偷懒,对细节问题产生侥幸心理。我总是偏向于“计划不足”这个理由。这一直是我在讨论何种原因导致人为错误时的常用说法,因为它们在布局上不合理,标记上蹩脚,注定了会让一些可怜的IT人员掉进“陷阱”。而这些问题,如果在计划时就做好了,根本不会发生。

 

  例如,现在几乎什么东西都是“双接线”,把两个可能来自于不同电力中心的插口接在一起。电工把事情交托给他们的设备,在仪表板A上把插口连接到断路器7,然后在仪表板B上把其他插口连接到断路器16。另外,他们还可能把电路标签放在机柜里面的插座上,这导致标签几乎没法看,或者把能识别的信息都放在仪表板清单上,以至于无法和机柜对上号。这一切,都导致不同机柜里的电路过于容易被人切断,或者无法关掉想关的机柜。

 

  这导致工作状态被系统宕机严重影响,因为IT人总是害怕错误。小错误烦心,大错误足以让整个团队丧失信心。毕竟,人们期望系统能够好好运转,就像能量、石油、水源一样安安稳稳,即使出错了也能够很快恢复。但是IT人员清楚故障会给业务带来什么后果,这甚至会影响到人的生命安全,结果是事故起因将会被调查清除,可能会被公开化,导致丢掉饭碗。于是IT人员每天都得面对预防宕机的压力,但是在灾难恢复的压力也是无比庞大的。如果你问我有多少数据中心是正常上下班的,我可以告诉你我只见过一个。

 

  系统宕机最容易忽视的后果是公司形象。它通常被其业务所决定,但是对于一部分公司,毁掉他们形象的可能不只是经济相关的东西。另外一个后果是客户流失,想象一下某个厂商提供的自动化产业突然因为数据中心宕机,导致运货系统中断运转。在想象一下某个汽车公司,平时依靠准时制进行运输,一旦延误就马上调整到第二货源。如果发生了故障,顾客可能永远不会再来。

 

  减轻宕机率不是件容易的事。IT行业压力大,可能今天这里安装了一个服务器,明天又有一个应用被移走,所以很少有时间和资源来仔细操作或严格记录IT资产。所以有时候,你得站在管理层面前义正言辞地说:“这时间安排不现实,真按这样来,我们就是在给故障大亮绿灯。”对于计划和实施步骤,一定要有相应的规定和守则,以上说到的都要有所涉及。人都会犯错误,但我们不能把IT部门扔进满是错误陷阱的局面,等宕机发生了才大吃一惊。

1
3