计算机机房运行风险及应对方案分析
2009-06-23 东方烟草报 编辑:徐妍莉
为了保障计算机核心业务系统和网络系统的正常运行,目前,越来越多的计算机专用机房投入使用。机房以及各种机房保障系统的安全运行水平,影响着核心业务系统和网络系统的可靠性和可用性。确保机房的安全可靠运行,是每个机房管理者追求的目标。然而,由于机房保障系统众多,且需要不间断地长期运转,机房运行风险必然存在。
机房运行风险分析
防范风险必须建立在对风险清楚认知的基础之上。认知风险比较简单的方法是通过建立风险列表,按照分类等级尽可能详尽地罗列出机房可能存在的各种运行风险,以进行进一步的分析。
笔者根据实践经验,编制了机房运行风险分析列表(见附表)。表中,一级风险为无法承受的运行风险,一旦发生,机房无法在短时间内恢复正常的运行状态,会给单位造成严重的损失。二、三级风险虽然严重危及运行安全,但大部分只是造成局部运行异常或形成运行安全隐患,属于可承受和可控制的运行风险。
值得注意的是,机房运行风险不是一成不变的,会随着机房内相关要素的变化而改变,有时会影响风险等级,有时则会产生新的风险。
机房风险的来源是多方面的。
第一,来源于机房设计、施工的缺陷。对于机房的设计、施工及验收,国家都有相关的标准,但是由于经费投入、设计施工单位的资质、机房管理部门的要求等方面的不同,有些机房在开始设计建设时就在使用功能、安全标准、配套设施、材料用品等方面存在一定的缺陷,会在机房的安全性、可扩展性等方面留下隐患。
第二,来源于低水平的管理。机房用途的特殊性,决定了其管理的重要性。由于目前没有标准的机房管理规范,各行各业各家的机房管理都是自行其是,导致管理不到位,出现规章制度不健全或形同虚设、安全管理不到位、检测检查制度不严格、技术维护制度落实不力等问题,这些都会带来许多风险。
第三,来源于不严谨的运行维护。机房运行维护是维持机房长期可靠运行的必要手段。高度的责任心、精通的维护技术和严谨的工作态度,是实现安全维护目标的必要条件。一时的疏忽、一次随意的操作、一次不到位的检查、一个细小的失误等,都会产生运行风险甚至灾难。
防范机房运行风险的对策
机房管理者应该在机房运行风险发生前制定出严密的应对对策。笔者认为,防范机房风险的对策主要体现在以下两个方面。
(一)真实可行的风险分析。要应用科学的方法,针对确定的对象,进行认真仔细的风险分析,同时进行合理的风险判断。尽管机房运行风险的基本情况已在附表中罗列,但是在实际工作中必须进行具体的风险分析,才能制定出切合实际的防范对策。工作中可以参照本文的附表进行分类分级,在此基础上,进行风险承受性和风险控制性分析。
(二)确立风险预先处置理念。通过分析机房运行风险可以发现,对机房运行风险要区别对待,因此笔者提出机房运行风险预先处置的理念,即通过科学的防范措施,尽可能避免一级风险的发生,减少二、三级风险的发生。主要可以采取以下几个措施。
风险转移。将一些可以预见但发生概率较低的风险,通过购买保险、设备维修外包等形式,转移给保险公司和机房设备服务商。如购买财产保险,可将机房风险(机房建筑物风险、火灾风险等)转移给保险公司;通过机房设备外包的方式,可将UPS、精密空调等设备故障风险转移给设备维修服务公司。
科学监控。机房保障系统的运行故障大部分有一个从量变到质变的过程,机房设备的使用寿命也有一定的规律可循,而且机房设备的运行故障必定有其特定的原因。因此,通过健全科学的实时监控措施,对发生故障随机性强的机房保障系统进行长期实时检测,通过对采集的运行参数进行有机分析,可以及时采取有效的规避风险的措施。由实时监控系统组成的预警系统,可以对其监控的设备进行运行状态检测、运行异常警告、运行故障原因分析,从而达到防范运行故障和及时处置风险的目的。
制订应急方案。应对运行风险的目标,是尽可能避免发生运行风险,一旦发生风险就要做到快速反应、快速恢复。要制订一整套科学有效的机房运行风险应急方案,包括如何启动风险处置的报告体系、组建负责人力资源调动和现场协调指挥的组织机构、安排负责处置风险的各方面专业技术人员等内容。制订应急方案时要特别注意实用性,其基本原则是方案要分门别类、描述要直观明确、处置方法要准确详尽,以确保方案能起到较好应急的效果。
总之,高度重视机房运行保障的重要性,客观地认知机房运行规律,科学地应对机房运行风险,不断探索和掌握机房运行维护技术,有效提高机房保障管理水平,就能最大限度地规避机房运行风险,为各种计算机应用系统提供可靠保证。