新葡京网上娱乐 | 服务热线
400-600-6918
专注数据中心机房监控|环境监控|动环监控20年!

数据中心基础设施管理与运行

来源:新葡京网上娱乐时间:2018-03-12阅读:698

   随着社会信息化程度的快速提高,数据中心的规模越来越大,系统愈加复杂,管理及运行面临着前所未有的挑战。新葡京娱乐场认为数据中心拓扑等级越高,其管理及运行的难度也越大。同时,收集整理大量的数据中心异常事件报告,发现绝大多数故障往往源于人为的操作失误。因此,管理及运行越来越受到数据中心管理者的重视。 本文试图从数据中心管理者的角度探索接手管理一个新的数据中心之后的工作。 上期我们介绍了确定管理目标、测试与验证及管理及运维团队的人员配置及组织结构等内容,本期将围绕设备的维护、运行维护流程、预防性维护工作、维护档案、故障的处理等方面展开。

  设备的维护

  设备是据中心基础设施的组成子集,对设备的维护是保障基础设施稳定运行的重要措施。设备维护的工作主要包括维护流程的制定、预防性维护工作的执行、维护档案的管理和故障的处理几方面内容。

  运行维护流程

  运行维护流程是设备维护工作的指导和依据,数据中心管理者首先要保证各维护流程的正确性、完整性和全面性,同时通过反复的培训和演练使运维人员对流程充分熟悉和理解,并在实际工作中严格执行。

  运行维护流程通常包括三个主要类别:标准操作流程(SOP)、维护操作流程(MOP)、应急操作流程(EOP)。标准操作流程通俗地说就是设备的开机、关机操作步骤,对于数据中心的任何一个型号的设备都必须有SOP。这里值得一提的是,同类型的设备可能有不同的型号,比如空调可能包括制冷量60KW和80KW两种,对于不同型号的设备开机、关机的操作步骤可能不同,所以SOP应该按照型号的不同分别编写。维护操作流程包括了设备的维护、保养、预防性巡检等流程内容,一般情况下MOP会包含SOP的条目,因为不论是维护、保养还是巡检,常常需要进行开机、关机的操作。对于主设备,每个型号都要有SOP和MOP;辅助设备(阀门等)可以分类定义,每类有单独的SOP和MOP。每个数据中心都至少应该有7~10个应急操作流程(EOP),主要呈现在断电、空调失效、火灾、防汛、安防、信息安全等方面。当数据中心有异常情况发生时,往往是多系统、多专业联动反应,所以在平时的培训和演练中,需要多个应急预案交叉启动,为应对实际中可能出现的场景做充足准备。

  预防性维护工作

  预防性维护工作是排查设备故障隐患、降低故障率的有效措施,从2013年数据中心异常事件报告(AIR Report)的统计数据可以看出,有30%左右的异常事件被预防性维护工作拯救回来,从而避免其发展成为真正的故障。数据中心的管理者应根据设备厂商提供的维护建议提前制定维护工作计划,指派运维人员严格按照维护流程及时完成维护工作,做好工作记录并归档保存。也可以与设备供应商签订服务合同,注明工作范围、巡检计划和对关键设备的反应时间,由供应商来主要完成预防性维护工作。

  维护档案

  维护档案用来跟踪设备维护工作的状态,可以是纸质的,也可以是电子版,其主要内容除了记录设备维护的性能数据和工作内容之外,还应包括所有安装设备的清单、完成维护工作需要的特殊工具和备件清单、维护工具的校准记录、关键备件的库存和订货途径等方面内容。对于维护档案应该分类、分时间段妥善保管,保证设备维护工作的可追溯性。

  故障的处理

  数据中心发生故障是运维人员最不愿意看到的,但故障一旦发生就必须马上处理,故障处理是否及时妥当,是将故障对数据中心影响控制在最小范围内的关键因素;是否能从本次故障处理过程中吸取经验教训,避免以后再发生类似故障,也是运维人员的工作重点之一。对于一个数据中心来说,可以按照故障造成后果的严重性来划分等级,不同等级的故障要明确处理流程和参与人员,故障排除、处理结束后要关闭该项工作,使之成为一个闭环,最后还应做好故障处理的文字记录,归档保存。


prew 上一篇

机房监控的重要性 科技改变生活,科技的发展让我们的生活越来越精彩丰富,数据中心机房监控系统也...

next 下一篇

档案库房环境监控设计 当今世界已进入信息时代,网络信息资源已成为重要的战略资源。档案库房都存放...

最新新闻 news

数据中心基础设施管理运行维护流程

DCIM(数据中心基础设施监控管理)系统是对数据中心资产设备,资源设备运行状况的进行全面监控和管理,包...【查看更多】

数据中心基础设施管理与运行

   随着社会信息化程度的快速提高,数据中心的规模越来越大,系统愈加复杂,管理及运行面临着前所未有的挑战。新葡京娱乐场认为数据中心拓扑等级越高,其管理及运行的难度也越大。同时,收集整理大量的数据中心异常事件报告,发现绝大多数故障往往源于人为的操作失误。因此,管理及运行越来越受到数据中心管理者的重视。 本文试图从数据中心管理者的角度探索接手管理一个新的数据中心之后的工作。 上期我们介绍了确定管理目标、测试与验证及管理及运维团队的人员配置及组织结构等内容,本期将围绕设备的维护、运行维护流程、预防性维护工作、维护档案、故障的处理等方面展开。

  设备的维护

  设备是据中心基础设施的组成子集,对设备的维护是保障基础设施稳定运行的重要措施。设备维护的工作主要包括维护流程的制定、预防性维护工作的执行、维护档案的管理和故障的处理几方面内容。

  运行维护流程

  运行维护流程是设备维护工作的指导和依据,数据中心管理者首先要保证各维护流程的正确性、完整性和全面性,同时通过反复的培训和演练使运维人员对流程充分熟悉和理解,并在实际工作中严格执行。

  运行维护流程通常包括三个主要类别:标准操作流程(SOP)、维护操作流程(MOP)、应急操作流程(EOP)。标准操作流程通俗地说就是设备的开机、关机操作步骤,对于数据中心的任何一个型号的设备都必须有SOP。这里值得一提的是,同类型的设备可能有不同的型号,比如空调可能包括制冷量60KW和80KW两种,对于不同型号的设备开机、关机的操作步骤可能不同,所以SOP应该按照型号的不同分别编写。维护操作流程包括了设备的维护、保养、预防性巡检等流程内容,一般情况下MOP会包含SOP的条目,因为不论是维护、保养还是巡检,常常需要进行开机、关机的操作。对于主设备,每个型号都要有SOP和MOP;辅助设备(阀门等)可以分类定义,每类有单独的SOP和MOP。每个数据中心都至少应该有7~10个应急操作流程(EOP),主要呈现在断电、空调失效、火灾、防汛、安防、信息安全等方面。当数据中心有异常情况发生时,往往是多系统、多专业联动反应,所以在平时的培训和演练中,需要多个应急预案交叉启动,为应对实际中可能出现的场景做充足准备。

  预防性维护工作

  预防性维护工作是排查设备故障隐患、降低故障率的有效措施,从2013年数据中心异常事件报告(AIR Report)的统计数据可以看出,有30%左右的异常事件被预防性维护工作拯救回来,从而避免其发展成为真正的故障。数据中心的管理者应根据设备厂商提供的维护建议提前制定维护工作计划,指派运维人员严格按照维护流程及时完成维护工作,做好工作记录并归档保存。也可以与设备供应商签订服务合同,注明工作范围、巡检计划和对关键设备的反应时间,由供应商来主要完成预防性维护工作。

  维护档案

  维护档案用来跟踪设备维护工作的状态,可以是纸质的,也可以是电子版,其主要内容除了记录设备维护的性能数据和工作内容之外,还应包括所有安装设备的清单、完成维护工作需要的特殊工具和备件清单、维护工具的校准记录、关键备件的库存和订货途径等方面内容。对于维护档案应该分类、分时间段妥善保管,保证设备维护工作的可追溯性。

  故障的处理

  数据中心发生故障是运维人员最不愿意看到的,但故障一旦发生就必须马上处理,故障处理是否及时妥当,是将故障对数据中心影响控制在最小范围内的关键因素;是否能从本次故障处理过程中吸取经验教训,避免以后再发生类似故障,也是运维人员的工作重点之一。对于一个数据中心来说,可以按照故障造成后果的严重性来划分等级,不同等级的故障要明确处理流程和参与人员,故障排除、处理结束后要关闭该项工作,使之成为一个闭环,最后还应做好故障处理的文字记录,归档保存。