资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,机房运维管理,机房运维管理,1,内容,运行维护管理的意义,提高可靠性,提高可用性,提高安全性,提高经济性,运行维护管理的本质,人员技能的提高(技术的掌握),制度流程的建立、执行,运行维护管理的技术手段,环境监控,设备监控,内容运行维护管理的意义,2,运行维护管理的意义,提高可靠性:降低故障率,提高可用性:减少宕机时间,提高安全性:减少灾害,提高经济性:增长设备寿命,运行维护管理的意义提高可靠性:降低故障率,3,运行维护管理的本质,人员技能的提高,技术培训,经验交流,运行维护管理的本质人员技能的提高,4,运行维护管理的本质,制度流程的建立、执行,机房运维制度的建立,机房运维制度的执行,管理机制,运行维护管理的本质制度流程的建立、执行,5,机房运行管理制度,一.值班制度,二.巡视制度,三.日常管理制度,四.运行维护制度,五.安全保密制度,机房运行管理制度一.值班制度,6,一.值班制度,机房昼夜要有人值班,值班人员要遵守值班守则,值班守则,一.值班制度机房昼夜要有人值班,7,二.巡视制度,机房环境的巡视,机房设备的巡视,二.巡视制度机房环境的巡视,8,1.机房环境的巡视,机房门窗的关闭情况,机房的卫生状况,机房的灯光状况,机房的空气清新度状况,1.机房环境的巡视机房门窗的关闭情况,9,2.机房设备的巡视,对网络运行保障设施要经常巡视,巡视供电系统、UPS、电池,巡视空调的工作状况,巡视新风机和空气净化器的工作状况,巡视消防报警系统,2.机房设备的巡视对网络运行保障设施要经常巡视,10,三.日常管理制度,经常注意保持机房的环境卫生,不得将食品、饮品带入机房,机房内禁止吸烟,不得在机房内乱扔物品,三.日常管理制度经常注意保持机房的环境卫生,11,四.运行维护制度,配电柜一年进行至少2次维护检查,UPS一年进行2次巡检,机房专用空调每月进行一次巡检,新风机每年2次维护,空气净化器每季度维护一次,机房消防系统每年一次检测,机房防雷设施每年一次检测,机房每年进行2次保洁,四.运行维护制度配电柜一年进行至少2次维护检查,12,五.安全保密制度,1.门禁管理,2.防雷击、防火、防水、防盗、防虫害,3.网络运行安全管理,4.系统设备安全管理,5.认真遵守国家的各项保密制度,五.安全保密制度1.门禁管理,13,1.门禁制度,机房要设有门禁,机房门禁7X24小时保持运行,机房门禁的2个作用,机房工作人员需持卡进入机房,非机房工作人员进入机房需登记,1.门禁制度机房要设有门禁,14,2.防雷击、防火、防水、防盗、防虫害,防雷击,防火、防水,防盗,防虫害,2.防雷击、防火、防水、防盗、防虫害防雷击,15,3.网络运行安全管理,防入侵,防病毒,涉密网,3.网络运行安全管理防入侵,16,4.系统、设备安全管理,进入机房不得带拷贝工具和便携机,机房内所有服务器应设有开机密码、系统登录密码,机房内所有服务器都应设有带密码的屏幕保护,非网管人员不得私自操作任何服务器,4.系统、设备安全管理进入机房不得带拷贝工具和便携机,17,5.认真执行国家的保密制度,涉及政务、金融、高科技、网上交易,定期集中销毁废弃的涉密纸、物,非机房工作人员在机房工作时必须有机房值班人员陪同,机房内各类服务器应由专人分类管理,建立设备、资料责任制,5.认真执行国家的保密制度涉及政务、金融、高科技、网上交易,18,应用举例,附件 机房运行管理制度,应用举例附件 机房运行管理制度,19,机房内的危机管理,史蒂文芬克(Steven Fink)的危机管理(Crisis Management-Planning for the inevitable):,组织对所有危机发生因素的预测、分析、化解、防范等等而采取的行动。,罗伯特希斯(Robert L.Heath)的危机管理(Crisis Management for Managers and Executives):,管理者考虑如何减少危机情境的发生、如何做好危机管理的准备、如何规划以及如何培训员工应对危机局面、如何从危机中很快复原。,机房内的危机管理史蒂文芬克(Steven Fink)的危,20,危机管理的PPRR模式,Prevention(预防),观念、流程,Preparation(准备),人力物力资源,Response(响应),应急预案,消除危机的短期影响,Recovery(恢复),经验总结,消除危机带来的中长期影响,危机管理的PPRR模式Prevention(预防),21,应急预案,事前“马后炮”,“一旦发生XX事故,管理员应该在XX分钟之内采取以下措施:一、XX;二、XX;。”,应急预案事前“马后炮”,22,第一步:列出危机或称风险,例如,IT系统宕机、火灾、空调漏水、机房温度超高等。,第二步:排除不存在的风险,第三步:将各种风险列举在应急预案的风险目录,第四步:横向分类与纵向分级,横向分类:将目录中类似的风险进行分类,比如可将机房的风险划分为的灾难风险(如火灾)、生产中断风险(如宕机)、安全隐患风险(室温过高、接地不良)、财产风险和人力资源风险等等。,纵向分级:按各类风险的大小和威胁程度排序,从而建立起风险管理的优先顺序。比如可将IT系统宕机定为I级风险,而将室温升高定为II级风险,将湿度过低定为III级风险。,第一步:列出危机或称风险,23,第五步:设计针对这些风险的预先和应急处理措施,1.对可以预见且时间和资源允许处理的风险,采取排出和缩减。,2.对可以预见但可能发生概率较低的风险,可以进行风险转移。如,将火灾风险转移给保险公司,将UPS停机风险转移给UPS厂商或UPS服务商。,3.对现在没有表现出来,但其爆发总存在一定征兆的风险,采取建立预警系统对其监控。,4.对那些发生时间完全不可预测的风险,则必须建立起一个协调人力资源的“危机处理机构组织结构图”以及一个指导人员操作的“危机应对表”,使运维管理人员和相关部门、人员能够在危机发生时有组织地、按部就班地执行。,第五步:设计针对这些风险的预先和应急处理措施,24,“危机处理机构组织结构图”的建立,预先协调跨部门的资源,“危机应对表”,管理人员根据对各种可能出现的危机设想,设计出的应对措施。,“危机处理机构组织结构图”的建立,25,环境监控,机房电力质量监测,机房温度监测,机房湿度监测,新风风量监测,IT微环境监测,机架电力质量监测,机架温度监测,机架湿度监测,运行维护管理的技术手段监控对象,环境监控运行维护管理的技术手段监控对象,26,故障预测:防止故障的发生,故障报警:缩短故障恢复时间,运行维护管理的技术手段监控目的,故障预测:防止故障的发生运行维护管理的技术手段监控目的,27,故障预防,11/11/2024,28,-2,-1,0,1,2,3,4,发现隐患,采取措施,设备将发生故障,设备发生故障的,时间被推迟,故障预防9/13/202328-2-101234发现,28,故障恢复,1,0,2,3,4,5,6,7,故障发生,服务商收到详,细报警信息,管理员收到详,细报警信息,服务商判断,故障部件,服务商携带部,件赶到现场,服务商更换部件,系统恢复,故障恢复10234567故障发生服务商收到详管理员收,29,总结,运行维护管理的意义,提高可靠性,提高可用性,提高安全性,提高经济性,运行维护管理的本质,人员技能的提高(技术的掌握),制度流程的建立、执行,运行维护管理的技术手段,环境监控,设备监控,总结运行维护管理的意义,30,谢谢!,Albert.Shencra-,谢谢!,31,
展开阅读全文