系统运维技术方案书.doc

上传人:good****022 文档编号:116815086 上传时间:2022-07-06 格式:DOC 页数:68 大小:1.98MB
返回 下载 相关 举报
系统运维技术方案书.doc_第1页
第1页 / 共68页
系统运维技术方案书.doc_第2页
第2页 / 共68页
系统运维技术方案书.doc_第3页
第3页 / 共68页
点击查看更多>>
资源描述
第1章 项目概况1.1 项目背景近年来为适应业务发展的需求,XX企业进行了大规模的电子商务建设,包括采购桌面PC约300台,打印机约100台,这些应用系统及硬件设备的投入使用极大的推动了XX企业信息化建设的进程。随着越秀工商局对整体IT系统(硬件、软件、网络通讯)的可用性要求日益提高,系统运行保障和维护管理就成为确保业务系统安全稳定可靠运行的最有力的手段。XX企业主要有一栋N层的办公环境,现阶段对设备维护主要采用自主维护的方式。由于人力有限,建设任务繁重,中心技术人员在接手新项目及日常工作的同时往往需要做大量的维护工作,不少技术人员长期处于满负荷,严重影响了工作效率。在当前有限的人力物力资源下,为了保障和提高IT服务质量,XX企业有必要将计算机、外设及网络的运行维护进行外包,派驻2名工程师进行维护,以解决当前IT服务个方面日益增长的需求和有限的提供能力之间的矛盾,提高XX企业办公区域内的软、硬件、业务应用软件的运行维护效率,确保信息系统正常运行。1.2 项目目标结合XX企业业务工作及信息化建设实际,完善运维管理体系的建设,加强信息系统正常运行保障,“以流程为导向,以服务为核心”提高服务质量水平、转变服务理念、拓宽服务范围、提高服务效率、提升用户服务满意度。1.3 需求分析本次项目XX企业需求主要包括两个部分,1、运维管理体系建设要求;2、信息系统正常运行保障服务。其中运维管理体系建设应完善服务内控制度即服务质量管理,逐步建立起一套符合XX企业自身实际的运维管理标准及应用制度;建设IT运营维护管理平台,采用标准的IT运维管理流程,提供准确、详尽、专业的报告制度,通过客观分析运维过中出现的各种障碍及问题,为XX企业信息化建设提供决策依据。信息系统正常运行保障涵盖了1、 一般信息化设备及软件的运维管理; 2、 、防病毒服务;3、 办公区域内设备及软件巡检普查;4、 提供符合XX企业实际的服务响应水平及质量保障;5、 信息化资产管理第2章 运维服务管理体系建设2.1 IT服务管理概述现今,随着计算机技术,特别是网络技术的飞速发展,对于许多行政单位,许多企业而言,IT技术越来越深入到核心业务,影响策略制定和企业的发展。从而对IT环境的可靠性,可用性和快速适应性提出了越来越高的要求,与此同时,IT环境(包括软/硬件及相关技术)却变得越来越复杂。因此,对于一个单位而言: 如何把有限的IT资源最有效的作用于核心业务的发展 如何最快地获取专业的支持能力 如何实现对系统的完善管理,提高系统的可靠性和可用性 如何提高用户的工作效率,增加最终用户满意度 如何跟上IT技术的发展,及时更新相关技术 如何提高对IT系统利用的灵活性 如何更好地管理IT运营成本 以提高服务能力,将会是单位可能面临的问题。 IT服务管理(ITSM)是一套帮助企业对IT系统的规划、研发、实施和运营进行有效管理的方法,是一套指导IT服务的方法论。ITIL是英国国家电脑局(CCTA)于八十年代开发的一套IT业界的服务管理标准库,它把业界在IT管理方面最好的方法归纳起来,形成规范,旨在为企业的IT部门提供一套从计划、研发、实施到运维的标准方法。它一经提出,便被欧洲各大公司纷纷采纳,随后在澳洲,美洲和亚洲流行开来,目前已成为IT服务管理事实上的标准。通过参考这些标准,我们可以充分借鉴国际化标准的IT服务管理最佳经验,使我们“站在巨人的肩膀上”来设计、规划及运维IT服务,尽可能少走弯路,有效提高IT服务的质量。 ITIL框架图ITIL是基于流程的方法论。IT部门可用其检查是否用一种可控的和可训练有素的方法为最终用户交付所需的IT服务。ITIL合并了一套最佳的实践惯例,可适用于几乎所有IT组织,无论其规模大小,或采取何种技术。ITIL对IT服务管理实践中涉及的许多重要问题进行了系统的分析,包括全面的检查清单、任务、程序、责任等与任何IT服务组织密切相关的问题。这些概念的定义也涵盖了大多数IT服务组织的主要行为。IT服务组织可以借助ITIL的指导建立和拓展自己的IT服务流程。2.2 运维服务管理流程体系运维务管理最核心的是“服务支持”(ServiceSupport)和“服务提供”(ServiceDelivery)两个模块。各流程相互贯穿和作用,形成有机整体,共同建立一个健全的服务管理体系。 如下图所示: 2.2.1 服务支持服务支持的内容描述了一个客户如何访问适当的服务,以支持其业务。服务支持包含以下内容:2.2.1.1 服务台我们为企业建设服务台,提供统一报障电话,统一报障、统一维修接口,越秀工商可以通过统一的报障电话申请服务、查询服务处理进程,监控服务质量。服务台(ServiceDesk)是IT服务组织和用户相互联系的接入点。服务台曾经被称为帮助台(HelpDesk)。HelpDesk的主要任务是记录,分解和监控提出的问题。一个服务台可以具备更宽范的角色,如接收变更请求(RFC),并且可以支撑多种流程中的操作。服务台是服务提供者和用户之间的日常工作的单一联系点。它也是报告突发事件和提交服务请求的焦点。正因为如此,服务台的职责是保持将服务相关信息,行为和契机通知用户,并追踪了解用户每日的行为。例如,服务台可能扮演用户提交变更请求的联系点,基于变更管理流程传达变更实施计划,并保持将变更实施进程通知用户。变更管理应该确保服务台随时保持对变更行为情况的掌握。在任何对SLA产生影响的事件面前,服务台处于第一线,并维护高速的信息流通道。围绕突发事件,服务台有可能在其权限范围被授权实施变更。此类变更的范围可能被预先定义。当所有相关变更发生时,变更管理流程将被告知。基本上,当对任何CI的规范做出修改之前,变更流程都需要对其进行预先审批。2.2.1.2 突发事件管理突发事件管理流程致力于解决突发事件,并快速恢复服务供应。突发事件被记录下来,并且事件记录的质量决定了相关的其它流程的效力。服务台接近于突发事件管理流程和问题管理流程,并处于它们之间。如果没有适当的控制,变更有可能引入新的突发事件。因此需要建立有效途径对变更进行跟踪。这是为什么建议持续不断地将突发事件记录在同一个CMDB中,并分类为“问题”,“已知错误”,“变更记录”等信息,以促进服务台界面的信息沟通能力,简化事件调查和报告。突发事件的优先权及其升级需要作为服务级别管理流程中的一部分进行协商,并在SLA中备案。突发事件管理的目标:突发事件管理的目标是尽可能迅速地根据SLA中定义的普通服务级别作出反应,使产生问题后对业务行为及组织和用户的影响最小。突发事件管理也应该保留对事件的有效记录,以便于衡量和改进流程,并向其它流程汇报。突发事件流程如下图所示:2.2.1.3 问题管理对于突发事件有两种处理方法,一种是对其做出服务快速响应,尽快恢复其正常运行,另一种是鉴别和解决问题根源。这两种方法之间存在微妙的区别,而且经常被互相混淆。对其做好区分具有重要意义。如果问题被怀疑存在于IT架构内部,问题管理流程将会瞄准其潜在的根源。一个问题可能是被突发事件暴露出来的,但是显然,问题管理的目标是解决问题根源,预防其可能产生的干扰,而不是迅速恢复系统运行。当问题被识别后(被识别的问题通常称之为已知错误),通常需要进行一个业务决策,决定是否采取永久性措施改进系统架构,以预防再次发生新的突发事件。如果需要,提交一个变更请求来实现改进。为了有效和高效地识别突发事件背后的问题根源及其发展趋势,问题管理流程需要准确全面的突发事件的记录。问题管理流程同样需要和可用性管理流程密切联络,以确定这些趋势并明确补救措施的重要性。流程:2.2.1.4 配置管理配置管理致力于控制一个变化中的IT架构(标准化和状态监控),鉴别配置项目(清册,相互关联,审核与注册),收集和管理有关IT架构的文档,为所有其它流程提供IT架构的相关信息。配置管理是所有其它服务管理流程不可分割的一部分。拥有当前架构中所有部件的最新的,准确的,全面的和详细的信息,并管理其变更,使这些信息有效而高效地支持其它流程运行。变更管理可以与配置管理集成。至少,建议在配置管理系统中控制变更的登录和实施,并自在配置管理系统的帮助下对变更影响做出评估。因此所有变更请求应该被输入配置管理数据库(CMDB),并随着变更请求的进展随时更新记录,直至其实施。配置管理系统识别一个变更项目和架构中其它部件的关系,将这些部件的所有人召集到影响评估流程中来。不管一个变更是否在架构中实施,相互关联的配置管理记录应该在CMDB中得到更新。最好在变更发生时,使用集成工具自动地更新记录。CMDB应该开放给整个服务支持组,使所有人理解部件失效可能的原因,从而使突发事件和问题可以被更容易地解决。CMDB还应当被用来把突发事件及问题记录和其它记录联系起来,比如失效的配置项目(ConfigurationItem-CI)和用户之间的联系。如果缺少了配置管理流程的集成,发布管理将难以实现,并可能错误连连。服务交付流程同样依赖于CMDB中的数据。例如:服务级别管理需要识别相互结合在一起的部件,并在此基础上设置支持协议,交付服务。IT财务管理需要知道每个业务部门使用的IT架构部件,尤其是对于收费的项目。IT服务持续性和可用性管理需要识别部件,用于问题风险分析和部件失效影响分析。下图显示了配置管理和其它服务管理流程之间的关系:图:能力管理,变更管理,配置管理和发布管理之间的关系2.2.1.5 变更管理变更管理专注于对IT架构实施可控的变更。此流程的目标是确定所需的变更,并决定这些变更如何在对IT服务产生最小的不利影响的范围内得以实施。同时确保其变更是可追溯的,而且是经过整个组织内部有效地磋商和协调的。在客户组织提交变更请求后,由配置管理流程监控其状态,与问题管理和若干其它流程进行协调。变更实施履行一特定的路径,包括定义,计划,建立,测试,接受,实施,和评估。变更管理流程依赖于配置数据的准确性,以确保获知所有实行变更造成的影响。因此变更管理与配置管理之间有密切的联系。变更流程的详细内容应在SLA中存档,确保用户知道提交变更申请的程序,项目目标及时间,以及实施变更造成的影响。变更的详细内容需要通知服务台。即使变更经过了全面测试,仍然很有可能存在实施变更的过程中发生各种困难,这些困难可能缘于变更没有按需求或预期运行,或者对变更对功能造成的影响产生质疑。变更咨询会议(ChangeAdvisoryBoard-CAB)由可向变更管理小组提供专家意见的人员组成。这个会议很可能由来自于所有领域的IT及业务单位的人参与。2.2.1.6 发布管理发布是指一组配置项目(ConfigurationItemsCI)经过测试被引入处于活动状态的环境中。发布管理的主要目标是确保发布信息被成功地公布,包括归纳综合,测试与存档。发布管理确保只有经过测试和正确授权的软硬件版本才能提供给IT运行环境。发布管理与配置管理和变更管理的行为密切相关。真实的变更实施经常通过发布管理行为得以贯彻。变更的结果可能经常来自于新硬件,新版本软件,以及新的文档(自行建立,或购买而来)等。对它们进行控制,并打包和颁发。有关存档安全和公布程序应该和变更管理和配置管理流程紧密集成。发布的程序也可能作为突发事件管理和问题管理流程中不可分割的一部分,同时还和CMDB密切相连,以维护及时更新的记录。2.2.2 服务提供服务提供主要包括:服务级别管理、IT服务财务管理、能力管理、持续持续管理、可用性管理等。2.2.2.1 服务级别管理服务级别管理的目标是缕清与客户之间有关IT服务的协议,并付诸实施。 因此, 服务级别管理需要收集客户需求, IT服务组织可提供的设施,以及可用的财务资源。 服务级别管理针对提供给客户的服务 (聚焦客户的)。因此是基于客户需求建立服务 (需求拉动),而非单纯基于现有技术所及(供应驱动),从而使IT服务组织提高客户满意度。服务级别管理阐述的内容有: l 如何在服务级别协议(Service Level Agreement SLA)中清楚地定义条款, 使其可优化IT服务成本, 并为用户所接受。l 如何监控和讨论所提供的服务。l 如何管理IT服务组织的供应商及其下包合同。 服务级别管理(Service Level Management SLM)流程是用来确保服务级别协议,并支持运行级别协议及其它合同,保证所有对服务质量的影响减少到最小。此流程在服务质量和SLA基础上评估各种变更造成的影响,包含预期变更前的影响, 也包含评估实施变更后的影响。SLA中某些最重要的目标和服务可用性、以及在容许周期内对突发事件形成决策有关。SLM是服务支持和服务交付的关键。由于它依赖于其它流程的存在性, 有效性及运行效率, 它不可孤立存在。一个缺乏基础支持流程的SLA是没有意义的, 缺乏支持的SLA就失去了承认其内容的基础。2.2.2.2 IT服务的财务管理财务管理针对于IT服务的谨慎从事。例如,当所提供的IT服务在进行中时,财务管理将提供其导致的成本信息。这样使考虑IT架构或IT服务的改变时,能够合理地考虑成本和利益(价格和性能)之间的关系。财务管理中对成本的鉴别、分配、预测和监控使成本成为可知因素,减少成本和预算的差距。 重点结合IT服务组织的赢利, IT服务的财务管理描述了多种支付方法,包括设立支付和定价的目标,以及预算计划。财务管理负责对成本及IT服务投资回报的会计核算,并管理任何来自于客户的成本。财务管理需要与能力管理(Capacity Management),配置管理(Configuration Management,包含资产数据),以及SLM的良好接口, 来确定服务的真实成本。 在IT组织预算谈判阶段和客户的IT耗费核算阶段, 财务管理很可能与业务关系管理(Business Relationship Management)及IT组织密切相关。2.2.2.3 能力管理能力管理是优化成本,获得时间,以及开发IT资源的流程,来支持与客户签订的服务条款。能力管理针对资源管理,性能管理,需求管理,建模,能力计划, 负载管理,以及应用软件能力推测。能力管理强调用计划来确保所签订的服务级别可以被履行和成长。能力管理负责确保在所有时间具备足够的可用能力,以满足业务需求。 能力管理不是简单地与系统部件的性能相关, 而是直接与业务需求相关。 在那些与能力问题相关的困难面前, 能力管理在突发事件决策和问题鉴别过程中被引入。能力管理提交变更请求以确保得到适当的可用能力。 这些RFC被提交给变更管理流程, 其实施可能影响若干CI, 包括硬件, 软件和文档,并需要提供有效的版本管理。能力管理应该在评估所有变更时被引入, 用来确定变更导致的在能力和性能上的影响。 这种影响在变更实施前后都有可能出现。 能力管理应该特别关注变更在一定周期后引起的累积性变化。 容易被忽略的单个的变更往往在经过累积后, 引起响应时间衰减, 文件存储问题, 和对处理能力的过度需求。2.2.2.4 IT服务持续性管理此流程在业务中断时对IT服务进行灾难恢复措施的准备和计划。 业务持续性管理为客户组织遇到灾难时准备好紧急预案, 根据此预案采取与IT服务相关的预防灾难发生的措施。 IT服务持续性管理流程对技术, 财务和管理资源需求做好计划和协调, 确保灾难发生后可持续提供服务, 并就其内容达成客户同意。IT服务持续性管理与一个组织在业务中断后在某个可允许范围内继续运作的能力密切相关。 至少要保证最基本的业务运行所需要的IT服务, 预先对其服务级别作出规定, 并和客户达成一致。 有效的IT服务持续性需要一个平衡的风险缩减措施, 例如有弹性的系统和备份恢复设施。 配置管理流程中的数据被用来辅助其计划和预防措施。 需要对架构和业务变更对持续性计划造成的潜在影响进行评估。 有关IT和业务的计划应该提交变更管理程序。 在持续性管理流程中, 服务台承担着重要角色。2.2.2.5 可用性管理可用性管理是确保资源, 方法和技术得以适当拓展的流程, 以支持与客户签订的IT服务条款。 可用性管理针对所遇到的问题, 如优化维护等, 并且设计测量指标, 最大程度减少意外突发事件的数量。可用性管理与IT服务的设计, 实施, 测量和管理相关, 确保规定的业务需求中有关可用性的内容被贯彻。 可用性管理需要理解IT服务失效发生的原因和恢复服务所需的事件。 突发事件管理和问题管理提供了关键输入SLA中描述的可用性的目标在可用性管理流程中被监控, 并包含在其报表中。 此外, 在支持服务核查制度所提供的测量和报表中, 可用性管理对服务级别管理(SLM)流程提供了支持。2.3 运维服务管理规划2.3.1 第一阶段:服务磨合阶段第一阶段,又称为运维服务磨合阶段,工作目标主要是通过服务管理,将客户现有的无序救火式突发事件服务有序化,实现突发事件管理,所有的突发事件将运用技术、管理与流程相结合的方式,做到统一管理,统一任务分发,安排合适的人员处理合适的事件。所有的突发事件全过程可控制、跟踪、即时回馈,让每一个客户能够随时查询到事件处理过程,不会出现焦虑、服务要求长时间无人响应或服务要求根本无人响应的情况,从而提高客户满意度,提高运行维护效率,提高客户使用业务信息系统的效率,从而做到提高总体生产力。现今客户大都没有真正意义上的配置管理系统。配置管理系统,顾名思义,含有业务信息系统及终端设备详细清单,配置情况,针对于业务信息系统的操作系统服务运行情况,终端运行软件情况,使用软件资产情况等,以及每一次配置改变的记录,做到配置的改变都有迹可查,将软硬件资产系统化的管理起来。用一句话概括我们上述两项服务:将无序的突发事件有序化,将纸制的配置管理信息化。就是我们突发事件管理以及配置管理的目标。ITSM所定义处理突发事件的工作目标是规避与尽快恢复。运维服务的目标不是尽可能多,尽可能快的完成服务,而应该是尽量避免事件的发生,当然,这不是一步可以到位的,因此,在第一阶段,我们需要做到尽快恢复客户的正常使用,故:在处理突发事件时,我们不分析事件发生的原因,只收集有价值的事件/故障信息,并在最短的时间内将客户的设备恢复到正常使用状态。针对于重复/频繁发生的突发事件,我们需要转问题管理流程,予以处理。问题管理,也就是事件的原因分析以及根除此事件的解决方法管理,我们需要对突发事件发生的原因,使用专业的方式予以分析,如使用国际QA标准,使用鱼骨图,使用柏拉图等方式来分析出可能的原因,并对原因予以检测和测试,提出根本解决事件的方案。鱼骨图分析法柏拉图分析法问题管理,仅提出解决问题之道,也就是根除某突发事件的方案,具体的处理步骤,交由实施管理来执行。实施管理,又叫做发布管理,因根除故障特别是信息系统缺陷时,需要严格处理过程,避免在线运行业务受到不可预计的影响。我们在发布过程中都会预计到一些可能的影响,如更改交换机配置可能导致部分终端无法使用网络;修改某一个数据库字段可能导致数据混乱;修改某段代码可能导致整个程序陷入死循环等。因此实施管理必须能有效并切实的分析大部分存在或者隐含的风险。试想我们在更改交换机配置前经历过充分测试,将中断网络时间缩短为五分钟并且通知到全部/大部分可能受影响的客户;修改数据库字段或代码前在虚拟测试平台或访真数据库中反复测试,而后予以发布;将发布的时间定在非使用高峰期。这样,可以规避大量风险,保证问题解决的安全可靠。越维风险控制模型凡涉及到解决问题,必然关联到变更。变更管理的作用,是保证每一步的配置更改,都有迹可查,有人可寻。在工作中是否遇到过有人修改了系统代码,您却不知道是谁改动了哪些地方?验收后提供的系统原代码不知道是否与在线系统原代码相符?有哪些地方不同?是哪些人修改的?您的设备是否与刚采购的时候配置情况相同?保修情况始终保持不变?变更后的资产是否已经更新配置库?变更管理将为您解答上述问题。第一阶段的服务,就涵盖上述五个方面的服务内容,总结描述:将无序的突发事件有序化,将纸制的配置管理信息化,问题管理科学化,实施管理风险可控制化,以及变更管理记录化。2.3.2 第二阶段:主动服务阶段重点是在改良前一阶段的服务基础上,将前一阶段的大量响应式服务,部分主动式服务,转换为主动服务为主导,科学的规避故障发生,做到故障可控制化。因此,第二阶段的服务内容,主要包括:实施&测试、安全管理、IT服务规划,以及规模管理、可用性管理、服务级别管理和成本管理。实施&测试:前面我们讲实施管理,包含有上线前的充分测试等工作,那这一个实施&测试是否重复呢?此处的实施&测试,是与业务信息系统开发质量管理相关的实施管理和测试管理工作。随着业务信息化需求的不断提高,业务系统的升级也随之产生。是Down掉原有系统建设新的,还是在原有系统基础上进行修改?是用新的服务器替换掉原有服务器,还是在原有服务器上升级?这些处理,都面临一个必不可少的阶段:切换。客户往往不愿意更换已经使用习惯了的系统,除非系统已经不能满足他的实际工作需求,但老系统总是存在大量缺陷,且运行效率低下,导致业务部门的工作效率也随之下降。那么,为什么客户不愿意更换系统?原因是不熟悉。已经开顺手的车不会容易出事故,已经用顺手的手机可以方便的找到每一个联系电话,而新系统的培训,是否进行得完善?新的业务流程讲解,是否让每一个业务部门人员熟悉了?新系统是否有这样那样的缺陷而导致更低下的效率?新系统是否能够承载足够多的用户访问?新采购的硬件是否能够保证质量?业务系统可以通过分析代码来找寻缺陷,但是需要的时间过长,可以在测试平台上对每一个功能进行测试,但是无法满足压力测试,只有将多种测试手段有机结合起来,才能保障新系统的质量,如使用Winruner予以界面测试,使用Loadruner进行压力测试,并管理好开发商的培训工作,将给实施与测试工作带来实质性效果。另外,选择合适的发布时间,做好发布计划,也是实施管理工作的重点。安全管理,指服务过程的安全类服务、风险控制以及与客户的数据安全协议。安全类服务如网络病毒防治,网络反黑,入侵检测等技术类服务,风险控制如服务过程中各种风险的分析、规避等管理。技术类工作可以通过软件等工具来实现,如系统补丁分发,防病毒软件升级及策略优化,网络安全性优化,增加入侵检测系统(IDS)等,这些服务也能够在第一阶段中开始,而风险控制和客户数据安全性协议,则完全通过人员管理、流程管理来实现。标准的ITSM流程是能够做到0风险的,但在实际处理过程中却往往不可能做到0风险。毕竟流程是靠人来运转,而人员是否能够完全遵照流程的指导来执行,就是管理方法的问题了。运维被称为People Business,就证明人员管理犹在流程管理之上。因此,运维人员素质是一个至关重要的条件。越维人员稳定,且大都经历过保密培训,这些都是实现安全管理的必要条件。另外,我们在项目启动前将与客户签定保密协议,确保客户数据的安全。IT服务规划:此时我们对客户的情况已经有所了解,且积累的部分维护服务数据,如果进行了业务系统维护,更应该对客户的业务流程有了一定了解,此时可以针对客户目前使用的信息系统或设备提出服务规划,包括如何建立与推广运维服务系统平台,如何与多方监控软件整合形成集中管理,如何将运维部门由产出部门转换为产入部门等。规模管理:客户除本部外,还设有系列分部,分布地理位置比较接近,在第一期项目中即可以组成2级服务结构,使用集中式服务台(Service Desk)统一报障以及任务分发,这在资源的充分利用上有很大意义。如越维的某客户单位正在策划将越维设立在总部的统一故障受理平台(Service Desk)服务范围扩充到涵盖全市范围内全市各区分局及所辖下属单位的集中式运维服务管理平台。同样,规模的扩充将不限于服务台,整体的运维服务也可以在全市服务环境的建立基础上发挥其集中管理覆盖面广的特色。可用性管理:通过对客户系统环境的了解与熟悉,以及在磨合阶段的系统改良,我们此时充分根据客户实际需求,做出符合客户成本,尽可能高的可用性管理承诺。可用性管理的目标是合理调配有限的资源,采用应急预案等手段保障核心系统的正常运行,可用性承诺是服务方对客户方系统情况的熟悉度结合自身技术承载能力所做出的质量保证。目前,越维对某客户做出的系统可用性承诺高达98%。服务级别管理:同可用性管理,服务级别管理的目标是保证服务的提供按照服务级别协议(SLA)约定执行,如2小时响应4小时解决。通常在项目初始阶段会有一个初始服务级别(SLA)这是对服务商自身技术承载能力,服务初始资源安排以及客户基本需求的约定,不可能完全符合客户实际情况,那么在第二阶段,已有充分的时间分析客户实际需求,审视自身技术承载能力,两者相结合做出真正符合客户实际的服务级别承诺,并由服务级别调配相关资源。如越维与某客户的一期项目服务级别为所有故障2小时响应4小时解决,而在二期的2005年7至9月中,越维的平均故障恢复时间,仅为18分钟!成本管理:前面提到了很多“资源”的调配问题,随着对客户系统环境的熟悉,我们能够分析出客户更为实际的需求。如核心业务不能发生故障,而某台不常被使用的普通终端也许两天内修复也不会影响工作,因此不需要提供过多的资源进行紧急维护,成本管理的目标是在客户能够接受的预算内尽可能高的提高系统可用性。运维不是多做突发事件处理,而是降低突发事件的发生率,因此善用工具,减少紧急事件,也能够有效控制成本;做好规模管理,有效合理使用整体资源,更是控制成本的好方案。综上,成本管理的意义,就在于资源的合理,充分使用。2.3.3 第三阶段:战略规划阶段 第三阶段,客户已经与服务商紧密结合为战略合作伙伴关系,能够为客户制定IT战略规划,能够对客户业务投资建设的信息系统使用所创造的业务价值予以计算与评估,并能够协助业务部门对最终客户予以管理。2.4 运维服务质量管理与 “产品”不同,“服务”的提供贯穿于和客户的互动中。 只有当服务被提供时,才能体现其存在和价值。 服务的质量取决于服务提供者与其客户间互动过程中某些协议的实现程度。 客户如何感知服务的优劣, 服务提供者如何考虑所提供的服务,两者都很大程度上取决于他们的经验和期望。提供服务的流程是生产和使用的一种组合方式,通过流程使服务提供者和客户同时参与服务的过程。客户对服务的感知主要来自于服务供应的过程。客户通常用以下问题评价服务的质量:l 所提供的服务是否达到期望?(质量可衡量性)l 能否在多次服务中得到同样的质量?(质量稳定性)l 服务所需成本是否合理?(质量与成本)服务是否达到客户期望主要取决于客户在多大程度上赞同所交付的服务内容, 而不是服务提供者提供了多“好”的服务。 因此开展有效的和持续的客户对话机制极为重要。服务质量取决于服务完成客户需求和期望的程度。为了能够提供所需的质量, 服务提供者应该持续评估服务经验, 了解客户对未来的期望。不同客户考虑的内容和方式都不尽相同。因此优质服务都是为客“户量身定做”的,这也是服务区别于产品的主要特点。ISO-8402对质量的定义是:“质量是一个产品或服务就其具有的能力满足确定的或暗示的需求的总体特性。”质量“高”往往意味着产品或服务在某种程度上超过了客户的期望。在质量得以保证的同时,成本也是客户同时考虑的因素。或者说在就其对服务的期望达成协议之后紧接着的步骤就是对成本达成协议。服务成本必须是合理的 - 对于服务提供者来说体现其实施成本与合理利润,对于客户来说是建立在对服务市场的合理理解与选择之上。客户对服务质量评估的另一重要依据是服务的一贯性。如果服务提供者偶然能够提供超出客户期望的服务, 但在其它时间却常常让客户失望, 则显然不能称之为质量合格者。 “持续的质量”是最为重要的, 也常常是服务业最难以实现的目标。服务(或产品)的提供是通过交付行为实现的。 而其质量很大程度上取决于组织这些行为的方式。 Deming质量轮提供了一个简单有效的质量控制模型:这一模型假设要实现有效的质量控制, 必须重复履行以下步骤:l 计划(Plan): 应该做什么?什么时候做?谁去做?如何做?借助什么去做?l 执行(Do): 实施计划的行为。l 检查(Check): 确定执行行为是否提供了预期的结果。l 效果(Act): 基于检查得到的信息修正计划。有效和适时地推动此轮旋转, 意味着服务行为被按照各自的计划和检查机制分为各子流程。 必须清楚谁在组织中负有责任, 他们被授权修改哪些计划和程序, 不仅为某一个行为, 而且为每一个流程。质量管理(Quality Management)是在提供服务的组织中工作的每一个人的责任。 每一个员工必须明白他对组织作出的成果如何影响工作质量, 影响其他同事作出的工作质量, 并且最终如何影响整个组织提供的服务质量。 质量管理同时意味着持续地寻找改进组织的机会,实施能够改进质量的行为。质量保证(Quality Assurance)是组织内部的重要政策,用来保证质量管理的实施。 它集中体现了一整套质量衡量标准和履行程序,保证组织能够提供持久满足客户期望及相关协议的服务。质量保证确保质量管理所实施的成果处于可维护的状态。综上所述,本次越秀工商运维项目的服务质量管理,围绕质量系统的服务流程是保证服务质量持久延续的有效方法。2.5 建立运维管理规范2.5.1 运维管理规范概要我门与XX企业共同学习ITIL、ITSM、BS15000、ISO20000与ISO9000等国内外先进标准,运维管理规范采用ISO9000模式编写,涵盖服务管理体系、服务级别管理、服务台管理流程、突发事件管理、问题管理、变更管理、发布管理、配置管理等方面,如下图所示:如上图所示,是一个金字塔结构。处于最高层的,是客户满意度指引,一切服务均以“保证客户最大满意度”为前提展开。与之同级的还有服务管理体系文件与总体文件,用以与服务管理体系相结合,并且维持服务管理规范的改良性原则。处于中层的,是ITIL核心的11个标准流程,均根据XX企业实际情况进行了修订和优化,以确保在XX企业实际工作中能够得到实际应用,运维管理规范是各种操作指南与巡检制度,包括日常管理制度等,确保提供给客户的服务,是统一形象的规范化标准服务。巡检制度的建立,为XX企业信息系统“提高系统可用性、提高系统健壮性、提高各级人员技能素质”的“三提高”目标奠定了坚实的基础。第3章 信息系统运行保障方案 3.1 统一服务台建设提供统一报障电话,统一报障、统一维修接口,XX企业可以通过统一的报障电话申请服务、查询服务处理进程,跟踪处理进度,确保服务时效、控服务质量、调查用户满意度。这个统一的服务接口,在国际上有个标准的称呼:服务台(Service Desk)。我们将为XX企业建立统一服务台,提供优质、专业的报障受理、跟进服务;服务台总体架构如下:服务台(服务台)在服务支持中扮演着一个极其重要的角色。完整意义上的服务台可以理解为其他IT 部门和服务流程的“前台”,它可以在不需要联系特定技术人员的情况下处理大量的客户请求。对用户而言,服务台是他们与IT 部门的唯一连接点,确保他们找到帮助其解决问题和请求的相关人员。服务台不仅负责处理事故、问题和客户的询问,同时还为其它活动和流程提供接口。这些活动和流程包括客户变更请求、维护合同、服务级别管理、配置管理、可用性管理和持续性管理等,服务台还负责事件快速响应,使用已知问题、已知事件知识库对终端用户的突发事件予以快速恢复或规避事故发生。3.2 建立文档管理制度文档管理的目标是通过对运维服务过程中使用的文档进行统一管理,达到充分利用文档提升服务质量的目的,确保运维资源符合运维服务的要求。文档资源包括运维体系文档、项目(软硬件)文档资料、服务质量管理文档以及服务报告文档等。双方的职责为:XX企业:负责批准运维文档的更改、删除和发布。XX企业运维部组织编写及更改运维文档;批准文档的借阅申请。运维服务商负责更新文件目录清单;负责保管文档资料;负责备份文档资料;检查各类在用文件的有效性,防止使用无效版本;负责定期提交服务质量管理文档以及服务报告文档等。文档资源管理流程图文档资源管理的工作程序文档资源管理包括对以下五类文档进行管理:l 运维文档:指运维体系文档,包括运维手册、程序文件、相关支持文件及表单格式等。l 项目文档:指交付运维的软硬件系统相关的文档。l 质量管理文档l 服务报告文档l 其他文件资料:指文件、传真、外来资料等。A、运维文档编码规则文档分级文档编号规则说 明示 例一级文件(总体)A+两位一级文件序列号 两位一级文件序列号从01起顺序递增A01:术语表A02:总纲二级文件(程序文件)B+两位二级文件序列号 两位二级文件序列号从01起顺序递增B01:服务级别管理程序文件B02:服务台管理程序文件三级文件(支持性文件)C+二级文件序列号+两位三级文件序列号三级文件均从某个二级文件产生,此处的二级文件序列号是指与本文件对应的二级文件序列号;两位三级文件序列号从01起递增C0101:服务等级规划C0102:服务目录四级文件(表单)D+二级文件序列号+两位四级文件序列号四级文件均从某个二级文件产生,此处的二级文件序列号是指与本文件对应的二级文件序列号;两位四级文件序列号从01起递增D0201:运维工作单D0302:工单跟踪记录记录编号无关联记录四级文件编号-日期+两位序列号四级文件编号指该记录对应的四级文件的编号;日期按“yyyy+mm+dd”格式编写;两位序列号从01起递增D0201-2005031401:运维工作单记录关联记录四级文件编号-关联记录编号四级文件编号指该记录对于的四级文件的编号;关联记录编号指与本记录的产生相关联的记录的编号D0302-D0201-2005031401:工单跟踪记录B、运维文档的更改、删除运维文档由运维部负责组织编写,经XX企业信息主管部门批准后颁布执行。所有运维文档经批准后,由运维服务商统一归入文件目录清单中。文件目录清单的内容包括文档类型、文档名称、编号、版本号、发布时间、内容说明、保管位置、保存期限等。运维文档需要更改时,由文件更改提出人填写文件更改申请单,说明更改原因和更改内容。经运维部、信息中心批准后,由运维部组织人员进行文档的更改,并记录更改过程、更改内容、更改结果等。更改结果经运维部、信息中心确认后由运维服务商更新文件目录清单。若需删除运维文档,则需由相关人员填写报废申请单,说明删除内容、删除原因等,经运维部、信息中心批准后由运维服务商在文件目录清单中将该文档删除。C、质量管理文档的应用服务质量管理文档主要分为服务回访文档、服务满意度调查文档、服务投诉处理文档三类。三种文档均为保障与提高客户满意度为目标所制订的客户满意度指引中的部分,属于运行服务管理体系最高层指导文件,以确保“从服务的角度出发”为客户提供五星级的运行服务。根据ITIL标准与规范的要求,所有的事件均由服务台受理,服务工程师处理完毕后,由服务台完成回访并关闭事件流程,因此回访动作将直接获得客户对当次服务的评价,并由客户的评价获得服务质量改良的依据。在ISO20000戴明环的指引下,服务团队质量管理小组将分析运行服务过程中成功回访的客户对当次服务的直接评价,并收集尽可能完整的评价信息,通过每周的部门例会对客户的评价进行汇总分析,并提出可能的原因和可能的改进办法,回访与总结例会记录样本如下:3.3 一般信息化设备及相关软件运维管理3.3.1 一般信息化设备服务范围本次项目的服务范围包括XX企业办公区域内的台式机、打印机以及客户端所有常用的办公软件(包括操作系统软件、系统应用软件、系统管理软件、办公软件、工具软件等)。3.3.2 一般信息化设备运维1、 根据实际需要,经XX企业同意准备相应数量的维护零配件,协助XX企业进行备件库的管理,并在零配件不足时及时补仓。2、定期对计算机设备进行保养维护,定期进行用户满意度调查;l 对一般信息化设备硬件进行定期巡检、保养,以保障设备运行正常;l 按照越秀工商要求进行硬件设备普查工作,建设可实现动态维护的硬件设备档案库,并实现与XXX企业的资产管理系统的衔接。l 定期对公用信息化设备消毒除尘;l 检查硬件实际配置与设备登记表是否相符。3、对故障设备的维修l 在响应时间内完成故障设备的维修,维修人员应严格遵守维修规程。l 建立硬件应急维修小组,对关键重点岗位及紧急的故障及时响应并及时汇报,对于故障设备的维修由越秀工商指定的具体技术人员组织监督进行;l 对处于保修期内的故障设备,供应商在广州市工商局越秀分局授权的范围内代表越秀工商协调产品供货商予以维修,并监督维修时效和质量;l 对处于保修期外的故障设备维修,如需更换零配件,可由供应商提供多家的报价,经用户选择审核确认后,方可进行更换;3.3.3 例行维护流程图3.3.4 一般设备服务方案3.3.4.1 信息化设备资产调查及管理资产标签应含有上图所注所有信息,包括资产名称、合同采购号、产品序列号、保修期限、IP地址、系统序列号以及供应商、联系人名称、电话,使用条形编码统一进行资产记录。条形码记录号应与数据库中记录对应,关联使用人、资产配件(如显示器、键盘、鼠标、打印机、音箱等型号信息),所有资产应落实到具体责任人,共用设备按照编码顺序先后指定责任人。设备封条统一为纯白色易碎贴,使用设备封条将有效的保障客户设备的完整性,明确区分设备保管的责任性。服务工程师上门服务时一旦发现设备封条破损,将现场进行设备现状与资产清单的对比,避免出现保管责任不清的状况发生。3.3.4.2 一般设备软件安装及维护此部分主要解决在用户使用当中遇到的软件各种问题,在进行软件维护时应做好用户数据的备份,建立软件维护流程,通过现场解决及用户培训的多种方式提高用户的使用水平和解决一般问题的能力。软件维护主要内容包括:l 对WINDOWS操作系统的安装、调试及升级;l 外设(打印机、扫描仪等设备)的相关驱动程序及软件的安装调试;l 经越秀工商授权进行软件安装、升级并排除软件使用过程中的故障;l 解决软件冲突造成的系统故障;l 对计算机进行病毒检测和清除,防止病毒扩散;l 计算机标配的软件备份,包括随机恢复光盘,附带赠送软件、驱动程序等;l 计算机外设的软件备份。3.3.4.3 一般设备硬件日常保养及维修计算机硬件维护:包括主机、硬盘、驱动器、显示适配卡及服务器等安装、调试和配置,充分利用现有设备,进行系统优化配置;对使用中的计算机存在或将要出现的故障进行及时的诊断、维修、替换,对客户原厂保修的机器(如计算机及配件、服务器等),我们代为联络维修,并跟踪维修情况。并根据越秀工商需要,对设备进行升级或更新,保证设备正常运行。周边设备的维护:包括打印机、扫描仪、显示器等使用过程中出现的故障或不稳定因素排除,必要时对越秀工商原厂保修期内的机器,我们代为联络维修,跟踪维修情况,并根据客户需要,对设备进行升级或更新,保证工作任务的正常进行;系统硬件设备(计算机、服务器,路由器,交换机、备份设备、MODEM等)、计算机线路连接、各种设备工作状态例行检查和维护;操作项目维护工程师每月的对XX企业计算机设备的巡检服务,了解和记录最新的使用情况,对各终端在用办公软件予以普查并核对运维软件资产记录,通过月服务报告上报XX企业普查情况;对经常出现问题的设备进行登记和记录,并且制定知识库,对常出现的设备要重点检查、消除隐患,最大限度降低计算机设备的故障率。维护工程师在对用户维护的时候,必须按照服务流程来进行,给用户提供快速、标准、满意的服务。对保内的计算机硬件进行免费的更换,时间方面按照原厂商的服务标准时间来进行。对保外的设备,由工商局申请须更换的设备,有工商局提供硬件费,维修费情况按照合同约定执行。对经过维修或已更换配件的设备,根据具体情况延长保修期并更新资产库记录,更新配置库记录。对终端用户的输入设备以及公用设备予以定期消毒处理。对终端用户的在用办公软件、资产使用情况普查,并汇总巡检报告提交给越秀工商。一般信息化设备硬件服务还包括:l 供应商根据实际需要,经XX企业同意准备相应数量的维护零配件,协助越秀工商进行备件库的管理,并在零配件不足时及时补仓。l 定期对计算机设备进行保养维护,定期进行用户满意度调查;l 对一般信息化设备硬件进行定期巡检、保养,以保障设备运行正常;l 按照越秀工商要求进行硬件设备普查工作,建设可实现动态维护的硬件设备档案库,并实现与越秀工商的资产管理系统的衔接。l 定期对公用信息化设备消毒除尘;l 检查硬件实际配置与设备登记表是否相符。l 对故障设备的维修l 在响应时间内完成故障设备的维修,维修人员应严格遵守维修规程。l 建立硬件应急维修小组,对关键重点岗位及紧急的故障及时响应并及时汇报,对于故障设备的维修由越秀工商指定的具体技术人员组织监督进行;l 对处于保修期内的故障设备,供应商在广州市工商局越秀分局授权的范围内代表越秀工商协调产品供货商予以维修,并监督维修时效和质量;l 对处于保修期外的故障设备维修,如需更换零配件,可由供应商提供多家的报价,经用户选择审核确认后,方可进行更换;3.3.4.4 客户端病毒处理在越秀工商授权下,使用越秀工商已有的Symantec企业版,对存在病毒的终端予以隔离,生成事件安排工程师予以处理。3.3.4.5 第三方维修管理当运维过程中需要转由维修商提供服务时,由运维工程师填写维修商服务工作单,描述需维护的产品名称、问题描述、问题类型、优先级、服务级别以及服务要求等内容。维修商服务工作单经服务主管审批通过后提交给维修商,维修商在收到维修商服务工作单后应签收确认,并向投标人返回一份副本。当维修商服务工作单经服务主管审批不通过时,由运维工程师修改维修商服务工作单并重新提交;如果审批意见为不采用维修商服务方式,则转【问题管理】流程处理。维修商按照维修商服务工作单的要求提供服务,在工作单中记录维护处理、处理建议及维护处理结果,并得到客户的签字确认。维修商在维护服务工作完成后将填写好的维修商服务工作单提交给运维工程师。运维工程师根据维修商提交的维修商服务工作单对维修商服务过程和结果进行验证。验证通过的,运维工程师签字确认,与本次维护对应的运维工作单一起提交给服务主管。验证不通过的,则在维修商不合格情况记录表中记录该维修商不合格服务时间、原因和对应工单编号后,由运维工程师重新提交维修商服务工作单,再次发给维修商。若维修商每月不合格服务次数超过2次(不含2次),则由服务主管填写增加维修商黑名单申请表,说明将该维修商列入黑名单的理由,并提交给运维部、信息中心审批。经审批同意后,由服务主管将该维修商的编号、名称、列入黑名单时间、列入黑名单原因等内容登记在维修商黑名单中。建议列入黑名单的维修商不得参与工商局任何项目的投标和建设工作。当该维修商每月不合格服务少于2次(不含2次)时,服务主管填写撤销维修商黑名单申请表,说明将该维修商从黑名单中撤销的理由,并提交给运维部、信息中心审批。经审批同意后,由服务主管将该维修商从维修商黑名单中删除。3.3.4.6 知识库管理问题处理完成后,由服务主管对问题处理过程和结果进行总结分析,并进行归类,将相关信息登记在运维知识库中。加入运维知识库的信息应正确归类,并保证各项内容描述简洁、清晰、易懂,同类相似的问题应归类到同一条知识库记录中。运维知识库主要内容如下: 问题类型:分为系统软件、应用软件、硬件、咨询、其他等。 软硬件系统类型:对问题类型中的分类再根据软硬件系统的不同进行细分,例如: 系统软件:WINDOWS操作系统、LINUX操作系统、数据库系统、办公系统软件等; 应用软件:广告管理子系统软件、内资注册登记系统、外资注册登记系统等; 硬件:PC机、服务器、笔记本电脑、打印机等; 咨询:使用操作咨询、安装操作咨询等; 其他:不属于上述类型的其他情况。 故障类型:根据软硬件系统类型按故障现象进行分类,例如对于PC机,可能的故障类型包括死机、频繁重启、无法启动、光驱不能正常操作、显示器不能正常显示等。 故障现象:故障现象的简要描述,同类相似的故障现象尽量保持同一描述。 故障原因:故障原因的简要描述。 解决方案:排除此故障的处理措施的简要描述。 关联表单编号:列举本条知识库记录是从哪些相关表单中获取的信息。服务主管应不定期地检查运维知识库,发现相似的故障描述时应合并成一条知识库记录,如果发现有更好的解决方案时,应将该方案更新到运维知识库中。3.4 防(杀)病毒服务3.4.1 防病毒服务需求在用户的指导下完成防杀病毒工作。(1)、范围包括办公区域内的客户端及服务器;(2)、对XX企业现有的XX杀毒软件客户端进行升级维护; (3)、无法解决的病毒问题需在得到具体用户和XX企业技术管理部门即分局信息室确认后才能进行系统重装。3.4.2 制定合理的防病毒策略和安全管理制度。运维团队协助用户制定合理防病毒策略和安全管理制度,并设立防病毒管理员,他的工作职责是: 收集和整理整个网络内防毒相关信息 配合防病毒厂家专职服务人员建立用户数据库档案 在病毒事件中,第一时间与防病毒厂家专职服务人员进行联系,并通过Web方式在线提交可疑文件 与防病毒厂家专职服务人员进行沟通,发出远程支持或现场支持的申请 接收到防病毒厂家专职服务人员提供的预警信息后,及时在全网内部进行通告 与防病毒厂家专职服务人员一道制订定期巡检计划 推行全网病毒防护管理策略 负责防病毒服务器总控管中心的管理,实时了解全网病毒防护状况,并做出安全评估,对出现管理漏洞的管理节点提出相应的改进建议 转发防病毒厂家专职服务人员递交的相关技术文档 防病毒产品的日常维护 防病毒产品及时更新确认 分析已产生的病毒事件,确定传播源 定期的系统安全漏洞评估3.4.3 客户端防病毒升级软件登记所有客户机、服务器,包括主机名、IP地址、操作系统类别、使用者等,并查明是否安装防病毒软件,是何产品。这样在发生病毒事件后,可迅速确定病毒传播源,并进行有效清除。对于没有安装防病毒软件的终端协助安装。无法解决的病毒问题需在得到具体用户和XXXX企业技术管理部门即分局信息室确认后才能进行系统重装。3.4.4 防毒组件及时更新定期(每天)通过控制台查看各类防病毒软件,确保病毒码、扫描引擎已更新至最新,包括服务器端或客户端。通过趋势防病毒软件的集中管理功能实现管理工作,如发现有未及时更新的情况,应迅速处理。同时协调员可通过总控管中心每周了解全网的防病毒软件的更新状况
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 酒店餐饮


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!