资源描述
2018年信息系统运维服务项目技术方案XXXX有限公司2018-6目录一、运维方案31.1运维服务定位和目标及服务范围31.2运维服务内容及运维重点难点分析31.2.1运维服务内容3基础设施维护3软件及信息资源维护5信息系统安全服务5运维管理咨询服务61.2.2运维重点难点分析71.3运维人员组织架构及管理制度101.3.1运维组织结构介绍101.3.2运维组织管理制度101.3.3运维成员职责141.3.4运维成员组织结构161.4运维质量保证措施及服务承诺171.4.1质量控制管理171.4.2 进度控制管理171.4.3 服务承诺171.5运维流程及服务方式191.5.1服务方式191.5.2运维流程201.6运维方案及实施安排231.6.1小型机、PC服务器、网络设备及存储系统231.6.2机房空调、UPS设备运维服务301.6.3数据库系统运维服务331.6.4中间件系统运维服务401.7应急服务响应措施481.7.1突发事件应急流程481.7.2预防措施及处理办法511.8对外委托专项服务情况表511.8投标人近三年以来类似项目一览表521.9投标人与运维服务相关的资质等证书汇总表53一、运维方案1.1运维服务定位和目标及服务范围通过专业运维服务,进一步加强信息系统运行维护,对信息系统运行维护流程提供先进的管理理念与流程,并通过专业的技术支持为信息系统运行维护工作提供专业的技术平台,满足信息系统软硬件的维护要求,可以满足多种基础设施环境稳定的要求,可以满足软件及信息资源高效、可靠和安全运行的要求,可以满足运行设备统一管理、及时的故障恢复的要求,可以保证在信息系统构建的应用系统和数据集中运行的设备平台正常运行,达到高效、稳定、安全和高扩展性的要求,可以提供运维保障之外的管理咨询要求,为实现省本级信息化建设的可持续发展奠定集中统一的设施基础。1.2运维服务内容及运维重点难点分析1.2.1运维服务内容依据现网普遍的信息系统设备及常用软件清单,我公司对提供如下服务内容:基础设施维护业务系统服务项保证措施办法小型机、服务器、PC、多媒体系统、网络设备、存储系统、信息安全设备等现场驻点服务(如需)58小时到达客户现场时间(应急响应)30分钟内电话后响应时间90分钟内备件到达现场时间24小时配件维修、更换服务提供高级工程师现场支持提供检查设备各部件的状态灯;提供检查并处理设备的错误日志;提供硬件设备的全面检查;提供网络配置的检查及测试;提供定期升级配套软件的版本;提供系统重部署及调试:新机上架协助及系统移位协助;提供针对重要设备,实时监控运行状况,及时发现故障、排除故障;提供操作系统性能分析;提供小型机、网络设备、信息安全设备配置信息,根据需要调整配置;提供设备的微码版本检查;提供存储设备运行情况检查;提供提交详细的预防性维护报告和总结;提供对检查结果综合分析,并形成分析报告;提供协助采购人制订安全策略,定期检查、排除风险,保障设备及网络环境安全;提供协助采购人规范硬件管理维护标准化工作;提供周期性全面巡检(与采购人协商、合同约定)提供系统运行环境检查:包括机房温度、湿度和零地电压、零火电压等提供机房空调运维设备故障恢复时间48小时内周期性全面巡检(与采购人协商、合同约定)提供坏件更换提供日常清理及更换过滤网和加湿罐等耗材提供定期清理机房空调的室外机;检修机房内各供水管路及排水管路,杜绝漏水,保证管路畅通。提供配备机房专业知识的人员对机房实行5X8小时值班(如需)提供UPS设备运维故障恢复时间72小时内周期性全面巡检(与采购人协商、合同约定),巡检时检查蓄电池使用情况,并且进行充放电;提供坏件更换提供配备机房专业知识的人员对机房实行5X8小时值班(如需)提供备件保证备件库提供备件更换现场更换技术服务驻点服务:1.提供724小时免费故障检测与维修换件现场服务 2.预防性维护服务提供远程技术支持服务:1.提供724小时的故障响应电话支持 2.每周一次与客户沟通交流提供培训服务:1.专业知识培训 2.日常运维管理提供远程诊断远程拨入系统分析提供远程故障解决提供远程系统性能监控提供软件及信息资源维护系统软件、数据库、中间件现场驻点服务(如需)58小时到达客户现场时间(应急响应)60分钟内要求完整、详细、真实的维护记录文档,按月、季、年度提交规范的维护报告。提供维护文档提供每日监控系统运行情况,协助应用系统的升级以及各种安全补丁的升级工作提供BUG管理、系统故障检测及排除提供应用系统功能、数据库优化、调整服务及少量的二次开发提供系统软件安装、数据库安装、配置管理提供存储管理提供根据备份策略定时进行系统及数据的备份,对重点数据要求能够进行定时备份提供协助采购人规范计算机终端软件安装标准化工作提供周期性全面巡检(与采购人协商、合同约定)提供解决数据库运行中出现的各类故障立即响应文档提交提供技术服务驻点服务:1.提供724小时免费故障检测与维修换件现场服务 2.预防性维护服务提供远程技术支持服务:1.提供724小时的故障响应电话支持 2.每周一次与客户沟通交流提供培训服务:1.专业知识培训 2.日常运维管理提供远程诊断远程拨入系统分析提供远程故障解决提供远程系统性能监控提供信息系统安全服务信息系统安全服务现场驻点服务(如需)58小时到达客户现场时间(应急响应)60分钟内漏洞扫描服务:制定安全扫描计划,对信息系统的服务器、网络设备、安全设备和应用系统进行安全漏洞扫描,包括系统漏洞扫描、数据库扫描、应用安全扫描提供安全加固服务:根据漏洞扫描所发现的弱点和安全隐患,对信息系统的服务器、网络设备、信息安全设备进行安全加固服务,提高系统与服务器与系统平台运行的安全性、可靠性提供应急预案和演练服务:针对可能发生的重大事件,制定对应的应急预案,并通过应急演练发现应急过程中存在的问题,进而对应急预案和演练进行优化提供信息系统安全测试服务提供技术服务驻点服务:1.提供724小时免费故障检测与维修换件现场服务 2.预防性维护服务提供远程技术支持服务:1.提供724小时的故障响应电话支持 2.每周一次与客户沟通交流提供培训服务:1.专业知识培训 2.日常运维管理提供远程诊断远程拨入系统分析提供远程故障解决提供远程系统性能监控提供运维管理咨询服务运维管理咨询服务IT服务管理现状数据与信息收集;提供建立服务台,配置相关服务人员;提供协助部署IT服务管理软件、设计管理制度和流程;提供IT服务管理流程设计(应包括事件管理流程、问题管理流程、配置管理流程、变更和发布管理流程)。提供技术服务驻点服务:1.提供724小时免费故障检测与维修换件现场服务 2.预防性维护服务提供远程技术支持服务:1.提供724小时的故障响应电话支持 2.每周一次与客户沟通交流提供培训服务:1.专业知识培训 2.日常运维管理提供远程诊断远程拨入系统分析提供远程故障解决提供远程系统性能监控提供1.2.2运维重点难点分析网络规模的发展和扩大,使得应用产品技术日渐多样和复杂,越来越多的企事业单位的生产业务和日常工作将实现信息化,并通过提高信息化水平实现对内提高经营水平、对外提高服务水平的目的。各企业事业单位业务的展开越来越依赖IT系统的正常运转,生产业务日渐依赖IT部门提供的系统服务,IT部门正由“成本中心”转变为“服务中心”、“效益中心”。随之而来的问题是运维部门将如何通过管理为企事业单位提供更好的、可度量的、符合业务需求的服务?同时,这些服务需要能够适应业务需求以及新技术带来的影响,为新业务系统的运行提供支撑,让运维管理成为企事业单位成长的助力。运维管理包含内容IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。其管理内容又可细分为七个子系统:第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素CriticalSuccessFactors)和KPI(关键绩效指标KeyPerformanceIndicators);第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。IT运维管理面临的难题IT运维管理是一门探讨如何提高网络应用性能的课题,怎样利用网络管理做到企业IT基础设施建设的管理、合理分配网络资源、保障生产业务、对网络规划和新业务上马提供支撑,而其最核心的目的是保障企业生产业务。日常IT运维管理面临诸多难题,具体体现在以下多个方面:网络设备在企业IT基础设施的搭建过程中,底层的网络设备厂商和类型多样且复杂。随之而来的问题是:如何将不同厂商的网络和应用管理产品在界面级、消息级和数据级集成起来实现统一管理?如何让IT管理员了解到整个网络全局的运行情况、发展趋势和可能存在的故障隐患点,以便及时采取相应措施,实现事前管理。科学的运维管理思路告诉我们,首先需要解决的是对IT基础设施的管理,管理范围要能覆盖到机房所有硬件设备。这一点是前提和基础。其次,才是对各种应用系统做到很好的监控。最后,才能为业务系统提供足够的保障。网络流量在绝大多数的企业网络中,存在不同程度的网络延迟,造成重要业务和应用时断时续,这直接成为企业业务的杀手。另外,网络的带宽也是企业关心的重点。比如,哪个时间段很拥挤,哪个时间段很空闲,有没有规律,怎么样去调查拥塞的原因,网络带宽都是被谁占用了,是被哪些客户端、哪些应用或者异常应用所占用了。这些都是摆在每一个企业运维管理领域中很实际的问题。该如何很好的解决这些问题呢?根据多年的运维管理经验得出,对于这种情况,需要采用流量分析的方式。通过对出口流量或者监控对象进行采集,进行24小时实时的监控和分析,可以对流量进行多角度多层次的挖掘分析,比如按照流量、数据包个数、连接数、协议等类别分析当前网络的负载情况,为网络的优化配置提供参考。通过报表分析展现流量特征,让IT管理员明白流量被谁、被何种应用、被何种异常行为占用得怎么样。IT运维管理怎么样帮助IT管理员判断和控制安全问题,也就是作为与防病毒、防火墙、IPS等安全产品不同的角色,从网络的整体情况要能够判断未知的安全问题,并提供修复方案,在不影响正常网络运行状况下将安全问题防患于未然。如果IT管理员能针对异常行为的特征建立自动告警,在某些安全攻击出现前发现故障隐患,并提供连动的判断和处理机制,这样IT管理员可以及时采取了措施避免业务遭受损失。如果能在对问题特征自动告警的同时,自动记录问题的原始数据以供事后分析,这样IT管理员可以再现数据异常行为、捕捉网络数据异动入侵记录,对症下药制订策略防止问题的再次发生。业务系统针对日益复杂的业务系统,现有的运维管理系统更多的强调的是功能的展现。比如,从业务主机负载、数据库服务器负载、数据库、中间件、应用系统、网际流量、进程状况等等不同角度实施联合监控,强调的是性能参数指标的多少,或者是界面的美观程度。当然,这是落实业务系统管理环节所采用的方法。但事实上,作为企业自身来说,无论采用哪种监控也好,IT管理手段或者运维管理系统也罢,其核心总是需要围绕保障和改进企业的业务系统。这就提出一个问题,如何来保障又如何改进企业的业务系统呢?首先,需要了解清楚业务系统所涉及的具体环节,针对每一个环节进行管理落实。按照科学运维管理的建设思路,分为:用户-网络-硬平台-软平台-业务系统这五个环节。需要从这五个环节所涉及到的五个方面去做工作。这五个方面分别是:全局的性能管理、故障和事件管理、资源的使用状况管理、安全管理和数据分析管理。其次,通过性能和历史数据的反映,又可以做到对业务系统提供改进决策的指导。当然,对于如何保障和改进业务系统这个问题,目前业界众说纷纭,没有统一的标准。但有一点是肯定的,就是需要从企业用户的角度出发,通过明确的管理思路作为指引,使用软件+服务的方式和企业用户共同探索和研究,最终达到对业务的保障和改进。当前IT运维管理的任务在企业网络运维早期,IT运维管理侧重于网络、硬件等设备。随着业务系统涉及的环节日益增多,单一的网络管理已经不足以满足管理需求,越来越多的企业已经将关注点从单一网络转变到当前的业务系统,落实保障业务系统的各个环节成为重中之重。1.3运维人员组织架构及管理制度1.3.1运维组织结构介绍我公司将在此运维项目中投入业务水平高、技术能力强的运维人员和质量控制人员,采用公司严格规范的运维管理模式,进行全方位管理。为了进一步确保运维项目的进度与质量,公司在项目运维阶段、质量管理、技术文档等方面进行严密规范的部署。公司的运维队伍组成包括:运维项目总负责人(常务总经理兼任);运维管理委员会(项目经理、甲方代表、监理代表);运维驻点服务小组;技术支持专家组;备品备件供应小组; 文档管理小组1.3.2运维组织管理制度运维部工作职责根据维保项目实施推进和发展目标,负责系统信息协同管理及协同数据交换策略研究的整体架构、应用系统等技术开发方案制定和组织开发,保障基础设施平台的稳定性和先进性。信息系统基础设施设备和软件操作规程和应用管理制度的制定,并负责监督执行。信息系统基础设施设备和软件安装、调试和验收,使用培训和维修保养。信息系统基础设施日常运行过程中信息安全和技术问题的协调解决,保障系统24小时安全稳定运行。主要管理制度一览表项目名称:招标编号:企业名称:序号管理制度名称执行起始时间备注1机房基础设施及硬件运维管理办法2016.12信息类设备运维管理办法2016.73主机运维管理办法2017.3说明:表格中列出目录即可,主要规章制度的具体内容可在下方提供图片或者截图。附:各类制度图片或截图:1.3.3运维成员职责项目经理职责:项目经理受公司总经理任命和委托,全权负责运维项目合同的各项条款的履行。对运维项目的优质、高效、安全负全责。运维工程师职责:1、负责对基础设施维护(如服务器与存储设备、网络和信息安全设备、机房基础设备及环境、桌面设备、多媒体设备等),软件及信息资源维护(如系统软件、工具软件、业务系统及数据等)相关的申报事件进行处理和解决。2、负责对基础设施维护(如服务器与存储设备、网络和信息安全设备、机房基础设备及环境、桌面设备、多媒体设备等),软件及信息资源维护(如系统软件、工具软件、业务系统及数据等)提供日常性能和运行状况监控,对故障进行分析处理及建立完善预警机制。3、负责保障基础设施正常运行,遵循用户的安全保障管理要求。4、接受用户对信息系统维护事件的督办、检查,协助服务台完成对用户意见进行回访和事件统计、分析。对服务过程和反馈的意见进行改进,同时接受服务台的绩效考评工作。5、及时提供信息新系统运行和问题处理情况,并向用户负责,并按周、月、季、年提交运维运维服务工作进度总结和计划。6、负责整理和归纳服务器日常维护知识库,提交至运维服务平台。7、负责整理和提交信息系统运维过程资料和相关配套维护文档。技术支持专家职责:1. 为客户提供724小时的故障响应电话支持。2. 接听客户服务热线电话和接收(电话/Email/Fax等)客户服务请求;3. 通过网络或电话为客户提供即时的远程技术支持, 包括软硬件故障的诊断和排除, 客户端软件的安装和设置。 4. 协调多方服务团队,及时跟进未完成的服务请求并及时更新系统信息和状态;备品备件管理员职责:1. 组织实施备品备件的订购、运输及入库工作2. 负责汇总待料备件,及时采购或调拨,并主动向项目经理说明待料原因、追踪处理。1.3.4运维成员组织结构针对单维保项目我公司配备了4-5名专职人员具体如下表:序号分派职位数量(人)姓名获得证书1项目经理1项目管理师资格证2运维工程师1专业化证书3技术支持专家1厂商认证证书4备件管理员15文档管理员1备注:人员证书附下页:项目名称:招标编号:企业名称:序号姓名年龄文化程度专业获得资格证书情况入职本单位时间岗位安排业绩说明其他说明说明:1.上述人员必须是本企业在职职工,应与本单位近期社保缴纳证明一致,否则不予认可。2.岗位安排指在具体运维项目中可担任的岗位,如技术支持专家、项目经理、现场维护人员、其他服务人员及是否可安排驻场等。3.业绩说明:指在以往运维项目曾经担任的岗位,如技术支持专家、项目经理(负责人)、现场维护人员、其他服务人员等。附相关学历证书:221.4运维质量保证措施及服务承诺1.4.1质量控制管理按照相应的ISO9001:2000国际质量体系标准及国家规定进行质量控制,还以相应的规范要求对设计质量,施工质量、材料和设备质量进行管理、要求、控制。公司的施工阶段性内部验收制度,是质量控制管理的有利保证。工程的每一个阶段完成时,公司技术支持部门都要按有关部门规范和要求进行严格的内部验收。验收标准整体上高于用户验收标准。1.4.2 进度控制管理针对普遍客户的需求做出如下运维计划:序号名称人员周期1小型机、存储系统巡检报告运维工程师/技术支持专家每周2PC服务器、存储系统运维工程师/技术支持专家每周3多媒体系统运维工程师每周4网络设备、信息安全设备运维工程师/技术支持专家每周5机房空调巡检报告运维工程师每周6UPS巡检报告运维工程师每季7数据库系统运维运维工程师/技术支持专家每周8中间件系统运维运维工程师/技术支持专家每周9问题报告运维工程师/技术支持专家问题解决后10信息系统安全服务运维工程师/技术支持专家每半年11月总结报告运维工程师每月12季度总结报告运维工程师/技术支持专家每季度13年总结报告运维工程师/技术支持专家/项目经理每半年14运维管理咨询服务运维工程师/技术支持专家每周15定期培训技术支持专家每季度1.4.3 服务承诺1.系统定期巡检是指我司安排现场工程师对应用系统实施现场检查,及时发现系统运行中出现的隐患,减少系统发生故障的概率,保证系统的稳定运行。在系统巡检过程中发现的问题,依据我司故障分类标准,由现场技术服务工程师进行相应的故障排除。本项目中巡检服务主要指软件检查,内容包括:数据完整性检查、性能指标检查、告警功能检查、软件可用性与安全性检查等。2.电话故障诊断是指用户在遇到使用中的疑难问题或者系统出现不正常状态,通过电话或传真向我司寻求技术支持和帮助,我司在确认用户的服务请求后,将安排技术人员在规定的时间内(即响应时间)通过电话帮助用户进行故障定位,并提出解决方案,最终指导用户排除设备故障。表:故障性质定义用户在维护系统过程中,当出现技术故障的时候,应对故障现象进行仔细认真的调查和记录,然后通过服务热线向我司提供故障的详细情况、服务请求时间、联系人和联系电话等。我司服务热线提供每周5天、每天8小时的电话故障诊断,如热线电话号码需要更改,我司至少提前三天以书面形式(含传真)通知用户。用户应及时反馈解决方案的有效性,以便我司是否进一步采取技术支持措施。3.远程故障诊断是指用户在遇到使用中的疑难问题或者系统出现不正常状态,通过电话或传真向我司寻求技术支持和帮助,我司在确认用户的服务请求后,通过服务项目不能解决系统故障问题的情况下,或在进行的同时,根据需要并征得用户同意后,采用远程拨号技术,将用户系统与工程师所在地终端连通,在远端对用户设备进行诊断,提出解决问题的方案,并最终指导用户解决问题。我司工程师负责进行远程故障诊断,即只查看数据,寻找故障原因,不对数据进行修改,具体故障排除由工程师指导用户现场维护人员进行。用户应按我司的要求提供必要的配合和协助,确认并反馈方案的有效性。 我司还可以通过远程故障诊断对用户数据进行检查,进行远程巡检。 我司提供每周5天,每天8小时的远程故障诊断。1.5运维流程及服务方式1.5.1服务方式针对本次项目我公司为保证各系统的稳定可靠的运行我公司根据该项目的具体要求提供三种方式的技术支持服务,分别为:现场服务、远程技术支持服务、针对甲方运维人员的技术培训服务。现场服务对客户的系统进行现场维护和巡检,运维工程师对各个应用系统完成定期巡检,同时输出巡检报告提交给客户,驻点工程是还应对客户的故障设备进行维修和更换备件服务。为了让客户得到更及时和更快的服务,运维工程师还提供724小时的故障响应电话支持。远程技术支持服务远程技术服务主要是通过电话或其他方式受理客户和运维工程师的疑难问题,通过沟通来指导客户或运维工程师解决问题,同时远程技术服务工程师还通过电话或者其他方式与客户主动沟通来提高客户管理和运维能力。技术培训服务为提高客户的运维人员的技术水平及运维管理能力,我公司将派遣具有丰富实施经验的技术专家定期对客户进行相关专业(主机、存储、数通、网络、安全、机房环境等)的培训。培训可以采用灵活多样的方式如面对面交流、课堂授课、邮件沟通等。1.5.2运维流程我公司除培训服务外,为本项目提供两种服务方式:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。1、技术人员现场值守运行维护服务的基本操作流程如下图所示:2、定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:1.6运维方案及实施安排1.6.1小型机、PC服务器、网络设备及存储系统小型机、PC服务器、网络设备及存储系统运维部分主要分为三部分,分别为小型机存储系统运维、PC服务器运维、网络设备运维。小机存储系统运维内容主要包含小型机设备、光纤交换机、存储设备三部分主要从以下几个方面进行维护:1、检查设备各部件的状态灯;2、检查并处理设备的错误日志;3、硬件设备的全面检查;4、网络配置的检查及测试;5、操作系统性能分析;6、核对各小型机配置信息,根据需要调整配置;7、检查设备的微码版本;8、检查存储设备运行情况;针对如上要求输出如下检测报告:小型机系统巡检报告用户单位名称:设备名:设备型号:产品序列号:检测项目检测方式说明检查结果巡检周期电源风扇检查主电源灯状态指示灯常绿表示系统正在运行正常异常检查直流电源指示灯状态指示灯常绿表示电源供电正常正常异常检查直流电源风扇状态检查风扇是否散热正常异常处理器执行命令:lsdev Cc processor检查CPU的数量及状态。CPU状态为Available,表示CPU使用正常正常异常内存执行命令:lsattr El mem0检查内存数量及状态。size与goodsize的数量相等表示内存使用正常正常异常磁盘执行命令:lsdev Cc disk检查磁盘的数量及状态。磁盘状态为Available,表示磁盘使用正常正常异常适配器执行命令:lsdev Cc adapter检查系统中配置了哪些适配器及使用状态。各个适配器的状态为Available,表示各个适配器目前工作正常。若适配器状态为Define,则表示该设备已经被配置但是未被当前系统使用。正常异常分页空间执行命令:lsps -a检查分页空间的分配数量及利用率。Size为已分配的分页空间数量;%Used为目前系统的分页空间使用率,该值若超过70,表示系统内存不足正常异常系统镜像执行命令:lsvg l rootvg检查系统卷组的镜像状态。各个逻辑卷的PPs数量应该为LPs数量的整数倍,倍数大于1并且能被PVs整除,表示卷组已经作镜像。各个逻辑卷的LV STATE应该为syncd,否则表示镜像不同步。正常异常文件系统执行命令:df -k检查已经挂载的文件系统的使用状态。重点检查 /(根) /tmp(临时)/var (日志文件)这些动态文件系统的使用率最好保持在70以下。正常异常错误日志执行命令:errpt检查系统日志是否有硬件或软件方面的永久错误。若发现错误类型为P的信息,则需要注意。正常异常网卡配置情况执行命令:ifconfig a检查各个网卡的配置情况,状态是否为UP,检查ip地址和子网掩码等配置是否正确。正常异常系统备份执行命令:lsmksysb -V -f /dev/rmt0检查磁带备份的可读性。若没有错误显示,则表示备份磁带的数据是有效可恢复的。正常异常客户确认巡检结论:【 】合格【 】不合格 用户代表签字: 年 月 日服务工程师签字: 年 月 日存储系统设备巡检:设备名称:检查时间: 年 月 日 时本年度第 次检查检查项目:检查结果:1. 检查存储硬件情况:设备故障灯是否有亮 SAN交换机端口LED状态 有 无正常 不正常2. 存储系统故障报告(Problem Log): 正常 不正常Problem Log/Serviceable Event正常 不正常有否硬件故障 3. 存储系统运行状态:View Storage Facility State / 正常 不正常CdaPreverify / View RIO Topology正常 不正常4. 通信:正常 不正常 /Master Console/SMC/HMC和存储设备的通信Good Degraded OfflineRebuilding6. 存储设备内部状态:正常 不正常7. 存储系统硬件状态:正常 不正常双控制器同时正常工作 正常 不正常电池、电源和风扇模块 是 否物理硬盘和逻辑盘 是 否8. 微码(Microcode)是否满足IBM的最低要求 是 否9. 是否启用了Call Home是 否10.收集存储设备基本信息存档是 否目前存在的问题:改进措施或建议:检查结论:客户签字:工程师签字:日期: 年 月 日日期:年 月 日 PC服务器运维内容主要包含设备硬件、操作系统、软件几个方面进行考虑。PC服务器巡检:服务器设备巡检报告用户单位名称:设备名:设备型号:产品序列号:检测项目检测方式说明检查结果巡检周期显示器正常异常光驱正常异常磁带机正常异常电源正常异常键盘/鼠标正常异常风扇正常异常系统指示灯状态前面板指示灯正常异常电源指示灯正常异常磁盘指示灯正常异常系统控制板指示灯(CPU/MEM,I/O等)正常异常系统日志信息IML日志正常异常操作系统日志正常异常交换区使用率TOP或任务管理器查看 使用率 正常异常磁盘分区使用率Windows系统Unix系统用命令df -kC: / 使用率正常异常D: /usr 使用率正常异常E:/var 使用率正常异常其它分区正常异常正常异常操作系统版本/正常异常核心patch版本正常异常高可用性软件正常异常数据库软件正常异常存储软件正常异常备份软件正常异常正常异常正常异常巡检结论: 【 】合格 【 】不合格用户代表签字: 年 月 日服务工程师签字: 年 月 日网络设备的运维内容主要包含交换机、防火墙以及负载均衡等相关设备输出文档按照如下:网络安全设备巡检报告用户单位名称:设备名:设备型号:产品序列号:检测项目检测方式说明检查结果巡检周期正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常正常异常1.6.2机房空调、UPS设备运维服务为保证机房内各个应用系统的设备正常稳定的运行,良好的机房环境是非常必要的,我公司针对本次项目主要从机房空调系统、UPS供配电系统,作为重点运维内容,同时对机房内的其他指标项进行检测如机房内温度、湿度、消防系统、新风系统等。机房空调系统的运维内容主要遵循如下表单进行巡检:机房空调巡检报告用户单位名称:设备名:设备型号:产品序列号:系统检查项目检查时间:检查时间:空调1控制温度控制湿度%当前温度当前湿度%业务机房当前温度当前湿度%监控室、/ups当前温度当前湿度%当前运行空调检查空调是否有排水不出产生积水、漏水现象( ) 1号机在用 ( ) 2号机在用() 1号机在用 () 2号机在用( )无积水、漏水现象()无积水、漏水现象( )有积水、漏水现象()有积水、漏水现象目前存在的问题:改进措施或建议:巡检结论:客户签字:工程师签字:日期:年月日日期:年月日 备注:我公司巡检人员每周会严格按照机房空调巡检报告具体要求对客户的空调系统检测,为保证空调系统的工作正常,每年不低于2次的全面巡检,对故障配件进行检修,在日常维护中及时清理及更换过滤网和加湿罐等耗材,定期清理机房空调的室外机,检修内各供水管路及排水管路,杜绝漏水,保证管路畅通。在设备出现故障后,保证在48小时内恢复正常。机房UPS系统的运维内容主要遵循如下表单进行巡检:UPS巡检报告设备型号: 产品序列号: 信息显示检查检查量测量值显示值检查量测量值显示值1输入电压 Vab 输入电流 Ia2输入电压 Vbc 输入电流 Ib3输入电压 Vca 输入电流 Ic4输出电压 Vab 输出电流 Ia5输出电压 Vbc 输出电流 Ib6输出电压 Vcb 输出电流 Ic7输入频率 Hz 输出频率 Hz8输出功率 KW 输出视在功率9电池电压 Vdc 电池电流 Id当前UPS运行状态 市电逆变 旁路 电池逆变 故障停机 单机 并机 旁路或电池逆变的原因:内部检查:(检查时可能断电,用户需断开负载) 是否合格 处理概要 1检视输入/输出端子、螺栓、螺帽紧固性2检视所有主控板电气连接是否安全可靠3检查器件、电缆等损坏、老化情况4检查风扇及风道状况5检查机柜、电池架等结构件腐蚀、形变与连接紧固情况6检查机内变压器、散热器等散热环境和通道状况7检测所有滤波电容外观、紧固和泄露情况8清扫可达空间和无源空间9视检整流器和逆变器驱动板是否过热或烧焦10视检整流器充电器晶体二极管是否老化11视检直流电容/交流电容是否老化12检查所有保险丝是否正常功能测试(如果必须进行以下测试,经客户同意后按照操作流程进行)1市电逆变/旁路转换功能 正常异常 2实际负荷下电池放电和充电等电池管理功能正常异常 3UPS逆变同步,并机均流正常异常 4报警功能和历史故障信息记录,并清除历史记录正常异常 处理概要: 其他问题或建议:电池检测报告 有 无巡检人签名: 用户签名: 日期 日期备注:我公司巡检人员每周会严格按照UPS巡检报告具体要求对客户的UPS供配电系统进行检测,根据具体的检测结果对UPS设备进行合理维修,为保证UPS设备的正常运行,每年至少进行一次全面巡检,巡检时检查蓄电池使用情况,在客户授权的情况下进行充放电,当UPS设备发生故障时,应在72小时内恢复正常运行。1.6.3数据库系统运维服务针对数据系统的运维我公司提供如下解决方案:本方案适用于技术人员的日常运维工作。ORACLE DB维护方法数据库启动1、以oracle用户用户登录,sqlplus/as sysdbasqlplus startup2、以oracle用户或ora816用户登录sqlplus/as sysdbasqlplusstartup nomunt sqlplus alter database mount;sqlplus alter database open;3、第一种启动方式是最常用的手工启动方式,第二种启动方式是数据库有故障时常用的逐步启动方式,可以观察故障点。因为startup nomount 语句只读取spfile(server parameter file 数据库参数文件),启动instance,启动SGA和后台进程;alter database mount语句打开控制文件,确认数据文件和联机日志文件的位置,但此时不对数据文件和日志文件进行校验检查;alter database open打开包括Redo log文件在内的所有数据库文件,这种方式下可访问数据库中的数据。Startup完成功能是上述三条语句的之和。数据库停止1、sqlplus /as sysdbasqlplusshutdown normal正常方式关闭数据库。2、shutdown immediate立即方式关闭数据库,在 SQLPLUS中执行shutdown immediate,数据库并不立即关闭,而是在所有事务执行完毕并提交工作后才关闭,所以可能会等待,因此在关闭数据前要停掉连接到数据库的所有应用程序。建议日常维护工作中的关闭数据库,采用此方式。3、shutdown abort直接关闭数据库,正在访问数据库的会话会被突然终止。如果数据库中有大量操作正在执行,这时执行shutdown abort后,因日志回滚、前滚(Roll Back/Roll Forward),下次重新启动数据库需要教长时间。当用shutdown immediate不能关闭数据库时,shutdown abort可以立即完成数据库的关闭操作。监听器的启停1、监听器的启动,以oracle用户用户登录lsnrctl start $ORACLE_SID2、监听器的停止,以oracle用户用户登录lsnrctl stop $ORACLE_SID3、监听器状态的查看,以oracle用户用户登录lsnrctl status $ORACLE_SID4、检测服务名是否有效,在操作系统下运行tnsping SERVICE_NAME NUMBERSSERVICE_NAME为你建立的服务名,NUMBERS为你要试PING数据库服务的次数用户管理1、用SQL语句查看系统中已有用户情况select * from dba_users;2、增加新的用户,并授予连接和资源权限,只有授予连接权限才可登录,授予资源权限才可建表和修改create user USERNAME profile defaultidentified by PASSWORDdefault tablespace DEFALUT_TABLESPACE_NAME temporary tablespace TEMP_TABLESPACE_NAME ;grant connect to USERNAME;grant resource to USERNAME;3、修改用户口令alter user USERNAME identified by NEWPASSWORD;4、删除用户drop user USERNAME;5、限制某个已有用户会话的连接数(通过创建profile的方式)create profile PROFILENAME limit sessions_per_user CONNECT_NUMBERS;alter user USERNAME profile PROFILENAME;数据库参数文件1、参数文件位置$ORACLE_HOME/dbs/spfileINSTANCE_NAME.ora,参数主要分为动态参数和非动态参数,动态参数修改够直接生效,非动态参数需要重新启动数据库才能生效。 2、 修改参数的方法altersystem set PARAMETER_NAME = VAlUE scope=both(system/spfile)3、几个重要的参数A、db_block_size 数据库块大小,数据库创建时决定,创建后不能修改。B、db_block_buffers数据高速缓冲区大小为此值与db_block_buffes的乘积,该区越大越好。 C、share_pool_size 程序高速缓冲区和数据字典缓冲区的大小,主要用于存储执行过的sql语句,减少重复分析,提高运行速度。该区也越大越好,但建议数据高速缓冲区加上程序高速缓冲区和数据字典缓冲区的大小(即SGA)一般不超过系统物理内存的50%。D、sort_area_size每个会话用于排序操作的内存大小,建议为默认值的两倍到M之间。E、process能同时访问数据库的最大进程数,根据连接数的多少,来设定,一般为300以上。F、db_io_slaves 后台写进程数 对I/O比较繁忙的数据库,可以将其设为多于1个。(以上参数以9i为参考,在10g里个别参数名有所变化)数据库概况的查询1、表空间的情况select tablespace_name,stauts from dba_tablespaces;2、数据文件的情况SELECT FILE_NAME,FILE_ID,TABLESPACE_NAME FROM DBA_DATA_FILES;3、段的情况SELECT SEGMENT_NAME,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;4、表、存储过程的拥有者名字和创建日期select owner,object_name,object_type,created from all_objectswhere object_type=TABLEOR OBJECT_TYPE=PROCEDURE5、其他常用的视图和表v$lock 锁的情况v$session 会话的情况v$process 进程的情况v$parameter 数据库参数v$rollname 回滚段的情况v$sqlarea 共享池中的SQL语句v$waitsta
展开阅读全文