系统健康检查服务方案

上传人:ag****7 文档编号:166980518 上传时间:2022-11-02 格式:DOC 页数:18 大小:257.50KB
返回 下载 相关 举报
系统健康检查服务方案_第1页
第1页 / 共18页
系统健康检查服务方案_第2页
第2页 / 共18页
系统健康检查服务方案_第3页
第3页 / 共18页
点击查看更多>>
资源描述
设备健康检查计划XX集团股份有限公司 2009年目 录前言31。 服务概况31.1 客户名称31.2 服务时间31。3 服务设备31.4 服务内容32. 服务前期准备工作42.1XXX巡检服务的前期准备工作:42.2 客户方的前期准备工作:42。3 双方待讨论和协商的问题:43. 服务具体计划54. 应急计划55备件计划66。 文档信息6附录7SUN系统巡检报告及相关命令说明7ORACLE数据库巡检报告及相关命令说明7系统配置信息7ORACLE 数据库系统维护检查报告12前言感谢尊敬的广东XXX用户选择了XXX的服务,XXX公司秉承用户至上宗旨,坚持以技术为先导,严格按照项目流程和规范管理服务项目,竭诚为用户提供一流优质的服务。本文档的主要内容是对客户信息系统进行系统健康检查(简称:巡检)的计划安排。包括服务概况、服务前期准备工作、服务具体计划、应急计划等等。1。 服务概况1。1 客户名称广东XXX1.2 服务时间待定1。3 服务设备见设备清单1.4 服务内容系统健康检测维护服务的目的在于了解被巡检系统截至到目前系统的性能状态和存在的隐患和运行风险;检查系统的运行状况、系统配置和连接方式、系统设置的情况、系统使用环境的及系统的日志文件,进行系统的自检和检测,分析已经发现的和潜在的问题,建议必要的措施,提高系统的可用性和可靠性。内容包括如下: 检查设备使用环境是否符合要求和发生显著变更,包括湿度、电压、湿度、摆设位置等 检查电源,信号线的连接是否牢固;检查、清洁、调节系统硬件,并为需要的设备更换元件;检查系统的硬件和系统环境配置及网络环境配置;针对客户系统现状,提出建议和意见. 查阅有关系统信息,检查有无出错信息,如发现出错信息,设法了解问题原因,并后续给出问题的可能原因和解决建议。 进行系统分析和检测,及时掌握系统的运行和安全状况,发现系统潜在问题,排除故障隐患和安全漏洞. 在完成系统健康检测后,XXX服务工程师将会同XXX技术专家团队一起分析系统状况,并内向客户提交巡检分析报告和有关改进措施建议。 2。 服务前期准备工作2.1XXX巡检服务的前期准备工作:1 负责提交巡检方案,获得客户认可2 负责准备巡检报告模板2份,巡检报告模板请见附录。(注:一机一份,巡检完毕后,现场提交用户)3 提供服务的工程师在约定时间准时到达现场2.2 客户方的前期准备工作:1 负责环境、场地、电源、网线、终端设备等准备工作。2 负责提供系统主机Root登陆口令(清单).3 负责提供系统设备IP地址(清单).4 负责下电设备的加电准备工作5 负责确定下电设备加电后的连网情况2。3 双方待讨论和协商的问题:1 Root口令以何种方式提供?一般可采取两种方式,一是每台设备由客户来输入Root口令,另外一种方式是由客户事先临时修改Root口令,提供给服务工程师,巡检完毕后再由客户改回。2 下电设备加电后,是否仍然具备连网条件?如果下电设备加电后不连接网络,则需要采取串口直接连接主机的方式来进行巡检,可能会影响巡检整体速度。3 确定巡检主机顺序?系统健康检测不会影响在线设备的运行。建议巡检顺序为,首先用一台终端依次检测所有连网设备,包括加电后能连网的设备,其次检测所有加电后无法连网的设备。3。 服务具体计划任务名称XXX责任人客户方配合人员计划持续时间步骤1.现场环境勘察以及用户交流1服务工程师了解现场机房环境状况服务工程师约40分钟2服务工程师在开始实施巡检时,向客户了解自前一次维护服务以来所发现的异常和问题,并采取必要的措施服务工程师3在对系统采取任何行动之前,确保已经采取必要的数据信息保护措施,如系统的备份或数据转存等;服务工程师步骤2 。巡检服务4服务工程师收集与所服务的系统有关的系统变更、微码发布、软件升级、软件PATCH发布和系统问题的信息和资料服务工程师约一到二个工作日5依次按照巡检内容对系统设备进行逐项巡检,并填写巡检报告服务工程师6巡检过程中如果发现任何系统问题,双方将协调处理服务销售7巡检过程中如果发现任何突发事件,请参考本文档5。服务销售步骤3.服务收尾工作8提交现场巡检报告,客户签字服务工程师大约1个小时9请客户填写服务满意度评价表10双方交流服务工程师11五个工作日内提交巡检分析报告服务工程师-4。 应急计划本次巡检服务中的设备为在线系统,理论上讲,巡检只是对系统状态进行查看,本身不会对系统产生影响,只是在极少数情况下,系统本身已经有故障隐患,因为巡检触发,可能会影响系统的运行,必须通过事先充分准备,识别可能的风险,并进行规避和控制。通过以下方法来尽可能减少风险: 服务工程师在开始实施巡检时,应首先向客户了解自前一次维护服务以来所发现的异常和问题,并采取必要的措施 在对系统采取任何行动之前,应确保已经采取必要的数据信息保护措施,如系统的备份或数据转存等; 服务工程师在巡检过程中记录操作步骤,一旦发生突发问题,也有据可查,方便问题的定位。 服务工程师在巡检过程中如果发现设备有重大问题,必须尽快进行处理的事件,由现场巡检工程师向本次用户通报,由用户同XXX服务销售进行协商进行处理。5备件计划针对本次健康检查服务,我方主要提供对SUN系统以及ORACLE数据库的检查服务为主,如果在检查过程中,发现有备件坏,我们会第一时间跟用户通报,并从XXX广州备件库调相应备件进行更换;如果备件更换处于合同覆盖范围,我们将不收取备件费用,如果合同未覆盖,我们将收取备件物料成本费;为此次检查服务准备的备件清单包含但不限于:型号描述数量Sun V480 整机带cpu,内存,硬盘1X6805A73.4GB,10000 RPM硬盘4ST3310带控制器,无硬盘1XTA-SC1NC-73G10K73GB,3310阵列硬盘4XTA-SC1NC146G10K73GB,3310阵列硬盘46。 文档信息 本文档由XXX负责起草 附录 SUN系统巡检报告及相关命令说明ORACLE数据库巡检报告及相关命令说明系统配置信息 SUN系统巡检报告日期:年 月 日报告编号: 客户名称检查地点主机型号IP 地址主机SNHost ID配置部件型号/数量部件型号/数量CPU主板内存CPU/内存板硬盘I/O板显卡存储阵列电源磁带驱动器SCSI型号外扩网卡型号其它卡型号系统盘Raid情况管理软件名称版本RAID类型硬件检查项目结果不正常请注明原因检查项目结果不正常请注明原因显示器正常 不正常光驱正常 不正常键盘正常 不正常软驱正常 不正常鼠标正常 不正常线缆正常 不正常磁带机正常 不正常板卡正常 不正常系统检查项目内容结果不正常请注明原因系统指示灯状态Front Panel LEDS正常 不正常Power Supply LEDS正常 不正常Disk LEDS正常 不正常System Controller Board LEDS(CPU/Memory、I/O etc。)正常 不正常系统messages信息cd /var/admgrep WARN messages*grep error messagesgrep panic messages/var/adm/messages正常 不正常/var/adm/messages.0正常 不正常/var/adm/messages.1正常 不正常/var/adm/messages.2正常 不正常/var/adm/messages.3正常 不正常硬件运行状态/usr/platform/sun4u/sbin/prtdiag -v正常 不正常文件系统利用率df kdf o i/ 利用率 %正常 不正常/usr 利用率 正常 不正常/var 利用率 正常 不正常其它分区正常 不正常Ionde利用率(是否有空闲)正常 不正常Swap分区swap sused k available k正常 不正常CPU负载sar 1 10 % idle正常 不正常内存剩余量vmstat 1 KBytes正常 不正常I/O资源iostat En正常 不正常网络接口流量netstat i 1正常 不正常网口以及IP状态ifconfig -a正常 不正常网络传输率ping 网关(1分钟)average ms正常 不正常NTP状态ntpq -p正常 不正常远程登录设置/etc/inetd.confftp开启 关闭telnet开启 关闭进程总数ps efwc l 个进程核心Patch版本uname a冗余软件Disk Suite状态(没有的不填)metastat输出结果是否正常正常 不正常metadbMetadb建立在 有 个备份 Volume Manager状态(没有的不填)vxdisk list输出结果是否正常正常 不正常vxdg list有 磁盘组 Vxprint -ht输出结果是否正常正常 不正常高可用性软件SunCluster状态版本scstat 输出结果是否正常正常 不正常备注存储ST3310阵列外观及指示灯是否正常正常 不正常show-config输出结果是否正常正常 不正常固件版本SUN主机巡检相关命令及说明检查项目使用的命令及相关目录内容及其说明外观检查无检查机器的指示灯情况、看有无故障指示主机的总体情况/usr/platform/sun4u/sbin/prtdiag -v通过该命令,可以查看到CPU的数量、主频、CACHE大小,内存、板卡、风扇转速、环境温度等情况查看文件系统挂接情况df -k可以查看到文件系统的挂接、使用量等情况,如果某个文件系统使用大于85%,则要提请注意,大于90则要对其进行清理,删除废文件,如果根文件系统使用量达到100%,会造成系统崩溃检查系统日志文件grep panic /var/adm/messages* grep error /var/adm/messages grep WARN /var/adm/messages*检查系统的日志文件,看有无panic、error、WARN等和错误有关的关键字,其中,panic关键字一般出现在操作系统因软件或硬件故障崩溃的时候,error则是系统因软件或硬件产生了错误,WARN则相对关注级别较低,属于警告,这2种情况,都要根据系统的日志提示,进一步检查系统情况检查CPU使用情况sar 1 10检查CPU的IDEL值,越大越好,这里给出的命令是指间隔1秒,检查10次交换分区使用情况swap -s查看交换区(即虚拟内存)的使用情况内存使用情况vmstat 1检查内存的使用情况,尤其检查其中的剩余内存量,如内存剩余过少,则要检查进程及应用的情况,如无异常,则意味着系统需要更多的物理内存硬盘数量及容量format通过该命令,可以查看到硬盘的容量大小、数量等情况,硬盘及其他存储设备的情况iostat E这个命令可以看到硬盘的运行情况,包括:厂商、序列号,有无运行错误等网络情况netstat i 1查看网络的包吞吐情况以及冲突、包错误率等情况网络的IP设置ifconfig a查看系统中的IP地址设置查看操作系统的核心版本uname -a该命令除了能查看到操作系统的核心版本外,还可以查看到主机的硬件型号主机的厂商ID号hostid可以查看到厂商为主机设置的唯一ID统计系统当前进程数量ps -ef |wc -l可以查看到系统当前进程数量远程登录设置grep ftp /etc/inetd.conf grep telnet /etc/inetd.conf可以查看系统的远程登录是否打开网络流通情况pingping网络中的另一设备,通常是缺省网关,以检查网络的流通延时情况检查SUN CLUSTER管理的双机系统状态scstat该命令可以显示SUN CLUSTER双机系统的和配置、状态有关的信息通过Web方式管理SUN CLUSTER双机系统通过浏览其,输入主机的IP地址,端口号为3000,可以通过Web的方式管理SUN CLUSTER双机系统存储及冗余软件相关检查及其命令检查项目使用的命令及相关目录内容及其说明外观检查无检查机器的指示灯情况、看有无故障指示ST3x10阵列检查无通过串行口连接到阵列的串口,利用其设置界菜单检查,具体的参数为:波特率38400,数据位8,停止位1,奇偶校验无,流控无ST3x10阵列检查(通过sccli工具检查)showconfig连接了ST3x10阵列的主机,如果安装了sccli工具,通过输入sccli命令,选择了控制器后,在其界面下输入的命令用Varitas Volume Manager管理的硬盘检查其管理下硬盘的状态vxdisk list检查Varitas Volume Manager管理下硬盘的状态用Varitas Volume Manager管理的硬盘检查其管理下磁盘组的状态vxprint -ht检查Varitas Volume Manager管理下磁盘组的状态, 包括其划分的子磁盘的、所做的卷等的状态用SDS管理软件管理的磁盘及其虚拟设备状态metastat对于用Solstice DiskSuite(SDS,新的版本改为Solaris Volume Manager,简称SVM)管理的磁盘,在操作系统下,输入该命令,检查其管理的磁盘以及虚拟磁盘(md)的状态用SDS管理软件管理的磁盘,检查起状态数据库的状态metadb对于用Solstice DiskSuite(SDS,新的版本改为Solaris Volume Manager,简称SVM)管理的磁盘,在操作系统下,输入该命令,检查其管理数据库(用户保存SDS的设置等)的状态ORACLE 数据库系统维护检查报告报告编号: 用户基本信息用户名称:联系人:电话/传真:地址:应用系统名称: 巡检时间: 主机厂商/型号: 操作系统/版本:CPU数/硬件内存:数据库服务器运行方式:Oracle产品/版本:系统运行状况检测序号检测内容检测指令检测结果建议1检查alert日志,是否有ora错误提示Alert文件2数据库名SQLshow parameter db_name3实例名SQLshow parameter instance_name4数据库版本SQLselect * from v$version;5是否归档模式SQLarchive log list6安装组件SQLselect * from v$option;7初始化参数SQLshow parameters8SGA区SQLshow sga9用户检查SQLselect username,account_status,default_tablespace,temporary_tablespace,created from dba_users10用户权限检查SQLselect from dba_role_privs;11是否存在失效对象SQLselect owner, object_name,object_type from dba_objects where status = INVALID12检查控制文件SQLselect from vcontrolfile13检查联机日志SQLselect from vlogfile; 14检查数据文件SQLselect from v$datafile;15查看现有回滚段及其状态SQL SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;16是否有异常等待事例SQLselect event,sum(decode(wait_Time,0,0,1)) ”Prev,sum(decode(wait_Time,0,1,0) Curr”,count() “Tot” from v$session_Wait group by event order by 4;17检测连接数情况SQLSELECT status,count() ”count FROM vsession GROUP BY status;select sid,serial,username,program,machine,status from vsession;18检查表空间使用情况19备份策略的讨论与实施20listener可用性检查lsnrctl statuslistener.log21CRS进程检查ps df |grep d。bin结论:1、 alert文件:有无错误?2、 表空间使用情况:set linesize 300SELECT upper(f。tablespace_name) ”tablespace_name, d.Tot_grootte_Mb tablespace(M), d。Tot_grootte_Mb f.total_bytes used(M)”, round((d.Tot_grootte_Mb - f。total_bytes) / d.Tot_grootte_Mb 100,2) use”, f.total_bytes ”free_space(M)”, round(f.total_bytes / d.Tot_grootte_Mb * 100,2) free” FROM (SELECT tablespace_name, round(SUM(bytes)/(10241024),2) total_bytes, round(MAX(bytes)/(1024*1024),2) max_bytes FROM sys。dba_free_space GROUP BY tablespace_name) f, (SELECT dd.tablespace_name, round(SUM(dd.bytes)/(1024*1024),2) Tot_grootte_Mb FROM sys。dba_data_files dd GROUP BY dd。tablespace_name) dWHERE d.tablespace_name = f。tablespace_name ORDER BY 4 DESC/3、 Shared Pool Size 命中率:select round((sum(gets)sum(reloads))/sum(gets)100,1) ”libiary cache hit ratio from v$librarycache where namespacein (SQL AREA,TABLE/PROCEDURE,BODY,TRIGGER);4、 数据字典命中率:select round(1-sum(getmisses)/sum(gets))100,1) data dictionary hit ratio from v$rowcache;5、 锁竞争:select substr(ln。name,1,25) Name, l.gets, l.misses, 100(l。misses/l。gets) ” Ratio (STAY UNDER 1)” from vlatch l, v$latchname ln where ln.name in (cache buffers lru chain) and ln.latch = l。latch#;6、 排序命中率:select a。value ”Sort(Disk)”, b.value ”Sort(Memory),round(100*(a。value/decode(a.value+b。value), 0,1,(a.value+b.value)),2) ”% Ratio (STAY UNDER 5%)” from v$sysstat a, vsysstat bwhere a。name = sorts (disk)and b。name = sorts (memory);7、 数据缓冲区命中率:select round(1(phy。value/(cur.value+con。value))*100,1)| ratio from v$sysstat phy,v$sysstat cur,v$sysstat conwhere phy。name=physical reads and cur.name=db block gets and con.name=consistent gets;8、 vsession_wait:select sid,seq,event,WAIT_TIME,SECONDS_IN_WAIT from vsession_wait where event not like SQL and event not like rdbms;9、 回滚段的争用情况:select name, waits, gets, waits/gets ”Ratiofrom vrollstat a, vrollname bwhere a。usn = b。usn;10、 无效对象情况:col OBJECT_NAME for a36SELECT object_name, object_type,status FROM dba_objects WHERE status like INVALID;客户签名: 工程师签名: 日期: 检查项目使用的命令及相关目录内容及其说明alert文件alert XXX在sqlplus命令行状态下,检查日志文件,其中XXX是只alert文件名数据库名SQLshow parameter db_name显示数据库名实例名SQLshow parameter instance_name显示数据库实例名版本SQLselect * from vversion;显示数据库版本归档设置SQLarchive log list显示归档设置,状况安装组件SQLselect * from v$option;显示已安装的组件初始化参数SQLshow parameters显示初始化参数SGASQLshow sga显示SGA的设置,状态用户SQLselect username,account_status,default_tablespace,temporary_tablespace,created from dba_users用户检查权限SQLselect from dba_role_privs;检查用户的权限设置失效对象SQLselect owner, object_name,object_type from dba_objects where status = INVALID检查是否有失效对象控制文件SQLselect from vcontrolfile检查控制文件连机日志SQLselect * from v$logfile;检查数据库的连接日志数据文件SQLselect from v$datafile;检查数据文件回滚段SQL SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;查看现有回滚段及其状态Sessionselect SESSIONS_CURRENT , SESSIONS_HIGHWATER from vlicense;系统Session使用状态字符集select userenv(language) from dual; 字符集共享池命中率select round((sum(gets)-sum(reloads))/sum(gets)100,1) ”libiary cache hit ratio ” from v$librarycache where namespace in (SQL AREA,TABLE/PROCEDURE,BODY,TRIGGER);数据字典命中率select round((1-sum(getmisses)/sum(gets))100,1) ”data dictionary hit ratio ” from vrowcache;数据缓冲区命中率select round((1(phy。value/(cur。value+con。value)100,1)% ratio from vsysstat phy,v$sysstat cur,v$sysstat con where phy.name=physical reads and cur.name=db block gets and con。name=consistent gets;锁SELECT lpad( ,DECODE(request,0,0,1)|sid sess, id1, id2, lmode, request, type FROM V$LOCK WHERE id1 IN (SELECT id1 FROM V$LOCK WHERE lmode = 0) ORDER BY id1,request;waitsselect sid,seq,event,WAIT_TIME,SECONDS_IN_WAIT from vsession_wait where event not like SQL% and event not like rdbms;播出部数据库系统配置信息 硬件配置机器名DBM01DBS02厂商及型号SUN v480SUN v480操作系统Sun OSSun OS操作系统版本Solaris 9Solaris 9内存 4 GB4 GBCPU数量22磁盘容量 本地盘阵73GB 219GB 73GB 219GB 是否使用了裸设备 (Yes/ No)是是RAID方式RAID 5+1RAID 5+1Oracle实例数11RAC 节点数22RAC 每节点CPU22 数据库配置实例名GDTV1GDTV2服务器名DBSERVER1DBSERVER2用途(oltp,dss,batch)OLTPOLTPRDBMS 版本9。2。0。19。2。0.1SQL*Net版本9。2.0。19。2。0。1存储设备STOREDGE 3310 DB_BLOCK Size8192数据文件个数控制文件个数3日志文件大小100M100M日志组数目22每组日志文件成员数量11日志文件产生频率10 min10 min归档方式nono
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!