资源描述
,-,#,-,CFFEX,标准演示模板,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,-,1,-,内容提要,第一部分:系统监控方法及内容,系统监控的作用、范围及实际应用,第二部分:,HostMonitor,系统介绍,介绍,HostMonitor,系统监控软件 的主要功能与使用方法,-1-内容提要第一部分:系统监控方法及内容,-,2,-,第一部分:系统监控方法及内容,系统监控能带给我们什么,系统监控的范围及实际应用,如何制定相应的监控策略,-2-第一部分:系统监控方法及内容系统监控能带给我们什么,系统监控能带给我们什么?(一),系统运维从“被动管理”向,“,主动管理,”,转变,第一时间发现系统异常,避免问题向事故转化,对系统运行状态的集中化管理,辅助系统管理员快速判断问题及解决问题,-,3,-,系统监控能带给我们什么?(一)系统运维从“被动管理”向“主,系统监控能带给我们什么?(二),提供多种故障告警方式,及时通知相关责任人,避免故障发生,收集系统及应用的运行日志,分析发现其中的异常,预测系统可能出现的问题,将问题消灭在萌芽状态,-,4,-,系统监控能带给我们什么?(二)提供多种故障告警方式,及时通知,系统监控的范围,网络:,网络设备(支持,SNMP,指令的)、联通性、路由等,主机:,CPU,利用率、内存使用、,IO,性能、网络流量等,数据库:可用性、性能、空间、连接数、死锁等,应用:可用性(,OA,、邮件)、,CPU,利用率、内存使用、网络资源占用、进程资源、网络资源、磁盘访问资源等,-,5,-,系统监控的范围网络:网络设备(支持SNMP指令的)、联通性,监控的实际应用(一),外联单位链路、主机、路由、应用端口,交易所,银行,保证金监控中心,营业部,拨号备份线路,-,6,-,监控的实际应用(一)外联单位链路、主机、路由、应用端口-6,监控的实际应用(二),服务器主机,CPU,利用率(,10-30,秒采样),磁盘可用空间(,10-30,分钟采样),内存使用(,10-30,秒采样),网络连通情况(,5-10,秒采样),-,7,-,监控的实际应用(二)服务器主机-7-,监控的实际应用(三),数据库服务,连接及登录检查,监听端口检查,数据库可用空间检查,死锁检查,无效的对象检查,连接数检查,LOG,文件检查,核心参数检查,-,8,-,监控的实际应用(三)数据库服务-8-,监控的实际应用(四),核心应用监控,应用端口检查(可用性、响应时间),运行环境检查(,CPU,、磁盘、内存、网络),进程数检查,进程资源占用检查,应用日志文件检查(定时增长、异常输出等),配置文件检查,核心参数检查,-,9,-,监控的实际应用(四)核心应用监控-9-,监控的实际应用(五),周边应用,OA,系统,报表系统,邮件系统,FTP,系统等,-,10,-,监控的实际应用(五)周边应用-10-,如何制定相应的监控策略,了解应用特性,制定相应的监控策略,避免和应用冲突,避免影响应用性能,根据具体应用规划监控时间及监控频率,无人值守时通过短信等方式报警,涉及到性能的监控应采用多级监控及报警,如,CPU,、内存、空间占用等,核心应用应从多方面、多角度进行监控,-,11,-,如何制定相应的监控策略了解应用特性,制定相应的监控策略-1,制定监控策略应注意的问题,不能影响现有系统的正常工作,监控对系统资源的占用上不对系统产生较大影响,CPU,资源占用应该在,5%,以下,监控策略不是越多越好,应注意逻辑控制,防止异常时多个监控项同时报警,不利于问题查找,-,12,-,制定监控策略应注意的问题不能影响现有系统的正常工作-12,监控与巡检的关系,系统监控是既有运维经验的提炼,系统监控是高效的巡检方式,系统监控是运维的辅助工具,为系统运维提供帮助,定期对系统重要运行环节的检查是不可替代的,-,13,-,监控与巡检的关系系统监控是既有运维经验的提炼-13-,巡检注意事项,巡检应该在关键时间节点进行,开盘前,交易小结前后,午盘前后,收盘等关键的业务节点,巡检注意事项,巡检中不应该夹杂操作内容,尽量避免可能的误操作,在不同的时间点,检查项目有所偏重,-,14,-,巡检注意事项巡检应该在关键时间节点进行-14-,性能指标的收集,巡检和监控中定期性能指标的采集,CPU,、内存、磁盘等性能容量采集,性能指标用途,容量管理基础数据积累,容量指标异常时,可能预示故障,-,15,-,性能指标的收集巡检和监控中定期性能指标的采集-15-,监控系统奠定基础,监控系统建设的基础,IT,系统风险点的识别,监控指标的识别,配置的识别,容量的识别,从运维辅助工具作起,逐步完善日常系统运维体系,-,16,-,监控系统奠定基础监控系统建设的基础-16-,-,17,-,第二部分:,HostMonitor,系统介绍,HostMonitor,软件主要功能特点,HostMonitor,主要监控方法介绍,网络监控,磁盘空间、文件监控,服务器主机监控,数据库监控,Text Log,检查,灵活的监控时间控制,远程监控,-17-第二部分:HostMonitor系统介绍Hos,Host Monitor,软件主要功能特点,58,种检测方法,能检查主机及应用的各种参数,全面的异常报警方法,多种格式的日志记录,灵活的监控时间控制,内置报表管理器,可生成各类自定义监控报表,可使用,RMA(Remote Manage Agent),监控远程网络,支持,Web,、,Telnet,、,Remote Control,等多种远程管理方式,Host Monitor软件主要功能特点58 种检测方法,能,-,19,-,系统主要功能介绍,58,种检测方法,17,项网络相关监控(,Ping,、,TCP,、,UDP),8,项磁盘、文件相关监控,7,项数据库相关监控,6,项,Windows,相关监控,3,项常规监控,15,项,UNIX,相关监控,2,项其他监控,-19-系统主要功能介绍58种检测方法17项网络相关,系统主要功能介绍,30,种报警方式,弹出窗提示、声音报警,EMAIL,通知,发送,HTTP,、,TCP,、,UDP,数据到指定地址,输出到,Syslog,日志服务器,外部程序或者脚本调用,启动、停止指定服务,重启远程计算机,-,20,-,系统主要功能介绍 30种报警方式弹出窗提示、声音报警-,系统主要功能介绍,强大的报表管理和日志分析工具,可将测试结果生成不同类型的日志文件,TXT,、,HTML,、,DBF,、,ODBC,可针对不同的岗位定制特定的日志报告,如 主机管理、数据库管理、,OA,管理、,IT,管理人员等,可针对不同的测试根据时间周期产生图形化的报表,-,21,-,系统主要功能介绍 强大的,系统主要功能介绍,跨平台支持的远程监控代理,可 通过,Remote Monitor Agent,(,RMA,)监控在其他网络的远端主机,可支持,Windows,、,Linux,、,Unix,等多种平台,-,22,-,系统主要功能介绍,系统主要功能介绍,支持多种远程管理方式,可通过,Web,方式进行远程管理,可通过,Telnet,方式进行远程管理,可通过,RCC,远程控制远端的,Host Monitor,-,23,-,系统主要功能介绍支持多种远程管理方式可通过Web方式进行,-,24,-,Host Moniter,常用监控方法介绍,网络监控:,Ping,、,Trace,、,TCP,磁盘空间、文件检查:,UNC,Windows,相关监控:,Process,、,CPU Usage,、,Performance Counter,Txt Log,检查,Db Server,检查,Ras,检查,外部程序调用检查,-24-Host Moniter 常用监控方法介绍网络,网络监控,Ping,监控,-,25,-,原理:,发送,ICMP,报文到目的地址,根据对方回应进行检测,用途:,检查远端主机、路由或者其它网络设备的连接状态,报警:,指定时间内,X%,的回应报文丢失,显示:,响应时间、丢包百分比、收包百分比,网络监控Ping 监控-25-原理:,网络监控,Ping Test,设置界面,-,26,-,网络监控Ping Test 设置界面-26-,-,27,-,网络监控,Trace,监控(一),原理:,发送,ICMP,报文到目的地址,根据对方回应进行检测,用途:,用于路由检测,报警:,1,、路由改变,2,、总跳点数不等于指定值,3,、总跳点数大于指定值,-27-网络监控Trace 监控(一)原理:,网络监控,Trace,监控(二),4,、总跳点数小于指定值,5,、应答超时,6,、路由通过指定,IP,7,、路由没有通过指定,IP,显示:,1,、总响应时间,2,、平均响应时间,3,、最大响应时间,-,28,-,网络监控Trace 监控(二)4、总跳点数小于指,网络监控,Trace,监控(三),4,、总跳点数,5,、没有响应的节点数,6,、路由信息(只显示,IP,),7,、路由信息(显示跳点、,IP,、响应时间),-,29,-,网络监控Trace 监控(三)4、总跳点数 -29,网络监控,TCP,监控,可监控所有基于,TCP,的应用,如,FTP(21)Telnet(23),SQLSERVER(1433),ORACLE(1521),等,可发送测试报文,检查指定端口的应答报文,可根据收到的回应报文报警,有,/,无应答,应答报文的内容进行匹配,包含,/,不包含指定字符串或等于,/,不等于指定字符串,-,30,-,网络监控TCP 监控可监控所有基于TCP的应用,如 F,磁盘、文件相关监控,UNC,检查,(Universal Naming Conversion),通用命名约定 检测,本地或者网络共享资源的磁盘空间检测,类似,servershare,描述方式,需指定连入用户及密码,报警:,1,、资源不可用,2,、可用空间小于指定值(登录用户),3,、总可用空间小于指定值,-,31,-,磁盘、文件相关监控UNC 检查(Universal Na,RAS,(,Remote Access Service,),通过,RAS,的连接进行远程监控访问,可用于拨号链路、,ISDN,的检测,可用于拨号备份、公司内部的,ISDN,的检测,-,32,-,RAS(Remote Access Service)通过RA,Windows,相关监控,Process,监控,检查本地或者远端进程数,当进程数不在指定的区间内则报警,Windows,:需要用指定帐号连接到远端机器,且远端主机,的,RemoteRegistryService,服务必须打开,也可通过,RMA for win,实现,UNIX:,使用,RMA,进行监控,-,33,-,Windows 相关监控Process 监控检查本地或者,Windows,相关监控,CPU Usage,检测,检查本地或者远端主机的,CPU,利用率,当利用率大于指定值时报警,Windows,:需要用指定账号连接到远端机器,且远端主机,的,RemoteRegistryService,服务必须打开,也可通过,RMA for win,实现,UNIX:,使用,RMA,进行监控,-,34,-,Windows 相关监控 CPU Usage 检测检查本,Windows,相关监控,Performance Counter,监控,监控目标主机的性能计数器,可监控内存、处理器、磁盘、进程等各项资源,可设定多种报警方式及提示,通过登录用户或者,RMA,进行连接,-,35,-,Windows 相关监控,Text Log,检查,检查指定文件中的指定特征串(文件可使用日期宏),可使用表达式进行查找,如,(error or warning)and not 16550,可全字匹配、大小写不敏感、可使用全局的宏定义,报警时可定义错误行的显示内容(按单词拆分),也可显示指定特征串在文件中的位置或者提示文件长度,-,36,-,Text Log 检查检查指定文件中的指定特征串(文件可使用,DB Server,检查,检
展开阅读全文