资源描述
*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,网络故障分层诊断,制作人:邹绍军,指导老师:沈奕佳老师,1,OSI,的体系结构,2,3,本次课主要讲的内容:,1.,网络故障发生位置?,2.,网络故障的分类,3.,故障诊断的一般步骤,4.,网络的分层诊断技术,5.,网络故障诊断及维护,6.,经典案例解析,4,网络故障通常有以下几种可能:,物理层,问题:物理设备相互连接失败或者硬件及线路本身的问题;,数据链路层,问题:网络设备的接口配置问题;,网络层,问题,;,网络协议配置或操作错误;,传输层,问题:设备性能、通信拥塞及差错问题;,高层,问题:包括操作系统,应用接口、驱动程序及各种应用程序错误。,5,网络故障的分类,根据网络故障的,性质,分为:,1,)物理故障;,2,)逻辑故障。,根据网络故障的,对象,分为:,1,)线路故障;,2,)路由故障;,3,)主机故障。,6,物理类故障,物理故障定义:,一般是指,线路或设备,出现物理类问题或说成,硬件类,问题。具体指的是设备或线路损坏、插头松动等情况。,1,线路故障,2,端口故障,3,集线器或路由器故障,4,主机物理故障,7,逻辑类故障,逻辑故障中最常见的情况就是,配置错误,,因为网络设备的配置原因而导致的网络异常或故障。,1,路由器逻辑故障,2,一些重要,进程或,端口,关闭,3,主机逻辑故障,8,故障诊断的一般步骤,故障的,准确定位,准确,收集与故障相关信息,考虑故障的,可能原因,确定解决方案,实施解决方案,测试验证,记录解决方案,确定预防措施,9,1,故障的准确定位,故障的定位就是要清楚,故障的性质,及其影响,将故障的,范围缩小,到一个网段,某一个节点或网络设备。然后确定故障是否会出现在其他节点上,故障是局限于一个节点还是某个网络设备,10,2,准确收集与故障相关信息,观察网络设备的,指示灯,设备,以前,工作是否正常,故障发生的,时间,运行环境,是否发生了改变,不要忽视一些明显的,人为错误,11,3,考虑故障的可能原因,确定了故障区域及范围,收集了相关故障现象及信息后,就可以根据故障,现象及信息,,利用,软硬件帮助功能,,考虑引起故障的可能原因,并通过分析,推断出最后产生故障的可能原因,并初步识别出故障的基本类型。把所有可能的原因,按可能性大小一一排列记录成事件列表,逐一排查,,首先用一个,最可能,的故障原因进行诊断活动,这样可以比较容易恢复到故障的原始状态,相比而言,如果一次同时考虑一个以上的故障原因,试图返回故障原始状态就困难多了。,12,4,确定解决方案,在执行解决方案前,还需考虑以下几方面问题:,所确定的原因是否真是,故障原因,,需要相应的,诊断结果或报告,作支撑。,是否可以对设定的解决方案进行,预先的测试,,并制定故障的诊断计划。,实现解决方案预定的结果是怎样的?,所制定的解决方案对于网络的其他部分有没有影响?,13,在实施解决方案前做好以下准备,保存全部的网络,设备配置文件,。,对,服务器及重要的客户段,的配置文件进行,备份记录,。,记录网络的基本拓扑结构,设备的物理位置以及各设备之间线路的连接关系、端口号等。,建立最终的基准,以便,对新旧结果进行对比,,同时在需要恢复时可以作为比较的依据。,14,5,实施解决方案,在实施解决方案时,可能还需要分成很多步骤来操作,所以需要,认真做好每一步测试和观察,。在测试过程中,,每次只能完成一项测试,,每改变一个参数都要确认其结果并记录下来,并分析结果确定问题是否解决,如果没有解决,继续下去,直到故障现象消失。,15,6,测试验证,故障是否真正解决及排除,要通过,网络管理员及用户的多方验证,。,对于网络管理员而言,主要通过,查看有关网络设备是否正常工作,,通过,网络管理软件综合分析网络各项运行参数,。,对于用户而言,主要是,观察日常的各项网络服务是否正常,网络的使用性能。,这个过程是一个持续的过程,需要大量时间去完成。,16,7,记录解决方案,故障排除后,需要把故障的解决方案,实施解决方案过程中的,测试步骤及相关结果记录成文档,进而积累实际故障解决经验。,作为网络管理员,在这方面应该养成良好的习惯。,。,17,8,确定预防措施,完成了故障的排除和文档记录后,就应该着手于预防措施,,防范于故障的再次发生。(目的),根据故障产生的各种原因,有针对性地制定相应的,网络管理方案并实施,,观察方案的运行效果,把被动的网络管理方式变成主动地网络管理方式,18,网络的分层诊断技术,五层协议的层次结构把每层功能及职责范围定义得非常清晰,,为管理员分析和排查故障提供了非常好的组织方式,。由于各层,相对独立,,按层排查能够有效地发现和隔离故障,因而一般使用逐层分析和排查的方法。,通常有两种逐层排查方式:,一种是,从低层开始排查,,适用于,物理网络不够成熟稳定的情况,,,如组建新的网络、重新调整网络线缆、增加新的网络设备;,19,网络的分层诊断技术,另一种是,从高层开始排查,,适用于,物理网络相对成熟稳定的情况,,如硬件设备没有变动。,无论哪种方式,最终都能达到目标,只是解决问题的效率有所差别。,20,网络故障统计,据统计,出网络故障,通常发生在,网络五层模型的下三层,即,物理层、链路层和网络层,。,21,网络故障诊断及维护,网络故障诊断形式:,软件形式工具,:,比如操作系统提供的,网络诊断命令及专业管理软件,。,使用简单,方便,成本低,但诊断不能深入网络内部,具体反映各项网络参数,功能有限。,硬件形式工具,:比如各种网络万用表、网络协议分析仪等。,功能强大,能够对网络进行系统全面深入的诊断,但使用较复杂,成本较高。,22,1,物理层,(,1,),线路,方面故障,(,2,),端口,设置方面的故障,(,3,)集线器故障,(,4,)电源方面的故障,(,5,)网卡故障,网卡参数设置错误,在同一网段的网络设备的参数设置要一致,对网卡的干扰,网卡驱动不正,23,经典案例,1,故障现象:,某进出口公司开通,DDN,(,Digital Data Network,,数字数据网)专线后部分用户抱怨,数据交换的速度变慢,且经常有连接中断的现象。,网络支持人员虽经多方查找仍不得要领,故请求网络医院出诊援救。,24,经典案例,1,(续),故障排除:,该公司的网络为,lOBase,-T,局域网,此次只,增加了,DDN,设备和路由器,其他配置基本不变,。故将网络测试仪,F68X,从最低楼层的某个用户端接入,网络进行观察,,平均流量为,1.20/0,,未发现异常。改用流量发送功能作,流量逐级递增,的体能测试,也未发现任何异常。表面上看,该网段似乎没有什么问题。为快速定位网络故障,,将流量发送到其他网段,同时观察网络状况,。随着发送流量的增加,,1,分钟后发现错误帧,25,经典案例,1,(续),帧类型为,FCS,错误帧,,并指示,FCS,帧来 自第二层的某个用户。显然,只据此现象就判断故障原因为该工作站的,网卡损坏或网卡驱动程序错误,,似乎显得“证据不足”,因为,整个楼层,的用户反映的故障现象是相同的。继续观察到,5,分钟,发现,FCS,错误帧数量增加为,10,个用户左右,由此可以断定不是某个工作站的问题。为此,,令其他楼层多个用户与故障楼层用户交换数据(比如复制文件),,26,经典案例,1,(续),结果发现多个,FCS,帧错误。打开交换机端口工作表观察,本楼层的记录中也显示,FCS,帧错误,而其他的交换机端口工作表中没有,FCS,错误记录,这说明是,本网段内存在着线缆超长的链路。,再试着向,Internet,某个已知用户发送流量,并且进行,ICMP Ping,测试,,结果发现损失率为,90%,左右。由于刚才本网段内的体能测试未发现异常,所以只能是集线器与交换机连接的,单条链路有问题,。测试该电缆,,长度指示为,175 m!,27,经典案例,1,(续),由于,175 m,超常链路在集线器和交换机之间,所以,本网段内,的用户在交换数据时,可以顺利进行,。但与其他网段的用户交换数据时就可能出问题。,一周后该公司,重新划分网段,施工结束,用户来电报告一切正常。,28,经典案例,2,故障现象:,某网吧老板打电话给网络公司的技术人员说,网吧局域网内出现,频繁断网的情况,。技术人员打车到达现场后询问了网吧业主故障发生前的一些情况,业主反应闲来无事,,看见交换机灰尘太多,于是分片进行了除尘,,全部干完以后玩了十几分钟后就发生这样的情况了,每次掉线以后,重新启动所有设备只能维持一小会,,然后就是断网,找了半天原因也没找到,于是打电话报修。,29,经典案例,2,(续),故障排除:,首先观察交换机,,发现网吧内所有的交换机网络,指示灯,都在以相同的频率在闪,断开局域网,使用笔记本直接接在路由器上进行上网测试,一切正常,,故障显然出在局域网内,,把所有交换机之间的级联线断开,先插上主交换机,无异常,再一台一台的接入分交换机,接到第三台的时候故障出现了,到那个交换机上查网线,为了快速排除故障,那台交换机上的所有网线都被拔了下来,然后一个一个插回,30,经典案例,2,(续),去,最后,发现其中一根网线是级联线,,被人插在了同一个交换机上造成,数据回路,,拔掉这根网线后网络恢复正常。,故障总结:,故障处理完之后询问业主为什么这么插,业主说当时也没注意,看见有水晶头的网线就往交换机上插,不知道这根网线是干啥的。技术人员告诉业主以后,再动网线的时候最好有个技术在场的情况下再动。,31,2,数据链路层,数据链路层的故障一般包括以下几个方:,1,)数据链路层帧的问题,通常的,帧错发、重发、丢失及帧碰撞,等。,2,)数据帧的,流量控制及差错控制,。,3,)链路层,地址的设置,。,4,)链路层协议的,匹配问题,,在相互连接的两端口应该使用同一种协议封装。,5,)链路通信的,时钟同步问题,。,6,)数据终端设备(,DTE,)在数据链路层驱动程序的,加载问题,。,32,经典案例,3,故障现象:,某校网络教室中的计算机是通过校园网中的代理服务器共享上网的。一天,上网后不久,发现计算机,浏览,Internet,的速度很慢,,以为是开启程序太多引起计算机的内存不足,就重新启动机器。可重启后还是老样子,换一台机器上网也是如此。,33,经典案例,3,(续),故障排除:,由于,多台,计算机都出现了网速很慢的毛病,因此,初步判断是代理服务器出问题了,。检查代理服务器,发现服务器鼠标和键盘都无法响应,出现了死机故障。没办法,只得按下,Reset,键重新启动系统,,可在快进入系统界面时又死机了,。难道是,服务器操作系统崩溃了,?立即用先前备份的,Ghost,镜像将系统分区恢复了一遍,再次启动机器,不料还是老样子。看来,并非软件故障,。或者可能是由于,34,经典案例,3,(续),很久没有打开机箱清理,,计算机内部灰尘积聚太多,,配件昼夜运转在散热不良的环境中,引起,CPU,怠工了吧?拿来螺丝刀正想打开机箱查个究竟,,发现机箱后面板网卡口上的黄灯急速闪烁着,再看看机柜内的交换机,所有的指示灯也同样都异常急速地闪烁着。,网络故障莫不是由,数据阻塞引起的,?试着,关闭交换机电源,,稍等一下再重新打开,然后再次启动服务器。这次服务器竟然能正常启动了,通过各终端访问,Intenet,,一切恢复了正常。,35,经典案例,3,(续),故障总结:,此次由,交换机数据阻塞引起的网络故障,,由于没有首先检查交换机,使本来只需开关一下交换机电源就能解决的问题,却走了不少弯路。由此,提醒大家,:检查网络故障时,千万不要把目光只停留在网络的某一个节点上,而要对整个链路系统做综合观察,才能少走弯路。,36,3,网络层,网络层提供建立、保持和释放网络层连接的手段,包括,路由选择、流量控制、传输确认、中断、差错及故障恢复,等。,排除网络层故障的,基本方法,是沿着,从源到目标的路径,查看路由器路由表,同时检查路由器接口的,IP,地址。,如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的静态路由、
展开阅读全文