常见交换机故障排分析与排除手册.doc

上传人:wux****ua 文档编号:9456806 上传时间:2020-04-05 格式:DOC 页数:10 大小:99KB
返回 下载 相关 举报
常见交换机故障排分析与排除手册.doc_第1页
第1页 / 共10页
常见交换机故障排分析与排除手册.doc_第2页
第2页 / 共10页
常见交换机故障排分析与排除手册.doc_第3页
第3页 / 共10页
点击查看更多>>
资源描述
常见交换机故障排分析与排除手册针对这次故障现象,可以快速的定位故障的对象交换机。因为在网络升级前后的区别就是把集线器改为交换机,其他的任何计算机、任何设备、任何配置都没有改动过。这种故障一般都是软件上的原因所引起的,所以前面的面板是没有任何故障显示的。只有登录交换机管理界面后,才有可能揭晓。 前面曾经有过因端口模式和计算机网卡工作模式不匹配而导致网速变慢的经验,故登录后,便首先检查端口的状态。结果每个端口均显示为自适应状态,这是默认设置。再确认一下各个工作站和服务器,都是半双工状态,因为集线器不支持全双工模式。应该没有此类配置问题。 在检测端口的过程中,发现交换机的计数器出现了过多的帧检查错误。在几次清除计数器后,还都出现类似的问题。是什么造成这些错误呢?线路绝对没有问题,难道是交换机本身有错误?由于交换机是刚买的,供应商还是很爽快的答应换了一台相同型号的交换机,结果还是如此。完了,两台新设备同时发生故障的可能性太小了。现在怎么办呢? 只有回到交换机上,比较它的默认设置与其他品牌的交换机有没有不一样的地方。结果还是没有发现可疑之处。再看看端口模式设置,是设为自适应,应该没有问题,因为交换机和网卡会自动协商使用相同的工作模式来通信的。我尝试着把端口模式由自适应改为半双工,出乎意料的是,故障竟然消失了,网络速度恢复正常 网络设备故障通常有两种表现形式,软故障和硬故障,所谓软故障就是指因为误操作,错误配置,病毒等引起的网络设备的故障,这类故障通常能够通过更改设置,重新安装软件来排除,而硬故障是指网络设备本身的硬件系统发生了故障,这类故障一般智能通过更换硬件设备来解决,不过,网管员日常生活中所遇到的故障大部分是软故障,因此,本章主要涉及网络设备软故障的解决。 1 交换机故障 交换机,英文名称为“SWITCH”。大家肯定听说过“程控交换机”这个名词吧?“程控交换机”是指电话通讯系统中使用的线路交换机。计算机网络上使用的交换机就是从电话交换机的技术上发展而来的。一般意义上的交换机是指工作在OSI模型中第二层即数据链路层上的第二层交换机。从外观上来看,它与集线器(HUB)基本上没有太大区别,都是带有多个端口的长方形盒状体,而且都遵循IEEE802.3及其扩展标准,介质存取方式也均为CSMACD,但是它们在工作原理上还是有着根本的区别。 网管Www.ofAdmin.Com 交换机的内部有一条带宽很高的背板总线和内部交换矩阵,交换机前面的所有端口都连接在背板总线之上。在交换机中还有一个重要的组成部分,那就是内存。在这个内存中保存着一张MAC地址对照表,它记录着MAC地址和端口的对应关系。如下图所示: 网管网ofAdmin.Com 当交换机接收到一个数据时,首先取出数据包中的目标MAC地址,根据内存中所保存的MAC地址表来判断该数据包应该发送到哪个端口,然后就把数据包直接发送到目标端口。如果没有在MAC地址表中找到目标端口,则发送一个广播包至所有端口,来查找目标端口。只要目标端口所连接的计算机响应,则交换机就“记住”这个端口和MAC地址的对应关系,因为交换机具有学习功能。当下一次接收到一个拥有相同的目标MAC地址的数据时,这个数据会立即被转发到相应的端口上,而不用再发广播包。这样就使得数据传输效率大大提高,且不易出现广播风暴,也不会有被其它节点侦听的安全问题。而集线器不具有这个地址表,所以HUB接收到一个数据后,便将该数据发送到所有端口上,所以容易引起广播风暴,且易被其他节点侦听。 MAC地址表在交换机刚刚启动时,是空白的。当它所连接的计算机通过它的端口进行通信时,交换机即可根据所接收或发送的数据来得知MAC地址和端口的对应关系,从而更新MAC地址表的内容。交换机使用的时间越长,学到的MAC地址就越多,未知的MAC地址就越少,从而广播就越少,速度就越快。 由交换机构建的网络之所以被称为交换式网络,是因为交换机的每一个端口都是独享带宽的,这是交换机相比于HUB的最大特点。所有端口都能够同时进行通讯,并且能够在全双工模式下提供双倍的传输速率,也就是说交换机端口可以同时接收和发送数据,数据流是双向的,端口之间互不干扰。比如:PORT1向PORT2发送数据的同时,PORT3可以向PORT4发送数据,这两个连接都享有独自的带宽,互不干扰。假如有一个8端口100Mbps的以太网交换机,如果每个端口同时工作,那么它的总带宽就是8100Mbps800Mbps。 随着交换技术的发展,不少高档交换机提供虚网(VLAN)、网管和路由功能。其中VLAN功能是指在一台交换机上,经过配置后,把它所连接的计算机网络分为若干个相互独立的虚拟局域网。划分VLAN时,可以依据交换机上的端口,也可以依据端口所连计算机的MAC地址。如果这些VLAN之间没有经过特殊配置或线路连接,则相互之间不能通信。这一功能可以划分广播域,从而减少广播,提供更加安全的通信。路由功能则是指交换机具有第三层的路由功能,这就是我们常听说的“第三层交换机”。 常用以太网交换机之间的连接可以通过两种方式:堆叠和级联。堆叠是指通过交换机自带的堆叠线缆,把多个交换机的堆叠模块进行连接。级联是指通过交叉双绞线把两台或多台交换机连在一起。由于各个厂商的技术不同,堆叠和级联的交换机个数也不相同。 当前,随着交换机价格的降低,交换机已经逐渐取代集线器,成为局域网的主要接入设备。 交换机故障的一般分类和排障步骤 交换机的优越性能和价格的迅速下降,促使了交换机的迅速普及。管理员在工作中,接触较多,经常会遇到各种各样的交换机故障,关键是如何快速、准确的查出故障并排除故障。本文就常见的故障类型和排障步骤作一个简单的介绍。 IT技术网Www.ofAdmin.Com 交换机故障分类 所有交换机故障一般可以分为硬件故障和软件故障两大类。 IT技术网Www.ofAdmin.Com 硬件故障主要指交换机电源、背板、模块、端口等部件的故障,可以分为以下几类: 华夏 1、电源故障 由于外部供电不稳定,或者电源线路老化或者雷击等原因导致电源损坏或者风扇停止,从而不能正常工作。由于电源缘故而导致机内其他部件损坏的事情也经常发生。 如果面板上的POWER指示灯是绿色的,就表明是正常的;如果该指示灯灭了,则说明交换机没有正常供电。这类问题很容易发现,也很容易解决,同时也是最容易预防的。 针对这类故障,首先应该做好外部电源的供应工作,一般通过引入独立的电力线来提供独立的电源,并添加稳压器来避免瞬间高压或低压现象。如果条件允许,可以添加UPS(不间断电源)来保证交换机的正常供电,有的UPS提供稳压功能,而有的没有,选择时要注意。在机房内设置专业的避雷措施,来避免雷电对交换机的伤害。现在有很多做避雷工程的专业公司,可以考虑。 2、端口故障 华夏 这是最常见的硬件故障,无论是光纤端口还是双绞线的RJ45端口,在插拔接头时一定要小心。如果不小心把光纤插头弄脏,可能导致光纤端口污染不能正常通信。我们经常看到很多同事喜欢带电插拔接头,理论上讲是可以的,但是这样也无意中增加了端口的故障发生率。如果在搬运时不小心,更可能导致端口物理损坏。有的人为了省钱,购买的水晶头尺寸偏大,插入交换机时,就容易破坏端口。如果接在端口上的双绞线有一段暴露在室外,万一这根 电缆被雷电击中,就会导致所连交换机端口被击坏,或者更加不可预料的损伤。 IT技术网Www.ofAdmin.Com 一般情况下,是某一个或者几个端口损坏。所以,在排除了端口所连计算机的故障后,可以通过更换所连端口,来判断其是否损坏。 华夏 遇到此类故障,可以在电源关闭后,用酒精棉球清洗端口。如果端口确实被损坏,那就只能更换端口了。 网管Www.ofAdmin.Com 3、模块故障 IT技术网Www.ofAdmin.Com 交换机是由很多模块组成,比如:堆叠模块、管理模块(也叫控制模块)、扩展模块等等。这些模块发生故障的几率较少,不过一旦出现问题,就会遭受巨大的经济损失。如果插拔模块时不小心,或者搬运交换机时受到碰撞,或者电源不稳定等情况,都可能导致此类故障。笔者曾经遇到过由于外部电源经常停电导致交换机内部管理模块损坏的情况。 华夏 这三个模块都有外部接口,容易辨认,有的也可以通过模块上的指示灯来辨别故障。比如:堆叠模块上有一个扁平的梯形端口或者有的交换机上是一个类似于USB的接口。管理模块上有一个CONSOLE口,用于和网管计算机建立连接,方便管理。扩展模块上如果是光纤连接的话,会有一对光纤口。在排除此类故障时,首先确保交换机及模块的电源正常供应,然后检查各个模块是否插在正确的位置上,最后检查连接模块的线缆是否正常。在连接管理模块时,还要考虑它是否采用规定的连接速率,是否有奇偶校验,是否有数据流控制等因素。连接扩展模块时,需要检查是否匹配通讯模式,比如:使用全双工模式还是半双工模式。 如果确认模块有故障,则应立即联系供应商予以更换。 4、背板故障 交换机的各个模块都是接插在背板上的。如果环境潮湿,电路板受潮短路;或者元器件因高温、雷击等因素而受损造成电路板不能正常工作。比如:散热性能不好或环境温度太高导致机内温度升高,致使元器件烧坏。 在外部电源正常供电的情况下,如果交换机的各个内部模块都不能正常工作,那就可能是背板坏了。 即使你是电器维修工程师,对此类故障,你恐怕也无计可施,唯一的办法就是换背板。 华夏 5、线缆故障 其实这类故障从理论上讲,不属于交换机本身的故障,但在实际使用中,电缆故障经常导致交换机系统或端口不能正常工作,所以本文也把这类故障归入交换机硬件故障。比如:插头接插不紧,线缆制作时顺序排列错误或者不规范,线缆连接时应该用交叉线却使用了直连线,光缆中的两根光纤连接交错,错误的线路连接导致网络环路等等。 从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以我们在建设机房时,必须先做好防雷接地以及供电电源、室内温度、室内湿度、防电磁干扰、防静电等环境的建设,为网络设备的正常工作,提供良好的环境。 交换机的软件故障是指系统、配置上的故障,它可以分为以下几类: 1、系统错误 华夏网管ofAdmin.Com 交换机系统是硬件和软件的结合体。在交换机内部有一个可刷新的只读存储器,它保存这台交换机所必须的软件系统。这类也和我们常见的WINDOWS、LINUX一样,由于当时设计的原因,存在一些漏洞,在条件合适时,会导致交换机满载、丢包、错包等情况的发生。所以交换机系统提供了诸如WEB、TFTP等方式来下载并更新系统。当然在升级系统时,也有可能发生错误。 对于此类问题,我们需要养成经常浏览设备厂商的网站的习惯,如果有新的系统推出或者新的补丁,请及时更新。 2、配置不当 华夏网管Www.ofAdmin.Com 初学者对交换机不熟悉,或者由于各种交换机配置不一样,管理员往往在配置交换机时,难免会出现配置错误。比如:VLAN划分不正确导致网络不通,端口被错误的关闭,交换机和网卡的模式配置不匹配等原因。这类故障有时很难发现,需要一定的经验积累。 IT技术网Www.ofAdmin.Com 如果你不能确保你的配置有问题,请先恢复出厂默认配置,然后再一步一步的配置。最好在配置之前,先阅读说明书,这也是网管所要养成的习惯之一。每台交换机都有详细的安装手册、用户手册,甚至每类模块也有。由于很多交换机的手册是英文编写的,所以英文不好的同志没有信心看说明书。其实我们还可以向供应商的工程师咨询后再做具体配置。 华夏 3、密码丢失 华夏网管ofAdmin.Com 这可能是每个管理员都曾经经历过的。一旦忘记密码,都可以通过一定的操作步骤来恢复或重置系统密码。有的则比较简单,在交换机上按下一个按钮就可以了。而有的交换机则通过一定的操作步骤才能解决。 此类情况一般在人为遗忘或者交换机发生故障后导致数据丢失,才会发生这种故障。 4、外部因素 由于病毒或者黑客攻击等情况的存在,有可能某台主机向所连接的端口发送大量不符合封装原则的数据包,造成交换机处理器过分繁忙,致使数据包来不及转发,进而导致缓冲区溢出产生丢包现象。还有一种情况就是广播风暴,它不仅会占用大量的网络带宽,而且还将占用大量的CPU处理时间。网络如果长时间被大量的广播数据包所占用,正常的点对点通信就无法正常进行,网络速度就会变慢或者瘫痪。 华夏网管Www.ofAdmin.Com 一块网卡或者一个端口发生故障,都有可能引发广播风暴。由于交换机只能分割冲突域,而不能分割广播域(在没有划分VLAN的情况下)。所以当广播包的数量占到通讯总量的30%时,网络的传输效率就会明显下降。 软件故障应该比硬件故障较难查找,解决问题时,可能不需要花费过多的金钱,而需要较多的时间。对于各种交换机故障,笔者在总结时可能还有疏忽或不全的地方,烦请各位指正。希望同行们在平时的工作当中,养成记录日志的习惯。每当发生故障时,及时做好故障现象记录、故障分析过程、故障解决方案、故障归类总结等工作,以积累自己的经验。比如:有时在做配置时,由于种种原因,当时没有对网络产生影响或者没有发现,但也许几天以后会问题逐渐显现出来。如果你有日志记录,就可以联想到是否是前几天的配置有错误。由于很多人都会忽略这一点,以为是在其他方面出现问题,当走了许多弯路之后,才找到问题所在。 交换机故障的一般排障步骤 华夏网管Www.ofAdmin.Com 交换机的故障多种多样,不同的故障有不同的表现形式。故障分析时要通过各种现象,灵活运用排除方法(如排除法、对比法、替换法),找出故障所在,并及时解除。 华夏 (1)排除法 网管Www.ofAdmin.Com 当我们面对故障现象并分析问题时,无意中就已经学会使用排除法来确定发生故障的方向了。这种方法是指依据所观察到的故障现象,尽可能全面的列举出所有可能发生的故障,然后逐个分析、排除。在排除时要遵循由简到繁的原则,提高效率。使用这种方法可以应对各种各样的故障,但维护人员需要有较强的逻辑性思维,对交换机知识有全面深入的了解。 (2)对比法 所谓对比法,就是利用现有的、相同型号的且能够正常运行的交换机作为参考对象,和故障交换机之间进行对比,从而找出故障点。这种方法简单有效,尤其是系统配置上的故障,只要简单的对比一下就能找出配置的不同点,但是有时要找一台型号相同、配置相同的交换机也不是件易事。 (3)替换法 这是我们最常用的方法,也是在维修电脑中使用率较高的方法。替换法是指使用正常的交换机部件来替换可能有故障的部件,从而找出故障点的方法。它主要用于硬件故障的诊断,但需要注意的是替换的部件必须是相同品牌、相同型号的同类交换机所有。 华夏网管Www.ofAdmin.Com 为了使排障工作有章可循,我们可以在故障分析时,按照以下的原则来分析。 (1)由远到近 由于交换机的一般故障(如:端口故障)都是通过所连接计算机而发现的,所以经常从客户端开始检查。我们可以沿着客户端计算机端接模块水平线缆跳线交换机这样一条路线,逐个检查,先排除远端故障的可能。 (2)由外而内 如果交换机存在故障,我们可以先从外部的各种指示灯上辨别,然后根据故障指示,再来检查内部的相应的部件是否存在问题。比如:POWER LED为绿灯表示电源供应正常,熄灭表示没有电源供应;LINK LEDs为黄色表示现在该连接工作在10Mbps,绿色表示为100Mbps,熄灭表示没有连接,闪烁表示端口被管理员手动关闭;RDP LED表示冗余电源;MGMT LED表示管理模块。无论能否从外面得出故障所在,都必须登录交换机以确定具体的故障所在,并进行相应的排障措施。 (3)由软到硬 网管Www.ofAdmin.Com 谁都不想动不动就拿螺丝刀去先拆了它再说,所以在检查时,总是先从系统配置或系统软件上着手进行排查。如果软件上不能解决问题,那就是硬件有问题了。比如:某端口不好用,那我们可以先检查用户所连接的端口是否不在相应的VLAN中,或者该端口是否被其他的管理员关闭,或者配置上的其他原因。如果排除了系统和配置上的各种可能,那就可以怀疑到真正的问题所在硬件故障上。 华夏 (4)先易后难 在遇到故障分析所得的可能性较多、较杂时,必须先从通过简单操作或配置来着手排除。这样可以加快故障排除的速度,提高效率。 由于交换机故障现象多种多样,没有固定的排障步骤,而有的故障往往具有明确的方向性,一眼就能识别得出。所以只能根据具体情况具体分析,我们将在后面的故障处理中具体说明故障分析和处理的方法。 通过这次经历,我们发现由于系统原因(可能是自动协商算法不一样或其他不明原因),交换机与客户机网卡(NIC)之间的自动协商功能重新协商反复在100Mbps全双工与10Mbps全双工之间切换的数据速率,无法稳定的按照某一模式传输,导致处理数据速度下降。 估计这种故障也不是太常见的,毕竟自适应标准已经制定很多年了。交换机的自适应功能在大多数情况下会发挥自如。不过,如果你发现有什么不妥,便可以检查一下是否是这方面的问题。 华夏网管Www.ofAdmin.Com 从上面的例子可以看出:我们在设置交换机参数时,一定要参考服务器和工作站上的网卡参数,将交换机端口及相应的主机网卡设置成相应的速度和工作模式匹配,或都设置成自动协商模式,尽量能使各个设备匹配工作。 故障一:环路问题 这个故障发生在一个学生计算机机房,共有65台计算机(一台教师机、64台学生机)。所有计算机使用三台堆叠的某品牌的国产交换机接入网络。某天上课时教师发现,所有的计算机(都使用WINDOWS98操作系统)都不能上网,而且计算机也变得很慢,连鼠标动起来都很慢。据了解,前一天上最后一课时,还都正常的,而第二天上午上第一节计算机课时,就不行了。在昨天最后一课到第二天最早一课这段时间内没有人用过机房,除了清洁工。 从对了解到的情况分析,计算机设置或者中毒的可能性不大。因为除教师机外,所有的学生机都安装了硬盘保护卡,重启计算机后都会自动还原。唯一会中毒的,就是教师机了。经过教师机的杀毒软件升级并查毒后,也没有发现病毒。而且把计算机的网线拔掉后,系统就运行正常了。网线一插上,系统又变慢。即使交换机重启后,也没有用。 现在的重点怀疑对象就是所有计算机共同使用的交换机了。会不会是交换机的故障呢?来到设备间,观察三台交换机的状态,所有端口的ACT(ACTIVE)指示灯亮着,但不闪烁。从产品说明书上得知,这种状态说明有可能是网络中存在环路,如果要避免环路,启用STP协议即可。仅仅这样观察,也看不出哪里有什么毛病,索性登录上去看个究竟。把笔记本(使用WINDOWSXP操作系统)的网卡用一根直连线接上主控交换机(COMMANDER)的其中一个端口,使用常用的WEB管理方式登录交换机,但是出现连接超时现象,没有出现系统变慢的情况。这个现象应该和机房的学生机一样,只不过学生机是WIN98,对此故障的反应有所区别。而今只有通过厂商提供的CONSOLE电缆建立超级终端了。成功联机后登录交换机,速度也很慢,每发出一个指令,大概需要56秒钟才能给出回应。 就这样,勉勉强强的在交换机上找到了STP选项,结果发现这三台交换机的STP均未启用。如果启用STP后,能够消除故障现象,则说明网络中真是存在网络环路。接着又花了一段时间启用了交换机的STP功能。故障真的消失了。 华夏 现在问题已经明确,网络中肯定存在环路,从而导致广播风暴或者MAC地址表不稳定等问题,影响网络中数据的正常传输。如果启用STP,固然能够防止环路的产生,但启用STP后,会消耗交换机的系统资源,一定程度上会降低效率。一般情况下,出于要保证网络链路的稳定性,出了正在使用的链路外,设置了另外的连接以作备份。这种情况需要启用STP防止环路的出现。而在这个单独的机房,没有必要设置备份链路。所以最好要找到导致环路的原因,取消STP功能。那怎么找出环路所在呢? 华夏 把机房的所有计算机关闭,且关闭电源。这样计算机网卡上就没有电了,相连接的交换机的端口也就不会亮了。到了设备间后,发现主控交换机上的18端口和21端口同时亮着,这就表明18和21这两个端口被连接并形成回路。赶忙找来施工布线图,经查得知,这两个端口所连接的模块正是教师机桌子下面的其中两个。再回到学生机房,看到教师机的桌子下共有4个模块,教师机只是使用了其中的一个模块,而且又有一根直连线连接着其中的另外两个。本来这根直连线是作为教师机的备份连线使用的,其中一端已经连接在模块上,另一端没有接任何设备。估计是清洁工在打扫卫生时,以为自己碰掉了一根网线,所以故作聪明的将该线的另外一端插进了一个未使用的模块中。就是这一个小小的错误,让我忙活了半天的时间。 从这个故障排除的过程来看,我们在面对各种故障现象时,如果遇到多种可能,尽量通过仔细分析,排除较小的可能,以最快的速度来定位故障、解决故障。 故障二:系统默认导致的故障 某公司为了升级网络设备,将原来的某A品牌接入交换机更换为B品牌的交换机。而升级后却发现除部分使用固定IP地址的计算机能够正常上网外,其他使用DHCP获得地址的计算机均不能成功获得IP地址。原来使用DHCP的计算机如果改为固定IP,则可以上网。而在升级之前,均没有问题。需要说明的是,所有计算机的操作系统都是Windows98。 在网络升级时遇到的问题,通常是新产品和原先没有升级的设备的兼容性问题。由于这次升级只是更换了交换机,所以我们就可以集中在交换机上进行故障分析。为了排除交换机外部因素的干扰,我们首先检查了DHCP服务器,因为理应通过动态分配而得到地址的计算机却不能正常得到。经过仔细的对DHCP服务器的检查后,没有发现任何故障。 检查交换机的各项配置、MAC地址表、ARP表,也没有发现异常现象。排障处于停顿状态。无计可施的情况下,拨通了产品供应商的电话。笔者在咨询了产品工程师后得知,交换机的端口开机后,有一个从Bloking(阻断)、Listening(监听)、Learning(学习)到Forwarding(转发)这几个状态的转换过程。也就是说交换机端口并不是一连接上计算机就立即处于转发状态。而错误就可能出现在这里,因为Windows98的计算机在启动时,需要发送数据给DHCP,进行地址租用,此时的交换机端口却是Bloking状态而不能通信,故不能成功分配到IP地址。 如果要防止此类问题的再次出现,可以有一个解决方法。那就是改变该型交换机的端口设置,使之一加电,就处于转发状态。这个设置只需要在管理窗口中,添加一个相应的命令即可。 IT技术网Www.ofAdmin.Com 在处理某些特殊问题时,如果你自己没有经验,也要学会向别人学习,积累自己的经验。否则,你会无从下手,浪费时间、人力甚至财力。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!