资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,实用文档,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,实用文档,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,实用文档,DELL 存储,常见存储管理、故障处理和注意事项,DELL 存储常见存储管理、故障处理和注意事项,常见故障原因,经验表明,造成客户存储故障的外部原因主要有以下几种:,存储内部错误的开关机顺序。,机头或扩展柜的速率开关处于错误的位置。,不规范的软硬件升级。,对存储子系统进行破坏性操作。,不规范的故障修复操作。,维护过程中触发了相关的隐患。,存储系统没有冗余的配置方案。,常见故障原因经验表明,造成客户存储故障的外部原因主要有以下几,开关机步骤,开机:,SAN交换机,EXP磁盘扩展柜,主控柜,主机,关机:,主机,主控柜,EXP磁盘扩展柜,SAN交换机,不正确的开关机顺序可能会导致部分硬盘离线以及数据无法访问。,注意:在,DS5000,按下电源按钮关机后,在控制器代码和所有电源灯熄灭前绝对不能进行任何操作!,开关机步骤开机:,管理软件,Storage Manager,客户端管理软件,连接方式如下:,将装有Storage Manager Client客户端软件的工作站,通过以太网Hub或Switch,同时连接到DS4000/DS5000的两个控制器。,打开Storage Manager Client客户端软件,控制器有一个出厂默认的IP地址:控制器A/B:,192.168.128.101/102,(控制器A/B:,192.168.129.101/102,),管理软件Storage Manager客户端管理软件,存储子系统状态标识,存储子系统状态标识,管理界面-企业主管理界面,管理界面-企业主管理界面,管理界面子系统管理界面,管理界面子系统管理界面,子系统部件标识,子系统部件标识,故障检测按钮,使用“Recovery Guru”故障检测按钮检查DS4000/DS5000子系统的整体状态,“,听诊器,”,故障检测按钮使用“Recovery Guru”故障检测按钮,故障检测按钮,正常,故障,故障检测按钮正常,控制器和扩展柜的硬件状态,点击物理硬盘右侧的状态检查按钮,可以打开查看具体部件的硬件工作状态,控制器和扩展柜的硬件状态 点击物理硬盘右侧的状态检查按钮,可,查看控制器信息,选择“Storage Subsystem Menu”,“View”,“,Profile”,查看控制器信息 选择“Storage Subsystem M,故障数据收集,收集,All Support Data,菜单:Advanced-Troubleshooting-Collect All Support Data.,故障数据收集收集 All Support Data,故障数据收集,查看,Major Event Log,菜单:Advanced-Troubleshooting-View Event Log,故障数据收集查看Major Event Log,故障数据收集,查看链路信号噪音检测报告,菜单:Advanced-Troubleshooting-Run Diagnostics-Read Link Status,故障数据收集查看链路信号噪音检测报告,电池和缓存,电池和缓存的设计原理,为了保证写缓存数据的安全性,DS4000/DS5000系统中,只要电池发生故障(处于Failed状态)或者超过微码所规定的设计寿命,那么写缓存就会被自动禁用,为了保证写缓存数据的安全性,默认两个控制器的Cache Mirroring写缓存镜像功能是打开的。因此当一个控制器的写缓存被禁用之后,另外一个控制器的写缓存也不能使用了。,电池和缓存电池和缓存的设计原理,电池和缓存,写缓存禁用之后的故障现象,主机端应用程序响应变慢,从topas检查主机性能指标,I/O waiting显著增加,每个逻辑盘的busy接近100%,但是IO吞吐量很小,每秒只有几十K到1M不等:,电池和缓存写缓存禁用之后的故障现象,电池和缓存,电池的更换策略,如果电池当前是处于“Failed”或“Removed”状态,如果电池当前状态正常,只是接近或已超过告警寿命,电池和缓存电池的更换策略,在,AIX,上使用,MPIO,的一些注意事项,AIX版本5.2以上,除了原有的集成的RDAC功能以外,操作系统还新增了MPIO的功能来实现外部磁盘的多通路访问。AIX 5.2/5.3默认是使用RDAC,而AIX6.1默认是使用MPIO。,RDAC,和,MPIO,的兼容性,DS3000,:只支持 MPIO,DS4000,:支持方式:RDAC,MPIO,DS5000,:支持方式:MPIO(DS5000在AIX上不再支持RDAC),在AIX上使用MPIO的一些注意事项AIX版本5.2以上,除,在,AIX,上使用,MPIO,的一些注意事项,如何在,AIX,上确认当前正在使用,MPIO,还是,RDAC,在AIX中执行“manage_disk_drivers”,以下是一个当前使用MPIO的例子:,#manage_disk_drivers,1:DS4300:currently MPIO;supported:RDAC/fcparray,MPIO,2:DS4500:currently MPIO;supported:RDAC/fcparray,MPIO,3:DS4700/DS4200:currently MPIO;supported:RDAC/fcparray,MPIO,4:DS4800:currently MPIO;supported:RDAC/fcparray,MPIO,以下是一个当前使用RDAC的例子:,1:DS4300:currently RDAC/fcparray;supported:RDAC/fcparray,MPIO,2:DS4500:currently RDAC/fcparray;supported:RDAC/fcparray,MPIO,3:DS4700/DS4200:currently RDAC/fcparray;supported:RDAC/fcparray,MPIO,4:DS4800:currently RDAC/fcparray;supported:RDAC/fcparray,MPIO,在AIX上使用MPIO的一些注意事项如何在AIX上确认当前正,在,AIX,上使用,MPIO,的一些注意事项,如何检查当前磁盘的工作路径,RDAC:fget_config-Av,MPIO:mpio_get_config-Av,在AIX上使用MPIO的一些注意事项如何检查当前磁盘的工作路,常见故障处理和注意事项,控制器微码是不是有重大隐患的版本?,06.23.05.00,:,隐患一:当某个控制器内存校验出错时,故障控制器无法正确的被隔离offline,从而导致逻辑盘LUN不能切换到好的控制器上,主机访问中断。,隐患二:DS4800写缓存被禁用,主机写性能大幅度下降,从而影响业务。,07.10.23.00,:,隐患一:更换故障硬盘后,之前已经接管的热备盘无法CopyBack,隐患二:Media Scan被自动禁用,常见故障处理和注意事项,常见故障处理和注意事项,EXP,扩展柜的,ESM,微码版本有没有重大隐患?,EXP710,的,ESM,的微码隐患(,9681,以下版本),当一块硬盘故障时,MEL里面显示Fiber Channel Link up和Link down的Event,发生大面积的多块硬盘的同时故障,客户数据访问中断。,EXP810,和,EXP420,的,ESM,的微码隐患(,98D0,以下版本),当一块硬盘故障时,MEL里面显示Fiber Channel Link up和Link down的Event,发生大面积的多块硬盘的同时故障,客户数据访问中断。,常见故障处理和注意事项EXP扩展柜的ESM微码版本有没有重大,常见故障处理和注意事项,要特别注意前面板右下方的(,2GB/4GB,)速率开关,是否处于正确的位置。速率开关处于,4GB,位置时,,2Gbps,的硬盘将不能被识别;相反速率开关处于,2GB,位置时,,4Gbps,的硬盘是可以使用的,但是性能将会下降。这种情况比较容易被忽视。速率开关的更改需要关机下电。注意:所有,3Gbps,的,SATA,硬盘,都推荐运行在,4Gbps,。,常见故障处理和注意事项,常见故障处理和注意事项,磁盘扩展柜的光纤连线符合,IBM,的规范。,在控制器有冗余的,光模块,条件下,建议将多个扩展柜连接在多个冗余环路上,尽量不要将所有的扩展柜串联在一个环路里。,常见故障处理和注意事项磁盘扩展柜的光纤连线符合IBM的规范。,常见故障处理和注意事项,只要使用了光纤交换机,做,Zone,是强制要求。每一个,Zone,必须只包含两个成员,一个对应主机的一张光纤卡的一个端口,另一个对应,DS4000/DS5000,的一个控制器的一个端口。,常见故障处理和注意事项,常见故障处理和注意事项,逻辑盘不在最优路径,“Logical Drive Not On Preferred Path”,。这个问题指的是DS4000/DS5000的逻辑盘(LUN)没有挂在原本所属的控制器下。,常见故障处理和注意事项逻辑盘不在最优路径“Logical D,常见故障处理和注意事项,原因分析:(主要有,6,点),从主机的光纤卡到,Logical Drive,的光纤物理链路有问题。,P-Series,主机的,dar0,的虚拟设备配置有问题,光纤交换机,fabric1,的,Zone,设置有问题。,主机光纤卡,HBA,和,DS4000/DS5000,控制器的主机端口,Host Port,之间的光纤连线方式不正确,没有符合,IBM,的规范。,控制器发生过重启,或者控制器已经,Offline,(离线),常见故障处理和注意事项原因分析:(主要有6点),常见故障处理和注意事项,检查的确认方法:(主要有,8,点),确认从主机的光纤卡到逻辑盘,Logical Drive,的物理链路是完全正常的。,查看光纤交换机相应的主机光纤卡端口和,DS4000/DS5000,控制器端口的状态灯,登陆主机,运行,“fget_config-Av”,确认,dar,的虚拟设备配置正常,确认光纤交换机的,Zone,设置没有问题。,确认主机光纤卡,HBA,和,DS4000/DS5000,控制器的主机端口,Host Port,之间的光纤连线方式是正确。,在,SM,客户端管理软件里面确认,DS4000/DS5000,的控制器状态正常,检查,DS4000/DS5000,内部的,Mapping,是否正确,确认,Linux,主机的,host type,是否正确。,常见故障处理和注意事项检查的确认方法:(主要有8点),常见故障处理和注意事项,恢复方法,在Storage Manager客户端管理软件里面运行:,Advanced,Recovery,Redistribute Logical Drives,在Storage Manager客户端管理软件里面,更改每一个逻辑盘Logical Drive的所属控制器,菜单:Logical Drive,Change,Ownership/Preferred Path,注意:在恢复之前,一定要确认从主机的光纤卡到,Logical Drive,的通道是完全正常的,只有在完全确认上述几种故障都已经解决之后,才能实施恢复。否则后果一定是灾难性的!,常见故障处理和注意事项恢复方法,常见故障处理和注意事项,Storage Manager,客户端软件不能连接和访问,DS4000/DS5000,的控制器,首先排除网络方面的问题,看看控制器的两位数字LED的显示是否正常,如果控制器的两位数字LED的显示在循环变化,或者Ping的时通时断,这时候可以通过串口连上控制器,观察并捕获屏幕的输出。,
展开阅读全文