RS6000系统日常管理培训

上传人:gp****x 文档编号:243138316 上传时间:2024-09-16 格式:PPT 页数:66 大小:446.50KB
返回 下载 相关 举报
RS6000系统日常管理培训_第1页
第1页 / 共66页
RS6000系统日常管理培训_第2页
第2页 / 共66页
RS6000系统日常管理培训_第3页
第3页 / 共66页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,日常管理与故障处理,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,内容提要,系统健康检查,故障的处理,IBM 服务热线,系统健康检查,系统健康检查,机房环境检查,电源线的母头是否为左零右火电压值是否为240V,零地电压是否小于1V,温度(摄氏 ),10 40,湿度(%),8% 80%,查看硬件情况,检查设备故障灯,一般为橙色并有 标志。,有没有异常声响,如硬盘、风扇等。,有没有破损的电缆等,系统健康检查,检查文件系统,查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。,# df -k (查看AIX的基本文件系统),1024-blocks Free %Used Iused %Iused Mounted on,/dev/hd4 24576 1452,95%,2599 22% /,/dev/hd2 614400 28068 96% 22967 15% /usr,/dev/hd9var 8192 4540 45% 649 32% /var,/dev/hd3 167936 157968 6% 89 1% /tmp,/dev/hd1 16384 5332 68% 1402 35% /home,系统健康检查,除/usr文件系统,其他文件系统都不应太满,一般不超过80%。,处理方法1:找出(删除)垃圾文件,# du -sk * |sort r n |head,查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。,系统健康检查,处理方法2:增加文件系统大小,# smitty chjfs,文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。,检查文件系统的完整性,# umount,# fsck,# fsck -y,注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。,系统健康检查,查看卷组信息,lsvg -l vg_name,有没有stale状态的逻辑卷。,用syncvg 命令修复。# smitty syncvg,LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT,hd5 boot 1 2 2 closed/syncd N/A,hd6 paging 48 96 2 open/syncd N/A,paging00 paging 32 64 2 open/syncd N/A,hd8 jfslog 1 2 2 open/syncd N/A,hd4 jfs 1 2 2 open/syncd /,hd2 jfs 32 64 2 open/syncd /usr,hd9var jfs 5 10 2 open/syncd /var,hd3 jfs 4 8 2 open/syncd /tmp,hd1 jfs 1 2 2 open/syncd /home,系统健康检查,检查内存交换区(paging space)使用率,# lsps -s,使用率不要超过70%。,增加交换区,或增加内存。,观察内存大小的命令:lsattr El mem0,#lsps -s,Total Paging Space Percent Used,2048MB 15%,#lsps a,Page Space Physical Volume Volume Group Size %Used Active Auto Type,hd6 hdisk0 rootvg 2048MB 15 yes yes lv,系统健康检查,网络检查,netstat -i 查看网卡状态,Ierrs/Ipkts 和 Oerrs/Opkts是否1%,ping host_name /IP Address,查看是否通和是否有丢包。,路由表,#netstat -rn,查看路由表是否正确,ping 各路由器是否通。,核 对 主 机 名,#hostname,系统健康检查,#ifconfig -a,en0: flags=4e080863,inet 172.40.10.31 netmask 0xffff0000 broadcast 172.40.255.255,lo0: flags=e08084b,inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255,inet6 :1/0,#ifconfig 用法,ifconfig en0 inet 11.0.0.1 up,ifconfig en0 ns 110:02.60.8c.2c.a4.98 up,(还有很多),系统健康检查,#lsattr El inet0,authm 65536 Authentication Methods True,hostname qtsms Host Name True,gateway Gateway True,route net,0,172.40.10.1,Route True,bootup_option no Serial Optical Network Interface True,rout6 FDDI Network Interface True,route属性是否有相应的路由信息。格式为:net,0,172.16.23.81,如果没有缺省路由,执行命令:,#chdev l inet0 a route=0,172.16.23.81,其中172.16.23.81为网关,如果缺省路由不正确,则先删除路由,再增加缺省路由:,#chdev l inet0 a delroute= net,0,133.16.23.81,#chdev l inet0 a route=0,172.16.23.81,系统健康检查,检查dump设置,#sysdumpdev l,primary /dev/hd6,secondary /dev/sysdumpnull,copy directory /var/adm/ras,forced copy flag TRUE,always allow dump FALSE,dump compression OFF,若不正确请用下列命令修改:,#sysdumdev P p /dev/hd6 s /dev/sysdumpnull,系统健康检查,系统故障记录(errorlog),errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息,故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析,errpt 命令的使用(普通用户权限也可使用),系统健康检查,系统健康检查,系统健康检查,系统健康检查,发给root的mail信息,# mail,# mail f ;查看已经存起来的邮件,# Ctrl+d ; 存盘退出,存在/var/spool/Mail目录下,每个用户一个文件,# mhmail; 将邮件另存至/Mail/inbox目录下,每个邮件一个文件,系统会定期将PD的结果以邮件形式发送给root,比errlog更详细准确。,系统健康检查,磁带机,磁带机应定期清洁,每使用30小时(8mm20GB为72小时)或至少每月清洁一次,不要等故障灯亮起后再清洁。,不同类型的带机用要不同的清洗带,不要混用。,用 /usr/lpp/diagnostics/bin/utape -c -d rmt0 -n 可查看磁带机使用时数。,4mm DDS3磁带机可读写DDS2,但对DDS1只能读。,8mm20GB磁带机只能读5GB和7GB磁带,而且在读过低密度磁带后需要清洗,所以最好不要使用低密度磁带。需要清洗时液晶板上有提示信息。,系统健康检查,磁盘阵列状态检查(ssa disk),如果在errlog或mail中发现了ssa的报错,则进入smitty ssaraid详细观察,系统健康检查,Listing All Defined SSA RAID Arrays,COMMAND STATUS,Command: OK stdout: yes stderr: no,Before command completion, additional instructions may appear below.,hdisk3 095231779F0737K good 3.4G RAID-5 array,hdisk4 09523173A02137K good 3.4G RAID-5 array,F1=HelpF2=Refresh F3=Cancel F6=CommandF8=Image,F9=Shell F10=Exit /=Findn=Find Next,系统健康检查,Listing or Identifying SSA Physical Disk Drives,系统健康检查,ssa 在 errlog 中的报错形式,Open Link; 不一定是故障,Resource Unavailable;,Pdisk error;,Others.,pdisk 的状态,Good, Failed,Free, System, Array Candidate, Hotspare, Rejected,ssa raid的状态,Good, Exposed, Degraded, Rebuilding, Offline,常用操作,常用操作,-系统备份,系统备份,除每日进行正常的用户数据备份外,建议定期进行系统备份。,备份前先停止业务系统软件和HACMP 软件的运行。其他无关的用户退出 ,停止无关的操作。,系统备份只备份 ROOTVG,除系统 基本的5个文件系统外,其他 ROOTVG上已 mount 上的文件系统也会被备份。,用 smitty mksysb 命令进行系统备份,备份前先清掉root的密码。,每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。,常用操作,-系统备份,Back Up the System,Type or select values in entry fields.,Press Enter AFTER making all desired changes.,TOP Entry Fields,WARNING: Execution of the mksysb command will,result in the loss of all material,previously stored on the selected,output medium. This command backs,up only rootvg volume group.,* Backup DEVICE or FILE /dev/rmt0 +/,Create MAP files? no +,EXCLUDE files? no +,List files as they are backed up? no +,Generate new /image.data file? yes +,EXPAND /tmp if needed? yes +,Disable software packing of backup? no +,MORE.2,F1=Help F2=Refresh F3=Cancel F4=List,Esc+5=Reset Esc+6=Command Esc+7=Edit Esc+8=Image,Esc+9=Shell Esc+0=Exit Enter=Do,常用操作,-系统备份,检查系统备份带是否有效,用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。出现以下菜单后,关机即可。,Welcome to Base Operating System,Installation and Maintenance,Type the number of your choice and press Enter., 1 Start Installation Now with Default Settings,2 Change/Show Installation Settings and Install,3 Start Maintenance Mode for System Recovery,88 Help ?,99 Previous Menu,常用操作,-系统备份,#smitty lsmksysb;检查系统备份带的内容。,系统备份不是万能的。备份最好有两份。,用户数据备份,文件系统可用 tar 命令,切记不要使用绝对路径。,数据库可用数据库的备份方式备。,逻辑卷(LV)可用dd 命令。,smitty savevg 用户卷组备份,只备份mount起的文件系统。,注意:不备份逻辑卷(裸设备) 。,常用操作,-系统备份,磁带机卡带子时可尝试RESET磁带机。,按住磁带机的弹出按钮1530秒, 直到磁带机液晶面板显示RESET。磁带RESET后磁带应能弹出。(此方法仅适用于8mm20GB磁带机),# diag -cd rmt0,# tctl -f /dev/rmt0 reset,如果上述方法均不奏效,则只有重起机器。,常用操作,-镜像,镜像(rootvg),lspv, lsvg l rootvg, lsvg rootvg, lsvg p rootvg,lslv m lv_name, lsvg M rootvg,extendvg f rootvg hdisk1,chvg a y Q n rootvg,mirrorvg S rootvg hdisk0 hdisk1,bosboot a l /dev/hd5 d /dev/hdisk1,bootlist m normal hdisk0 hdisk1,syncvg v rootvg,常用操作,-镜像,拆镜像(rootvg),lsvg M rootvg ; 检查有效的pv, 确认hdisk1坏,unmirrorvg rootvg hdisk1,bosboot a d /dev/hdisk0,bootlist m normal hdisk0 cd0,mkboot c d /dev/hdisk1,sysdumpdev l ; 检查dump所在的lv(缺省hd6),sysdumpdev P p /dev/hd6;,reducevg rootvg hdisk1,rmdev dl hdisk1,shutdown -Fr,常用操作,-HACMP的操作,HACMP的操作,启动:smitty clstart,停止:smitty clstop,启动/停止过程可以查看/tmp/hacmp.out文件:#tail f /tmp/hacmp.out,检查,Cluster,是否运行正常,Cluster进程是否运行:#lssrc g cluster,至少两个进程,且为active。,IP地址是否获取:#netstat i,看boot IP是否变为service ip。,VG是否varyon:#lsvg o,文件系统是否mount:#mount,应用进程是否启动:#ps ef | grep app_name,常用操作,-HACMP的操作,HACMP相关日志,/usr/adm/cluster.log;,以事件为单位的纪录,/tmp/hacmp.out;,详细记录,/usr/sbin/cluster/history/cluster.,mmdd,;,历史纪录,常用操作,-dump设置,dump的有关设置,估算系统dump的大小,在系统最繁忙时(内存使用最多),# sysdumpdev -e,0453-041 Estimated dump size in bytes: 53477376,# lsps -a,Page Space Physical Volume Volume Group Size %Used Active,paging00 hdisk0 rootvg 480MB 1 yes,hd6 hdisk1 rootvg 544MB 1 yes,当前的设置,#sysdumpdev -l,primary /dev/hd6- dump的主设备,secondary /dev/sysdumpnull,copy directory /var/adm/ras Access a Root Volume Group, Access this volume group and start a shell,before mounting the ,故障处理,-,系统停在551,555或557,格式化文件系统日志(jfslog),# /usr/sbin/logform /dev/hd8,检查修复文件系统,# fsck -y /dev/hd1 (/home 文件系统),# fsck -y /dev/hd2(/usr 文件系统),# fsck -y /dev/hd3(/tmp 文件系统),# fsck -y /dev/hd4(/ 文件系统),# fsck -y /dev/hd9var(/var 文件系统),. .,用 exit 命令退出,文件系统会自动 mount 起来。,重建bootimage,# lslv -m hd5 找出bootimage所在的硬盘,如hdisk0,# bosboot -ad /dev/hdisk0,# bootlist -m normal /dev/hdisk0 重建启动顺序表。,故障处理,-,系统停在551,555或557,重启动系统,# shutdown -Fr,如上述步骤不奏效,用系统备份带恢复系统。,如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。,通知IBM工程师。,故障处理,-,主控台不能登录,字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。如果不行则可能是getty进程运行不正常。,远程 telnet 登录,检查getty进程是否运行正常,# ps -ef |grep console,root 29170 1 0 Jul 24 lft0 0:00 /usr/sbin/getty /dev/console,如getty正常,查看主控台端口是否正确,# lscons查看主控台设备,/dev/tty0,# lsdev -C -l tty0查看端口是否可用,连线是否正确,tty0 Available 01-S1-00-00 Asynchronous Terminal,# lsattr -El tty0 看端口参数是否正确,如波特率,故障处理,-,主控台不能登录,如getty没有运行在主控台上,检查/etc/inittab文件有否,cons:0123456789:respawn:/etc/getty /dev/console,更正后运行init Q 命令激活主控端口。,如getty确实在运行,则可能是终端的硬件问题。,故障处理,-,CDE图形界面挂死,CDE 运行时不要更改网络参数(如:主机名和IP 地址),更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。,如CDE 已经挂死,远程 telnet 登录,找出所有dt有关的进程用kill命令杀掉,# ps -ef |grep dt,. .,# kill PID,检查当前主机名,# hostname uname -a,tscf50,故障处理,-,CDE图形界面挂死,查看主机名是否对应有效的IP地址,# netstat -i |grep tscf50,tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0,更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。,# smitty tcpip,重新启动CDE界面,# /etc/rc.dt,HACMP环境下可把主机名alias到127.0.0.1上,# cat /etc/hosts,127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg,故障处理,-,系统dump,发生在系统崩溃时,AIX会做dump(系统内存的快照)。,此时机器会显示闪动的888 102 xxx 0cx 代码:,0c9系统dump 进行中。0c9状态可能会维持超过2分钟,,不要关电和按reset, 等待dump做完。,0c0dump 成功完成,这时可以断电重起。,0c2 手动启动dump 功能,0c4dump 设备空间不足,只有部分信息保存下来,0c5 不明原因导致dump 失败 mostly hdisk or sysplaner error,故障处理,-,系统dump,一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。,故障处理,-,系统dump,dump打包,# snap -a -o /dev/rmt#或,# snap -a -c,把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsupt,#smitty dump,故障处理,-,诊断程序(Diag)的使用,运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。,当发现有硬件故障时应立即使用diag,#diag, 选高级诊断(Advance Diagnostic), 选问题诊断(Problem Determination) 或,选系统检查(System Verification),(选PD 会对系统错误记录进行分析),diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。,对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。,故障处理,-,诊断程序(Diag)的使用,concurrent 模式,多用户模式下(系统正常运行时)运行硬盘上的诊断程序。如果可能尽量使用该模式(但不要在应用程序运行时使用)。,# diag运行该命令需要root权限,Stand-alone 模式,用硬盘上的诊断程序,在机器启动时钥匙打到Service 位置(MCA机型)或按F6/6(PCI机型)。系统启动后自动运行诊断程序。,Diagnostic CDROM,用诊断光盘启动,通常在硬盘无法启动时使用。,故障处理,-,诊断程序(Diag)的使用,故障处理,-,诊断程序(Diag)的使用,故障处理,-,诊断程序(Diag)的使用,定时的mail报错信息的处理,每天定时收到mail报错信息,而所指的硬件确实是好的。这种情况经常发生在系统意外掉电后,或更换设备后没有运行诊断程序。,处理方法,#diag,选高级诊断(Advanced Diagnostics Routines),选系统检查(System Verfication),选mail里所指的设备,如果报电源、风扇故障,选择,sysplanar0 进行检查。,如果硬件确实没有问题,诊断程序会提示该设备曾,经有出错信息,问是否已更换或更正?选中该设备,按F7 确认。,退出诊断程序,如果还是继续收到mail,通知IBM,故障处理,-,诊断程序(Diag)的使用,故障处理,-,诊断程序(Diag)的使用,IBM 服务热线,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!