AIX系统日常维护管理ppt课件

上传人:钟*** 文档编号:2896125 上传时间:2019-12-04 格式:PPT 页数:66 大小:1.69MB
返回 下载 相关 举报
AIX系统日常维护管理ppt课件_第1页
第1页 / 共66页
AIX系统日常维护管理ppt课件_第2页
第2页 / 共66页
AIX系统日常维护管理ppt课件_第3页
第3页 / 共66页
点击查看更多>>
资源描述
1,内容提要,系统健康检查 常用操作 故障的处理 IBM 服务热线,2,系统健康检查,3,系统健康检查,机房环境检查 电源线的母头是否为左零右火电压值是否为240V 零地电压是否小于1V 温度(摄氏 ) 10 40 湿度(%) 8% 80% 查看硬件情况 检查设备故障灯,一般为橙色并有 标志。 有没有异常声响,如硬盘、风扇等。 有没有破损的电缆等,系统健康检查,检查文件系统 查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。,# df -k (查看AIX的基本文件系统) Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% / /dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home,5,系统健康检查,除/usr文件系统,其他文件系统都不应太满,一般不超过80%。 处理方法1:找出(删除)垃圾文件 # du -sk * |sort r n |head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重起系统。,6,系统健康检查,处理方法2:增加文件系统大小 # smitty chjfs 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。 检查文件系统的完整性 # umount filesystem_name # fsck filesystem_name # fsck -y filesystem_name 注意:文件系统必须先umount,再做检查和修复,否则可导致未知的后果。,7,系统健康检查,查看卷组信息 lsvg -l vg_name 有没有“stale“状态的逻辑卷。 用syncvg 命令修复。# smitty syncvg,LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT hd5 boot 1 2 2 closed/syncd N/A hd6 paging 48 96 2 open/syncd N/A paging00 paging 32 64 2 open/syncd N/A hd8 jfslog 1 2 2 open/syncd N/A hd4 jfs 1 2 2 open/syncd / hd2 jfs 32 64 2 open/syncd /usr hd9var jfs 5 10 2 open/syncd /var hd3 jfs 4 8 2 open/syncd /tmp hd1 jfs 1 2 2 open/syncd /home,8,系统健康检查,检查内存交换区(paging space)使用率 # lsps -s 使用率不要超过70%。 增加交换区,或增加内存。 观察内存大小的命令:lsattr El mem0,#lsps -s Total Paging Space Percent Used 2048MB 15% #lsps a Page Space Physical Volume Volume Group Size %Used Active Auto Type hd6 hdisk0 rootvg 2048MB 15 yes yes lv,9,系统健康检查,网络检查 netstat -i 查看网卡状态 Ierrs/Ipkts 和 Oerrs/Opkts是否1% ping host_name /IP Address 查看是否通和是否有丢包。 路由表 #netstat -rn 查看路由表是否正确,ping 各路由器是否通。 核 对 主 机 名 #hostname,10,系统健康检查,#ifconfig -a,en0: flags=4e080863 inet 172.40.10.31 netmask 0xffff0000 broadcast 172.40.255.255 lo0: flags=e08084b inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255 inet6 :1/0,#ifconfig 用法 ifconfig en0 inet 11.0.0.1 up ifconfig en0 ns 110:02.60.8c.2c.a4.98 up (还有很多),11,系统健康检查,#lsattr El inet0,authm 65536 Authentication Methods True hostname qtsms Host Name True gateway Gateway True route net,0,172.40.10.1 Route True bootup_option no Serial Optical Network Interface True rout6 FDDI Network Interface True route属性是否有相应的路由信息。格式为:net,0,172.16.23.81 如果没有缺省路由,执行命令: #chdev l inet0 a route=0,172.16.23.81 其中172.16.23.81为网关 如果缺省路由不正确,则先删除路由,再增加缺省路由: #chdev l inet0 a delroute= net,0,133.16.23.81 #chdev l inet0 a route=0,172.16.23.81,12,系统健康检查,检查dump设置 #sysdumpdev l primary /dev/hd6 secondary /dev/sysdumpnull copy directory /var/adm/ras forced copy flag TRUE always allow dump FALSE dump compression OFF 若不正确请用下列命令修改: #sysdumdev P p /dev/hd6 s /dev/sysdumpnull,13,系统健康检查,系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用),14,系统健康检查,15,系统健康检查,16,系统健康检查,17,系统健康检查,发给root的mail信息 # mail # mail f ;查看已经存起来的邮件 # Ctrl+d ; 存盘退出,存在/var/spool/Mail目录下,每个用户一个文件 # mhmail; 将邮件另存至/Mail/inbox目录下,每个邮件一个文件 系统会定期将PD的结果以邮件形式发送给root,比errlog更详细准确。,18,系统健康检查,磁带机 磁带机应定期清洁,每使用30小时(8mm20GB为72小时)或至少每月清洁一次,不要等故障灯亮起后再清洁。 不同类型的带机用要不同的清洗带,不要混用。 用“ /usr/lpp/diagnostics/bin/utape -c -d rmt0 -n“ 可查看磁带机使用时数。 4mm DDS3磁带机可读写DDS2,但对DDS1只能读。 8mm20GB磁带机只能读5GB和7GB磁带,而且在读过低密度磁带后需要清洗,所以最好不要使用低密度磁带。需要清洗时液晶板上有提示信息。,19,系统健康检查,磁盘阵列状态检查(ssa disk) 如果在errlog或mail中发现了ssa的报错,则进入smitty ssaraid详细观察,系统健康检查,Listing All Defined SSA RAID Arrays COMMAND STATUS Command: OK stdout: yes stderr: no Before command completion, additional instructions may appear below. hdisk3 095231779F0737K good 3.4G RAID-5 array hdisk4 09523173A02137K good 3.4G RAID-5 array F1=Help F2=Refresh F3=Cancel F6=Command F8=Image F9=Shell F10=Exit /=Find n=Find Next,21,系统健康检查,Listing or Identifying SSA Physical Disk Drives,系统健康检查,ssa 在 errlog 中的报错形式 Open Link; 不一定是故障 Resource Unavailable; Pdisk error; Others. pdisk 的状态 Good, Failed Free, System, Array Candidate, Hotspare, Rejected ssa raid的状态 Good, Exposed, Degraded, Rebuilding, Offline,23,常用操作,24,常用操作-系统备份,系统备份 除每日进行正常的用户数据备份外,建议定期进行系统备份。 备份前先停止业务系统软件和HACMP 软件的运行。其他无关的用户退出 ,停止无关的操作。 系统备份只备份 ROOTVG,除系统 基本的5个文件系统外,其他 ROOTVG上已 mount 上的文件系统也会被备份。 用 smitty mksysb 命令进行系统备份,备份前先清掉root的密码。 每当系统作变更(安装新软件、补丁程序等)前后,都需要做系统备份。,25,常用操作-系统备份,Back Up the System Type or select values in entry fields. Press Enter AFTER making all desired changes. TOP Entry Fields WARNING: Execution of the mksysb command will result in the loss of all material previously stored on the selected output medium. This command backs up only rootvg volume group. * Backup DEVICE or FILE /dev/rmt0 +/ Create MAP files? no + EXCLUDE files? no + List files as they are backed up? no + Generate new /image.data file? yes + EXPAND /tmp if needed? yes + Disable software packing of backup? no + MORE.2 F1=Help F2=Refresh F3=Cancel F4=List Esc+5=Reset Esc+6=Command Esc+7=Edit Esc+8=Image Esc+9=Shell Esc+0=Exit Enter=Do,26,常用操作-系统备份,检查系统备份带是否有效 用备份带启动机器,但不要进行安装,我们只是验证系统备份带是否能用于启动。出现以下菜单后,关机即可。 Welcome to Base Operating System Installation and Maintenance Type the number of your choice and press Enter. 1 Start Installation Now with Default Settings 2 Change/Show Installation Settings and Install 3 Start Maintenance Mode for System Recovery 88 Help ? 99 Previous Menu,27,常用操作-系统备份,#smitty lsmksysb ; 检查系统备份带的内容。 系统备份不是万能的。备份最好有两份。 用户数据备份 文件系统可用 tar 命令,切记不要使用绝对路径。 数据库可用数据库的备份方式备。 逻辑卷(LV)可用dd 命令。 smitty savevg 用户卷组备份 只备份mount起的文件系统。 注意:不备份逻辑卷(裸设备) 。,28,常用操作-系统备份,磁带机卡带子时可尝试RESET磁带机。 按住磁带机的弹出按钮1530秒, 直到磁带机液晶面板显示RESET。磁带RESET后磁带应能弹出。(此方法仅适用于8mm20GB磁带机) # diag -cd rmt0 # tctl -f /dev/rmt0 reset 如果上述方法均不奏效,则只有重起机器。,29,常用操作-镜像,镜像(rootvg) lspv, lsvg l rootvg, lsvg rootvg, lsvg p rootvg, lslv m lv_name, lsvg M rootvg extendvg f rootvg hdisk1 chvg a y Q n rootvg mirrorvg S rootvg hdisk0 hdisk1 bosboot a l /dev/hd5 d /dev/hdisk1 bootlist m normal hdisk0 hdisk1 syncvg v rootvg,30,常用操作-镜像,拆镜像(rootvg) lsvg M rootvg ; 检查有效的pv, 确认hdisk1坏 unmirrorvg rootvg hdisk1 bosboot a d /dev/hdisk0 bootlist m normal hdisk0 cd0 mkboot c d /dev/hdisk1 sysdumpdev l ; 检查dump所在的lv(缺省hd6) sysdumpdev P p /dev/hd6; reducevg rootvg hdisk1 rmdev dl hdisk1 shutdown -Fr,31,常用操作-HACMP的操作,HACMP的操作 启动:smitty clstart 停止:smitty clstop 启动/停止过程可以查看/tmp/hacmp.out文件:#tail f /tmp/hacmp.out 检查Cluster是否运行正常 Cluster进程是否运行:#lssrc g cluster,至少两个进程,且为active。 IP地址是否获取:#netstat i,看boot IP是否变为service ip。 VG是否varyon:#lsvg o 文件系统是否mount:#mount 应用进程是否启动:#ps ef | grep app_name,32,常用操作-HACMP的操作,HACMP相关日志 /usr/es/adm/cluster.log; 以事件为单位的纪录 /tmp/hacmp.out; 详细记录 /usr/sbin/cluster/history/cluster.mmdd; 历史纪录,33,常用操作-dump设置,dump的有关设置 估算系统dump的大小,在系统最繁忙时(内存使用最多) # sysdumpdev -e 0453-041 Estimated dump size in bytes: 53477376 # lsps -a Page Space Physical Volume Volume Group Size %Used Active paging00 hdisk0 rootvg 480MB 1 yes hd6 hdisk1 rootvg 544MB 1 yes 当前的设置 #sysdumpdev -l primary /dev/hd6 - dump的主设备 secondary /dev/sysdumpnull copy directory /var/adm/ras - dump拷贝的目录 forced copy flag TRUE always allow dump TRUE hd6应比估算值稍大。,34,常用操作-dump设置,/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时会提示用户插入磁带。 dump文件名为vmcore.# 建立一个新的dump设备 #smitty lv 例如:lv_name= dump_lv, type=sysdump #sysdumpdev P p /dev/dump_lv,35,故障处理,36,故障处理-故障的定义,弄清楚系统发生了什么问题 系统现在能做什么?不能做什么? 故障什么时候发生的? 有没有做平时不同的操作? 故障有没有规律?定时还是不定时?发生的频率有多高? 是一台机器出现故障还是多台机器故障?故障现象是否相同? 最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置(如 HACMP配置)等 。,37,故障处理-故障信息的收集,收集故障信息对于判断、诊断故障原因,修复系统非常重要。 系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息 故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用),38,故障处理-故障信息的收集,控制面板上的LED 代码 8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。(注:S85正常启动过程中有合法的8位代码。) 4 位代码,通常是Exxx。 3 位代码,通常为0yyy,只看后3位。 8 位和4位代码可查看系统服务手册 (Service Guide)。 3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。,39,故障处理-故障信息的收集,控制面板上的LED 代码 查看Diagnostic Information for Multiple Bus Systems手册,故障处理-故障信息的收集,控制面板上的LED 代码 (续) 闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。 888-102 一般为软件故障(888-102-207 例外) 系统会产生一个dump。 888-102-xxx-0C9 系统正在做dump, 请等待。 888-102-xxx-0C0 系统dump完成,可关电重启。 888-103 或 105 硬件故障,一般有 SRN 代码及位置代码。,41,故障处理-故障信息的收集,SMS (System Management Service) 故障记录 如何进入SMS 菜单 当主控台出现键盘图标后(LED 显示E1F1时)按F1键。字符终端按1键。(X80 机型则无论是字符主控还是图形主空台,一律按键盘左上角的1键) 选择“Utilities“,选择“Error Log“, 抄下8位故障代码 在SMS 中还可以更改系统启动顺序表 #mail 系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root,42,故障处理-故障信息的收集,其他用于收集系统信息的命令 lsdev -C 系统设备信息 #lsdev -Cc disk hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息 #lspv hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg lsvg 查看卷组信息,43,故障处理-故障信息的收集,44,故障处理-故障信息的收集,45,故障处理-故障信息的收集,46,故障处理-系统不能启动,系统不能正常启动可能由多种原因引起,硬件或软件。 观察系统的启动过程。 设备的故障灯是否亮起。 异常的声音,如硬盘的怪声。 注意LED上显示的代码,这是故障分析最重要的信息。 主控台上最后显示的信息也很重要,必须记录下来。 alog -ot 系统的启动顺序,47,故障处理-系统不能启动,48,故障处理-系统不能启动,系统停在Stage 1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。 系统停在Stage 2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS 菜单检查启动顺序表,并修改。 若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。 若根本没有SCSI设备可选则链路有问题。 系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。,故障处理-系统停在551,555或557,发生在系统启动的第三阶段 (Stage 3),可能是: 文件系统损坏 文件系统日志(jfslog)损坏 rootvg中有坏硬盘 修复方法 用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致) 启动后选择选项3 “Start Maintenance Mode for System Recovery“ “Access a Root Volume Group“ “Access this volume group and start a shell before mounting the file systems“,50,故障处理-系统停在551,555或557,格式化文件系统日志(jfslog) # /usr/sbin/logform /dev/hd8 检查修复文件系统 # fsck -y /dev/hd1 (/home 文件系统) # fsck -y /dev/hd2 (/usr 文件系统) # fsck -y /dev/hd3 (/tmp 文件系统) # fsck -y /dev/hd4 (/ 文件系统) # fsck -y /dev/hd9var (/var 文件系统) . . 用 exit 命令退出,文件系统会自动 mount 起来。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盘,如hdisk0 # bosboot -ad /dev/hdisk0 # bootlist -m normal /dev/hdisk0 重建启动顺序表。,51,故障处理-系统停在551,555或557,重启动系统 # shutdown -Fr 如上述步骤不奏效 用系统备份带恢复系统。 如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。 通知IBM工程师。,52,故障处理-主控台不能登录,字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。如果不行则可能是getty进程运行不正常。 远程 telnet 登录 检查“getty“进程是否运行正常 # ps -ef |grep console root 29170 1 0 Jul 24 lft0 0:00 /usr/sbin/getty /dev/console 如“getty“正常,查看主控台端口是否正确 # lscons 查看主控台设备 /dev/tty0 # lsdev -C -l tty0 查看端口是否可用,连线是否正确 tty0 Available 01-S1-00-00 Asynchronous Terminal # lsattr -El tty0 看端口参数是否正确,如波特率,53,故障处理-主控台不能登录,如“getty“没有运行在主控台上,检查/etc/inittab文件有否 cons:0123456789:respawn:/etc/getty /dev/console 更正后运行“init Q“ 命令激活主控端口。 如getty确实在运行,则可能是终端的硬件问题。,54,故障处理-CDE图形界面挂死,CDE 运行时不要更改网络参数(如:主机名和IP 地址) 更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。 如CDE 已经挂死 远程 telnet 登录 找出所有dt有关的进程用kill命令杀掉 # ps -ef |grep dt . . # kill PID 检查当前主机名 # hostname uname -a tscf50,55,故障处理-CDE图形界面挂死,查看主机名是否对应有效的IP地址 # netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0 更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。 # smitty tcpip 重新启动CDE界面 # /etc/rc.dt HACMP环境下可把主机名alias到127.0.0.1上 # cat /etc/hosts 127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg,56,故障处理-系统dump,发生在系统崩溃时,AIX会做dump(系统内存的快照)。 此时机器会显示闪动的888 102 xxx 0cx 代码: 0c9 系统dump 进行中。0c9状态可能会维持超过2分钟, 不要关电和按reset, 等待dump做完。 0c0 dump 成功完成,这时可以断电重起。 0c2 手动启动dump 功能 0c4 dump 设备空间不足,只有部分信息保存下来 0c5 不明原因导致dump 失败 mostly hdisk or sysplaner error,57,故障处理-系统dump,一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。,故障处理-系统dump,dump打包 # snap -a -o /dev/rmt# 或 # snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够,可用-d directory 参数指定别的目录代替/tmp/ibmsupt #smitty dump,59,故障处理-诊断程序(Diag)的使用,运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。 当发现有硬件故障时应立即使用diag #diag 选高级诊断(Advance Diagnostic) 选问题诊断(Problem Determination) 或 选系统检查(System Verification) (选PD 会对系统错误记录进行分析) diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。 对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。,60,故障处理-诊断程序(Diag)的使用,concurrent 模式 多用户模式下(系统正常运行时)运行硬盘上的诊断程序。如果可能尽量使用该模式(但不要在应用程序运行时使用)。 # diag 运行该命令需要root权限 Stand-alone 模式 用硬盘上的诊断程序,在机器启动时钥匙打到Service 位置(MCA机型)或按F6/6(PCI机型)。系统启动后自动运行诊断程序。 Diagnostic CDROM 用诊断光盘启动,通常在硬盘无法启动时使用。,61,故障处理-诊断程序(Diag)的使用,62,故障处理-诊断程序(Diag)的使用,63,故障处理-诊断程序(Diag)的使用,定时的mail报错信息的处理 每天定时收到mail报错信息,而所指的硬件确实是好的。这种情况经常发生在系统意外掉电后,或更换设备后没有运行诊断程序。 处理方法 #diag 选高级诊断(Advanced Diagnostics Routines) 选系统检查(System Verfication) 选mail里所指的设备,如果报电源、风扇故障,选择 sysplanar0 进行检查。 如果硬件确实没有问题,诊断程序会提示该设备曾 经有出错信息,问是否已更换或更正?选中该设备 按F7 确认。 退出诊断程序,如果还是继续收到mail,通知IBM,64,故障处理-诊断程序(Diag)的使用,65,故障处理-诊断程序(Diag)的使用,66,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!