系统故障分析与排查.ppt

上传人:max****ui 文档编号:6257905 上传时间:2020-02-20 格式:PPT 页数:36 大小:532.31KB
返回 下载 相关 举报
系统故障分析与排查.ppt_第1页
第1页 / 共36页
系统故障分析与排查.ppt_第2页
第2页 / 共36页
系统故障分析与排查.ppt_第3页
第3页 / 共36页
点击查看更多>>
资源描述
1 第九章系统故障分析与排查 2 课程回顾 如何判断一个文件是否存在 如何进行整数变量的四则运算 if语句从结构上分为哪几类 for while until在循环流程上有何区别 3 技能展示 熟悉常见的日志文件及分析方法会解决常见的启动登录类故障会解决常见的软件包安装类故障会解决常见的文件系统 磁盘类故障熟悉常见的系统性能监控方法 4 本章结构 日志分析及管理 主要日志文件 修复文件系统 日志文件分析 磁盘资源耗尽故障 日志管理策略 系统启动类故障排除 文件系统 磁盘类故障排除 MBR扇区故障 etc inittab文件丢失 rpm数据库损坏 缺少 so类文件 软件包类故障排除 检测硬盘坏道 无法卸载已挂载设备 查看CPU负载 查看系统性能状况 查看内存使用情况 GRUB引导故障 etc fstab文件丢失 遗忘root用户的密码 磁盘I O性能监控 系统故障分析与排查 5 日志分析及管理 日志的功能用于记录系统 程序运行中发生的各种事件通过阅读日志 有助于诊断和解决系统故障日志文件的分类内核及系统日志由系统服务syslog统一进行管理 日志格式基本相似用户日志记录系统用户登录及退出系统的相关信息程序日志由各种应用程序独立管理的日志文件 记录格式不统一 6 日志分析及管理 日志保存位置默认位于 var log目录下主要日志文件介绍内核及公共消息日志 var log messages计划任务日志 var log cron系统引导日志 var log dmesg邮件系统日志 var log maillog用户登录日志 var log lastlog var log secure var log wtmp var run utmp 7 内核及系统日志 由系统服务syslogd统一管理软件包 sysklogd 1 4 1 39 2主要程序 sbin klogd sbin syslogd配置文件 etc syslog conf root localhost grep v etc syslog conf grep v info mail none authpriv none cron none var log messagesauthpriv var log securemail var log maillogcron var log cron 设备类别 日志级别 消息发送位置 8 内核及系统日志 日志消息的级别0EMERG 紧急 会导致主机系统不可用的情况1ALERT 警告 必须马上采取措施解决的问题2CRIT 严重 比较严重的情况3ERR 错误 运行出现错误4WARNING 提醒 可能会影响系统功能的事件5NOTICE 注意 不会影响系统但值得注意6INFO 信息 一般信息7DEBUG 调试 程序或系统调试信息等 数字越小 表示优先级越高 问题越严重 9 root localhost tail 5 var log messagesSep1411 22 44localhostkernel sdb cachedataunavailableSep1411 22 44localhostkernel sdb assumingdrivecache writethroughSep1411 22 44localhostkernel sdb sdb1Sep1411 23 37localhostkernel VFS Can tfindext3filesystemondevsdb1 Sep1416 54 48localhostNetworkManager starting 内核及系统日志 日志记录的一般格式 10 用户日志分析 保存了用户登录 退出系统等相关信息 var log lastlog 最近的用户登录事件 var log wtmp 用户登录 注销及系统开 关机事件 var run utmp 当前登录的每个用户的详细信息 var log secure 与用户验证相关的安全性事件分析工具who w user last ac 11 程序日志分析 由相应的应用程序独立进行管理Web服务 var log httpd access log error log代理服务 var log squid access log cache log squid out store logFTP服务 var log xferlog 分析工具文本查看 grep过滤检索 Webmin管理套件中查看awk sed等文本过滤 格式化编辑工具Webalizer Awstats等专用日志分析工具 12 日志管理策略 及时作好备份和归档延长日志保存期限控制日志访问权限日志中可能会包含各类敏感信息 如账户 口令等集中管理日志便于日志信息的统一收集 整理和分析杜绝日志信息的意外丢失 恶意篡改或删除 13 日志管理策略 应用示例 调整syslogd服务设置 建立集中管理的日志服务器将客户机B中crond服务产生的日志消息 自动发送到服务器A的 var log cron文件中 root localhost vi etc sysconfig syslogSYSLOGD OPTIONS r x m0 root localhost vi etc syslog confcron 173 17 17 3 14 修复MBR扇区故障 故障原因病毒 木马等造成的破坏不正确的分区操作 磁盘读写误操作故障现象找不到引导程序 启动中断无法加载操作系统 开机后黑屏解决思路应提前作好备份文件以RHEL5安装光盘引导进入急救模式从备份文件中恢复 15 修复MBR扇区故障 应用示例 1 备份MBR扇区数据ddif dev sdaof backup sda mbr bakbs 512count 12 模拟MBR被破坏的故障ddif dev zeroof dev sdabs 512count 13 RHEL5光盘引导 进入急救模式boot linuxrescue4 从备份文件中恢复MBR扇区ddif tempdir sda mbr bakof dev sdabs 512count 1 16 修复GRUB引导故障 故障原因MBR中的GRUB引导程序遭到破坏grub conf文件丢失 引导配置有误故障现象系统引导停滞 显示 grub 提示符解决思路尝试手动输入引导命令进入急救模式 从备份中恢复grub conf向MBR扇区中重建grub程序 17 修复GRUB引导故障 应用示例1 在 grub 提示符后 手动输入引导命令成功进入系统后 恢复或重建grub conf配置文件 grub root hd0 0 grub kernel vmlinuz 2 6 18 8 el5roroot dev VolGroup00 LogVol00rhgbquietgrub initrd initrd 2 6 18 8 el5 imggrub boot root localhost cd boot grub root localhost cpgrub conf bakgrub conf 从备份文件恢复 18 修复GRUB引导故障 应用示例2 进入急救模式 从备份文件中恢复grub conf文件向MBR扇区中重建GRUB程序 sh 3 1 chroot mnt sysimagesh 3 1 cd boot grub sh 3 1 cpgrub conf bakgrub confsh 3 1 grub install dev sda 19 etc inittab文件丢失 故障原因inittab文件被误删除 或者存在配置错误故障现象启动中提示 INIT Noinittabfilefound 系统停滞 无法完成初始化解决思路进入急救模式 从备份文件中恢复或者 在急救模式中重新安装initscripts软件包rpm ivh replacepkgsinitscripts 8 45 14 EL i386 rpm 20 etc fstab文件丢失 故障原因fstab文件被误删除 或者存在配置错误故障现象启动中提示 etc fstab Nosuchfileordirectory 系统停滞 无法完成初始化解决思路进入急救模式 手动查找并挂载根分区查找逻辑卷 lvmvgscan激活指定的逻辑卷 lvmvgchange ay dev VolGroup00恢复或重建fstab配置文件 21 遗忘root用户的密码 故障原因遗忘root用户的密码故障现象无法进行需要root权限的管理操作若没有其他可用帐号 将无法登录系统解决思路引导进入单用户模式 然后重设密码grub kernel single或s或1或进入急救模式 然后重设密码 22 小结 请思考 Linux系统中最常用的公共日志文件是什么 负责管理内核日志的系统服务是什么 如何进入单用户模式 使用RHEL5光盘引导时 如何进入修复模式 如何向MBR中重建GRUB程序 23 软件包类故障 rpm数据库损坏 故障原因非正常关机 误删除运行中的程序文件RPM数据文件被误写或删除故障现象不能正常查询rpm包信息无法安装 升级或卸载软件包等解决思路重建RPM数据库rpm rebuilddb或rpm initdb 24 软件包类故障 缺少 so类文件 故障原因软件正常运行所需要的依赖包没有安装系统找不到依赖包的 so共享链接库故障现象无法正常编译 安装或运行软件报错提示 缺少 so文件 解决思路确认已安装能提供相应 so共享库的软件包添加库文件搜索路径 并更新缓存 root localhost vi etc ld so conf usr local mysql lib mysql root localhost ldconfig 25 修复损坏的文件系统 故障原因非正常关机 突然断电 设备读写失误等文件系统的超级块 super block 信息被破坏故障现象无法向分区中读取或写入数据启动后提示 Giverootpasswordformaintenance 解决思路根据提示输入root口令 进入修复状态使用fsck命令进行修复 26 修复损坏的文件系统 应用示例 模拟对 dev sdb1分区的破坏操作ddif dev zeroof dev sdb1bs 512count 4检查是否能挂载该分区报错 mount youmustspecifythefilesystemtype对 dev sdb1分区进行修复fsck ytext3 dev sdb1再次挂载该分区 27 磁盘资源耗尽故障 故障原因磁盘空间已被大量的数据占满 空间耗尽虽然还有可用空间 但文件数i节点耗尽故障现象无法写入新的文件 提示 设备上没有空间 部分程序无法运行 甚至系统无法启动解决思路清理磁盘空间 删除无用 冗余的文件转移或删除占用大量i节点的琐碎文件进入单用户模式 急救模式进行修复为用户设置磁盘配额 28 无法卸载已挂载的设备 故障原因需要卸载的设备正在被使用故障现象无法卸载设备 提示 deviceisbusy 解决思路将工作目录切换到挂载点以外退出正在使用该设备的程序或使用fuser命令找出相关进程 并终止该进程 root localhostmnt fuser mv media cdromUSERPIDACCESSCOMMAND media cdrom root3297 c bash root localhostmnt fuser k media cdrom 29 检测硬盘中的坏道 故障原因磁盘设备中存在坏道 逻辑的或物理的 故障现象部分文件无法正常访问 提示文件损坏新建立的分区无法完成格式化访问磁盘设备时死机 磁盘发出异常声响解决思路检测硬盘中是否存在坏道mkfs text3 c dev sdb1或badblocks sv dev sdb1修复硬盘 或更换新的硬盘 30 系统性能监控 查看CPU负载 执行uptime命令运行时间 登录用户数 CPU平均负载查看 proc loadavg文件CPU平均负载 活动进程数 总数 最近进程的PID root localhost uptime05 33 11up7 22 2users loadaverage 0 04 0 09 0 08 root localhost cat proc loadavg0 150 030 014 8425697 31 系统性能监控 查看内存使用情况 vmstat命令报告系统虚拟存储使用情况 包括内存使用信息free命令显示系统的物理内存和交换空间的使用情况 root localhost vmstatprocs memory swap io system cpu rbswpdfreebuffcachesisobiboincsussyidwast0003042802708414584400298100720029800 root localhost freetotalusedfreesharedbufferscachedMem 515600211320304280027264145852 buffers cache 38204477396Swap 104856801048568 32 系统性能监控 磁盘I O性能监控 iostat命令用于查看系统磁盘I O统计信息由软件包sysstat 7 0 0 3 el5 i386 rpm提供sysstat还提供了mpstat命令 用于显示进程负载信息 root localhost iostat dkt5Linux2 6 18 8 el5 localhost localdomain 2009年05月24日Time 16时17分49秒Device tpskB read skB wrtn skB readkB wrtnsda1 2815 126 5416718372314sdb0 8311 951 9513218221526dm 02 4014 956 5416532572312dm 10 010 040 004560hdc0 020 070 007460 root localhost mpstatLinux2 6 18 8 el5 localhost localdomain 2009年05月25日05时18分11秒CPU user nice sys iowait irq soft steal idleintr s05时18分11秒all0 450 021 933 080 020 070 0094 431010 03 33 本章结构 日志分析及管理 主要日志文件 修复文件系统 日志文件分析 磁盘资源耗尽故障 日志管理策略 系统启动类故障排除 文件系统 磁盘类故障排除 MBR扇区故障 etc inittab文件丢失 rpm数据库损坏 缺少 so类文件 软件包类故障排除 检测硬盘坏道 无法卸载已挂载设备 查看CPU负载 查看系统性能状况 查看内存使用情况 GRUB引导故障 etc fstab文件丢失 遗忘root用户的密码 磁盘I O性能监控 系统故障分析与排查 34 实验案例 日志管理及系统故障修复 需求描述基于syslog构建集中管理的日志服务器保存另一台Linux主机的cron日志信息备份磁盘sda的MBR扇区 并学会MBR的恢复过程系统故障模拟及修复通过单用户模式进入Linux系统 重设root帐号的密码将 etc inittab etc fstab文件改名 重启后进行修复通过重新安装GRUB引导程序的方式 修复GRUB引导故障使用uptime free iostat等命令查看主机的性能状况 35 实验案例 日志管理及系统故障修复 实现思路任务1 基于syslog构建集中管理的日志服务器日志服务器需修改 etc sysconfig syslog文件 SYSLOGD OPTIONS r x m0 日志客户机需修改 etc syslog conf文件 cron 173 17 17 3均需重新加载syslog服务 然后进行验证备份磁盘sda的MBR扇区 并学会MBR的恢复过程使用dd命令时要谨慎确认 以免发生数据损坏备份的目标文件应保存到不同的磁盘中 36 实验案例 日志管理及系统故障修复 实现思路任务2 系统故障模拟及修复通过单用户模式进入Linux系统 重设root帐号的密码将 etc inittab etc fstab文件改名 重启后进行修复通过重新安装GRUB引导程序的方式 修复GRUB引导故障使用uptime free iostat等命令查看主机的性能状况参考教材中的示例 熟悉各种故障分析及排除过程
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!