资源描述
,Click to edit Master title style,1/23/2019,#,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,2008,年加入阿里巴巴,云梯管理员,2011,年加入,SDO,负责搭建并维护,hadoop,集群,2012,年加入,ebay,自我介绍,自我介绍,1,hadoop,集群,搭建,监控,集群性,能调,优,Hadoop,如何被搞垮的,概要,hadoop集群搭建概要,2,Master,memory,磁盘,sas + raid10,active-backup bonding,IP alias,Hadoop,集群搭建,Hadoop集群搭建,3,Editlog,本地一份,,NFS,一份,NameQuota & SpaceQuota,权限控制,/tmp,Trash,Rack awareness,Namenode,EditlogNamenode,4,控制内存,mapred.jobtracker.maxtasks.per.job,mapred.jobtracker.retirejob.interval,pleteuserjobs.maximum,mapreduce.job.counters.limit,JobTracker,JobTracker,5,内存不能少于,Namenode,控制做,checkpoint,的次数及时间,fs.checkpoint.period,fs.checkpoint.size,SecondaryNamenode,SecondaryNamenode,6,Disk,2T * 12,ext4,noatime,定期更换坏磁盘,一次一台,网络,如果条件允许,做汇聚绑定(,mode 4 bonding),内存,24G,slave,Diskslave,7,内存:,map + reduce + tasktracker + datanode,网络,磁盘,注意,wio,确定,map & reduce,数,内存:确定map & reduce数,8,End to end,检测,hdfs,是否可用,是否能跑,map/reduce,10,分钟一次,fsck,GC,Full GC,监控,End to end监控,9,Tasktracker,& Datanode,数量,异常作业监控,大作业,读写数据特别多,运行时间特别长,监控,监控,10,GC,策略,Editlog,锁,调度,性能调优,性能调优,11,推荐使用,CMS,停顿时间短,http:/, -Xmx,GC,策略,GC策略,12,hadoop运维经验分享课件,13,所有更改,FSNamesystem,的,RPC Call,都需要等待,Editlog sync,到磁盘才能返回,Editlog,Editlog,14,减少持有锁的时间,减少锁频率,blockReport,减少锁粒度,使用读写锁,锁,减少持有锁的时间锁,15,调度效率,运行效率,Map locality,小作业,重要的作业,调度,调度效率调度,16,创建大堆小文件,创建大堆文件名非常长的文件,DDOS,Hadoop killer,Hadoop killer,17,大量的,job & tasks,使用大量的,counter,往标准输出和标准错误输出大量的信息,Hadoop killer,Hadoop killer,18,Hadoop bug,Linux,内核,bug,JVM bug,交换机故障,爬虫通过,job tracker web,端抓取,job history,文件,Session 30,分钟过期,导致内存暴涨,频繁,full gc,bugs,Hadoop bugbugs,19,误删除数据,误停止,master,IP alias,被抢,分发不完整的,hadoop-site.xml,到,slave,,导致作业失败,拔错硬盘,格错系统,人为错误,误删除数据人为错误,20,Q&A,hadoop运维经验分享课件,21,
展开阅读全文