资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大规模分布式计算,MapReduce,和,Hadoop,数据平台与产品部 少杰,变化正在进行,Agenda,分布式计算,分布式计算简介,MapReduce,应用现状,MapReduce,什么是,MapReduce,原理,系统视图,Hadoop,HDFS,MapReduce,分布式计算,需求:大规模数据,为什么使用分布式?,分布式计算,需求:成本?,为什么使用分布式?,分布式计算,并行化的尝试,在硬件工艺,/,技术不变的前提下,提升计算能力,更强大的硬件,对称多处理器,SMP,分布式共享内存,DSM,分布式系统,Share disk,Share nothing,A brief history,分布式计算,互联网应用的特殊性,I/O,操作强于计算操作,复杂异构的机器环境,变化的业务逻辑,新需求,分布式计算,MapReduce,分布式编程模型,互联网应用的大规模数据计算解决方案,MapReduce,分布式计算,MapReduce,的优势,简单一致性模型,本地,I/O,优化,扩展性,Why MapReduce wins?,分布式计算,应用现状,数据分析、报表,索引,商业智能服务,规模,淘宝,现状,分布式计算,总结,总结,分布式计算,BREAK,MapReduce,编程模型,游戏,什么是,MapReduce,?,分布式编程模型,What is MapReduce?,MapReduce,编程模型,MapReduce,语义,Map,:映射,空间变换,Reduce,:汇总,规约,MapReduce methodology,MapReduce,编程模型,MapReduce,数据结构,map(in_key,in_value)-list(out_key,intermediate_value),reduce(out_key,list(intermediate_value)-list(out_value),分布式算法的核心内容,MapReduce methodology,MapReduce,编程模型,系统视图,系统考量,容灾,扩展性,并行能力,Master-slave,结构,A systematic view,MapReduce,编程模型,系统视图,计算消耗,网络,I/O,磁盘,I/O,排序,Map/Reduce,计算,A systematic view,MapReduce,编程模型,系统视图,并行能力,子任务间并行,M/R,任务间并行,作业间并行,A systematic view,MapReduce,编程模型,范例,web,点击日志统计:,PV/UV,词频统计,海量数据排序,表,Join,Discuss,MapReduce,编程模型,MapReduce,能做?,日志分析,商业智能分析,客户营销,大规模索引,MapReduce,不能:,在线应用,复杂依赖逻辑(循环、递归?),MapReduce,的数据倾斜问题,What MapReduce can do&cant do,MapReduce,编程模型,总结,总结,MapReduce,编程模型,Break,Hadoop,开源分布式系统实现,系统栈,What is?,系统,Hadoop,组件,Mimic of,?,文件系统(,DFS,),HDFS,GFS,MapReduce,计算框架,MapReduce,MapReduce,锁服务,ZooKeeper,Chubby,RPC,Avro,ProtocolBuffer*,高级语言,/,工作流支持,Hive/Pig/Cascading,Sawzaw*,实时(,KV,)存储,HBase/HyperTable,BigTable,Hadoop,Hadoop,的历史,2003 Google,发表有关,MapReduce,论文,2005 Nutch,迁移到,MapReduce,实现,2006.1 Doug Cutting,加入,Yahoo,!,2006.2 Yahoo,从,Nutch,中剥离出,MapReduce,并开始使用,Hadoop,2007.1 Yahoo,组建,1000+,节点的,Hadoop,集群,2008.1 Hadoop,成为,Apache TLP,Hadoop:a brief history,Hadoop,HDFS:,分布式文件系统,设计原则,硬件错误是常态而不是异常,流式数据访问,大规模数据集,简单的一致性模型,“移动计算比移动数据更划算”,异构软硬件平台间的可移植性,HDFS,Hadoop,HDFS,特性,大容量,高容错性,高吞吐量,HDFS,数据模型,包,块,文件,HDFS,Hadoop,MapReduce:,分布式计算框架,语言支持,Java,C+(through pipes),script languages(through streaming),调度模型,tasks,jobs,groups,MapReduce,Hadoop,编写,MapReduce,逻辑,Java,mapper/reducer/combiner,partitioner,inputformat/outputformat,Streaming,高级语言实现,Hive,Pig,MapReduce,Hadoop,总结,总结,
展开阅读全文