0923show大数据与hbase实践413312

上传人:痛*** 文档编号:244397822 上传时间:2024-10-04 格式:PPTX 页数:42 大小:1.40MB
返回 下载 相关 举报
0923show大数据与hbase实践413312_第1页
第1页 / 共42页
0923show大数据与hbase实践413312_第2页
第2页 / 共42页
0923show大数据与hbase实践413312_第3页
第3页 / 共42页
点击查看更多>>
资源描述
按一下以編輯母片標題樣式,123,按一下以編輯母片文字樣式,123,第二層,第三層,第四層,第五層,1,按一下以編輯母片標題樣式,123,按一下以編輯母片文字樣式,123,第二層,第三層,第四層,第五層,#,#,大数据与,hbase,应用,关于,hadoop,与,hbase,的介绍和开发应用,周勇沂,2014,年,10,月,16,日,目 录,2,大数据与,HADOOP,介绍,1,HDFS,介绍,2,Hbase,介绍,3,Hbase,应用,4,3,1、WINDOWS进程间通信方式,第一章 大数据与,HADOOP,介绍,第一章,HADOOP,介绍,4,1,、大数据的背景与定义,日益信息化的时代,5,大数据的定义与特征,“Big data is data that exceeds the processing capacity of conven,ti,onal database systems”,OReilly Radar,“What Is Big Data?”,January 2012,所谓大数据,就是用现有的一般技术难以管理的大量数据的集合,-,野村综合研究所,大数据顺应大规模信息化到新阶段而诞生的,数据库革命性运动,NoSQL(NoSQL=Not Only SQL),不同的,NoSQL,场景不同,可比性不高,原则:,解放思想,事实求是,6,巨量,GB,TB,PB,EB,Daily Historical,种类多,Web,APP,Social Network,Email,半结构,XML,Log,Clickstream,xDR,实时,Real-time,Near real-time,大数据的挑战,7,一个关系型数据库的表数据量上亿时,分区,分表,分库,导致上层复杂度提高,成本倍增,IO,天花板,非线性,单机计算,大数据对系统的需求,High performance,高并发读写的需求,高并发、实时动态获取和更新数据,Huge Storage,海量数据的高效率存储和访问的需求,类似,SNS,社会性网络服务网站,海量用户信息的高效率实时存储和查询,High Scalability&High Availability,高可扩展性和高可用性的需求,需要拥有快速横向扩展能力、提供,7*24,小时不间断服务,8,第一章,HADOOP,介绍,9,2,、,HADOOP,起源和特点,Hadoop的创立和演进,10,谷歌三大论文GFS(2003),Sanjay Ghemawat(美国工程院士),(GFS,MR,Bigtable),Howard Gobioff,Shun-Tak Leung,map/reduce(2004),Dean Jeffrey(美国工程院士)(Adsense,pb,News,Code search),Sanjay Ghemawat,Bigtable(2006),Fay Chang,Dean JeffreySanjay Ghemawat.,Doug Cutting和Yahoo,Lucene -Nutch -Hadoop,大数据主要应用技术,Hadoop,可扩展,:,不论是存储的可扩展还是计算的可扩展都是,Hadoop,的设计根本。,经济,:,框架可以运行在任何普通的,PC,上。,可靠,:,分布式文件系统的备份恢复机制以及,MapReduce,的任务监控保证了分布式处理的可靠性。,高效,:,分布式文件系统的高效数据交互实现以及,MapReduce,结合,Local Data,处理的模式,为高效处理海量的信息作了基础准备,11,大数据主要应用技术,Hadoop,Hadoop,作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。,Apache Hadoop,是一个用,java,语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和,PB,级别的数据。,Hadoop,是项目的总称,主要是由分布式存储(,HDFS,)、分布式计算(,MapReduce,)等组成,12,Hadoop解决了什么难题?,13,简单地想想看,假设我们需要读一个,10TB,的数据集,怎么办,?,在传统的系统上,这需要很长时间,因为硬盘的传输,速度是受限的。一个简单的办法是将数据存储在多个磁盘上,同时,从多个磁盘并行读取数据,这将大大减少读取时间,Hadoop的基本概念,14,分布式存储HDFS,文件分块,自行备份,分布式计算Map/Reduce,函数式设计(,map/reduce,),第一章,HADOOP,介绍,15,3,、,MapReduce,Hadoop解决了什么难题?,16,化整为零,分片处理;,本地化计算,并行IO,降低网络通信,MapReduce,映射、化简编程模型,17,1.,根据输入数据的大小和参数的设置把数据分成,splits,每个,split,对于一个,map,线程。,2.Split,中的数据作为,Map,的输入,,Map,的输出一定在,Map,端。,3.Map,的输出到,Reduce,的输入的过程,(shuffle,过程,),:,第一阶段:在,map,端完成内存,-,排序,-,写入磁盘,-,复制,第二阶段:在,reduce,端完成映射到,reduce,端分区,-,合并,-,排序,4.Reduce,的输入到,Reduce,的输出,最后排好序的,key/value,作为,Reduce,的输入,输出不一定是在,reduce,端。,MapReduce,是一种编程模型,用于大规模数据集的并行运算。,Map,(映射)和,Reduce,(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由,MapReduce,框架完成,不需要编程人员关心这些内容。,18,1、WINDOWS进程间通信方式,第二章,HDFS,介绍,HDFS,分布式文件系统,19,NameNode,可以看作是分布式文件系统中的管理者,存储文件系统的,meta-data,,主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。,DataNode,是文件存储的基本单元。它存储文件块在本地文件系统中,保存了文件块的,meta-data,,同时周期性的发送所有存在的文件块的报告给,NameNode,。,Client,就是需要获取分布式文件系统文件的应用程序。,HDFS,是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。,HDFS,特点,20,可扩展,只需添加服务器,健壮性,高度容错性,文件删除恢复机制,机架感知,数据冗余,副本机制,负载均衡,适合流式访问,一次写入,多次读取,默认块大小,64MB,,适合,PB,级以上数据的存储和处理,MapReduce,分布式计算框架,利用存储节点的,CPU,资源,HDFS,优缺点,21,HDFS,优点:,适合大数据处理(支持,GB,,,TB,,,PB,级别的数据存储,支持百万规模以上的文件数量),适合批处理(支持离线的批量数据处理,支持高吞吐率),高容错性(以数据块存储,可以保存多个副本,容易实现负载均衡),HDFS,缺点:,小文件存取(占用,namenode,大量内存),,1,百万个文件,至少,300M,内存,不支持并发写入(同一时刻只能有一个进程写入,不支持随机修改),多用户写入,任意修改文件,低延时(几十毫秒),它是为高数据吞吐量设计的,HDFS,分布式文件系统,22,HDFS,架构分析,HDFS,分布式文件系统,23,HDFS,分布式文件系统,24,HDFS,文件读取流程,HDFS,分布式文件系统,25,文件写入流程,26,1、WINDOWS进程间通信方式,第二章,HBASE,的介绍,Hbase,简介,27,来源于,Fay Chang,所撰写的,Google,论文“,Bigtable,”,HBase Hadoop Database,分布式存储系统,高可靠性,高性能,面向列,可伸缩,可在廉价,PC Server,上搭建,Hadoo,生态环境,28,底层,HDFS,为,HBase,提供了可靠的文件存储,Map Reduce,为它提供了高性能的计算,Pig,和,Hive,提供了,HBase,的查询功能,Hive,提供的方法类似与,SQL,语句,Sqoop,提供了,Hbase,与关系数据库的导入导出功能,Zookeeper,提供了协调以及,failover,功能,.,Hbase,架构,29,1,商品目录就是一张大表,(Bigtable),,由商品编号,(key),和装商品的木箱,(ColumnFamily,列族,),组成。,2,一个编号下商品,(,如某辆单车的零件,),,最好只用一种规格箱子就装完,但某些零件大小差别过大,不得不使用多种箱子,(,多个列族,),3,此大型超市总部,(HMaster),以楼层为租赁的基本单位,每层成为一个销售分区,(HRegion),。此大型超市租用了好多栋分布在全球各地的购物大楼,(HRegionserver),,并托管了商品的存储和搬运。超市总部,(HMaster),只管理到销售分区,(HRegion),并记录在一张地址本上,(,放在内存上,),4,每层楼销售分区,(HRegion),都放一定范围编号的商品,如果这个范围编号的商品过多了,就会再租多一层楼来存储(分裂,),HBase,架构,30,4,,购物大楼,(HRegionserver),只有一个大门口负责登记人员进出,(Hlog);,进门后可以通往各个层楼,每个楼层就是一个销售分区,(HRegion),5,,关于一个销售分区,(Hregion),a,每层楼根据商品木箱,(,列族,ColumnFamily),的规格多少,分为多个专卖店,(Store),b,每个专卖店,(Sotre),由促销仓,(,放内存上的,Memstore),和,0,个或多个普通仓,(,放,hfile,上的,Sotrefile),组成,HRegionServer,入库过程简介,31,Hstore,分流简介,32,Client,写入,-,存入,MemStore,,一直到,MemStore,满,-Flush,成一个,StoreFile,,直至增长到一定阈值,-,出发,Compact,合并操作,-,多个,StoreFile,合并成一个,StoreFile,,同时进行版本合并和数据删除,-,当,StoreFiles Compact,后,逐步形成越来越大的,StoreFile-,单个,StoreFile,大小超过一定阈值后,触发,Split,操作,把当前,Region Split,成,2,个,Region,,,Region,会下线,新,Split,出的,2,个孩子,Region,会被,HMaster,分配到相应的,HRegionServer,上,使得原先,1,个,Region,的压力得以分流到,2,个,Region,上,hfile,文件格式,33,hfile,文件由,6,部分组成:,data block,,,meta block(,可选,),,,file info,,,data block index,,,meta block index,,,trailer,。,data block,存储了表数据,,meta block,存储了布隆过滤器索引数据,,file info,存储了本文件的相关信息,,index,存储了,datablock,和,metablock,的索引数据,,trailer,存储了本文件的相关信息。,34,1、WINDOWS进程间通信方式,第三章,HBASE,的应用,HBase Shell,35,名称,命令表达式,创建表,create,表名称,列名称,1,列名称,2,列名称,N,添加记录,put,表名称,行名称,列名称,:,值,查看记录,get,表名称,行名称,查看表中的记录总数,count,表名称,删除记录,delete,表名,行名称,列名称,删除一张表,先要屏蔽该表,才能对该
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!