大数据应用技术介绍

上传人:zha****an 文档编号:249302872 上传时间:2024-10-28 格式:PPTX 页数:38 大小:2.98MB
返回 下载 相关 举报
大数据应用技术介绍_第1页
第1页 / 共38页
大数据应用技术介绍_第2页
第2页 / 共38页
大数据应用技术介绍_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/2/25,#,单击此处编辑母版标题样式,大数据应用技术介绍,2014,年,2,月,Hadoop,生态系统,Hadoop,生态系统,Sub,Project,描述,common,分布式文件系统和通用,I/O,的组件与接口(序列化,,Java RPC,和持久化数据结构),Avro,支持高效的跨语言,RPC,和持久数据存储的序列化系统,MapReduce,分布式数据处理模型和执行环境,运行在大型商用机集群,HDFS,分布式文件系统,用于大型商用机集群,PIG,Pig,是,SQL-like,语言,是在,MapReduce,上构建的一种高级查询语言,把一些运算编译进,MapReduce,模型的,Map,和,Reduce,中,并且用户可以定义自己的功能。,Hive,分布式、按列存储的数据仓库。,Hive,管理,HDFS,中存储的数据,并提供基于,SQL,的查询语言(由运行时引擎翻译成,MapReduce,作业),Hbase,分布式、按列存储的数据库。,HBase,使用,HDFS,作为底层存储,同时支持,MapReduce,的批量式计算和点查询(随机读取),ZooKeeper,分布式、可用性高的协调服务。提供类似分布式锁的基础服务。,Sqoop,在数据库和,HDFS,之间高效传输数据的工具,Flume,分布式、可靠、和高可用的海量日志聚合的系统。,Chukwa,Chukwa,是基于,Hadoop,的大集群监控系统,由,yahoo,贡献。,Hadoop,介绍,HDFS,MapReduce,HDFS,特点,存储大文件,百兆以上级别文件,百万级文件由于亿级别文件,流式处理数据,一次写多次多模式,支持追加操作,廉价的硬件环境,普通,pc server,组成集群环境,HDFS,缺点,低延时读操作,高吞吐量而非低延时,Hbase,解决了这个问题,大量小数据文件,最好每个文件大于,100M,多次写,只支持一次写,只支持在文件尾部添加,不支持随机写,HDFS,部署结构,HDFS,读写过程,MapReduce,部署结构,JobTracker,管理集群资源和,Job,调度,TaskTracker,管理,Task,运行,MapReduce,计算模型,Input,k,1,v1,Map,k,2,v2,Reduce,k3,v3,Output,MapReduce,扩,展,展,接,接,口,口,InputFormat,Mapper,Partitioner,Reducer,OutputFormat,Map,Reduce,MapReduce,实,例,例,MapReduce,内,部,部,结,结,构,构,Hadoop2.0,引,入,入,一,一,个,个,新,新,的,的,资,资,源,源,管,管,理,理,系,系,统,统,YARN,HDFS,单,点,点,故,故,障,障,得,得,以,以,解,解,决,决,HDFSFederation,HDFS,快,照,照,通,过,过,NFS,访问,HDFS,支持,Window,系统,Hadoop1 VS Hadoop2,集群资,源,源管理,Hadoop,介绍,Yarn,运行原,理,理图,Hbase,介绍,1,高可靠,性,性,2,高效性,3,面向列,4,可伸缩,5,可在廉,价,价,PCServer,搭建大,规,规模结,构,构化存,储,储集群,Hbase,体系结,构,构,HBase,系统架,构,构图,HBase,部件说明,Client,:,使用,HBaseRPC,机制与,HMaster,和,HRegionServer,进行通,信,信,Client,与,HMaster,进行通,信,信进行,管,管理类,操,操作,Client,与,HRegionServer,进行数,据,据读写,类,类操作,Zookeeper,:,ZookeeperQuorum,存储,-ROOT-,表地址,、,、,HMaster,地址,HRegionServer,把自己,以,以,Ephedral,方式注,册,册到,Zookeeper,中,,HMaster,随时感,知,知各个,HRegionServer,的健康,状,状况,Zookeeper,避免,HMaster,单点问,题,题,HMaster,:,HMaster,没有单,点,点问题,,,,,HBase,中可以,启,启动多,个,个,HMaster,,通过,Zookeeper,的,MasterElection,机制保,证,证总有,一,一个,Master,在运行,主,主要,负,负责,Table,和,Region,的管理,工,工作:,1,管理用,户,户对表,的,的增删,改,改查操,作,作,2,管理,HRegionServer,的负载,均,均衡,,调,调整,Region,分布,3 RegionSplit,后,负,责,责新,Region,的分布,4,在,HRegionServer,停机后,,,,负责,失,失效,HRegionServer,上,Region,迁移,Table&Region,Table,随着记,录,录增多,不,不断变,大,大,会,自,自动分,裂,裂成多,份,份,Splits,,成为,Regions,一个,region,由,startkey,,,endkey),表示,不同,region,会被,Master,分配给,相,相应的,RegionServer,进行管,理,理,HregionServer,-ROOT-&.META.,.META.,记录用户表,的,的,Region,信息,,同,同时,,.META.,也可以,有,有多,region,-ROOT-,记录,.META.,表的,Region,信息,,但,但是,,-ROOT-,只有一,个,个,region,Zookeeper,中记录,了,了,-ROOT-,表的,location,客户端访问数,据,据的流,程,程:,Client-Zookeeper-ROOT-.META.-,用户数据表,多次网络操,作,作,不,过,过,client,端有,cache,缓存,HBase,数据模,型,型,RowKey,:,Table,主键,,Table,中记录,按,按照,RowKey,排序,Timestamp,:,每,每次对,数,数据操,作,作对应,的,的时间,戳,戳,也,即,即数据,的,的,version numberColumnFamily,:列簇,一,个,个,table,在水平,方,方向有,一,一个或,者,者多个,列,列簇,,列,列簇可,由,由任意多个,Column,组成,,列,列簇支,持,持动态,扩,扩展,,无,无须预,定,定义数,量,量及类型,二进,制,制存储,用户需自行,进,进行类,型,型转换,HbaseShell,Hbaseshell,Hbase,与,RDBMS,数据类,型,型:,Hbase,只有简,单,单的字,符,符串类,型,型。,数据操,作,作:,Hbase,只有很,简,简单的,插,插入、,查,查询、,删,删除、,清,清空操,作,作,没,有,有复杂,的,的表和,表,表之间,的,的关系,。,。,存储模,式,式:,Hbase,是基于,列,列式存,储,储,每,个,个列族,由,由几个,文,文件保,存,存,不,同,同列族,的,的文件,是,是分离,的,的。,数据维,护,护:更,新,新操作,是,是替换,版,版本,,删,删除只,是,是逻辑,标,标记,可伸缩性,:,:,参考资,料,料,Lucene,搜索结,构,构,基于文,档,档的搜,索,索,Tika,是一个,内,内容抽,取,取的工,具,具集合。,支持,work,,,ppt,,,execl,,,PDF,等,大数据统,计,计,Elasticsearch,:开源,的,的分布,式,式实时,搜,搜索系,统,统,结,合,合,Hbase,实现海,量,量数据,存,存储和,检,检索,,同,同时提,供,供索引,数,数据统,计,计功能,,,,满足,海,海量数,据,据的实,时,时统计,要,要求。,ya,主要功能特点,real time,distributed,high availability,document oriented,schema free,restful api,索引数据统计,min,、,max,、,sum,、,avg,。,stats,、,filter,、,missing,rang,、,data range,、,ipv4 range,histogram,、,date hitogram,软件兴,企,企报国,创,创造引,领,领未来,ThankYou!,演讲完,毕,毕,谢,谢,谢观看,!,!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!