大数据基础知识

上传人:cel****460 文档编号:242876099 上传时间:2024-09-10 格式:PPTX 页数:35 大小:6.08MB
返回 下载 相关 举报
大数据基础知识_第1页
第1页 / 共35页
大数据基础知识_第2页
第2页 / 共35页
大数据基础知识_第3页
第3页 / 共35页
点击查看更多>>
资源描述
,Click to edit Master title style,#,Copyright2012 Huawei Technologies Co., Ltd. All Rights Reserved.,The information in this document may contain predictive statements including, without limitation, statements regarding the future financial and operating results, future product portfolio, new technology, etc. There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive statements. Therefore, such information is provided for reference purpose only and constitutes neither an offer nor an acceptance. Huawei may change the information at any time without notice.,HUAWEI ENTERPRISE ICT SOLUTIONS,A BETTER WAY,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是组配色方案,同一页面内只选择一组使用。,(仅供参考),客户或者合作伙伴的标志放在右上角,.,HUAWEI TECHNOLOGIES CO., LTD.,Page,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,#,#,#,#,#,#,#,#,#,#,#,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,2013,华为云计算大会,Click to edit Master title style,#,#,#,#,走进大数据,#,#,#,#,#,#,#,#,#,#,#,HUAWEI TECHNOLOGIES CO., LTD.,Page,#,单击此处编辑母版标题样式,Huawei Confidential,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,HUAWEI TECHNOLOGIES CO., LTD.,Page,#,单击此处编辑母版标题样式,Huawei Confidential,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,HUAWEI TECHNOLOGIES CO., LTD.,Page,#,单击此处编辑母版标题样式,Huawei Confidential,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,#,HUAWEI TECHNOLOGIES CO., LTD.,Page,#,单击此处编辑母版标题样式,Huawei Confidential,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,#,#,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,华为保密信息,未经授权禁止扩散,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,Page,#,#,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,华为保密信息,未经授权禁止扩散,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,Page,#,#,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,华为保密信息,未经授权禁止扩散,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,Page,#,#,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,#,#,#,#,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,华为保密信息,未经授权禁止扩散,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,Page,#,#,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,华为保密信息,未经授权禁止扩散,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,Page,#,#,#,#,#,#,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,#,#,#,#,#,Click to edit Master title style,#,#,#,#,#,#,HUAWEI TECHNOLOGIES CO., LTD.,Page,#,单击此处编辑母版标题样式,Huawei Confidential,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是,13,组配色方案,同一页面内只选择一组使用。(仅供参考),客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,HISILICON SEMICONDUCTOR,Page,#,Page,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是组配色方案,同一页面内只选择一组使用。,(仅供参考),客户或者合作伙伴的标志放在右上角,.,HUAWEI TECHNOLOGIES CO., LTD.,Commercial in Confidence,#,#,#,#,#,HISILICON SEMICONDUCTOR,Page,#,华为,TECHNOLOGIES CO., LTD.,Page,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案:,建议同一页面内不超过四种颜色,以下是组配色方案,同一页面内只选择一组使用。,(仅供参考),客户或者合作伙伴的标志放在右上角,.,#,#,FusionInsight HD,培训材料,大数据基础知识,大数据概念与,hadoop,简介,1,大数据行业应用,2,大数据架构简介,3,20,世纪,90,年代,数据仓库之父的,Bill Inmon,就经常提及,Big Data,2011,年,5,月,,在,“云计算相遇大数据”,为主题的,EMC World 2011,会议中,,,EMC,抛出了,Big Data,概念,Big,Data,名词由来,大数据市场趋向稳定,大,量数据存储,海量计算,大量数据管理,数据分析,大数据定义,-,不同,的,声音,维基百科:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”,IDC,:一般会涉及,2,种以上数据形式,数据量,100T,以上,且是高速、实时数据流;或者从小数据开始,但数据每年增长,60%,Gartner,:大数据的四个,V,:,Volume,、,Variety,、,Velocity,、,Value,Volume,:数据量巨大,Velocity,:分析处理速度快,Variety,:种类和来源多样化,集中储存,/,集中计算已经无法处理巨大的数据量,日志,/,图片,/,视频,/,文档,/,地理位置,海量数据的及时有效分析,Value,:价值密度低,商业价值高,大量的不相关信息的进行复杂深度分析,深挖价值,精准营销深入洞察,统一监控分析,另外,IBM,有大数据,5V,特征定义,增加了一个,Veracity,(真实性),什么是大数据,全球每秒钟发送,2.9,百万封,电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读,5.5,年,每天会有,2.88,万个小时,的视频上传到,Youtube,,足够一个人昼夜不息的观看,3.3,年,推特上每天发布,5,千万条,消息,假设,10,秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览,16,年,每天亚马逊上将产生,6.3,百万笔,订单,每个月网民在,Facebook,上要花费,7,千亿分钟,,被移动互联网使用者发送和接收的数据高达,1.3EB,Google,上每天需要处理,24PB,的数据,在,web 2.0,的时代,人们从信息的被动接受者变成了主动创造者,海量数据从哪里来人,海量数据从哪里来机器,Boeing,:飞机每个引擎,3,分钟产生,1TB,数据,波音,787,6,小时飞行产生,240TB,数据,CERN,:,大型强子,对,撞产生,1PB/s,的数据,SKA,:,2015,年存储需要,1EB,云,化,IDC,建设,催生了数,据大集中,Facebook,:每天产生,50TB,的日志数据,衍生分析数据超过,100TB,“机器制造”和“人工制造”共同贡献了海量数据,集中式的数据中,心建,设加速数据集中,大,数据的结构特征,平均,1,个,P,数据中,非结构化为主,(例 互联网公司),互联网:,Google,百度,Facebook , Twitter ,新浪,.,数据以非结构化处理为主,在企业大数据中, 仍然是以结构化数据处理为主,结构化,半结构化,非结构化,35%,27%,用户行为轨迹(个体),User Profile,内容(,ITEM,,图像、视频、文本,),数据,21,个,历史详单查询,社交网络数据(群体),Web Page & Log, 23%,5 %,10 %,结构化为主,(例 电信运营商),15%,3%,12%,网络,XDR (,探针俘获后,含历史),计费,CDR(,含历史),主数据(三户,+,订购,+,接触 等 含历史),分析汇总数据(含历史),CUBE,和统一视图,7%,互联网,Web Page & Log(,含历史),13%,社交网络数据,18%,25 %,内容(图像、视频、文本,),数据,7%,传统的数据处理系统面临的问题,呼唤新的技术,海量数据的高存储成本,大数据量下的数据处理性能不足,流式数据处理缺失,有限的扩展能力,单一数据源,数据资产对外增值,数据扩展性需求和硬件性能之间存在差距,新的业务需求,需要新的大数据处理平台,数据处理技术分布式演进趋势:,Hadoop,成为开放的事实标准,SMP,Hadoop,特点:集群、,Share Everything,结构化、关系型,Flash Cache+,分布式块存储,+IB,SMP+MPP,混合,MPP,特点:集群、,Share Nothing,开放,、全球生态,结构化、半结构化、非结构化,高性能、实时,特点:集群、,Share Nothing,结构化、关系型,通用的硬件,特点:单机、,Scale up,性能存在瓶颈,扩展性差,揭开,Hadoop,神秘的面纱,Hadoop,是,Apache,基金会的一个项目总称,主要由,HDFS,、,MapReduce,和,HBase,等组成。,HDFS,是对,Google GFS,的开源实现,,MapReduce,是对,Google MapReduce,的开源实现,,HBase,是,Google BigTable,的开源实现。,Hadoop,来源于其创始人,Doug Cutting,的儿子给一头黄色大象取的名字。,Hadoop,最初只与网页索引有关,迅速发展成为分析大数据的领先平台。,HDFS,原理简介分布式文件系统,HDFS,主要特点:,存储大文件,将大文件分割成很多小块存储,流式数据读取,“,write one read many,”,本身是分布式的,具备良好的可扩展性,通过放开,POSIX,要求,极大改善数据读写性能,HDFS,不适合,于:,存储大量小文件(,1MB,),实时数据读取,需经常修改数据的场景,HDFS,YARN,Hive,Map Reduce,HBase,ZooKeeper,BookKeeper,AVRO,Pig,Sqoop,NN #1,DataNode,,文件就放它上了。,NameNode,,元数据信息都在这。,文件被切分成大小相同的块(最末尾的块可能小于块大小),并存储在不同的数据节点上。,为确保文件块的容错性,同时提供更快的数据读取,默认每个数据块有,3,个副本,且分布在不同的数据节点,DN,上。,File A,File B,File C,A,C,B,A,B,C,DN #1,DN #2,DN #3,B,DN #4,C,DN #5,A,DN #6,File D,D,D,D,HBase,原理简介分布式数据库,HRegionServer,内部管理了一系列,HRegion,对象,每个,HRegion,对应,Table,中的一个,Region,。,HRegion,由多个,Store,组成。每个,Store,对应,Table,中的一个,Column Family,的存储,,即一个,Store,管理一个,Region,上的一个列族(,CF,)。每个,Store,包含一个,MemStore,和,0,到多个,StoreFile,。,Store,是,HBase,的,存储核心,由,MemStore,和,StoreFile,组成,。,MapReduce,原理简介分布式计算架构,Apache MapReduce,是,google MapReduce,的开源实现。是对并行计算的封装,使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间。,Spark,迭代计算框架:重构,M-R,,优于,Hadoop,Hadoop,Spark,Spark,是,UC Berkeley AMP,实验室基于,map reduce,算法实现的分布式计算框架,,输出和结果保存在内存中,,不需要频繁读写,HDFS,,数据处理效率更高,Spark,适用于,近线或准实时、数据挖掘,与,机器学习,应用场景,Spark,工作原理,Spark,的中间数据放到内存中,对于迭代运算效率更高。,Spark,比,Hadoop,更通用。,Spark,提供的数据集操作类型有很多种,不像,Hadoop,只提供了,Map,和,Reduce,两种操作。比如,map,filter,flatMap,sample,groupByKey,reduceByKey,union,join,cogroup,mapValues,sort,partionBy,等多种操作类型,,Spark,把这些操作称为,Transformations,。同时还提供,Count,collect,reduce,lookup,save,等多种,actions,操作。,各个,处理节点之间的通信模型不再像,Hadoop,那样就是唯一的,Data Shuffle,一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比,Hadoop,更灵活,。,Storm,:流式数据处理框架,实时的,Hadoop,Hadoop,Storm,Storm,广泛应用于,实时分析,在线机器学习,持续计算、分布式远程调用,等领域,。,Storm,处理原理,scribe,MQ,输入,spout,异常行为,检测,bolt,特征匹配,bolt,统计,bolt,输出,拦截模块,光纤,旁路,拦截,数据不存储,先计算,事件驱动,实时响应,低延迟,连续查询,Event Data,Queries,Alerts Actions,No waiting; Results delivered in-flight,ZooKeeper,简介,提供分布式锁的服务。,例如,,多个,Master,进程竞争主,Master,角色时,怎么样保证仅有一个,Active,角色存在?这就需要一个分布式的锁机制来保证。多个,Master,进程都尝试着去,ZooKeeper,中写入一个对应的节点,该节点只能被一个,Master,进程创建成功,创建成功的,Master,进程就是,Active,角色。,提供了事件侦听机制。,例如,,主,Master,进程宕掉之后,其它的备,Master,如何能够快速的接管?这个过程中,备,Master,在侦听那个对应的,ZooKeeper,节点。主,Master,进程宕掉之后,该节点会被删除,那么,其它的备,Master,就可以收到相应的消息。,个别场景,可充当一个微型数据库角色。,例如,,在,ZooKeeper,中存放了,Root Region,的地址(,Root Region,原来是存在,ZooKeeper,中的!),此时,可以将它理解成一个微型数据库。,“Master-1,Congratulations! You are the active one!”,“Sorry, Master-2. The active seat has been taken by others. Please be patient!”,大数据简介,1,大数据行业应用,2,大数据架构简介,3,大数据应用的行业分类,经营分析,电信信令,金融细账,金融票据,电力调度,智能电网,经营类,结构化,+,非结构化,绩效,报表,文件,社保分析,纳税分析,决策支持和预测,管理类,结构化,+,半结构化,公安网监,国安技侦,舆情监控,银监会稽查,食品溯源,环保监测,监管类,结构化,+,半结构化,音视频,地震勘探,气象云图,卫星遥感,雷达数据,物联网,专业类,非结构化,10%,结构化,30%,半,结构化,60%,非,结构化,互联网,非结构化为主,价值密度低,电信、金融,金融,政府,政府,电信、金融、政府等行业数据分析的诉求强烈,互联网已开始应用新技术处理价值密度低的大数据,“在大数据领域,不能充分形成大数据使用能力的竞争者将被淘汰”,-,McKinsey Global Institute,金融:大数据让银行更了解客户与识别潜在风险,王五作为某银行客户,需要申请一张新的信用卡,实时征信、精准营销、在线明细、精准小微贷、,24,周,大数据,平台,客户信息系统,交易,系统,信用系统,电信:大数据支撑运营商向,Digital Telco,转型,管道运营,能力运营,跨界运营,. ,2G,2.5G 3G,B3G/4G,SP,CP,CP,SP,语音,封闭、垄断,窄带数据,有限程度开放,宽带数据,防御与竞合,超宽带,数字经济使能,数字经济驱动运营商彻底进行数字化重构,商业架构,企业架构,网络架构,网络资源为中心,客户体验及生态圈为中心,封闭,开放、用户驱动、实时知识,Silo,云化,业务感知,自编排,数,据,源,精准营销,大数据平台,M,域,O,域,B,域,辅助决策,数据开放,一份数据,一次采集,个人,客户,家庭,客户,政企,客户,互联网,客户,一份存储,全局共享,全量分析,公安:大数据实现在海量数据中快速检索出价值信息,3000+,万条记录,,1+,亿张照片,约,100,TB,国内某大城市,1,天的卡口数据:,检索信息耗时:,12,天,大数据,平台,传统数据库平台模糊检索耗时:,2,分钟,电商:亚马逊“预判发货”,顾客未动包裹先行,顾客此前订单,顾客搜索记录,顾客心愿单,顾客购物车,顾客浏览行为,大数据,平台,媒资:大数据让,Netflix,在,纸牌屋,开播前就知道会火,400,万,影视评分,3300,万,订阅用户行为,300,万,搜索请求,上线,20,天,点播,400+,万次,大数据,平台,大数据简介,1,大数据行业应用,2,大数据架构简介,3,企业大数据平台架构,统一,ETL,层,数,据采集,和预处,理,开,放支撑平,台,:基础服务、算法模型、,自助分析、自助报表,Hadoop,云,基于高性能平,台,主数据仓库,流数据处理,CEP,及流处理引擎,基,于低成本,X86,平,台,结构化数据,实时流数据,互联网数据,101,11,11,1,多渠道访问门户,电脑,智能手机,PAD,监控中心,云化,ETL,、云化,DW,、实时挖掘、自助分析、跨域模型、并发查询、实时规则、知识自学习、内容语义分析等能力最终将在应用平台及多个数据平台中体现。包含关系型的主存储,也包含非关系型的,HADOOP,及流处理引擎,结构化计算平台,挖掘分析服务,数据治理,元数据管理,构,建大数据平台技术组件(示意),CDC&ETL,服务,公共基础数据模型,配置数据管理,Portal,ERP-EBS,Non-EBS DB,ROLAP DM,展现服务,仪表盘,订阅发布,即席查询,分析维度管理,主数据管理,公共数据模型,ScoreCard,报表,MOLAP DM,展现层,Portal,层,调度,文本挖掘,社交媒体,结构化数据,生命周期管理(数据,/,应用),数据质量管理,技术元数据,MCA,Office,集成,Mobile BI,互动可视,数据提取,In-Mem DM,元数据管理应用,批量抽取,转换,加载,分发,实时获取,平台监控管理,ETL&,调度,计算平台,DW-I,DW-I,DW-I,非结构化化计算平台(,Hadoop,),资源管理:,YARN,分布式文件系统:,HDFS,Spark,HBASE,作业流管理:,Oozie,DWR,DWR,DWR,Sqoop,MapReduce,电商,论坛,第一方数据,数据收集,&,集成,Flume/chukwa,存储层,计算层,HIVE/PIG,MAHOUT,分析,ZooKeeper,(Coordination),挖掘和预测,Access For Hadoop,数据,数据整合,画像,应用,第一方数据,第二方数据,第三方数据,人口属性,当前需求,营销特征,热点关注,投放人群特征,花粉特征群细分,产品推荐,活动效果评估,DSP,投放,用户流失预警,营销效果评估,360,度,CRM,标准报告,特征分析,Dashboard,海量查询,hive,运维管理,日常管理,日常监控,作业调度,安全管理,权限管理,协同管理,备份,监控报警查询,迁移,PSI,TCS,TCRMS,HR,心声社区,ERP,云账户中心,CBG/,荣耀官网,花粉俱乐部,智汇云,Vmall,天猫旗舰店,微购,官方微博,官方微信,大,V,小米社区,淘宝、京东,DP,标签,消费者微博,竞品,广告投放,标签服务,配置,(面向业务),标签配置,(面向特征),特征配置,(面向消费者),兴趣,/,爱好,购物偏好,内容偏好,产品情感,数据探针 数据爬取 文件传输 数据库导入导出 数据同步,数据拉通,规则配置,(面向数据),潜在客户,预测,消,费者数据拉通和用户脸谱项目,-,应用架构,竞品,大数据应用,API,运营支持,数据应用,数据服务,大数据应用本身采集的数据,非结构化数据,数据交换,爬取,第三方标签,DP,标签库,百度百科,前端展现,宏观画像,基于业务场景,微观,画像,传播人群特征,营销人群特征,.,内容特征倾向,影响力用户发现,.,满意度人群特征,主动服务群特征,投诉,/,咨询特征,用户需求特征,竞品人群特征,APP,应用特征,购买价格特征,官网场景特征,活动购买特征,营销领域,用户经营领域,服务领域,购买,产品领域,微信营销,用户体验,微博营销,内容推荐,营销,用户经营,服务,购买,产品,配置管理,实时处理,用户归一化、数据清洗、标注化、结构化,数据流,离线处理,实时计算引擎,批量计算引擎,增量用户建模,增量业务建模,增量数据挖掘,短期用户标签,即时标签预测,用户建模,全量数据挖掘,全量业务建模,长文本分析,用户标签,用户长期特征,群体特征挖掘,用户分群,即时群体特征挖掘,即时用户拓扑动态,上网特征,潜在需求,社交图谱,移动应用,人群分发,数据分发,投放效果评估,媒介决策,建议领袖发现,用户动态关注,Scaleout Block,Scaleout,Scaleout Object,Scaleout Archive,分布式存储,应用适配, Programmable,接口,通用服务器,网络(交换机,路由器),存储节点,分布,式处理和,分析,批处理,(Hadoop,),),实时处理和内存计算,分布式数据库,(MPP DB),内存数据库,流处理,MapReduce,Hive,Pig,Mashout,HBASE,Hcatalog,SQL,Query Planner,MPP Exec,Data Bridge,管理平,面,设备管理,资源管理,(YARN,多户,Zookeeper),策略调度,日志留存,OLAP,视频分析,数据可视化,内容检索,数据挖掘,华为大数据一体化平台,Hadoop FS API, NFS/CIFS,Posix,ISCSI,S3,云操作系统,FusionSphere /,云平台,华,为大数据整体能力堆栈,华为大数据基础架构,华,为大数据方案:提供大数据存储、处理、分析和消费平台,海量数据存储,批处理,迭代处理、实时流处理,Manager,统一管理,RH2288,通用,X86,服务器,OceanStor 9000,大数据存储,数据洞察平台,数据处理平台,大数据基础设施,FusionInsight HD,数据集成平台,收集,清洗,转换,特征,/,模型,/,挖掘,/,可视,/,服务,业务相关的应用套件(业务逻辑,/,决策,/,安全,/,数据开放,/,可视,),应用套件层,电信,详单查询、经分分析、精准营销,银行,全生命周期分析、历史明细、精准营销、在线征信与风控等,行业应用,公安,卡口 数据分析,情报分析,人口管理,Page,33,FusionInsight HD,产品架构图,HIVE,HDFS,M/R,Spark/SparkStreaming,Solr,系统管理,Manager,Hadoop API,应用服务层,REST/SNMP/Syslog,Yarn,安全管理,Oozie,HUE,Phoenix,Mahout,Spark SQL,数据存储,数据调度,SQL,能力,数据管理,保持不变,新增开源,新增自研,HBase,Zookeeper,数据计算,增强算法,Loader,Elk,HCatalog,MLlib,GraphX,增强开发,Impala,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!