大数据时代4

上传人:jk****13 文档编号:244214898 上传时间:2024-10-03 格式:PPTX 页数:31 大小:6.74MB
返回 下载 相关 举报
大数据时代4_第1页
第1页 / 共31页
大数据时代4_第2页
第2页 / 共31页
大数据时代4_第3页
第3页 / 共31页
点击查看更多>>
资源描述
,#,LOGO,COMPANY LOGOTYPE INSERT,Click To Edit Title Style,#,#,Click To Edit Title Style,用户行为分析,#,LOGO,COMPANY LOGOTYPE INSERT,Click To Edit Title Style,LOGO,COMPANY LOGOTYPE INSERT,LOGO,COMPANY LOGOTYPE INSERT,用户行为分析,用户行为分析,#,LOGO,COMPANY LOGOTYPE INSERT,用户行为分析,用户行为分析,#,LOGO,COMPANY LOGOTYPE INSERT,用户行为分析,用户行为分析,#,LOGO,COMPANY LOGOTYPE INSERT,用户行为分析,用户行为分析,#,大数据时代,Is coming,ERP,班组,2012.11,全球每,秒,秒钟发,送,送,2.9百万,封电子邮,件,件,一,分,分钟读,一,一篇的,话,话,足,够,够一个,人,人昼夜,不,不息的,读,读5.5年,每天会,有,有,2.88万,个小时的视频,上,上传到Youtube,足够,一,一个人,昼,昼夜不,息,息的观,看,看3.3年,推特上,每,每天发,布,布,5千万,条消息,,假,假设10秒钟浏,览,览一条,信,信息,,这,这些消,息,息足够,一,一个人,昼,昼夜不,息,息的浏,览,览16年,每天亚,马,马逊上,将,将产生,6.3百万,笔订单,每个月,网,网民在Facebook上要花,费,费,7千亿,分钟,被移,动,动互联,网,网使用,者,者发送,和,和接收,的,的数据,高,高达,1.3EB,Google上每天,需,需要处,理,理,24PB,的数据,在web2.0的时代,,,,人们,从,从信息,的,的被动,接,接受者,变,变成了,主,主动创,造,造者,BigData时代到,来,来,TB,PB,ZB,EB,大量新,数,数据源,的,的出现,则,则导致,了,了非结,构,构化、,半,半结构,化,化数据,爆,爆发式,的,的增长,根据,IDC,监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在,2020,年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,数据量增加,数据结构日趋复杂,这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴,大数据时代正在来临,.,BigData时代到,来,来,1.,Volume,2.,Variety,3.value,4.,Velocity,结构化数据,、半结构化数据,和非结构化数据,如今的数据类型早已不是单一的文本形式,,订单、日,志、音频,,,能力提出了更高的要求,沙里淘金,价值密度低,以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题,实时获取需要的信息,大数据区分于传统数据最显著的特征。,如今已是,ZB,时代,,在如此海量的数据面前,处理数据的效率就是企业的生命,大数据,是,是指无,法,法在一,定,定时间,内,内用传,统,统数据,库,库软件,工,工具对,其,其内容,进,进行抓,取,取、管,理,理和处,理,理的数,据,据集合,什么是BigData,数据量,巨,巨大,全球在2010年正式,进,进入ZB时代,IDC预计到2020年,全,球,球将总,共,共拥有35ZB的数据,量,量,20世纪90年代,,数,数据仓,库,库之父,的,的Bill Inmon就经常,提,提及BigData,2011年5月,在“云计,算,算相遇,大,大数据,”,”为主题,的,的EMCWorld2011会议中,EMC抛出了BigData概念,BigData名词由,来,来,1,并购进行技术整合,2,自身提高研发实力,相较于,“,“大数,据,据”一,词,词在2011年才开,始,始蹿红,不,不同,,在,在计算,机,机研究,领,领域和,产,产业界,,,,“大,数,数据”,早,早已众,人,人皆知,,,,各大IT巨头纷,纷,纷布局,大,大数据,业,业务,,通,通过收,购,购大数,据,据相关,厂,厂商来,实,实现技,术,术整合,,,,以图,抢,抢占全,新,新的制,高,高点,各大IT企业纷,纷,纷推出,自,自身的,大,大数据,分,分析产,品,品,包,括,括Google、IBM、EMC、Oracle、微软,、,、惠普,、,、SAP、Teradata,这些,企,企业几,乎,乎囊括,了,了目前,全,全球最,顶,顶尖的,搜,搜索服,务,务、数,据,据库、,服,服务器,、,、存储,设,设备、,企,企业解,决,决方案,的,的主要,提,提供商,,,,足以,显,显示大,数,数据在,产,产业界,的,的汹汹,来,来势,BigData名词由,来,来,大数据,技,技术将,被,被设计,用,用于在,成,成本可,承,承受(economically)的条,件,件下,,通,通过非,常,常快速,(,(velocity)的采,集,集、发,现,现和分,析,析,从,大,大量化,(,(volumes)、多,类,类别(variety)的数,据,据中提,取,取价值,(,(value),将是IT领域新,一,一代的,技,技术与,架,架构,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,什么是BigData技术,云计算,与,与大数,据,据,白云下,面,面数据,跑,跑,蓝蓝的,天,天上白,云,云飘,如果数,据,据是财,富,富,那,么,么大数,据,据就是,宝,宝藏,,而,而云计,算,算就是,挖,挖掘和,利,利用宝,藏,藏的利,器,器!没,有,有强大,的,的计算,能,能力,,数,数据宝,藏,藏终究,是,是镜中,花,花;没,有,有大数,据,据的积,淀,淀,云,计,计算也,只,只能是,杀,杀鸡用,的,的宰牛,刀,刀!,分布式,“云计,算,算”(CloudComputing)是分布式处理(DistributedComputing)、并,行,行处理,(,(ParallelComputing)和网,格,格计算,(,(Grid Computing)的发,展,展,或,者,者说是,这,这些计,算,算机科,学,学概念,的,的商业,实,实现。,百度百,科,科,A,Availability,CAP,理论,一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个,Eric Brewer,C,Consistency,P,Partition,Tolerance,分布式,计,计算是,一,一门计,算,算机科,学,学,它,研,研究如,何,何把一,个,个需要,非,非常巨,大,大的计,算,算能力,才,才能解,决,决的问,题,题分成,许,许多小,的,的部分,,,,然后,把,把这些,部,部分分,配,配给许,多,多计算,机,机进行,处,处理,,最,最后把,这,这些计,算,算结果,综,综合起,来,来得到,最,最终的,结,结果。,CAP博弈,分区容,错,错性是,不,不能牺,牲,牲的,Amazon Dynamo,是一个经典的分布式,Key-Value,存储系统,具备去,中心化,高可用性,高扩展性的特点,但是为了达到这个目标在很多,场景中牺牲了一致性。,A+P,支付宝这样的交易和账务数据则是非常敏感的,通常不能容忍超过秒,级的不一致,C+P,KeyValue,分布式,存,存储系,统,统,查询速,度,度快、,存,存放数,据,据量大,、,、支持,高,高并发,不能进,行,行复杂,的,的条件,查,查询,辅以实,时,时搜索,引,引擎进,行,行复杂,条,条件检,索,索、全,文,文检索,,,,可替,代,代并发,性,性能较,低,低的关,系,系型数,据,据库,,节,节省几,十,十倍服,务,务器数,量,量,B+Tree,Hash算法,大数据,时,时代下,的,的系统,需,需求,High performance 高并发,读,读写的,需,需求,高并发,、,、实时,动,动态获,取,取和更,新,新数据,Huge Storage,海量数,据,据的高,效,效率存,储,储和访,问,问的需,求,求,类似SNS网站,,海,海量用,户,户信息,的,的高效,率,率实时,存,存储和,查,查询,High Scalability&,&,&HighAvailability 高可扩,展,展性和,高,高可用,性,性的需,求,求,需要拥,有,有快速,横,横向扩,展,展能力,、,、提供7*24小时不,间,间断服,务,务,RDBMSVS.NoSQL,高并发,读,读写,大数据,存,存储的,核心需,求,求,高效率,存,存储,和,和访问,高可扩,展,展性和,高,高可用,性,性,低成本,建,建设,运维,保证一,致,致性的,开,开销过,大,大,难,以,以实现,高,高并发,存储性,能,能受限,于,于控制,器,器,性,能,能难以,保,保证,关系型,表,表单存,储,储难以,适,适应不,同,同数据,类,类型,上亿行,数,数据的,超,超级达,标,标效率,极,极低,传统基,于,于盘阵,的,的存储,设,设备,,造,造价昂,贵,贵,且,市,市场垄,断,断严重,,,,建设,成,成本居,高,高不下,,,,扩容,成,成本尤,其,其高,许可和,维,维护花,费,费高昂,无法简,单,单的通,过,过添加,服,服务节,点,点来扩,展,展数据,容,容量和,负,负载能,力,力,难,以,以进行,横,横向扩,展,展,数据库,升,升级需,要,要停机,维,维护和,数,数据迁,移,移,导,致,致服务,中,中断,不保证,遵,遵循ACID原则,,提,提高并,发,发读写,性,性能,Schema,-,-Free存储适,应,应不同,数,数据类,型,型,舍弃SQL标准功,能,能,尽,量,量简化,数,数据操,作,作,提,升,升效率,MapReduce实现高,效,效访问,基于X86设备,,价,价格低,廉,廉,开源系,统,统,节,省,省许可,费,费用,支持水,平,平扩展,,,,可简,单,单的通,过,过添加,服,服务节,点,点来扩,展,展数据,容,容量和,负,负载能,力,力,数据库,升,升级不,影,影响服,务,务持续,NoSQL,NoSQL运动两,个,个核心,理,理论基,础,础:,Google的BigTable,BigTable提出了,一,一种很,有,有趣的,数,数据模,型,型,它,将,将各列,数,数据进,行,行排序,存,存储。,数,数据值,按,按范围,分,分布在,多,多台机,器,器,数,据,据更新,操,操作有,严,严格的,一,一致性,保,保证。,Amazon的Dynamo,Dynamo使用的,是,是另外,一,一种分,布,布式模,型,型。Dynamo的模型,更,更简单,,,,它将,数,数据按key进行hash存储。,其,其数据,分,分片模,型,型有比,较,较强的,容,容灾性,,,,因此,它,它实现,的,的是相,对,对松散,的,的弱一,致,致性:,最,最终一,致,致性。,NoSQL是NotOnlySQL的缩写,,,,而不,是,是NotSQL,它不,一,一定遵,循,循传统,数,数据库,的,的一些,基,基本要,求,求,比,如,如说遵,循,循SQL标准、ACID属性、,表,表结构,等,等等。,相,相比传,统,统数据,库,库,叫,它,它分布式,数,数据管,理,理系统更贴切,,,,数据,存,存储被,简,简化更,灵,灵活,,重,重点被,放,放在了,分,分布式,数,数据管,理,理上。,BigTable,为管理大规模,结,结构化,数,数据而设计,的,的分布式,存,存储系,统,统,可以,扩,扩展到PB级数据和上千台,服,服务器。,Key,-,-Value映射:,(row:string,column:string,time:int64),string,数据模,型,型,支撑技,术,术,Bigtable的表会,根,根据行,键,键自动,划,划分为,片,片(tablet),片,是,是负
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!