资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Page,148,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,大数据,-,与我们的未来,王宝会北京航空航天大学,wangbh,2,北航软,件,件学院,教,教授级,高,高工。,中国民,航,航总局,专,专家、,交,交通部,交,交通信,息,息化专,家,家、财,政,政部中,央,央政府,采,采购网,信,信息化,专,专家,,科,科技部,中,中小企,业,业创新,基,基金评,审,审专家,。,。,20,年以上,系,系统研,发,发经验,,,,丰富,的,的软件,系,系统设,计,计和项,目,目管理,经,经验,,尤,尤其在,民,民航飞,机,机项目,DO-178B,和,DO-254,适航认,证,证方面,做,做出杰,出,出的成,就,就,主,要,要研究,方,方向为,系,系统架,构,构、软,件,件性能,工,工程和,民,民用飞,机,机适航,认,认证。,参与湖南株,洲,洲、江,西,西上饶,、,、江西,萍,萍乡、,江,江苏盐,城,城、河,北,北邢台,、,、浙江,高,高速等众多,智,智慧城,市,市顶层,设,设计。,主,主持或,负,负责过,几,几十个,大,大型系,统,统的研,发,发(其,中,中包括,国,国家科,技,技支撑,项,项目、,国,国家发,改,改委专,项,项基金,项,项目、,民,民航专,项,项基金,项,项目等,等,等)。,自我介,绍,绍,我的提,纲,纲,鸿蒙之,初,初,迷雾重,重,重,利器,初放光,芒,芒,大数据,思,思维,未来,鸿蒙之,初,初,大数据,背,背景,大数据,像,像“洪,流,流”一,样,样海量,增,增长,,奔,奔腾于,经,经济、,政,政治、,社,社会的,各,各个领,域,域,并,且,且,随,着,着信息,技,技术的,普,普及和,进,进步,,大,大数据,不,不仅继,续,续在这,些,些领域,翻,翻腾起,更,更高的,浪,浪潮,,还,还会催,生,生新的,产,产业,,进,进一步,推,推动数,据,据交汇,、,、融合,互联网,画,画像,百度神,灯,灯搜索,2015,年,4,月,1,日上午,,,,手机,百,百度在,爱,爱奇艺,、,、腾讯,视,视频等,网,网站上,传,传了一,段,段新品,宣,宣传视,频,频,视,频,频中演,示,示了手,机,机百度,疑,疑似即,将,将推出,“,“神灯,搜,搜索”,新,新功能,,,,该功,能,能基于,一,一款名,为,为“百,度,度神灯,”,”的智,能,能手机,配,配件配,合,合最新,版,版本的,手,手机百,度,度实现,。,。“神,灯,灯搜索,”,”可以,将,将手机,百,百度的,搜,搜索结,果,果以全,息,息投影,的,的形式,展,展现在,用,用户面,前,前,同,时,时用户,可,可以与,之,之进行,实,实时互,动,动,实,现,现更加,直,直观、,智,智能的,搜,搜索体,验,验。,你访问,了,了这个,世,世界,这个世,界,界也访,问,问了你,物联网,催,催生大,数,数据,工业,4.0,工业,4.0,航天工,程,程,卫星接,收,收数据,移动互,联,联网,无线传,感,感网络,WSN,人类行,为,为不断,创,创造大,数,数据,随着信,息,息化向,人,人类社,会,会各个,层,层面渗,透,透和发,展,展,人,类,类社会,的,的各种,行,行为都,以,以数据,的,的形式,存,存储在,计,计算机,系,系统中,人类生,活,活在一,个,个数据,驱,驱动的,世,世界,数据如,人,人体的,血,血液,,成,成为各,类,类业务,系,系统运,行,行的支,撑,撑和前,提,提,人类行,为,为不断,创,创造大,数,数据,你在,地球上,的,的全部,运,运动轨,迹,迹(通过LBS,采,采集),你银行,全部支,付,付记录(通过,在,在线支,付,付采集,),),你,的全部,交,交往记,录,录(通过SNS,采,采集);,你,的全部,言,言行记,录,录(通过,邮,邮件、,文,文档、Timeline、,视,视频监,控,控等采,集,集)。,人类行,为,为不断,创,创造大,数,数据,世界上,每,每分钟,都,都有海,量,量数据,产,产生,2020,年:,数,数据量,将,将达到,35ZB,GB,TB,PB,EB,ZB,在,2006,年,个,人,人用户,才,才刚刚,迈,迈进,TB,时代,,全,全球一,共,共新产,生,生了约,180EB,的数据,;,;,在,2011,年,这,个,个数字,达,达到了,1.8ZB,。,有市场,研,研究机,构,构预测,(,(2009年,),):,到,2020,年,整,个,个世界,的,的数据,总,总量将,会,会增长,44,倍,达,到,到,35.2ZB,(,1ZB=10,亿,TB,)!,1GB= 230,字节,1TB=240,字节,1PB= 250,字节,1EB= 260,字节,1ZB=270,字节,2020,年:,国,国内数,据,据量将,达,达到,8.5ZB,2013,年中国,产,产生的,数,数据总,量,量超过,0.8ZB(,相当于,8,亿,TB),,,2,倍于,2012,年,相,当,当于,2009,年全球,的,的数据,总,总量。,2020,年,中,国,国产生,的,的数据,总,总量将,是,是,2013,年的,10,倍,超,过,过,8.5ZB,。,数据驱,动,动的世,界,界,数,据,据的有,效,效、高,效,效应用,才,才是关,键,键!,科学,商务,医疗,娱乐,股票交,易,易数据,通信数,据,据,业务运,营,营数据,MRI,数据,CT,扫描数,据,据,电子病,历,历,MP4/MP3,数据,DVD9,社交网,络,络,DNA,数据,勘探数,据,据,数据密,集,集型科,研,研,大数据,大数据,是,是指无法在,可,可承受,的,的时间,范,范围内,用,用常规,软,软件工,具,具进行,捕,捕捉、,管,管理和,处,处理的,数,数据集,合,合。从产,业,业角度,,,,常常,把,把这些,数,数据与,采,采集它,们,们的工具、,平,平台和,分,分析系,统,统一起统,称,称为,“,“大数,据,据”。,通俗地,讲,讲,“,大,大数据,”,”就是,对,对网上,海,海量的,文,文本、,图,图像、,音,音频和,视,视频数,据,据进行,采,采集、,分,分析、,加,加工和,利,利用。,从一般,意,意义上,说,说,“,大,大数据,”,”是指,那,那些超,过,过传统,数,数据库,系,系统处,理,理能力,的,的数据,,,,数据,量,量通常,在,在,10TB,(,1TB=1024GB,,为,1,万亿字,节,节)以,上,上。,因为数,据,据库,,“,“大数,据,据”已,经,经成为,变,变革的,中,中心。,大数据,的,的判断,标,标准四,个,个,V,海量,Volume,速度(Velocity),:,:高速,的,的数据,流,流转和,价,价值呈,现,现,多样泛,在,在(Variety,),),价值(Value),:,:信息,过,过载世,界,界的价,值,值提炼,迷雾重,重,重,现有企,业,业,IT,环境的,挑,挑战,大数据,存储的,未,未来发,展,展趋势,目前,10-15,年,15,年后,预计,市场普,及,及周期,现阶段,存,存储的,发,发展仍,将,将以网,络,络存储,为,为主,2020年60%,以,以上的,创,创造数,据,据将因,无,无法存,储,储而丢,失,失,中国移,动,动大数,据,据的烦,恼,恼信令分,析,析与监,测,测系统,中国移,动,动大数,据,据的烦,恼,恼信令分,析,析与监,测,测系统,原数据,库,库服务,器,器配置,:,:HP,小,小型机,,,,128G内,存,存,48颗CPU,2节点RAC,,,,其中,一,一个节,点,点入库,,,,另外,一,一个节,点,点查询,存,存,储,储:HP虚拟,化,化存储,,,,1000,个,个盘,数,数,据,据库架,构,构采用Oracle,双,双节点RAC,问,问,题,题:1,入,入库,瓶,瓶颈2,查,查询,瓶,瓶颈,数据日,趋,趋庞大,,,,无论,是,是入库,和,和查询,,,,都出,现,现性能,瓶,瓶颈,用户的,应,应用和,分,分析结,果,果呈整,合,合趋势,,,,对实,时,时性和,响,响应时,间,间要求,越,越来越,高,高,使用的,模,模型越,来,来越复,杂,杂,计,算,算量指,数,数级上,升,升,利器,解决大,数,数据问,题,题的思,路,路,海量数,据,据计算,快,省,海量数,据,据存储,Pervasive Computing,Internet of Things,Service Computing,Cloud Computing,Social Computing,System of Systems,Grid Computing,asa Computer,Big Data,Mobile Internet,Modern Service,Smarter Planet,Internet Culture,Social Network,Virtual World,技术方,面,面:,如何利,用,用,Internet,为核心,的,的多网,融,融合,,实,实现高,性,性价比,、,、高效,能,能、高,可,可信的,信,信息化,技,技术,应用方,面,面:,如何利,用,用以,Internet,为核心,的,的信息,化,化技术,,,,实现,成,成本控,制,制、资,产,产增值,、,、业务,创,创新,Internet,Internet,正在演,化,化为一,台,台全球,泛,泛在计,算,算机,(global ubiquitouscomputer),互联网,产,产业发,展,展迅速,,,,概念,、,、热点,频,频出,互联网,催,催生了,“,“创新,”,”时代,互联网,催,催生了,“,“创新,”,”时代,as a Computer,Internet,云计算,大数据,移动互联网,围绕,数,数据,中,中心,提,提供,计,计算,、,、存,储,储、,网,网络,、,、应,用,用服,务,务,用户,通,通过,智,智能,移,移动,终,终端,更,更加,广,广泛,地,地接,入,入互,联,联网,海量,、,、异,构,构、,实,实时,数,数据,存,存储,、,、组,织,织、,分,分析,和,和处,理,理,三者,彼,彼此,交,交叠,,,,相,辅,辅相,成,成,,呈,呈现,视,视角,和,和关,注,注点,的,的不,同,同,大数,据,据,/,云计,算,算,/,移动,互,互联,网,网,本质,上,上均,是,是互,联,联网,计,计算,及,及其,延,延伸,大数,据,据,/,云计,算,算,/,移动,互,互联,网,网,本质,上,上均,是,是互,联,联网,计,计算,及,及其,延,延伸,先解,决,决数,据,据存,储,储的,问,问题,Google,集装,箱,箱数,据,据中,心,心,位于MountainView,,,,Calif总部,的,的数,据,据中,心,心,总功,率,率为10000千,瓦,瓦,,拥,拥有45,个,个集,装,装箱,,,,每,个,个集,装,装箱,中,中有1160,台,台服,务,务器,,,,该,数,数据,中,中心,的能,效,效比,为,为1.25(PUE为1表示,数,数据,中,中心,没,没有,能,能源,损,损耗,,,,而,根,根据2006,年,年的,统,统计,,,,一,般公,司,司数,据,据中,心,心的,能,能效,比,比为2.0或更,高,高。Google的1.16已经,低,低于,美,美国,能,能源,部,部2011年,的1.2的目,标,标),Google,的,的低,成,成本,之,之道,不使,用,用超,级,级计,算,算机,,,,不,使,使用,存,存储,(,(淘,宝,宝的,去,去i,,,,去e,,去,去o,之,之路,),),大量,使,使用,普,普通,的,的pc服,务,务器,(,(去,掉,掉机,箱,箱,,外,外设,,,,硬,盘,盘),,,,提,供,供有,冗,冗余,的,的集,群,群服,务,务,全世,界,界多,个,个数,据,据中,心,心,,有,有些,附,附带,发,发电,厂,厂,运营,商,商向Google,倒,倒付,费,费,Google,的三,篇,篇论,文,文,先解,决,决计,算,算的,问,问题,Google,使用,GFS,进行,分,分布,式,式存,储,储,再解,决,决计,算,算的,问,问题,Google,使用,Map-reduce,思想,计,计算,PR,第一,二,二列,在,在一,台,台电,脑,脑(,每,每个,电,电脑,存,存储,着,着若,干,干个,列,列),【,几个,列,列就,把,把,q,特征,向,向量,送,送过,几,几个,值,值来,用,用于,计,计算,】,,,q1*,第一,列,列,+q2*,第二,列,列,;,;每,个,个节,点,点做,类,类似,的,的事,情,情,-,发到,一,一个,目,目标,节,节点,,,,把,所,所有,节,节点,加,加起,来,来。,q1-q2-,直到,收,收敛,。,。这,个,个思,想,想就,是,是,mapreduce.,再解,决,决实,时,时计,算,算的,问,问题,Google,使用,Bigtable,思想,进,进行,数,数据,库,库存,储,储,Google,不愿,意,意公,开,开更,多,多的,细,细节,Hadoop,的出,现,现,DougCutting开,创,创的,开,开源,软,软件,,,,用Java,书,书写,代,代码,,,,实,现,现与Google,类,类似,的,的全,文,文搜,索,索功,能,能,,,它提供了全,文,文检索引擎,的,的架构,包,括,括完整的查,询,询引擎和索,引,引引擎,Lucene的目的是,为,为软件开发,人,人员提供一,个,个简单易用,的,的工具包,,以,以方便的在,目,目标系统中,实,实现全文检,索,索的功能,,或,或者是以此,为,为基础建立,起,起完整的全,文,文检索引擎,对于大数量,的,的场景,Lucene,面,面对与Google同,样,样的困难。,迫,迫使DougCutting学习和,模,模仿Google解决,这,这些问题的,办,办法,一个微缩版,:,:Nutchnutch,的初衷,:,创建一个开,源,源的全网搜,索,索引擎。抵,抗,抗,Google,在搜索领域,的,的垄断。,Nutch:2002Hadoop,的初衷是为,解,解决,Nutch,的海量问题,。,。,从,lucene,到,nutch,,从,nutch,到,hadoop,2003-2004,年,,Google,公开了部分,GFS,和,Mapreduce,思想的细节,,,,以此为基,础,础,DougCutting,等人用了,2,年业余时间,实,实现了,DFS,和,Mapreduce,机制,使,Nutch,性能飙升,Yahoo,招安,DougCutting,及其项目,Hadoop,于,2005,年秋天作为,Lucene,的子项目,Nutch,的 一部分,正,正式引入,Apache,基金会。,2006,年,3,月份,,Map-Reduce,和,NutchDistributed File System(NDFS),分别被纳入,称,称为,Hadoop,的项目中,DougCutting,HDFS/Mapreduce,登场,HDFS,M/R,名字来源于,DougCutting,儿子的玩具,大,大象,目前,Hadoop,达到的高度,实现云计算,的,的事实标,准开源软件,包含数十个,具,具有强大,生命力的子,项,项目,已经能在数,千,千节点上,运行,处理,数,数据量和,排序时间不,断,断打破世,界纪录,Hadoop,分布式体系,63,天下之势,分久必合,合久必分,Hadoop,的思想,Hadoop1,Hadoop,2,Hadoop2,、,spark,(,UC,伯克利大学,研,研发框架,,yahoo,率先用)、,Storm,新的数据分,析,析平台,hadoop1的核心,组,组成是两部,分,分,即HDFS和MapReduce。在hadoop2中变为HDFS和Yarn。新,的,的HDFS,中,中的NameNode,不,不再是只有,一,一个了,可,以,以有多个(,目,目前只支持2个)。每,一,一个都有相,同,同的职能。,Hadoop1,Hadoop,2,Hortonworks Solution,Storm,构建大数据,实,实时计算,Storm,可以用来处,理,理源源不断,流,流进来的消,息,息,处理之,后,后将结果写,入,入到某个存,储,储中去。,Spark,构建大数据,实,实时计算,Spark,是基于,map reduce,算法所实现,的,的分布式计,算,算框架,拥,有,有,Hadoop MapReduce,所具有的优,点,点;不同于,MapReduce,的是,Job,中间输出和,结,结果可以保,存,存在内存中,,,,而不需要,读,读写,HDFS,,因此,Spark,能更好地适,用,用于,machine learning,等需要迭代,的,的,map reduce,算法。,SparkStream,SparkStreaming,是,Spark,生态中一种,具,具有高吞吐,与,与容错性能,的,的在线数据,流,流的实时流,处,处理框架。,实时计算,初放光芒,大数据,PK Oracle,Oracle,服务器配置参数,名称:浪潮英信服务器,型号:,NF8560M2,CPU,:,intel xeon E7-4820,核心:,4,颗,CPU,,每颗,16,核,共计,64,核,内存:,32GB,硬盘:,18T,软件环境,操作系统:,Redhat,数据库:,Oracle,11g,集群主机配置,3,个主节点,(NameNode,、,SNameNode,、,jobtracker),:,型号:,IBM x3650 M3,CPU,:六核,2.8*2,内存:,24G,硬盘:,8T,10,个数据节点:,型号:,IBM x3650 M3,CPU,:六核,2.8*2,内存:,16G,硬盘,:8T,软件环境:,操作系统:,CentOS 6.5,大数据管理平台软件,1.0,大数据平台环境参数,Oracle,环境参数,场景一:直,系,系亲属,以户成员信,息,息和人员基,本,本信息两张,表,表进行关联,查,查询,根据,身,身份证号或,者,者姓名查询,人,人员的直系,亲,亲属信息,场景描述,测试,2000,万条人员数,据,据,分别加,载,载,2000,万数据到,Oracle,和大数据,管理,平台;,在,Oracle,中,对,2000,万条数据创,建,建索引、加,大,大临时表空,间,间等查询优,化,化操作;,在大数据管,理,理平台中,,对,2000,万条数据进,行,行压缩、分,区,区、预处理,等,等操作来减,少,少数据的存,储,储量、提高,数,数据查询速,度,度;,根据具体身,份,份证号查询,直,直系亲属;,分别查询三,次,次,并做记,录,录,统计查,询,询返回结果,所,所需时间的,平,平均值,测试过程,Oracle,分别为,12,秒、,11,秒、,15,秒,平均查询时,间,间:,12.7,秒,大数据管理,平,平台分别为,421,毫,秒,、,415,毫,秒,、,438,毫,秒,,平均查询,时,时间:,0.42,秒,测试结果,场景二:宾,馆,馆同行人,加载宾馆住,宿,宿信息至,Oracle,和大数据管,理,理平台中,,根据,身份证号,查询,退房时间间,隔,隔不超过,20,分钟,并且,三,三次以上,的人,场景描述,测试,10,亿条相同的,数,数据,分别,加,加载,10,亿数据到,Oracle,和大数据,管理,平台;,在,Oracle,中,对,10,亿条数据创,建,建索引、加,大,大临时表空,间,间等查询优,化,化操作;,在大数据管,理,理平台中,,对,10,亿条数据进,行,行压缩、分,区,区、预处理,等,等操作来减,少,少数据的存,储,储量、提高,数,数据查询速,度,度;,根据具体身,份,份证号查询,宾,宾馆同行人,;,;,分别查询三,次,次,并做记,录,录,统计查,询,询返回结果,所,所需时间的,平,平均值,测试过程,Oracle,,经过多次,杀,杀死查询进,程,程,重新查,询,询及增加内,存,存和临时表,空,空间等操作,后,后,查得三,次,次结果为:,140,分,13,秒、,120,分,50,秒、,100,分,24,秒,平均查询时,间,间:,120,分,29,秒,大数据管理,平,平台为,32104,毫,秒,、,31050,毫,秒,、,30048,毫,秒,,平均查询,时,时间:,31.1,秒,测试结果,场景三:网,吧,吧同行人,加载网吧同,行,行人信息至,Oracle,和大数据管,理,理平台中,,根据,身份证号查,询,询下机时间,间,间隔不超过,20,分钟,并且,三,三次以上的,人,人员,场景描述,测试,15,亿条相同的,数,数据,分别,加,加载,15,亿数据到,Oracle,和大数据,管理,平台;,在,Oracle,中,对,15,亿条数据创,建,建索引、加,大,大临时表空,间,间等查询优,化,化操作;,在大数据管,理,理平台中,,对,15,亿条数据进,行,行压缩、分,区,区、预处理,等,等操作来减,少,少数据的存,储,储量、提高,数,数据查询速,度,度;,根据具体身,份,份证号查询,网,网吧同行人,;,;,分别查询三,次,次,并做记,录,录,统计查,询,询返回结果,所,所需时间的,平,平均值,测试过程,Oracle,,经过多次,尝,尝试,长时,间,间等待处理,结,结果,最终,导,导致,系统宕机,,,无法处理,大数据管理,平,平台为,54154,毫,秒,、,53058,毫,秒,、,59480,毫,秒,,平均查询,时,时间:,55.56,秒,测试结果,一直未解决,好,好数据挖掘,DSS,一直未解决,好,好数据挖掘,DW,一直未解决,好,好数据挖掘,BI,大数据架构,Hadoop,,未来的数,据,据艺术家,大数据分析,的,的行动,Intel,联手,MIT,成立了“英,特,特尔科学技,术,术中心”,,重,重点研究大,数,数据技术,由,Apache SoftwareFoundation,公司会开发,的,的,Hadoop,成为大数据,处,处理的佼佼,者,者,IBM,大数据平台,建,建立在开源,的,的,ApacheHadoop,之上,百度,同时做到“,绿,绿色”与大,数,数据分析,淘宝,利用大数据,挖,挖掘技术创,建,建数据魔方,QQ,提出“大数,据,据营销”理,念,念,移动,国内数据中,心,心的三大数,据,据基地布局,淘宝数据魔,方,方应用,每日新增数,据,据,20T,累积数据,14P,2000+,服务器的云,计,计算平台,每天处理,100,000+,作业任务,,包,包括,100+,新增作业任,务,务,每天处理,1P+,数据,包括,0.5%,新增数据,淘宝流量计,算,算,淘宝用户推,荐,荐,日本核泄露,的,的数据分析,图,图,Facebook FriendMap,89,百度后台每,天,天数十亿次,LBS(,基于地理位,置,置的服务,),定位数据进,行,行计算分析,,,,展现春节,前,前后人口大,迁,迁徙的轨迹,与,与特征。,智慧交通场,景,景,:,车辆异常快,速,速识别,91,用户,:,最大城市,交通领域,(Citytraffic),场景,:,车牌记录,CarLicence Plate,100,亿,10 Billion/,年,需求,:,小时级别,-,优化到分钟,级,级,Minute,-,未来优化到,秒,秒级,Seconds,SELECT idFROMTablewhere idlike%JA-sq%;,(,模糊匹配查,询,询出,ID,带,JA-sq,的车牌号,),92,1,亿 数据,并行,5 Map,进程,144w/s,扫描速度,69s,返回,10,亿数据,并行,46 Map,进程,800w/s,扫描速度,117s,返回,100,亿数据,并行,453Map,进程,5400w/s,扫描速度,3,分钟返回,基本满足需,求,求,SELECT id,COUNT(*) FROM TableGROUPBY id,(,对每个车牌,号,号分组归并,并求出现次,数,数,),93,1,亿 数据,并行,5 Map,进程,2 Reduce,进程,104w/s,处理速度,96s,返回,10,亿数据,并行,46Map,进程,13Reduce,进程,230w/s,处理速度,7,分钟返回,100,亿数据,并行,453Map,进程,121Reduce,进程,500w/s,处理速度,54,分钟返回。,国内外企业,用,用,Hadoop,做什么,?,数据仓库,商业智能,(facebook,twitter,淘宝,京东,暴风,新浪,58,同城,.,移动大云,),互联网广告,计,计算,(,亿赞普,科捷,各类大互联,网,网企业,),大搜索引擎项目,(Yahoo,国产盘古,人民搜索,),站内搜索引擎项,目,目,(Ebay,支付宝,),内容推荐引擎,(,人人,新浪微博,优酷,),病毒分析,垃圾邮件识别,(Yahoo,趋势科技,360),云计算服务项目,(,亚马逊云,阿里云,),地图项目,(,月球表面探测地,图,图,),科研项目,(,欧洲量子对撞机,),金融项目,(,股票分析,阿里金融,),视频云编码解码,3D云渲染,DNA分析,芯片计算机辅助,设,设计,射电信号分析,台,台湾-月球地质,研,研究,国内外企业用,Hadoop,做什么,?,亚马逊将,MapReduce,作为一项服务,大数据产品系统,架,架构图,大数据思维,大数据使得我们,重,重新思考,大数据非常擅长,解,解决关联关系,,不,不能解决因果关,系,系。,大数据全样本,,预,预测、决策比小,样,样本更加准确,大数据对未来趋,势,势会有洞见性认,识,识,大数据使得我们,重,重新思考,数据的资源化:大数据成为企业,和,和社会关注的重,要,要战略资源,并,已,已成为大家争相,抢,抢夺的新焦点。,大,大数据被喻为与,蒸,蒸汽、电力、石,油,油相媲美的下一,代,代重要自然资源,。,。有人视大数据,为,为企业未来竞争,优,优势的基础,它,将,将改变企业决策,、,、价值创造和价,值,值实现的方式。,因,因而,企业必须,要,要提前制定大数,据,据营销战略计划,,,,抢占市场先机,。,。,大数据使得我们,重,重新思考,大数据的本质也,是,是信息化本质,降低,成本,增值,大数据新架构带,来,来的价值,Hadoop,技术从互联网蔓,延,延到其他应用领,域,域,104,大数据直接导致,工,工业,4.0,产生,通过工业数据节,约,约、治理和优化,,,,,商用航空领域,,每,每节省,1%,的燃料意味着将来,15,年中能节省,300,亿美元支出。,全球燃气电厂运,作,作相率提升,1%,,将节省,660,亿美元能耗支出。,医疗保健行业效,率,率每增长一个百,分,分点,将节省,630,亿美元。,世界铁路网交通,运,运输效率,若提高一个百分,点,点,将节省,270,亿美元能源支出。,大数据能帮企业,做,做什么?,1,号店,一号店,电子商,务,务型网站,,2008,年,7,月,11,日,“,1,号店”正式上线,,,,开创了中国电,子,子商务行业 “,网,网上超市”的先,河,河。公司独立研,发,发出多套具有国,际,际领先水平的电,子,子商务管理系统,并,并拥有多项专利,和,和软件著作权,,并,并在系统平台、,采,采购、仓储、配,送,送和客户关系管,理,理等方面大力投,入,入,打造自身的,核,核心竞争力,以,确,确保高质量的商,品,品能以低成本、,快,快速度、高效率,的,的流通,让顾客,充,充分享受全新的,生,生活方式和实惠,方,方便的购物。,1,号店,1,,挖掘每个用户,1,号店的关注点还,仅,仅仅停留在用户,的,的购买记录和收,藏,藏行为上。相比,之,之下,它目前对,数,数据的捕捉,显,然,然更加“精细化,”,”。无论是购买,频,频次,还是用户,的,的性别、年龄、,习,习惯等,都能帮,助,助它分析和跟踪,消,消费模式的微妙,变,变化,进而“投,其,其所好”地实现,最,最大化的销售。,当,当一个用户浏览,了,了商品后没有购,买,买,,1,号店紧接着便会,分,分析整个购物过,程,程“卡”在哪个,环,环节上。,1,号店,1,,挖掘每个用户,假如商品已经加,入,入了购物车,那,么,么导致用户没有,购,购买的很可能是,高,高运费,,1,号店很可能会调,整,整运费;倘若用,户,户没有购买是因,为,为库存缺货,那,么,么下次库存到货,后,后公司就会提醒,用,用户购买;如果,用,用户浏览了许多,类,类似的商品却最,终,终没有购买,那,么,么可以推测用户,对,对这一品类的商,品,品感兴趣,只是,没,没有找到自己想,要,要的品牌。这种,情,情况下,只要有,新,新品上架,,1,号店就会第一时,间,间推荐用户购买,。,。在此基础上,,公,公司观察到许多,用,用户的购买频次,有,有其规律性,假,如,如一个用户上,1,号店只购买洗发,水,水,且每三周购,买,买一次,那么一,旦,旦用户哪一次没,有,有购买,,1,号店就会想方设,法,法地“提醒”他,。,。,1,号店,2,1,号店首先会根据,用,用户的购买金额,和,和频次将其分为,四,四个大群,在用,户,户大群的基础上,,,,公司根据用户,的,的浏览习惯,为,其,其打上更为细致,的,的“标签”。这,种,种描绘用户个人,信,信息及购买偏好,的,的标签,多达成,百,百上千个,“比,如,如,他是倾向于,购,购买哪一类商品,的,的?他的浏览行,为,为是什么,是喜,欢,欢搜索还是用类,目,目浏览?他喜欢,在,在上班时间购物,,,,还是在周末购,物,物?购买的周期,和,和收货的习惯又,是,是什么?”,1,号店,3,消除“大数据”,噪,噪音,在公司设置的价,格,格模型中,不同,的,的品类都有相应,的,的市场价格策略,。,。“譬如,有些,品,品类的价格要做,到,到业界领先,有,些,些品类只要不高,于,于竞争对手就行,了,了。有些是我的,利,利润品类,有些,是,是流量品类,除,了,了外部干扰,消,费,费者的个人操作,中,中也包含着不少,无,无效行为,这同,样,样被视为一种“,数,数据噪音”。有,的,的用户上,1,号店并不是为了,购,购物,而纯粹是,为,为了测试网站,,“,“他注册之后,,往,往往下一个订单,后,后取消,再下一,个,个订单再取消,,这,这些用户肯定不,在,在的研究范围”,。,。,1,号店,4,注重算法,1,号店需要在极短,的,的时间内,通过,算,算法解读用户的,行,行为,并在得到,结,结论后做出实时,的,的推荐。用于刚,的,的话说,“当一,个,个顾客用搜索来,挑,挑选商品时,我,们,们的后台需要为,这,这一搜索做支持,,,,算法得非常快,才,才行,否则用户等待的,时,时间一长,就会,不,不耐烦。”,1,号店,115,大数据技术冲击,传,传统超市,116,大数据技术冲击,传,传统媒体,117,大数据面前,电,视,视台恐将沦为内,容,容代工厂,社交媒体与电视,台,台的合作中,社,交,交媒体的核心资,源,源是用户,而电,视,视台的核心资源,是,是内容。内容是,否,否有价值取决于,针,针对什么样的用,户,户,在这一点操,作,作上,电视台用,了,了半个世纪都没,有,有实现。而社交,媒,媒体做到了,因为他们有足够,的,的数据,更因为,他,他们有能力对这,些,些数据进行有效,的,的分析,从而将,内,内容有针对性的,匹,匹配给用户。,118,佛山日报的“大,数,数据”应用探索,1.,在报道中贯穿“,大,大数据”应用。,佛,佛山日报社区记,者,者,在调查走访,佛,佛山中心城区近,百,百家游泳场馆,,在,在掌握大量数据,的,的基础上,记者,将,将“安全泳池”,的,的信息与佛山城,市,市地图重合,拼,出,出佛山泳池资质,图,图表,供市民游,水,水消暑、政府部,门,门检查执法作为,参,参考。,2.,专业的数据分析,,,,对接读者需求,,,,佛山日报在每,一,一次的年度改版,前,前,都会委托国,际,际知名的市场调,查,查机构,进行大,规,规模读者调查,,找,找到读者对报纸,的,的意见和诉求,,进,进行有针对性的,改,改版。佛山日报,社,社成立了专业的,社,社交网站、新媒,体,体“大数据”监,控,控部门。,3.,以满意度数据为,支,支撑,改革采编,人,人员薪酬体系,,考,考核指标由两部,分,分构成:首先,,部,部门的管理者在,年,年底时,会根据,采,采编人员的整体,稿,稿件、版面质量,、,、工作态度等进,行,行等级评定;其,次,次,根据年终“,读,读者满意度”数,据,据的积累情况,,对,对采编人员进行,等,等级评分。,119,大数据技术冲击,金,金融,120,大数据技术冲击,金,金融,大数据可以帮助,金,金融企业解决信,息,息不对称,解决,营,营销、定价、风,险,险和欺诈问题,,市场营销,包括,交,交叉销售、二次,销,销售方面,体现,在,在如何进行客户,挽,挽留、客户价值,评,评估等。,信贷和风险,主,要,要是信用分配、,风,风险评估、实施,授,授权、风险干预,和,和欺诈识别等。,预测与估价,包,括,括周期行为分析,、,、量化分析、流,失,失分析、催收分,析,析等。,大数据助力服务,行,行业,124,大数据技术助力,娱,娱乐行业,125,大数据技术助力,娱,娱乐行业,陈坤的微博账号,共,共发过,3674,条微博,拥有,5497,万粉丝;黄晓明,则,则已发过,1758,条微博,粉丝,1678,万。而通过对两,人,人微博的分析,,不,不难发现两人有,着,着不一样的,Style,。除去演员、歌,手,手、摄影、艺术,等,等这些相同的标,签,签,陈坤的标签,还,还有编剧、出版,、,、佛教、阅读、,自,自由,黄晓明则,集,集中为段子、冷,笑,笑话、幽默、八,卦,卦、,90,后和宅。,解读,微博人脉圈,与他们互粉的人,重,重合度很高。按,照,照粉丝数由高到,低,低排序,两人的,互,互粉,TOP20,人中,重合度高,达,达,65%,。但两人并没有,互,互相关注。,从两人的微博互,动,动行为来看,陈,坤,坤与出版界、公,益,益界的互动很频,繁,繁,如李连杰的,壹,壹基金、邓飞、,王,王克勤等;而黄,晓,晓明频繁互动的,对,对象多集中于影,视,视明星、导演、,编,编剧等。,解读,他们影响着谁?,陈坤和黄晓明两,人,人的活跃粉丝群,中,中,性别和年龄,的,的分布极为接近,。,。,女性约占到四分,之,之三,普通用户,占,占到八成,这样,的,的比例明显高于,微,微博上用户性别,分,分布和用户类型,分,分布的统计平均,值,值,说明女性普,通,通用户对二人都,有,有较强的关注倾,向,向。,在粉丝年龄分布,上,上,,90,后数量最多,约,占,占七成,且粉丝,偏,偏好度远高于微,博,博用户年龄分布,的,的统计平均值,,80,后则远低于平均,值,值,,70,后更低。而陈坤,的,的粉丝整体平均,年,年龄比黄晓明的,粉,粉丝平均年龄略,高,高。,地图导航,提供,位,位置信息服务,大数据助力交通,出,出行服务,大数据带来快速,应,应急响应、快速,协,协同,大数据带来快速,应,应急响应、快速,协,协同,129,2016-2020 76,个重点项目,有,14,个是大数据项目,南方电网大数据,专,专题项目,面向智能电网安,全,全运维的智能可,穿,穿戴设备关键技,术,术研究,基于物联网的智,能,能反窃电应用研,究,究,大数据技术平台,体,体系架构研究与,实,实验系统构建,基于不完善计量,与,与设备监测的数,据,据挖掘平台技术,研,研究与示范应用,大数据应用场景,规,规划项目,基于营配贯通的,大,大数据示范应用,项,项目,基于大数据的电,网,网综合防灾减灾,技,技术研究与示范,应,应用,智能配用电大数,据,据技术研究及其,应,应用,基于大数据平台,的,的准实时数据质,量,量评价系统,基于大数据平台,的,的停电事件准实,时,时分析与研判系,统,统,大数据挖掘分析,在,在资产全生命周,期,期管理辅助决策,中,中的应用研究,大数据分析在交,直,直流混合电力主,网,网架中的应用研,究,究,面向大数据中心,的,的运维事件快速,分,分析技术研究,基于大数据分析,的,的网络安全检测,技,技术及应用研究,大数据助力智慧,城,城市,智慧城市是城市管理革命和,发,发展模式创新,是现代化城市,整,整合发展的更高形态,是城市信息化,的,的高级阶段,其核心在于运用现代,信,信息通信技术,构,构建无所不在,的,的高速融合网,络,络、智能感知,环,环境和超强海,量,量运算能力,改革城市信息,系,系统管理机制,、,、全面整合和,优,优化配置城市,各,各类资源。,提高城市管理,和,和服务水平,,提,提升公众的生,存,存方式和生活,质,质量,推动发,展,展高端产业和,产,产业的高端环,节,节,促进经济,发,发展方式转变,,,,实现科学发,展,展。,大数据未来,与云计算的深,度,度结合:大数据离不开,云,云处理,云处,理,理为大数据提,供,供了弹性可拓,展,展的基础设备,,,,是产生大数,据,据的平台之一,。,。自,2013,年开始,大数,据,据技术已开始,和,和云计算技术,紧,紧密结合,预,计,计未来两者关,系,系将更为密切,。,。除此之外,,物,物联网、移动,互,互联网等新兴,计,计算形态,也,将,将一齐助力大,数,数据革命,让,大,大数据营销发,挥,挥出更大的影,响,响力。,大数据未来,伟大的复兴之,路,路,-,一带一路,互联网金融、,大,大数据,2014,年首次纳入,政府工作报告,大数据未来发,展,展,科学理论的突,破,破:兴起的数据挖,掘,掘、机器学习,和,和人工智能等,相,相关技术,可,能,能会改变数据,世,世界里的很多,算,算法和基础理,论,论,实现科学,技,技术上的突破,。,。,大数据未来发,展,展,大数据未来发,展,展,诺贝尔颁给大,数,数据时代的化,学,学奖,在诺奖,官,官网上,写着,三,三位科学家的,获,获奖原因:“,在,在复杂化学系,统,统中发展了多,尺,尺度模型”。,通,通过计算机筛,选,选大量数据,,从,从而模拟肉眼,所,所看不到的变,化,化是如何发生,的,的。在告别“,小,小棍棍”实验,,,,现代科学通,过,过建模计算,,无,无中生有,系,统,统生长。用计,算,算机取代真实,实,实验的尝试,,这,这是颁给大数,据,据时代的化学,奖,奖。,分析挖掘算法,如,如何设计得好,数据分类,数据聚类,关联分析,回归预测,时间序列分析,拓扑网络的分,析,析,KNN,TF-IDF,Bernoulli Bayers,SVN,DBSCAN,协同过滤,单词计数,数据去重,排序,Top K,选择,投影,分组,多表连接,单表关联,分析挖掘算法,如,如何设计得好,大数据未来发,展,展,数据科学和数,据,据联盟的成立,:,:数据科学将成,为,为一门专门的,学,学科,被越来,越,越多的人所认,知,知。各大高校,将,将设立专门的,数,数据科学类专,业,业,也会催生,一,一批与之相关,的,的新的就业岗,位,位。与此同时,,,,基于数据这,个,个基础平台,,也,也将建立起跨,领,领域的数据共,享,享平台,之后,,,,数据共享将,扩,扩展到企业层,面,面,并且成为,未,未来产业的核,心,心一环。,大数据未来发,展,展,不是世界变化,太,太快,世界还,是,是原来的世界,,,,是我们原来,没,没有足够的工,具,具认识世界,大数据带来国,家,家组织结构的,变,变化,国家工业与大,数,数据部职责,重视大数据人,才,才培养、关键,技,技术和商业模,式,式研究,,完善相关法规,,,,推动政府部,门,门等率先开放,大,大数据,,重视大数据基,础,础设施建设,,尽快启动大数,据,据产业的试点,,,,建立大数据,交,交易平台。,大数据与你,人生成功需要,六,六匹马,大数,据,据绝对是你的,一,一匹快马。,你的马比别人,快,快,你离成功,就,就比别人近!,大数据使得企,业,业,IT,工程师从后台,走,走向前台,大数据帮助你,规,规划你自己,为什么早上总,是,是起不来?,为什么加班的,总,总是我?,为什么工作总,是,是做不完?,为什么时间总,是,是不够用?,烦,烦,烦。,。,。,?,148,大数据,,让你的未来更,精,精彩!,
展开阅读全文