资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014-09-14,#,大数据技术,导论,周,可,华中科技大学,1,内 容,什么是,大,大数据,研究背,景,景,深入思,考,考,2,3,什么是,大,大数据,定义1:,大数据,是,是指无,法,法在一,定,定时间,内,内用常,规,规软件,工,工具对,其,其内容,进,进行抓,取,取、管,理,理和处,理,理的数,据,据集合,(,(维基,百,百科定,义,义),Bigdatausually includes datasetswith sizes beyondtheabilityofcommonly-used software tools to capture,curate,manage,andprocessthedatawithinatolerableelapsedtime.,-,-,-,-Wiki,4,什么是,大,大数据,定义2:3V,BigDataarehigh-volume,high-velocity,and/or high,-,-varietyinformationassetsthatrequirenewformsofprocessing to enableenhanceddecisionmaking,insightdiscovery andprocess optimization,-,-Gartner,大数据,的,的4V特性,V,olume,Volume,V,ariety,Volume,模态多样,V,eracity,Volume,真伪难辨,V,elocity,Volume,速度极快,体量巨大,文本,视频,图片,音频,到,2020,年,数据总量达,40ZB,,,人均,5.2TB,分享的内容条目超过,25,亿个,/,天,,增加数据超过,500TB/,天,5,大数据,及,及其4V特征,海量数,据,据规模,(,(volume):TB级 PB级,快速处,理,理(velocity):快速数,据,据流转,和,和动态,数,数据体,系,系,多样数,据,据类型,(,(variety):数据类,型,型繁杂,巨大数,据,据价值,(,(value):价值稀,疏,疏、多,样,样、不,确,确定,值得关,注,注的大,数,数据的,若,若干研,究,究方向,分布式,数,数据存,储,储与管,理,理:对大数,据,据进行,存,存储与,管,管理,数据挖,掘,掘与商,务,务智能,:,:对大数,据,据规律,进,进行挖,掘,掘与发,现,现,物联网,与,与CPS:产生与,形,形成大,数,数据,云计算,及,及服务,平,平台:存储和,处,处理大,数,数据及,其,其业务,关注点,:,:,海量数,据,据处理=分布式,存,存储与,管,管理=云计算=,数据挖,掘,掘与分,析,析=海量业,务,务处理=,大服务,7,什么是,大,大数据,定义3:,当数据,的,的规模和,性,性能要,求,求成为数,据,据管理,分,分析系,统,统的重要设,计,计和决,定,定因素时,这,样,样的数,据,据就被,称,称为大,数,数据,不是简,单,单地以,数,数据规,模,模来界,定,定大数,据,据,要,考,考虑数,据,据查询,与,与分析,的,的复杂,程,程度,以目前,计,计算机,硬,硬件的,发,发展水,平,平看,针对简单查,询,询(如关,键,键字搜,索,索),,数,数据量,为,为TB至PB级时可称,为,为大数,据,据,针对复杂查,询,询(如数,据,据挖掘,),),数,据,据量为GB至TB级时即可,称,称为大,数,数据,8,什么是,大,大数据,定义4:,大数据,有,有两个,基,基本特,征,征不同,于,于传统,的,的数据,集,集:,1.大数据,不,不一定,存,存储于,固,固定的,数,数据库,,,,而是,分,分布在,不,不同地,方,方的网,络,络空间,2.大数据,以,以半结,构,构化或,非,非结构,化,化数据,为,为主,,具,具有较,高,高的复,杂,杂性。,内 容,什么是,大,大数据,研究背,景,景,深入思,考,考,9,克强指,数,数(Likeqiang index):,耗电量,铁路货,运,运量,银行贷,款,款发放,量,量,英国著,名,名政经,杂,杂志经济学,人,人认为:,克,克强指,数,数比官,方,方GDP数字更,能,能反映,中,中国经,济,济的现,实,实状况,。,。花旗,银,银行在,编,编制时,将,将各自,权,权重分,别,别设定,为,为40%、25%和35%。,12,大数据,涉,涉及诸,多,多不同,的,的领域,用户生,成,成数据,Deep Web数据,多模态,内,内容数,据,据,天文,气象,基因,医学,经济,物理,其他领,域,域,网络与,关,关系数,据,据,13,大数据,的,的价值,科研价,值,值,1998年图灵,奖,奖得主,、,、数据,库,库技术,奠,奠基人JimGray认为数,据,据驱动,的,的研究,将,将是第,四,四种科,学,学研究,范,范式,”The FourthParadigm:Data-IntensiveScientificDiscovery,”,”,大数据,已,已为多,个,个不同,学,学科的,研,研究工,作,作提供,了,了宝贵,机,机遇,经济价,值,值,麦肯锡,全,全球研,究,究院:,大,大数据,可,可为世,界,界经济,创,创造巨,大,大价值,,,,提高,企,企业和,公,公共部,门,门的生,产,产率和,竞,竞争力,,,,并为,消,消费者,创,创造巨,大,大的经,济,济利益,著名Gartner公司:,到,到2015年,采,用,用大数,据,据和海,量,量信息,管,管理的,公,公司将,在,在各项,财,财务指,标,标上,,超,超过未,做,做准备,的,的竞争,对,对手20%,工业价,值,值,分析使,用,用:揭,示,示隐藏,其,其中的,信,信息,,例,例如零,售,售业中,对,对门店,销,销售、,地,地理和,社,社会信,息,息的分,析,析能提,升,升对客,户,户的理,解,解,二次开,发,发:创,造,造出新,产,产品和,服,服务。,例,例如Facebook通过结,合,合大量,用,用户信,息,息,定,制,制出高,度,度个性,化,化的用,户,户体验,,,,并创,造,造出一,种,种新的,广,广告模,式,式,社会价,值,值,例如:2009年淘宝,网,网推出,淘,淘宝CPI来反映,网,网络购,物,物的消,费,费趋势,和,和价格,动,动态,其他价,值,值,Data is thenext Intel Inside.,Thefuture belongstothe companiesandpeople thatturndata intoproducts,.,.,-,-,-,著名出,版,版公司OReilly的创始,人,人TimOReilly,深网挖掘,深空探索,2012,年我国神州九号进入太空,深海探测,2012,年我国蛟龙号探测水下,7000,米,实现大数据价值的,深度挖据和高度利用,!,大数据,的,的战略,意,意义,大数据,的,的深度,资,资源挖,掘,掘与价,值,值利用,是,是国家,战,战略,从,深空,+,深海,深网,14,大数据,的,的现实,需,需求:,感,感知现,在,在,15,感知现,在,在:历史,数,数据与,当,当前数据的,融,融合,潜,在,在线索,与,与模式的,挖,挖掘,,事件、,群,群体与,社,社会发,展,展状态的,感,感知,中国发展指数(物价、环境、健康),需求:,掌握现状,如淘宝,CPI,、环境指数,难点:,PB,级社会媒体数据,百亿级日志数据,结构与非结构数据关联,,历史与流式数据并存,犯罪线索挖掘,需求:,发现线索,如罪犯行为轨迹,难点:,PB,级日志数据、,EB,级监控数据中发现嫌疑人及其行为模式犹如,大海捞针,问题与,挑,挑战:数据规模巨,大,大、模,态,态多样、关联复,杂,杂、真伪难辨,现有数,据,据处理,方,方法感知度,量,量难、,特,特征融,合,合难、模式挖,掘,掘难,15,大数据,的,的现实,需,需求:,预,预测未,来,来,联合国,“,“全球,脉,脉动”(Global Pulse):,利用网,络,络大数,据,据预测,失,失业率,与,与疾病,爆,爆发等现象,,,,利用,数,数字化,的,的早期,预,预警信,号,号来提,前,前指导,援,援助项,目,目。,问题与,挑,挑战:数据交互性,强,强、实,时,时性强、动态,演,演变,导致,传,传统数,据,据计算方,法,法:,数据生,命,命周期,的,的割裂,、,、时效,性,性与准确性难以,兼,兼顾、,演,演变趋,势,势难以,预,预测,基于,Twitter,数据的选举结果预测,:,通过对,Twitter,等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。,预测未,来,来:全量数,据,据、流,式,式数据,、,、离线,数,数据的关联,分,分析,态势与,效,效应的判定,与,与调控,,,,揭示,事,事物发,展,展的演变规,律,律,进而对事物,发,发展趋,势,势进行,预,预测,16,17,美国的,大,大数据,规,规划-,大数据,上,上升为,国,国家意,志,志,2012年3月29日,美,国,国联邦,政,政府整,合,合6个部门,宣,宣布2亿美元,的,的“BigDataResearchandDevelopmentInitiative”,促进采,集,集、存,储,储、维,护,护、管,理,理、分,析,析和共,享,享海量,数,数据的,核,核心技,术,术;,利用以,上,上技术,来,来加速,科,科学与,工,工程发,现,现的步,伐,伐,强,化,化国家,安,安全,,改,改变教,育,育和学,习,习;,培养开,发,发和使,用,用大数,据,据技术,的,的人力,资,资源。,Core TechnologiesforAdvancing BigData Science,&,&Engineering,Data to Decisions,1000 GenomesProjectData AvailableonCloud,Scientific DiscoveryThrough Advanced Computing,BigDataforEarthSystem Science,XDATA,18,欧盟的,大,大数据,规,规划-,基础设,施,施是先,导,导,Horizon 2020,-,-TheFramework ProgrammeforResearchand Innovation,面向大,数,数据的,数,数据信,息,息化基,础,础设施,(,(E-Infrastructure)是优,先,先资助,领,领域,GRDI 2020,-,-GlobalResearchDataInfrastructures,建立针,对,对科研,大,大数据,的,的基础,设,设施,,实,实现数,据,据管理,系,系统、,数,数字数,据,据图书,馆,馆、研,究,究图书,馆,馆、数,据,据工具,和,和研究,团,团体的,整,整合,FP7Call8 Intelligent Information Management,-,-Big Data,预算5千万欧,元,元,2012-1,-,-17截止,目标:,提升发,现,现、分,析,析、开,采,采、使,用,用大数,据,据及其,基,基础设,施,施的能,力,力,通过对,大,大数据,收,收集与,分,分析创,造,造更大,价,价值,探索基,于,于大规,模,模互联,数,数据资,源,源与专,用,用基础,设,设施的,新,新型科,学,学研究,面向大,数,数据的,人,人力资,源,源开发,19,学术界,对,对大数,据,据的关,注,注,2012年1月,NaturePhysics上出版,专,专刊“Complexity”,特别指,出,出大数,据,据为科,学,学研究,,,,特别,是,是复杂,性,性科学,的,的研究,提,提供了,史,史无前,例,例的机,遇,遇,2008年,Nature出版专,刊,刊“BigData”,从互联,网,网技术,、,、互联,网,网经济,学,学、超,级,级计算,、,、环境,科,科学、,生,生物医,药,药等多,个,个方面,介,介绍了
展开阅读全文