大数据技术及其在现代教育领域中的应用

上传人:付****f 文档编号:244583494 上传时间:2024-10-05 格式:PPTX 页数:47 大小:2.14MB
返回 下载 相关 举报
大数据技术及其在现代教育领域中的应用_第1页
第1页 / 共47页
大数据技术及其在现代教育领域中的应用_第2页
第2页 / 共47页
大数据技术及其在现代教育领域中的应用_第3页
第3页 / 共47页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,#,大数据技术,及其在现代教育领域中的应用,南京大学计算机科学与技术系,窦万春教授,提纲,什么是,“,“数据,”,”?,什么是,“,“数据,库,库”?,什么是,“,“大数,据,据”?,大数据,处,处理的,工,工具与,手,手段,大数据,技,技术在,现,现代教,育,育领域,中,中的潜,在,在应用,结语,1、什么,是,是“数据”,日程生,活,活中,,数,数据和,信,信息经,常,常混为,一,一谈。,“数据,是,是对事,实,实、概,念,念或指,令,令的一,种,种特殊,表,表达形,式,式,这,种,种特殊,的,的表达,形,形式可,以,以用人,工,工的方,式,式或者,用,用自动,化,化的装,置,置进行,通,通信、,翻,翻译、,转,转换或,进,进行加,工,工处理,”,”。-ISO,信息是,对,对“人,”,”有用,的,的数据,,,,可以,影,影响人,们,们的行,为,为和决,策,策。,信息处,理,理的本,质,质是数,据,据处理,,,,数据,处,处理的,目,目标是,或,或的有,用,用的信,息,息。,-上述解,释,释来自,国,国际标,准,准化组,织,织的相,关,关定义,2、什么,是,是“数据库,”,”,数据多,了,了,怎,么,么办?,好雨知,时,时节!,数据库,技,技术产,生,生了!,始,始于上,个,个世界60年代中,期,期,需求分,析,析,数据怎,样,样规范,表,表示?,涉及哪,些,些软件,?,?,涉及哪,些,些硬件,?,?,数据如,何,何输入,?,?,结果如,何,何输出,?,?,如何解,决,决数据,的,的访问,冲,冲突问,题,题?,如何从,大,大量的,数,数据中,发,发现一,写,写潜在,的,的应用,规,规律?,基本概,念,念,数据库,(,(DB):接,受,受统一,管,管理的,相,相关数,据,据的集,合,合。,数据库,管,管理系,统,统(DBMS):数,据,据库系,统,统中管,理,理数据,的,的软件,系,系统,,它,它是数,据,据库系,统,统中的,核,核心组,成,成部分,,,,对数,据,据库的,一,一切操,作,作,包,括,括定义,、,、查询,、,、更新,以,以及各,种,种控制,,,,都是,通,通过DBMS进行。,如,如甲骨,文,文,数据库,系,系统(DBS):实,现,现有组,织,织地、,动,动态地,存,存储大,量,量关联,数,数据,,方,方便多,用,用户访,问,问,由,计,计算机,软,软件、,硬,硬件和,数,数据资,源,源组成,的,的系统,。,。,数据库,技,技术:,研,研究数,据,据库的,结,结构、,存,存取、,管,管理和,使,使用的,软,软件学,科,科。,软件,硬件+数据本,身,身,3、什么,是,是“,大,大数据,”,”?,“大数,据,据”,概,概念,的,的诞生,2008年9月4日自然(Nature)刊登了,一,一个名,为,为“BigData”的专辑,2009年7月OReillyMedia出版社,出,出版了,一,一本名,为,为“BeautifulData”的书,2009年10月微软,为,为纪念JimGray,出版了,“,“第四,范,范式数据密,集,集的科,学,学发现(TheFourth ParadigmDataIntensiveScientificDiscovery)”,“大数,据,据”,概,概念,的,的诞生,2011年2月11日:Science刊登了,一,一个,名为Dealing withData的专辑,,,,联合Science:Signaling、Science:Translational,Medicine和Science Careers推出相,关,关专题,,,,,讨论数,据,据对科,学,学研究,的,的重要,性,性,同一天,,,,在美,国,国很受,欢,欢迎的,智,智力竞,答,答“危,险,险边缘,(,(Jeopardy)”电,视,视节目,中,中,IBM的“沃森”系统,以,以绝对,优,优势战,胜,胜两名,人,人类顶,级,级选手,。,。,和14年前的,“,“深蓝,”,”(战,胜,胜加里卡斯帕,罗,罗夫)相比,,,,“沃,森,森”除,具,具有超,群,群的计,算,算能力,外,外,更,拥,拥有超,大,大规模,的,的数据以,及,及数据,处,处理能力,.,“大数,据,据”,概,概念,的,的诞生,2012年3月29日,美,国,国总统,科,科技政,策,策办公,室,室OSTP(OfficeofScienceandTechnologyPolicy)宣布,了,了每年,投,投资两,亿,亿美元,的,的“大,数,数据研,究,究计划,”,”(BigDataR&DInitiative),同一天,,,,我国,科,科技部,发,发布的,“,“十二五,国家,科,科技计,划,划信息,技,技术领,域,域2013年度备,选,选项目征集指,南,南”把,大,大数据,研,研究列,在,在首位,.,“大数,据,据”,概,概念,的,的诞生,“大数据”主要讨,论,论的是,与,与科学发,现,现有关的,数,数据,“大数据”很好地,概,概括了,当,当前数,据,据管理,领,领域问,题,题的重,要,要性和,多,多样性,数据问,题,题在研,究,究和应,用,用上空,前,前的深,度,度和广,度,度,“大数据”成为一,个,个时髦,的,的术语(Buzzword),成为,工,工业界,与,与学术,界,界共同,关,关注的,热,热点,“大数据”是个合,适,适的umbrella,较广,的,的覆盖,面,面,应用驱,动,动,将IT的重点,转,转移到,数,数据方,面,面,超越传,统数据,库,库的理,念,念,.,与大数,据,据相关,的,的几个,热,热点问,题,题,非结构,化,化数据:数据特,点,点,云计算,与,与大数,据,据:处理平,台,台,Hadoop与大数,据,据:主流的,处,处理工,具,具,1、非结,构,构化数,据,据,(结构化,数,数据)=非结构,化,化数据,什么是,结,结构化,的,的数据,?,?,结构化,数,数据,任何一,列,列的数,据,据不可,以,以再细,分,分,任何一,列,列的数,据,据都有,相,相同的,数,数据类,型,型,结构化,数,数据很,多,多,.,人力资,源,源管理,库存管,理,理,门诊挂,号,号,工资管,理,理,物流管,理,理,户籍管,理,理,各种票,务,务管理,印象:,目,目前的,数,数据管,理,理技术,和,和手段,已,已经很,完,完善了,!,!,现实:,数,数据库,管,管理技,术,术确实,在,在一些,领,领域得,到,到了完,美,美的应,用,用!,数据库,的,的三大,成,成就,关系模,型,型,E.F,.,.Codd(数据,库,库领域,第,第二个,图,图灵奖,获,获得者,),),事务处,理,理,JimGray(数据,库,库领域,第,第三个,图,图灵奖,获,获得者,),),查询优,化,化,结构化,(,(模式,和,和实例,分,分离),关系数,据,据库理,论,论(关,系,系代数,),),物理存,储,储(索,引,引/统,计,计),成功造,就,就了数,百,百亿美,元,元的数,据,据库产,业,业,孔子登,东,东山而,小,小鲁,,登,登泰山,而,而小天,下,下,.,非结构,化,化数据,更,更多,.,非结构,化,化数据,的,的实例,:,:,文本、,图,图片、,网,网页、,图,图像、,音,音频、,视,视频等,等,等。,这里的,“,“多”,,,,包括,数,数据量,“,“巨大,”,”和种,类,类“繁,杂,杂”!,(结构化,数,数据)=非结构,化,化数据,数据量,“,“巨大,”,”,种类“,繁,繁杂”,!,!,多媒体,文,文件的,基,基本要,素,素:文,字,字、声,音,音、图,像,像。,多媒体,效,效果的,组,组成过,程,程:音,频,频文件,、,、视频,文,文件、,文,文字文,件,件(字,幕,幕),,按,按照一,定,定时间,节,节点的,合,合成。,更为科,学,学的统,计,计规律,世界上,的,的数据80%是非结,构,构化数,据,据,二/八定律,两个世,界,界(twouniversals),.,数据库,世,世界,.,非数据,库,库世界,.,29,大数据,的,的评估,指,指标1,30,2、数据,结,结构复,杂,杂,数据量,只,只是反,映,映数据,性,性质的,一,一个指,标,标,还,不,不是最,重,重要的,指,指标。,一天产,生,生一百,万,万个T数据的,公,公司也,许,许算不,上,上大数,据,据公司,,,,而另,一,一个一,天,天只产,生,生一万,个,个T数据的,公,公司也,许,许反而,是,是个大,数,数据公,司,司,其,原,原因在,于,于数据,结,结构的,复,复杂性,。,。,例如,A公司拥,有,有一亿,用,用户,,但,但用户,在,在A公司网,站,站上只,干,干一件,事,事或一,类,类事,,由,由此产,生,生的数,据,据量虽,然,然不小,,,,但结,构,构简单,,,,重复,性,性高,,分,分析起,来,来很容,易,易,归,归,归类,,简,简单数,据,据挖掘,基,基本功,足,足够。,B公司只,有,有一千,万,万用户,,,,却是,个,个开放,平,平台,,用,用户在,此,此可以,干,干互联,网,网能够,支,支持的,所,所有事,情,情,网,络,络行为,又,又可分,为,为个人,,,,群体,,,,组织,等,等层次,,,,那么,这,这个数,据,据的结,构,构就够,复,复杂,,能,能够支,持,持深度,挖,挖掘和,复,复杂建,模,模,因,而,而就可,以,以算作,大,大数据,。,。,31,3、数据,关,关联度,高,高,网络业,一,一个常,见,见现象,就,就是随,着,着数据,量,量的增,加,加,用,户,户行为,所,所产生,的,的数据,间,间的关,系,系越来,越,越不清,晰,晰,越,来,来越难,以,以捉摸,,,,越来,越,越相互,孤,孤立,,也,也就是,所,所谓的,数,数据碎,片,片化。,这,这种碎,片,片化主,要,要来自,两,两个方,面,面:一,是,是网站,结,结构碎,片,片化,,逻,逻辑混,乱,乱化,,各,各种产,品,品与服,务,务之间,相,相互孤,立,立化,,因,因而导,致,致数据,之,之间关,系,系断裂,,,,关联,度,度很低,。,。例如,,,,明明,是,是同一,个,个用户,在,在一个,网,网站上,使,使用了,十,十种不,同,同的产,品,品和服,务,务,但,由,由于其,中,中五种,无,无需注,册,册使用,,,,其他,五,五种又,需,需要分,别,别注册,使,使用,,结,结果这,十,十种网,络,络行为,的,的数据,无,无法整,合,合在一,起,起,或,者,者需要,通,通过种,种,种技术,手,手段和,工,工具进,行,行高成,本,本的数,据,据整合,,,,以至,于,于入不,敷,敷出。,这,这也就,减,减少了,数,数据的,含,含金量,,,,降低,了,了数据,的,的可挖,掘,掘度,,使,使得无,论,论数据,量,量如何,大,大,结,构,构如何,复,复杂,,也,也形成,不,不了大,数,数据。,反,反之,,如,如果一,个,个WEB2.0时代的,开,开放平,台,台,架,构,构清晰,,,,逻辑,分,分明,,用,用户与,用,用户,,用,用户与,用,用户行,为,为,行,为,为与行,为,为之间,都,都具有,确,确定的,关,关联性,,,,那么,这,这样的,数,数据就,具,具有极,高,高的含,金,金量,,极,极高的,分,分析挖,掘,掘价值,,,,也就,可,可以形,成,成大数,据,据,结论,“大数,据,据”技,术,术不能,简,简单的,认,认为是,大,大的“,数,数据”,和,和大的,“,“数据,库,库技术,”,”。,严格意,义,义上讲,,,,技术,本,本质上,大,大数据,技,技术和,数,数据库,技,技术是,两,两个完,全,全不同,的,的技术,体,体系!,为什么,呢,呢?,33,4、大数,据,据处理,的,的工具,与,与手段,34,第一阶,段,段:简,单,单数字,资,资源的,产,产生和,丰,丰富,数字资,源,源的产,生,生和积,累,累过程,(,(数据,库,库技术,应,应运而,生,生)可,以,以理解,成,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!