大数据安全专题

上传人:gh****f 文档编号:246688257 上传时间:2024-10-15 格式:PPTX 页数:38 大小:1.44MB
返回 下载 相关 举报
大数据安全专题_第1页
第1页 / 共38页
大数据安全专题_第2页
第2页 / 共38页
大数据安全专题_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,单击此处编辑母版标题样式,Page,38,大数据安全专题研究,贺文娜,主要内容,一、什么是大数据,二、大数据的相关技术,三、大数据的应用,四、大数据安全问题及保护技术,五、机遇与挑战,一、什么是大数据,1,、大数据的定义,2,、大数据的特点,3,、大数据结构类型,4,、大数据实例,5,、大数据发展史,有多大?,-,数据度量,1 B =,一个字符或一粒沙子,1 KB =,一个句子或几撮沙子,1 MB =,一个,20,页的幻灯片演示文稿、一本小书或一大汤勺沙子,1 GB =,书架上,9,米长的书或者整整一鞋盒子的沙子,1 TB = 300,小时的优质视频、美国国会图书馆存储容量的十分之一或者一个操场沙箱,1 PB = 35,万张数字照片或者一片,1.6,公里长的海滩,1 EB = 1999,年全世界生成的信息的一半或上海到香港之间的海滩,1 ZB =,无法想象,或者几乎全世界所有的海滩之和。,大数据,(big data),,也称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。,1,、大数据的定义,最早将大数据用于,IT,环境的是知名咨询公司麦肯锡。,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。,2、大数据的特点(4v),Volume,(大量)、,Velocity,(高速)、,Variety,(多样)、,Value,(价值)。,3,、大数据的结构类型,4,、大数据的实例,一分钟我们能干些什么呢?!,一分钟能产生多少数据呢?!,电子邮件用户发送,204,166,677,(,2,亿) 条信息;,Google,收到超过,2,000,000,(,200,万) 个搜索查询;,Facebook,用户分享,684,478,(,68,万) 条内容;,Twitter,用户发送超过,100,000,(,10,万)条微博;,苹果公司收到大约,47,000,(,5,万)个应用下载;,571,个新网站诞生。,5,、大数据,发,发展史,IT,科技浪潮,我们周围,到,到处都是,数,数字信息,。,。(无线电,波,波、电话,电,电路、计,算,算机电缆,),),三种主要,的,的模拟,/,数字转换,为,为数据增,长,长提供了,动,动力:用胶片,拍,拍摄影像,转,转换为数,字,字拍摄影,像,像、模拟,语,语音转换,成,成为了数,字,字语音、,模,模拟电视,转,转换成为,数,数字电视,。,。,2007,年是人类,创,创造的信,息,息量有史,以,以来第一,次,次在理论,上,上超过可,用,用存储空,间,间总量的,一,一年。,数字信息,的,的增长是,因,因为网络,应,应用的不,断,断增长。,约,30,年前,大,部,部分数据,都,都是结构,化,化的,如,今,今,多媒体技,术,术的普及后,非结,构,构化数据,爆,爆炸式增,长,长。,可视化是,引,引起数字,世,世界急剧,膨,膨胀的原,因,因之一。由,于数码相,机,机、数码,监,监控摄像,机,机和数字,电,电视内容,的,的,加速增多,,,,及信息,的,的大量复,制,制趋势,,使,使得数字,世,世界的容,量,量和速度,超,超过之前,。,。,个人日常,生,生活的“,数,数字足迹,”,”也大大,刺,刺激了数,字,字宇宙的,快,快速增长,。,。通过互联,网,网、电子,邮,邮件、移,动,动电话、,数,数码相机,和,和在线信,用,用卡交易,等,等方式,,每,每个人的,日,日常生活,都,都在数字,化,化。,大数据快,速,速增长的,部,部分原因,归,归于智能设备,的,的普及,比如传,感,感器和医,疗,疗设备,,以,以及智能,建,建筑。,非结构化,信,信息的增,长,长部分归,功,功于宽带数据,的,的增长。,全球数字,信,信息五年,间,间增长了,10,倍,大数据与,云,云计算,二、大数,据,据的相关,技,技术,大数据技,术,术框架,1,2,3,4,分布式文,件,件系统,特点:,支持,PB,级的大数,据,据集;,提供高可,靠,靠、高吞,吐,吐率的顺,序,序数据访,问,问;,存储与计,算,算共享节,点,点(存储,节,节点会同,时,时参与应,用,用程序的,执,执行);,使用廉价,的,的硬件(,高,高可扩展,性,性)。,典型的代,表,表:,GFS(Google),、,HDFS(Hadoop),0,HDFS-,分布式文,件,件系统,采用典型,的,的主从结,构,构的架构,设,设计,实,现,现文件系,统,统,元数据和,应,应用数据,分,分离存放,。,。,名字节点,:,:整个集,群,群的主节,点,点,管理,元,元数据,,文,文,件访问的,控,控制。,数据节点,:,:从节点,,,,负责来,自,自客户端,的,的读写请,求,完成,对,对文件内,容,容的提取,和,和保存。,文件分块,,,,采用一,次,次写多次,读,读的文件,访,访问模式,。,。,HDFS-,分布式文,件,件系统,MapReduce,MapReduce,计算模型,可,可以说是,大,大数据处,理,理的核,心算法。,MapReduce,实现了,Map,和,Reduce,两个功能,。,。,Map,把一个函,数,数应用于,集,集合中的,所,所有成员,,,,然后返,回一个基,于,于这个处,理,理的结果,集,集。,Reduce,对结果集,进,进,行分类和,归,归纳。,Map(),和,Reduce(),两个函数,可,可能会并,行,行运行,,即,即,使不是在,同,同一的系,统,统的同一,时,时刻。,单词计数,给一个巨,大,大的文本,,,,计算单,词,词的个数,?,?!,单词计数,使用,MapReduce,求解该问,题,题,定义,Map,和,Reduce,函数,单词计数,使用,MapReduce,求解该问,题,题,Step1:,自动对文,本,本进行分,割,割,形成,初,初始的,对,。,单词计数,使用,MapReduce,求解该问,题,题,Step2:,在分割之,后,后的每一,对,对,进行用,户定义的,Map,进行处理,,,,再生成,新,新的,对。,单词计数,使用,MapReduce,求解该问,题,题,Step3:,对输出的,结,结果集归,拢,拢、排序,(,系统自动,完,完成)。,单词计数,使用,MapReduce,求解该问,题,题,Step4:,通过,Reduce,操作生成,最,最后结果,。,。,0,NOSQL,特点:,不需要预,定,定义模式,(,(不需要,预,预定义数,据,据模式,,预,预定义表,结,结构,数,据,据每条记,录,录都可能,有,有不同的,属,属性和格,式,式);,无共享(,将,将数据划,分,分后存储,在,在各个本,地,地服务器,上,上);,弹性可扩,展,展(运行,时,时可动态,添,添加删除,节,节点);,分区;异,步,步复制。,NOSQL产品分,类,类,数据库名称,作者,列存数据库,Hbase,Hadoop,Azure Tables,Microsoft,Cassandra,Apache,Hypertable,开源,SimpleDB,Amazon,文档数据库,MongoDB,开源,CounchDB,开源,键值存储,Redis,开源,LevelDB,开源,Berkeley DB,开源,图数据库,Neo4j,Neo Technologies,InfoGrid,NetMesh Inc,0,三、大数,据,据的应用,大数据驱,动,动新应用,,,,应用于,各,各行各业,应用实例,1,、奥巴马,的,的大数据,奥巴马和,他,他的大数,据,据团队拥,有,有海量数,据,据和相应,的,的处理能,力,力,使他,在,在大选中,以,以,332,票对,206,票击败了,共,共和党的,米,米特,.,罗姆尼。,2,、,Google,通过其大,数,数据产品,对,对用户的,习,习惯和爱,好,好进行分,析,析,帮助,广,广告商评,估,估广告活,动,动效率,,预,预估在未,来,来可能存,在,在高达数,千,千亿的市,场,场规模。,3,、,Yahoo,和Thinkmail等利,用,用大数据,分,分析技术,来,来过滤垃,圾,圾邮件。,4,、通过Google检索信,息,息挖掘可,以,以得到流,感,感的传播,情,情况;,5,、通过Twitter信息,可,可以预测,股,股票行情,;,;,6,、预测犯,罪,罪;,7,、智能交,通,通。,四、大数,据,据安全问,题,题及保护,技,技术,1,、大数据,中,中的用户,隐,隐私保护,大量事实,表,表明,大,数,数据未能,妥,妥善处理,会,会对用户,的,的隐私造,成,成极大地,侵,侵害。人,们,们面临的,威,威胁并不,仅,仅限于个,人,人隐私泄,露,露,还在,于,于基于大,数,数据对人,们,们状态行,为,为的预测,。,。,2,、大数据,的,的可信性,伪造或刻,意,意制造的,数,数据,错,误,误的数据,往,往导致错,误,误的结论,;,;数据在,传,传播过程,中,中的逐步,失,失真。,密码学中,的,的数字签,名,名、消息,鉴,鉴别码等,技,技术可以,用,用,于验证数,据,据的完整,性,性,但是,应,应用于大,数,数据的真,实,实,性时面临,很,很大困难,,,,源于数,据,据粒度的,差,差异。,3,、如何实,现,现大数据,访,访问控制,大数据访,问,问控制的,难,难点在于,:,:难以预,设,设角色,,实,实,现角色划,分,分;难以,预,预知每个,角,角色的实,际,际权限。,4,、,保护技术,数据发布,匿,匿名保护,技,技术、社,交,交网络匿,名,名保护技,术,术、数字,水,水印技术,、,、数据溯,源,源技术、,角,角色挖掘,、,、风险自,适,适应的访,问,问控制,。,五、机遇,与,与挑战,大数据对,当,当今企业,来,来说,既,是,是绝佳的,商,商机,也,是,是,巨大的挑,战,战。,机遇:,数,数,据,据规模越,大,大,处理,的,的难度也,越,越大,但,对其进行,挖,挖掘可能,得,得到的价,值,值更大。,首,首先,大,数,数据,反映舆情,和,和民意。,其,其次,企,业,业和政府,的,的信息系,统,统每,天源源不,断,断产生大,量,量数据。,挑战:目前,大,数,数据技术,的,的运用仍,存,存在一些,困,困,难与挑战,体,体现在四,个,个环节中,。,。,(,1,)数据收,集,集 要,对,对来自收,集,集的数据,去,去伪存真,,,,,尽可能收,集,集异源异,构,构的数据,,,,必要时,还,还与历史,数,数据,对照,多,角,角度验证,数,数据的全,面,面性和可,信,信性。,(,2,)数据存,储,储。要达,到,到低成本,、,、低能耗,、,、高可靠,性目标,,通,通常要用,到,到冗余配,置,置、分布,化,化和云计,算,算技,术,在存,储,储时要按,照,照一定规,则,则对数据,进,进行分类,,,,通,过过滤和,去,去重,减,少,少存储量,,,,同时加,入,入便于日,后,后检,索的标签,。,。,(,3,)数据处,理,理。有些,行,行业的数,据,据涉及上,百,百个参数,,,,,其复杂性,不,不仅体现,在,在数据样,本,本本身,,更,更体现在,多,多源,异构、多,实,实体和多,空,空间之间,的,的交互动,态,态性,难,以,以用,传统的方,法,法描述与,度,度量,处,理,理的复杂,度,度很大,,需,需要,将高维图,像,像等多媒,体,体数据降,维,维后度量,与,与处理,,利,利用,上下文关,联,联进行语,义,义分析,,从,从大量动,态,态而且可,能,能是,模棱两可,的,的数据中,综,综合信息,,,,并导出,可,可理解的,内,内容。,(,4,)可视化,呈,呈现。使,结,结果更直,观,观以便于,洞,洞察。目,前,尽管,计,计算机智,能,能化有了,很,很大进步,,,,但还只,能,能针,对小规模,、,、有结构,或,或类结构,的,的数据进,行,行分析,,谈,谈不,上深层次,的,的数据挖,掘,掘,现有,的,的数据挖,掘,掘算法在,不,不同,行业中难,以,以通用。,Thanks!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!