大数据安全课件

上传人:3626209****147198... 文档编号:252412933 上传时间:2024-11-15 格式:PPT 页数:38 大小:1.58MB
返回 下载 相关 举报
大数据安全课件_第1页
第1页 / 共38页
大数据安全课件_第2页
第2页 / 共38页
大数据安全课件_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,单击此处编辑母版标题样式,Page,*,大数据安全专题研究,贺文娜,大数据安全专题研究贺文娜,主要内容,一、什么是大数据,二、大数据的相关技术,三、大数据的应用,四、大数据安全问题及保护技术,五、机遇与挑战,主要内容一、什么是大数据,一、什么是大数据,1,、大数据的定义,2,、大数据的特点,3,、大数据结构类型,4,、大数据实例,5,、大数据发展史,一、什么是大数据1、大数据的定义,有多大?,-,数据度量,有多大?-数据度量,1 B=,一个字符或一粒沙子,1 KB=,一个句子或几撮沙子,1 MB=,一个,20,页的幻灯片演示文稿、一本小书或一大汤勺沙子,1 GB=,书架上,9,米长的书或者整整一鞋盒子的沙子,1 TB=300,小时的优质视频、美国国会图书馆存储容量的十分之一或者一个操场沙箱,1 PB=35,万张数字照片或者一片,1.6,公里长的海滩,1 EB=1999,年全世界生成的信息的一半或上海到香港之间的海滩,1 ZB=,无法想象,或者几乎全世界所有的海滩之和。,1 B=一个字符或一粒沙子,大数据,(big data),,也称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。,1,、大数据的定义,大数据(big data),也称巨量资料,指的是所涉及的资料,最早将大数据用于,IT,环境的是知名咨询公司麦肯锡。,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。,最早将大数据用于IT环境的是知名咨询公司麦肯锡。,2、大数据的特点(4v),Volume,(大量)、,Velocity,(高速)、,Variety,(多样)、,Value,(价值)。,2、大数据的特点(4v)Volume(大量)、Vel,3,、大数据的结构类型,3、大数据的结构类型,4,、大数据的实例,一分钟我们能干些什么呢?!,一分钟能产生多少数据呢?!,电子邮件用户发送,204,166,677,(,2,亿)条信息;,Google,收到超过,2,000,000,(,200,万)个搜索查询;,Facebook,用户分享,684,478,(,68,万)条内容;,Twitter,用户发送超过,100,000,(,10,万)条微博;,苹果公司收到大约,47,000,(,5,万)个应用下载;,571,个新网站诞生。,4、大数据的实例一分钟我们能干些什么呢?!,5,、大数据发展史,IT,科技浪潮,5、大数据发展史IT科技浪潮,我们周围到处都是数字信息。,(无线电波、电话电路、计算机电缆),三种主要的模拟,/,数字转换为数据增长提供了动力,:用胶片拍摄影像转换为数字拍摄影像、模拟语音转换成为了数字语音、模拟电视转换成为数字电视。,2007,年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。,数字信息的增长是因为网络应用的不断增长,。,约,30,年前,大部分数据都是结构化的,如今,,多媒体技术的普及,后,非结构化数据爆炸式增长。,我们周围到处都是数字信息。(无线电波、电话电路、计算机电缆),可视化是引起数字世界急剧膨胀的原因之一。,由,于数码相机、数码监控摄像机和数字电视内容的,加速增多,及信息的大量复制趋势,使得数字世界的容量和速度超过之前。,个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。,通过互联网、电子邮件、移动电话、数码相机和在线信用卡交易等方式,每个人的日常生活都在数字化。,大数据快速增长的部分原因归于,智能设备的普及,,比如传感器和医疗设备,以及智能建筑。,非结构化信息的增长部分归功于,宽带数据的增长。,可视化是引起数字世界急剧膨胀的原因之一。由,全球数字信息五年间增长了,10,倍,全球数字信息五年间增长了10倍,大数据与云计算,大数据与云计算,二、大数据的相关技术,大数据技术框架,1,2,3,4,二、大数据的相关技术大数据技术框架1234,分布式文件系统,特点:,支持,PB,级的大数据集;,提供高可靠、高吞吐率的顺序数据访问;,存储与计算共享节点(存储节点会同时参与应用程序的执行);,使用廉价的硬件(高可扩展性)。,典型的代表:,GFS(Google),、,HDFS(Hadoop),0,分布式文件系统0,HDFS-,分布式文件系统,采用典型的主从结构的架构设计,实现文件系统,元数据和应用数据分离存放。,名字节点:整个集群的主节点,管理元数据,文,件访问的控制。,数据节点:从节点,负责来自客户端的读写请,求,完成对文件内容的提取和保存。,文件分块,采用一次写多次读的文件访问模式。,HDFS-分布式文件系统,HDFS-,分布式文件系统,HDFS-分布式文件系统,MapReduce,MapReduce,计算模型可以说是大数据处理的核,心算法。,MapReduce,实现了,Map,和,Reduce,两个功能。,Map,把一个函数应用于集合中的所有成员,然后返,回一个基于这个处理的结果集。,Reduce,对结果集进,行分类和归纳。,Map(),和,Reduce(),两个函数可能会并行运行,即,使不是在同一的系统的同一时刻。,MapReduce,单词计数,给一个巨大的文本,计算单词的个数?!,单词计数,单词计数,使用,MapReduce,求解该问题,定义,Map,和,Reduce,函数,单词计数,单词计数,使用,MapReduce,求解该问题,Step 1:,自动对文本进行分割,形成初始的,对,。,单词计数,单词计数,使用,MapReduce,求解该问题,Step 2:,在分割之后的每一对,进行用,户定义的,Map,进行处理,再生成新的,对。,单词计数,单词计数,使用,MapReduce,求解该问题,Step 3:,对输出的结果集归拢、排序,(,系统自动完成)。,单词计数,单词计数,使用,MapReduce,求解该问题,Step 4:,通过,Reduce,操作生成最后结果。,单词计数,0,0,NOSQL,特点:,不需要预定义模式(不需要预定义数据模式,预定义表结构,数据每条记录都可能有不同的属性和格式);,无共享(将数据划分后存储在各个本地服务器上);,弹性可扩展(运行时可动态添加删除节点);,分区;异步复制。,NOSQL,NOSQL产品分类,数据库名称,作者,列存数据库,Hbase,Hadoop,Azure Tables,Microsoft,Cassandra,Apache,Hypertable,开源,SimpleDB,Amazon,文档数据库,MongoDB,开源,CounchDB,开源,键值存储,Redis,开源,LevelDB,开源,Berkeley DB,开源,图数据库,Neo4j,Neo Technologies,InfoGrid,NetMesh Inc,0,NOSQL产品分类数据库名称作者列存数据库HbaseHado,三、大数据的应用,大数据驱动新应用,应用于各行各业,三、大数据的应用大数据驱动新应用,应用于各行各业,应用实例,1,、奥巴马的大数据,奥巴马和他的大数据团队拥有海量数据和相应的处理能力,使他在大选中以,332,票对,206,票击败了共和党的米特,.,罗姆尼。,2,、,Google,通过其大数据产品对用户的习惯和爱好进行分析,帮助广告商评估广告活动效率,预估在未来可能存在高达数千亿的市场规模,。,3,、,Yahoo,和Thinkmail等利用大数据分析技术来过滤垃圾邮件。,应用实例,4,、通过Google检索信息挖掘可以得到流感的传播情况;,5,、通过Twitter信息可以预测股票行情;,6,、预测犯罪;,7,、智能交通。,4、通过Google检索信息挖掘可以得到流感的传播情况,四、大数据安全问题及保护技术,1,、大数据中的用户隐私保护,大量事实表明,大数据未能妥善处理会对用户的隐私造成极大地侵害。人们面临的威胁并不仅限于个人隐私泄露,还在于基于大数据对人们状态行为的预测。,2,、大数据的可信性,伪造或刻意制造的数据,错误的数据往导致错误的结论;数据在传播过程中的逐步失真。,密码学中的数字签名、消息鉴别码等技术可以用,四、大数据安全问题及保护技术1、大数据中的用户隐私保护,于验证数据的完整性,但是应用于大数据的真实,性时面临很大困难,源于数据粒度的差异。,3,、如何实现大数据访问控制,大数据访问控制的难点在于:难以预设角色,实,现角色划分;难以预知每个角色的实际权限。,4,、,保护技术,数据发布匿名保护技术、社交网络匿名保护技术、数字水印技术、数据溯源技术、角色挖掘、风险自适应的访问控制,。,于验证数据的完整性,但是应用于大数据的真实,五、机遇与挑战,大数据对当今企业来说,既是绝佳的商机,也是,巨大的挑战。,机遇:数据规模越大,处理的难度也越大,但,对其进行挖掘可能得到的价值更大。首先,大数据,反映舆情和民意。其次,企业和政府的信息系统每,天源源不断产生大量数据,。,挑战:,目前,大数据技术的运用仍存在一些困,难与挑战体现在四个环节中。,五、机遇与挑战 大数据对当今企业来说,既是绝佳的商,(,1,)数据收集 要对来自收集的数据去伪存真,,尽可能收集异源异构的数据,必要时还与历史数据,对照,多角度验证数据的全面性和可信性。,(,2,)数据存储。要达到低成本、低能耗、高可靠,性目标,通常要用到冗余配置、分布化和云计算技,术,在存储时要按照一定规则对数据进行分类,通,过过滤和去重,减少存储量,同时加入便于日后检,索的标签。,(,3,)数据处理。有些行业的数据涉及上百个参数,,其复杂性不仅体现在数据样本本身,更体现在多源,(1)数据收集 要对来自收集的数据去伪存真,,异构、多实体和多空间之间的交互动态性,难以用,传统的方法描述与度量,处理的复杂度很大,需要,将高维图像等多媒体数据降维后度量与处理,利用,上下文关联进行语义分析,从大量动态而且可能是,模棱两可的数据中综合信息,并导出可理解的内容。,(,4,)可视化呈现。使结果更直观以便于洞察。目,前,尽管计算机智能化有了很大进步,但还只能针,对小规模、有结构或类结构的数据进行分析,谈不,上深层次的数据挖掘,现有的数据挖掘算法在不同,行业中难以通用。,异构、多实体和多空间之间的交互动态性,难以用,Thanks!,Thanks!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!