资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,LOGO,大数据安全与隐私保护,作者:冯登国 张敏 李昊,中国科学院软件研究所,大数据安全与隐私保护作者:冯登国 张敏 李昊,1,大数据安全与隐私保护,大,数据的现状,1,大,数据研究概述,2,大数据带来的安全挑战,3,大数据安全与隐私保护关键技术,4,大数据服务与信息安全,5,小结,6,大数据安全与隐私保护大数据的现状 1大数据研究概述2,2,一、大,数据的现状,为什么,我们要,研究,大数据?,在,科学界,Nature,和,Science,都推出了大数据专利对其展开探讨,意味着大数据成为云计算之后的信息技术领域的另一个信息产业增长点。,当今,社会信息化和,网络化的发展导致数,据的爆炸式增长,据,统计,平均每秒有,200,万的用户在使用,谷歌搜索,各行业,也有大量数据在不,断产生。,缺点:安全与隐私问题是人们公认的关键问题。,一、大数据的现状为什么我们要当今,社会信息化和缺点:安全与隐,3,二、大,数据研究概述,大,数据,大规模,高速性,多样性,人,机,物,特点,来源,二、大数据研究概述 大数据大规模高速性多样性人机物特点来,4,大数据分析目标,1,获得知识与推测趋势,由于大数据包含大量原始、真实信息,大数据分析能够有效摒弃个体差异,帮助人们透过现象把握规律。,2,分析掌握个性化特征,企业通过长时间、多维度的数据积累,可以分析用户行为规律,为用户提供更好的个性化产品和服务,以及更精确的广告推荐。,3,通过分析辨别,真相,由于网络中信息的传递更变便利,所以网络虚假信息造成的危害也更大。,目前人们开始尝试利用大数据进行虚假信息的识别。,大数据分析目标1获得知识与推测趋势2分析掌握个性化特征3通过,5,大数据技术框架,数据解释,旨在更好地支持用户对数据分析结果的使用,涉及的主要技术为可视化和人机交互。,数据分析,分为三类:计算架构,查询与索引,数据分析和处理。,数据采集与预处理,由于大数据的来源不一,可能存在不同模式的描述,甚至存在矛盾。因此。在数据集成过程中对数据进行清洗,以消除相似、重复或不一致的数据是非常必要的。,大数据技术框架数据解释数据分析数据采集与预处理,6,三、大数据带来的安全挑战,大数据中的用户隐私保护,大数据的可信性,如何实现大数据的访问控制,大数据带来的安全挑战,三、大数据带来的安全挑战大数据中的用户隐私保护大数据的可信性,7,大数据带来的安全挑战,用户隐私,保护,大数据的可信性,如何实现,大数据访,问控制,不仅限于个人,隐私,泄漏,还在于基于大数据对人们状态和,行为的预,测,。,目前,用户,数据的,收集、管理,和使用缺乏监,管,主要依靠,企业自律,威胁之一,是伪造或刻意制造,数据,,而错误,的数据往往会导致,错误的,结论,。,威胁之二是数,据在传播中的,逐步失真。,(,1,)难以预设角色,实现角色划分;,(,2,)难以预知每个角色的实际权限。,大数据带来的安全挑战用户隐私大数据的可信性如何实现不仅限于个,8,四、大数据安全与隐私保护关键技术,数据发布匿名保护技术,1,社交网络匿名保护技术,2,数据水印技术,3,数据溯源技术,4,角色挖掘技术,5,风险自适应的访问控制,6,四、大数据安全与隐私保护关键技术数据发布匿名保护技术1社交网,9,数据发布匿名保护技术,数据发布匿名保护技术是对大数据中结构化数据实现隐私保护的核心关键与基本技术手段,典型,例子:,K,匿名,方案,k-,匿名技术要求发布的数据中存在,一定数量,(,至少为,k),的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私,K,匿名方案,优势,一定程度上保护,了,数据,的隐私,,能够很好的解决静态、一次发布的数据隐私保护问题,劣势,不能应对数据连续多次发布、,攻击者从多渠道获得数据的,问题的场景。,数据发布匿名保护技术数据发布匿名保护技术是对大数据中结构化数,10,社交网络匿名保护技术,社交网络中典型的匿名保护,:,1,、用户标识匿名与属性匿名,在数据发布时隐藏了 用户的标识与属性信息,2,、用户间关系匿名,在数据发布时隐藏了用户间的关系,常见社交网络匿名保护,1,边匿名方案多基于边的增删,用随机增删交换便的方法有效地实现边匿名,不足:匿名边保护不足,2,基于超级节点对图结构进行分割和集聚操作,不足:牺牲数据的可用性,社交网络匿名保护技术社交网络中典型的匿名保护:1边匿名方案多,11,数据水印技术,数据水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用方法,多见于多媒体数据版权保护,也有针对数据库和文本文件的水印,方案。,前提:数据中存在冗余信息或可容忍一定精度的误差,案例:,1,、,Agrawal,等人基于数据库中数值型数据存在误差容忍范围,将少量水印信息嵌入到这些数据中随机选取的最不重要位上。,2,、,Sion,等人基于数据集合统计特征,将水印信息嵌入属性数据中,防止攻击者破坏水印,数据水印技术数据水印是指将标识信息以难以察觉的方式嵌入在数据,12,数据水印技术应用:强健水印类可用于大数据起源证明,脆弱水印类可证明数据的真实性,存在的问题:当前方案多基于静态数据集,针对大数据的高速产生与更新的特性考虑不足,数据水印技术,基于文档结构微调的水印,基于自然语言的水印,基于文本内容的水印,文本,水印,数据水印技术应用:强健水印类可用于大数据起源证明,脆弱水印类,13,数据溯源技术目标是帮助人们确定数据仓库中各项数据的来源,也可用于文件的溯源与恢复,基本方法:标记法,比如通过对数据进行标记来记录数据在数据仓库中的查询,与传播历史,数据溯源技术,数据溯源与隐私保护之间的平衡,数据溯源技术自身的安全性保护,面临的挑战,数据溯源技术目标是帮助人们确定数据仓库中各项数据的来源,也可,14,角色挖掘技术,角色挖掘:根据现有“用户,-,对象”授权情况,设计算法自动实现角色的提取与优化,。,典型工作:,以可视化形式,通过用户权限二维图排序归并方式进行角色提取,非形式化:子集枚举以及聚类的方法提取角色,基于形式化语义分析、通过层次化挖掘来更准确提取角色,角色挖掘技术角色挖掘:根据现有“用户-对象”授权情况,设计算,15,风险自适应的访问控制,风险自适应的访问控制是针对在大数据场景中,安全管理员可能缺乏足够的专业知识,无法准确的为用户指定其可以访问的数据的情况,。,案例:基于多级别安全模型的风险自适应访问控制解决方案、基于模糊推理的解决方案等,难点:在大数据环境中,风险的定义和量化都比以往更加困难。,风险自适应的访问控制风险自适应的访问控制是针对在大数据场景中,16,五、大数据服务与信息安全,基于大数据的应用,威胁发现,技术,认证技术,数据真实性分析,安全,-,即,-,服务,五、大数据服务与信息安全基于大数据的应用威胁发现认证技术数据,17,基于大数据的威胁发现技术,基于大数据,企业可以更主动的发现潜在的安全威胁,相较于传统技术方案,大数据威胁发现技术有以下优点:,1,、分析内容的范围更大,2,、分析内容的时间跨度更长,3,、攻击威胁的预测性,4,、对未知威胁的检测,基于大数据的威胁发现技术基于大数据,企业可以更主动的发现潜在,18,基于大数据的认证技术,身份认证:信息系统或网络中确认操作者身份的过程,传统认证技术只要通过用户所知的口令或者持有凭证来鉴别,用户,传统技术面临的问题,:,1,、攻击者总能找到方法来骗取用户所知的秘密,或窃取用户凭证,2,、传统认证技术中认证方式越安全往往意味着用户负担越重,基于大数据的认证技术身份认证:信息系统或网络中确认操作者身份,19,基于大数据的认证技术,基于大数据的认证技术:收集用户行为和设备行为数据,对这些数据分析,获得用户行为和设备行为的特征,进而确定其身份。,1,、攻击者很难模拟用户行为通过认证,2,、减小用户负担,3,、更好的支持各系统认证机制的统一,1,、初始阶段的认证,,由于缺乏大量数据,,认证分析不准确,2,、用户隐私问题,优点,缺点,基于大数据的认证技术基于大数据的认证技术:收集用户行为和设备,20,基于大数据的数据真实性分析,基于大数据的数据真实性分析被广泛认为是最为有效的,方法,优势:,1,、引入大数据分析可以获得更高的识别准确率,2,、在进行大数据分析时,通过机器学习技术,可以发现更多具有新特征的垃圾,信息,面临的困难:虚假信息的定义、分析模型的构建等,基于大数据的数据真实性分析基于大数据的数据真实性分析被广泛认,21,大数据与“安全,-,即,-,服务”,核心问题:,如何,收集、存储和管理大,数据,对信息安全企业来说,现实,的方式,是通过,某种方式获得大数据,服务,结合,自己的技术,特色,,对外提供安全服务,前景:以,底层大数据服务为基础,各个企业之间组成,相互,依赖、相互支撑的信息安全服务体系,,形成信息,安全产业界的良好生态环境,大数据与“安全-即-服务”核心问题:如何收集、存储和管理大数,22,六、,小,结,大数据带来新的契机的同时也带来了新的安全问题,但它自身也是解决问题的重要手段。论文从大数据的隐私保护、信任、访问控制等角度梳理了大数据安全与隐私保护的相关技术,但当今的研究仍不够充分。,技术手段,政策法规,更好的解决大数据安全与隐私保护问题,六、小结 大数据带来新的契机的同时也带来了新的安,23,Thank You!,Thank You!,24,
展开阅读全文