大数据关键技术ppt课件

上传人:风*** 文档编号:241044179 上传时间:2024-05-27 格式:PPT 页数:64 大小:751.54KB
返回 下载 相关 举报
大数据关键技术ppt课件_第1页
第1页 / 共64页
大数据关键技术ppt课件_第2页
第2页 / 共64页
大数据关键技术ppt课件_第3页
第3页 / 共64页
点击查看更多>>
资源描述
大数据关键技术肖波中央民族大学中央民族大学2014.10.2014.10.大数据关键技术肖波1 1报告内容一、大数据时代的诞生二、大数据关键技术三、大数据与高等教育四、我们开展的相关研究报告内容一、大数据时代的诞生2 2一、大数据时代的诞生大数据与云计算大数据是云计算的核心内容 大数据改变世界一、大数据时代的诞生大数据与云计算3 3云计算由何而来?HPC:HPC:High-High-Performance Performance ComputingComputingHTC:HTC:High-High-Throughput Throughput ComputingComputingP2P:P2P:Peer to PeerPeer to PeerMPP:MPP:Massively Massively Parallel Parallel ProcessorsProcessors云计算由何而来?HPC:High-Performance 4 4最早是由天文学和基因学创最早是由天文学和基因学创造出了造出了“大数据大数据”这一概念。这一概念。自然自然20082008年大数据专刊年大数据专刊大数据名称的起源一张哈勃望远镜捕捉下来的高清相片,高达数十个G字节最早是由天文学和基因学创造出了“大数据”这一概念。自5 5大数据的定义 大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。大数据的定义 大数据是指那些大小已经超出了传统6 6大数据的定义 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构。大数据的定义 大数据技术将被设计用7 7大数据的4VVolumesVolumes(GB-TB-PB-EB-ZB-)GB-TB-PB-EB-ZB-)Variety Variety (all-structure,semi-(all-structure,semi-structure,non-struture)structure,non-struture)Velocity Velocity (speed,frequency)(speed,frequency)Value Value (information)(information)大数据的4VVolumes(GB-TB-PB-EB-ZB-8 8二、大数据关键技术1.大数据采集与预处理2.大数据存储及管理3.大数据计算模式与系统4.大数据分析与挖掘5.大数据可视化计算6.大数据隐私与安全7.大数据应用技术二、大数据关键技术大数据采集与预处理9 91.大数据采集与预处理 大数据采集所说的数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。大数据采集与预处理 1010Big DataBig Data1111数据的结构结构化、非结构化、半结构化数据-12-结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者数据的结构结构化、非结构化、半结构化数据-12-1212大数据采集的四种来源管理信息系统(结构化数据)Web信息系统(非结构化,半结构化)物理信息系统(传感器,多媒体数据)科学实验系统(仿真数据)大数据采集的四种来源管理信息系统(结构化数据)1313大数据预处理技术 主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。大数据预处理技术 主要完成对已接收数据的辨析、抽1414预处理取得进展的技术异构数据集成技术WEB中实体识别技术 DeepWeb技术(Web中不能被传统的搜索引擎索引到的那部分内容)传感器网络融合技术 -数据清洗和质量控制工具:Data Flux,Data Stage,InformaticalPowe Center.预处理取得进展的技术异构数据集成技术1515数据质量(缺乏系统研究)精确性(数据符合规定的精度)一致性(数据之间不能存在相互矛盾)完整性(数据的值不能为空)同一性(数据的标识是唯一的)时效性(数据的值反映了实际的状态)真实性(数据不能是虚假的)数据质量(缺乏系统研究)精确性(数据符合规定的精度)1616预处理技术发展趋势数据源的选择和高质量原始数据的采集方法(建立数据源质量评估模型)多源数据的实体识别和解析方法数据清洗和自动修复方法(清除错误,修复信息)高质量数据整合方法(智能模式抽取和匹配)数据演化的溯源管理(追踪数据演化过程)预处理技术发展趋势数据源的选择和高质量原始数据的采集方法(建17172.大数据存储与管理技术 主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。2.大数据存储与管理技术 主要解决大数据的1818大数据给存储系统的挑战存储规模大(PB,EB)存储管理复杂(多结构)数据服务的种类和要求高(性能,可靠性)大数据给存储系统的挑战存储规模大(PB,EB)1919大数据主要存储技术分布式文件系统分布式数据库访问接口和查询语言 (MapReduce编程接口,Pig Latin 等)大数据主要存储技术分布式文件系统2020大数据下的存储概念数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件-21-大数据下的存储概念数据结构:结构化数据与非结构化数据-22121分布式MPP数据仓库代表产品特性比较-22-分布式MPP数据仓库代表产品特性比较-22-22223.大数据计算模式与系统 大数据计算模式 根据大数据的各种不同数据特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型。(MapReduce,RDD,GPA等)3.大数据计算模式与系统 2323大数据处理的特征数据结构(all,semi,non)数据获取处理方式(batch,stream)数据处理类型(analysis,mining)实时性或相应性能(real,non-real)迭代计算(iterative)数据关联性(simple,graph)并行计算体系结构(cluster,memory)大数据处理的特征数据结构(all,semi,non)2424大数据关键技术ppt课件2525MapReduce的步骤1.数据分区2.计算分区3.决定主从服务器4.读取输入数据5.Map函数6.排序与分组(根据键值)7.Combiner函数(合并本地数据)8.Partitioning函数(相同键值划分到一个区)9.同步与通信(所有服务器同时完成)10.排序与分组11.Reduce函数MapReduce的步骤数据分区2626Logical Data Flow in 5 Processing Steps in MapReduce Process(Key,Value)Pairs are generated by the Map function over multiple available Map Workers(VM instances).These pairs are then sorted and group based on key ordering.Different key-groups are then processed by multiple Reduce Workers in parallel.Logical Data Flow in 5 Process2727A Word Counting Example on DistributionA Word Counting Example on Ke2828Linking the Map Workers and Reduce Workers by Key Matching in Partitioning FunctionsLinking the Map Workers and Re2929Fig.6.5 Dataflow Implementationof MapReduceFig.6.5 Dataflow Implementati3030大数据关键技术ppt课件3131HIVEPig!ZooKeeper分布式文分布式文件系统件系统海量数据海量数据存储存储大规模计算大规模计算智能分析智能分析算法算法大数据技术架构-典型开源实现HIVEPig!Zoo分布式文件系统海量数据存储大规模计算智3232计算模式发展趋势 Hadoop平台改进后将与其他计算模式和平台共存 (Hadoop2.0)混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。(Spark:迭代、批处理、内存计算、流式计算、shark、图计算)内存计算将成为高实时性大数据处理的重要技术手段和发展方向。(Hana,Spark)计算模式发展趋势 Hadoop平台改进后将与其他计算模式和平33334.大数据分析与挖掘技术大数据挖掘面临的挑战1.数据量膨胀(TB)2.数据深度分析需求的增长(路径分析,时间序列分析,图分析,What-if分析等)3.自动化、可视化分析需求的出现 (自动查询,自动分析等)4.大数据分析与挖掘技术大数据挖掘面临的挑战3434数据挖掘技术机器学习,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。数据挖掘技术机器学习,可细分为:归纳学习方法(决策树、规则归3535大数据分析与挖掘课题改进已有数据挖掘和机器学习技术(并行,分布);开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。大数据分析与挖掘课题改进已有数据挖掘和机器学习技术(并行,分3636大数据挖掘当前进展R和Hadoop的深度集成Weka和MapReduce的集成基于Hadoop的数据挖掘开源程序库 (Apache Mahout项目)大数据挖掘算法的提出 (大数据关联、聚类、分类、神经网络算法)大规模图数据分析方法(基于内存算法,基于集群算法)大数据挖掘当前进展R和Hadoop的深度集成3737大数据挖掘未来发展更加复杂、更大规模的分析和挖掘 (时间序列分析,大规模图分析,大规模社会计算等)大数据的实时分析和挖掘 (几十TB的实时挖掘问题还没有解决)大数据分析和挖掘的基准测试 (了解各种大数据分析和挖掘系统的优缺点)大数据挖掘未来发展更加复杂、更大规模的分析和挖掘3838大数据挖掘需突破的技术可视化分析数据挖掘算法预测性分析语义引擎数据质量和数据管理大数据挖掘需突破的技术可视化分析3939可视化分析 数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。可视化分析 数据可视化无论对于普通用户或是4040数据挖掘算法 数据挖掘算法。统计、分类、聚类、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。改进算法使得这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。数据挖掘算法 数据挖掘算法。4141预测性分析 预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。预测性分析 预测性分析可以让分析师根据图4242语义引擎 语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。语义引擎 语义引擎需要设计到有足够的人工智4343数据质量和数据管理 数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。数据质量和数据管理 数据质量与管理是管理的44445.大数据可视化分析 在大数据时代,除了直接的统计或者数据挖掘的方式,可视化通过交互式视觉表现的方式来帮助人们探索和解释复杂的数据。5.大数据可视化分析 在大数据时代,除了直接的统4545可视化流程数据 可视化 图像 感知和认识 知识设置 探索数据 可视化 用户可视化流程数据 可视化 4646四种基本技术数据流线化(大数据分为相互独立的子块依 次处理SPSD)任务并行化(一个算法分成多个独立的任务模块平行处理MPSD)管道并行化(同时处理面向不同数据的任务的多个独立任务模块MPMD)数据并行化(数据分块后进行平行处理 SPMD)四种基本技术数据流线化(大数据分为相互独立的子块依 4747可视化发展趋势原位分析(内存进行分析,而不再硬盘)可视化中的人机交互(提供界面,专家参与)协同与众包可视分析(多用户协调工作)可扩展性与多级层次问题(在不同层面不同解析度下浏览分析)不确定分析和敏感性分析(了解数据不确定来源和风险)可视化与自动数据计算挖掘的结合(直观与计算结合)面向领域和大众的可视化工具库(领域需求不同)可视化发展趋势原位分析(内存进行分析,而不再硬盘)48486.大数据隐私与安全大数据时代的安全问题更加复杂(集中)使用过程中存在安全问题(黑客)对大数据需求高的团体面临更多安全挑战基于位置的隐私暴露严重缺乏相应的法律法规保证大数据的共享问题(有效性和加密性)真实数据的动态性变化多元数据的融合挑战(来自工作、生活)6.大数据隐私与安全大数据时代的安全问题更加复杂(集中)4949安全技术当前进展文件访问控制技术基础设备加密匿名化保护技术加密保护技术基于数据失真的技术基于可逆的置换算法安全技术当前进展文件访问控制技术5050安全技术发展趋势NoSQL有待进一步完善开展对 APT攻击的研究对多元数据融合提出新的安全隐私保护技术保护分布式系统所有站点的安全社教网络加强安全隐私保护数据采集、存储、分析安全三权分立安全技术发展趋势NoSQL有待进一步完善5151APT(Advanced Persistent Threat)高级持续性威胁。利用先进的攻击手段对特定目标进行长期持续性网络攻击的攻击形式。APT攻击的原理相对于其他攻击形式更为高级和先进,其高级性主要体现在APT在发动攻击之前需要对攻击对象的业务流程和目标系统进行精确的收集。在此收集的过程中,此攻击会主动挖掘被攻击对象受信系统和应用程序的漏洞,利用这些漏洞组建攻击者所需的网络,并利用0day漏洞进行攻击。APT(Advanced Persistent Threat52527.大数据应用技术 大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。7.大数据应用技术 大数据将重点应用于以5353大数据与互联网电子商务(消费、团购、支付)网络广告(效果、相应)网络新闻(搜索、爱好、习惯)旅行预订(游客、景点、饭店)及时通信(关注、热点、民意)网络视频(爱好、习性)大数据与互联网电子商务(消费、团购、支付)5454大数据与网络通信联通(Hadoop技术查询与分析支撑系统)移动(BC-Hadoop大数据平台,BC-PDM&ETL并行数据挖掘,BI-PAAS大数据应用平台)电信(智慧城市,物联网加大数据)大数据与网络通信联通(Hadoop技术查询与分析支撑系统)5555大数据与网络安全实体-行为模型(聚类分析)信息萃取技术(语音识别、视频分析、嗅探、VPN网络)人机结合分析组建国家网络安全力量研发防御网络武器制定数据采集政策大数据与网络安全实体-行为模型(聚类分析)5656大数据与医疗医药居民健康档案数据管理电子病历的发掘与利用基因组学数据应用健康应用医疗数据分析精神卫生应用大数据与医疗医药居民健康档案数据管理5757大数据与智慧城市交通监控信息GPSGIS交通卡高速公路收费水电气社教网络大数据与智慧城市交通监控信息5858大数据的技术挑战大数据的去冗降噪技术大数据的新型表示方法高效率低成本的大数据存储大数据的有效融合非结构化和半结构化数据的高效处理适合不同行业的大数据挖掘分析工具和开发环境大幅度降低数据处理、存储和通信能耗新技术大数据的技术挑战大数据的去冗降噪技术5959大数据技术发展趋势数据资源化解决大数据隐私问题大数据与云计算深度融合产生基于海量数据的智能产生大数据分析的革命化方法大数据安全数据科学兴起形成数据共享联盟更大的数据大数据催生新职业大数据技术发展趋势数据资源化6060冷眼看大数据大数据分析只能预测一个人或者事件未来很有可能进行的行为或发生的可能性大数据获取的是相关关系,而因果关系需要人类去分析和查证任何事情过犹不及,大数据不是万能的。也有人说大数据是新的泡沫。84冷眼看大数据大数据分析只能预测一个人或者事件未来很有可能进行6161关于大数据研究的几点体会大数据应用前景广阔,课题繁多;宜先行展开数据挖掘的研究;数据预处理是一件值得推敲的难事;应及早展开对Hadoop+HDFS体系的研究;不同应用对软件环境和工具需求不同;大数据处理人才是关键。关于大数据研究的几点体会大数据应用前景广阔,课题繁多;6262除了上帝,谁都要用数据说话除了上帝,谁都要用数据说话6363谢谢大家!谢谢大家!6464
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!