资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据概论,目,录,1.,2.,3.,4.,大数据总述,大数据处理框架,大数据分析、挖掘,大数据可视化展示,5.,大数据应用案例,大数据总述,大数据概念,研究机构,Gartner,给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。,大数据指的是所涉及的数据规模大到无法通过人脑甚至主流软件工具,在合理时间内达到采集、存储、分析、并整理成为帮助企业更好地经营决策的资讯。,“大数据”这一概念的提出。,全球知名咨询公司麦肯锡,大数据:下一个创新、竞争和生产率前沿,提出:数据已经渗透到当今每一个行业和业务领域,成为重要的生产因素。麦肯锡应该是比较早进行研究和应用大数据的公司,但并不是首次提出这个概念的。,DT,大数据特点,多样性,-Variety,快速性,-Velocity,4V,特征,真实性,-Veracity,大容量,-Volumn,数据规模大,而且大规模增长,数据来源渠道广泛,类型复杂多变,不仅是采集速度快,而且要求处理速度快,数据的准确度和数据价值密度是否高,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。,大数据的重点不在于“大”,而在于数据本身。,人工智能,(,AI,),机器学习,(,ML,),深度学习,(,DL,),大数据,(,Big Data,),几大领域间的图谱关系,大数据处理框架,大数据主流处理框架,Hadoop,是一种专用于批处理的大数据框架。,Hadoop,包含多个组件:,HDFS,、,YARN,、,MapReduce,。通过配合使用可处理批数据。,Hadoop,的处理功能来自,MapReduce,引擎。,Storm,是一种流式处理框架,常用于实时分析、机器学习、持续计算、分布式远程调用和,ETL,等领域。,Storm,的部署管理简单,在同类的流式计算工具,,Storm,的性能也是出众。,Spark,是包含流处理能力的批处理框架,可作为独立集群,或可与,Hadoop,集成并取代,MapReduce,引擎。与,MapReduce,不同,,Spark,的数据处理工作全部在内存中进行,且所有中间态的处理结果均存储在内存中。,Samza,是一种与,Kafka,消息系统紧密绑定的流处理框架。虽然,Kafka,可用于很多流处理系统,但按照设计,,Samza,可以更好地发挥,Kafka,独特的架构优势和保障。,Flink,是一种可以处理批处理任务的流处理框架。该技术可将批处理数据视作具备有限边界的数据流,借此将批处理任务作为流处理的子集加以处理。为所有处理任务采取流处理为先的方法会产生一系列有趣的副作用,。,Hadoop,Hadoop,生态,分布式文件系统是,Hadoop,最核心的部件,主管数据存储。,它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。,HDFS,简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。,HDFS,(,Hadoop Distributed File System,),MapReduce,是一种计算模型,用以进行大数据量的计算。其中,Map,对数据集上的独立元素进行指定的操作,生成键,-,值对形式中间结果。,Reduce,则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。,Mapreduce,HBase,是一个针对结构化数据的面向列的数据库。提供了对大规模数据的随机、实时读写访问。,HBase,中保存的数据可以使用,MapReduce,来处理,它将数据存储和并行计算完美地结合在一起。,Hbase,Hadoop,程序运行原理,Spark,Spark,整体架构,Spark,提供了多种高级工具:,Spark SQL,应用于即时查询、,Spark Streaming,应用于流式计算、,Mllib,应用于机器学习、,GraphX,应用于图处理。,Spark,可以基于自带的,standalone,集群管理器独立运行,也可以部署在,Apach Mesos,和,Hadoop YARN,等集群管理器上运行。,Spark,可以访问存储在,HDFS,、,Hbase,、本地文件系统等上的数据,支持文本文件以及任何,Hadoop,的,InputFormat,。,Spark,特点,高,效,性,易用性,无,缝,性,全面性,Spark,可以与,Hadoop,无缝结合:使用,YARN,作为它的资源管理器。并可以读取,HDFS,、,Hbase,等一切,Hadoop,的数据。,Spark,基于内存的计算比,Hadoop,的,MR,快近,100,倍。,基于硬盘的计算比,MR,快,10,倍。,Spark,可以提供,full-stack,的解决方案:,Spark,的内存计算、基于,Spark SQL,的交互式查询、基于,Spark streaming,的流式计算、基于,Mllib,的机器学习。,Spark,提供了大量的数据操作算子,不像,Hadoop,,只有,map,和,reduce,两种操作。,Spark,支持,Java,、,Scala,、,Python API,。支持交互式的,Python,和,Scala,是,Shell,。,Spark Rdd,RDD-Resilient Distributed Datasets,(弹性分布式数据集),意为容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,,RDD,还提供了一组丰富的操作来操作这些数据。,RDD,是在集群节点上的不可变的、已分区的集合对象。可以通过并行转换的方式来创建如,(map,filter,等等,),,它必须是可序列化的。,RDD,提供了两种类型的操作:,transformation,和,action,。,transformation,是得到一个新的,RDD,,方式很多,比如从数据源生成一个新的,RDD,,从,RDD,生成一个新的,RDD,。,action,是得到一个值,或者一个结果所有的,transformation,都是采用的懒策略,就是如果只是将,transformation,提交是不会执行计算的,计算只有在,action,被提交的时候才被触发。,大数据分析与挖掘,数据分析工具介绍,SAS,Spss,Excel,Matlab,SPSS(Statistical Product and Service Solutions,)“统计产品与服务解决方案”软件。,SPSS for Windows,是一个组合式软件包,它集数据录入、整理、分析功能于一身。它和,SAS,、,BMDP,并称为国际上最有影响的三大统计软件。,Excel,是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。,MATLAB,主要专注于工程和科学计算。,MATLAB,可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等。,Python,Python,完全免费,众多开源的科学计算库都提供了,Python,的调用接口。,Python,有着丰富的扩展库,可以轻易完成各种高级任务,开发者可以用,Python,实现完整应用程序所需的各种功能。,R,R,是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;完整连贯的统计分析工具;优秀的统计作图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。,S,AS(Statistical Analysis System),是一个模块化、集成化的大型应用软件系统。,SAS,由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。,SAS,已被广泛应用于政府,科研,教育和金融等不同领域。,数据分析方法,数据预处理,模型建立,模型评价,探索性分析,数据质量分析:数据质量分析的主要任务是检查原始数据中是否存在脏数据。,数据特征分析:对数据进行质量分析以后,可以通过绘制图表、计算某些特征量等进行数据的特征分析。,数据清洗:删除原始数据集中的无关数据、重复数据,噪声数据平滑、处理缺失值、异常值等。,数据变换:对数据进行规范化处理,数据归一、连续属性离散化、属性构造。数据规约:数据规约后产生更小但保持原数据完整性的新数据集,提高建模效率和准确性。,根据分析目标和数据形式,选用合适的机器学习算法,建立分类与预测、聚类分析、关联规则、偏差检测等模型等等。,模型分类与预测的评价方法有:绝对误差、均方误差、混淆矩阵等等。,数据分析步骤,数据分析方法,机器学习,监督学习,机器学习,分类算法,机器学习,回归算法,机器学习,聚类算法,机器学习,关联分析算法,深度学习,深度学习模型的“深”意味着神经网络的结构深,由至少,3,层组成,深度模型一层的输出作为下一层的输入。通过这种方式,可以实现对输入信息进行分级表达。深度学习与传统模式识别方法的最大不同在于它所采用的特征是从大数据中自动学习得到,而非采用手工设计。,目前,已经涌现出很多相对成熟的深度学习框架,如,Caffe,,,CNTK,,,DeepLearning4j,,,Keras,,,MXNet,和,TensorFlow,等等。,DeepLearning4j,是一个面向生产环境和商业应用的高成熟度深度学习框架,可与,Hadoop,和,Spark,集成,即插即用。,TensorFlow,框架本身并不是分布式的,但可以通过,Spark,实现分布式。,TensorFlowOnSpark,为,Apache Hadoop,和,Apache Spark,集群带来可扩展的深度学习。通过结合深度学习框架,TensorFlow,和大数据框架,Apache Spark,、,Apache Hadoop,的显著特征,,TensorFlowOnSpark,能够在,GPU,和,CPU,服务器集群上实现分布式深度学习。,深度学习简单介绍,大数据可视化展示,数据可视化意义,数据可视化是指将数据以视觉形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。,文本形式的数据很混乱,(,更别提有多空洞了,),,而可视化的数据可以帮助人们快速、轻松地提取数据中的含义。用可视化方式,您可以充分展示数据的模式,趋势和相关性,而这些可能会在其他呈现方式难以被发现。,大数据可视化形式,传统的表现形式,如:柱状图、折线图、饼图、散点图、箱线图等等。,现代表现手法也有多种形式:矩形树图、漏斗图、平行坐标系图、矩形相关图等等。,数据可视化图例,数据可视化图例,数据可视化图例,大数据应用案例,场景描述,某餐饮公司的困惑?,通过前期信息化的建设(,客户关系管理系统、前厅管理系统、后厨管理系统、财务管理系统、物资管理系统),此餐饮公司已经积累了大量的历史数据。能不能找到一种方法可帮助公司从这些数据中洞察商机,提取价值?,分析挖掘过程,感谢各位聆听,谢谢!,
展开阅读全文