资源描述
,单击此处编辑母版标题样式,*,-,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据技术体系及人才需求,主讲:刘军辉,-,大数据技术体系及人才需求主讲:刘军辉-,1,经李克强总理签批,,2015,年,9,月,国务院印发,促进大数据发展行动纲要,系统部署大数据发展工作。,纲要,部署三方面主要任务:,一要加快政府数据开放共享,推动资源整合,提升治理能力。,二要推动产业创新发展,培育新兴业态,助力经济转型。,三要强化安全保障,提高管理水平,促进健康发展。,大数据国家战略,-,经李克强总理签批,2015年9月,国务院印发促进大数据发展,2,1.,政府数据将成为地方政府最重要的资产。,2.,大数据四要素是预警、预测、决策、智能。,3.,中国大数据,70%,的需求集中在政府和金融应用。,4.,大数据产业与传统产业深度融合。,5.,数据源服务商构建大数据生态圈。,6.,大数据智能会逐步取代搜索引擎。,大数据行业趋势,-,1.政府数据将成为地方政府最重要的资产。大数据行业趋势-,3,1.,物联网:为大数据分析提供数据源,2.,云计算:为大数据分析提供计算平台,3.,虚拟现实:为大数据分析提供应用场景,5.,人工智能:模型训练需要依赖大量数据,大数据与其他技术的关系,-,1.物联网:为大数据分析提供数据源大数据与其他技术的关系-,4,1.,趋势分析,2.,行为分析,3.,关系分析,4.,异常检测,大数据应用场景,-,1.趋势分析大数据应用场景-,5,一、医疗大数据 看病更高效,二、生物大数据 改良基因,三、金融大数据 理财利器,四、零售大数据 最懂消费者,五、电商大数据 精准营销法宝,六、农牧大数据 量化生产,七、交通大数据 畅通出行,八、教育大数据 因材施教,九、舆情监控大数据 名探柯南,十、环保大数据 对抗,PM2.5,大数据行业应用,-,一、医疗大数据 看病更高效大数据行业应用-,6,1.,数据科学家,2.,大数据算法工程师,3.,数据规划师,4.,数据分析师,5.,大数据系统架构师,6.,大数据开发工程师,7.,大数据运维工程师,大数据岗位需求,-,1.数据科学家大数据岗位需求-,7,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。,大数据的,5V,特点:,Volume,(大量)、,Velocity,(高速)、,Variety,(多样)、,Value,(低价值密度)、,Veracity,(真实性)。,什么是大数据?,-,一种规模大到在获取、存储、管理、分析方面大大超,8,大数据处理之一:采集数据,大数据处理之二:导入数据并进行预处理,大数据处理之三:进行统计与分析,大数据处理之四:对数据进行挖掘,大数据处理之五:可视化分析结果,大数据分析过程,-,大数据处理之一:采集数据 大数据分析过程-,9,-,-,10,HDFS,:分布式文件系统,解决大数据存储问题。,MapReduce,:分布式计算框架,解决大数据计算问题。,HBase,:,列存储数据库,解决数据检索问题。,Hive,:,数据仓库工具,解决数据挖掘问题。,Hadoop,技术体系,-,HDFS:分布式文件系统,解决大数据存储问题。Hadoop技,11,Spark Core:,包括任务调度、内存管理、错误恢复、与存储系统交互,,RDD,的,API,定义。,Spark SQL:,用来操作结构化数据。,Spark Streaming:,用来操作实时的流数据。,Mllib,:提供机器学习算法库。,GraphX:,用来操作图形,可以进行并行图计算。,Spark,技术体系,-,Spark Core:包括任务调度、内存管理、错误恢复、与,12,更快的速度,:,内存计算下,,Spark,比,Hadoop,快,100,倍。,易用性,:Spark,提供了,80,多个高级运算符。,通用性,:Spark,提供了大量的库,包括,SQL,、,DataFrames,、,MLlib,、,GraphX,、,Spark Streaming,。,多语言:,Spark,支持,Scala,、,python,、,java,、,R,等多种开发语言。,多集群:,Spark,支持,Hadoop YARN,,,Apache Mesos,,及其自带的独立集群管理器,Spark VS Hadoop,-,更快的速度:内存计算下,Spark 比 Hadoop 快10,13,map,:,返回一个新的分布式数据集,由每个原元素经过,func,函数转换后组成,filter:,返回一个新的数据集,由经过,func,函数后返回值为,true,的原元素组成,flatMap,:,类似于,map,,但是每一个输入元素,会被映射为,0,到多个输出元素,sample(withReplacement,frac,seed):,根据给定的随机种子,seed,,随机抽样出数量为,frac,的数据,union:,返回一个新的数据集,由原数据集和参数联合而成,groupByKey,:,在一个由(,K,V,)对组成的数据集上调用,返回一个(,K,,,SeqV),对的数据集。,reduceByKey,:,在一个(,K,,,V),对的数据集上使用,返回一个(,K,,,V,)对的数据集,,Join,:在类型为(,K,V),和(,K,W),类型的数据集上调用,返回一个(,K,(V,W),对,每个,key,中的所有元素都在一起的数据集,groupWith,:,在类型为(,K,V),和,(K,W),类型的数据集上调用,返回一个数据集。,cartesian:,笛卡尔积。但在数据集,T,和,U,上调用时,返回一个,(T,,,U,)对的数据集,所有元素交互进行笛卡尔积。,RDD,转化操作,-,map:返回一个新的分布式数据集,由每个原元素经过func,14,reduce(func):,通过函数,func,先聚集各分区的数据集,再聚集分区之间的数据,,func,接收两个参数,返回一个新值,新值再做为参数继续传递给函数,func,,直到最后一个元素,collect():,以数据的形式返回数据集中的所有元素给,Driver,程序,为防止,Driver,程序内存溢出,一般要控制返回的数据集大小,count(),:返回数据集元素个数,first():,返回数据集的第一个元素,take(n):,以数组的形式返回数据集上的前,n,个元素,top(n):,按默认或者指定的排序规则返回前,n,个元素,默认按降序输出,takeOrdered(n,ordering):,按自然顺序或者指定的排序规则返回前,n,个元素,RDD,行动操作,-,reduce(func):通过函数func先聚集各分区的数据,15,MLlib,是,Spark,的可以扩展的,机器学习,库,由以下部分组成:通用的学习,算法,和工具类,包括分类,回归,聚类,协同过滤,降维等。,使用,Mllib,的步骤:,1.,用字符串,RDD,表示 信息。,2.,运行特征提取算法,返回向量,RDD,。,3.,对向量,RDD,调用分类算法。,4.,使用评函数 在测试集上评估模型。,Mllib,算法库,-,MLlib 是Spark的可以扩展的机器学习库,由以下部分组,16,summary statistics,概括统计,correlations,相关性,stratified sampling,分层取样,hypothesis testing,假设检验,random data generation,随机数生成,基本统计,-,summary statistics 概括统计基本统计-,17,主要用来从数据中提取特征,TF-IDF,:词频,逆文档频率,HashintDF:,从一个文档中计算出给定大小的词频向量。,特征提取,-,主要用来从数据中提取特征特征提取-,18,分类回归的应用是根据 对象的特征预测结果,linear models,线性模型(支持向量机,逻辑回归,线性回归),naive Bayes,贝叶斯算法,decision trees,决策树,ensembles of trees,(Random Forests and Gradient-Boosted Trees),多种树(随机森林和梯度增强树),分类回归,-,分类回归的应用是根据 对象的特征预测结果分类回归-,19,聚类主要用于数据探索和异常检测,Clustering,聚类,k-means k,均值算法,聚类,-,聚类主要用于数据探索和异常检测 聚类-,20,协同过滤是一种根据用户对各种产品的交互与评分来推荐系统的技术,alternating least squares(ALS)(,交替最小二乘法,(ALS),协同过滤与推荐,-,协同过滤是一种根据用户对各种产品的交互与评分来推荐系统的技术,21,减少特征的数量 使模型训练更加高效,忽略一些无用的维度。,singular value decomposition(SVD),奇异值分解,principal component analysis(PCA),主成分分析,降维,-,减少特征的数量 使模型训练更加高效,忽略一些无用的维度。降维,22,1.,熟悉数据分析的工作过程,了解数据采集、整理、分析和建模工作中的具体 工作。,2.,熟悉,Hadoop,或,Spark,生态相关技术,包括,MapReduce,、,hdfs,、,Hive,、,Mllib,等,3.,掌握一门编程语言,,java,scala,python,R,等。,4.,不断地学习相关技术,养成大数据分析的思维习惯。,大数据分析岗位要求,-,1.熟悉数据分析的工作过程,了解数据采集、整理、分析和建模工,23,
展开阅读全文