《大数据》第5章R语言325

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据,BIG DATA,第,五,章,R,语言,5,.1,R,语言简介,5.2,R,与数据挖掘,5.3,S,parkR,习题,of,44,2,5,.1,R,语言简介,大数据,配套,PPT,课件,用于统计计算和作图的语言,计量经济学,实证金融学,统计遗传学等,免费、开源及,统计模块齐全,R,语言,数据挖掘,机器学习,自然语言处理等,十大热门编程语言第七位,of,44,3,5,.1,R,语言简介,大数据,配套,PPT,课件,基于,S,语言,的,一,个,GNU,项目,，语法来自,Scheme,语言，,R,语言的源代码正式发布到自由软件协会的,FTP,上,核心开发团队达到,20,人，,来自牛津大学、,AT&T,实验室,等等。,不单是一门语言，更是一个数据计算与分析的环境,，,内容涵盖了从统计计算到机器学习，从金融分析到生物信息，从社会网络分析到自然语言处理，从各种数据库各种语言接口到高性能计算模型,S,语言,1995,年,2013,年,of,44,4,5.1.1R,语言产生与发展历程,5,.1,R,语言简介,大数据,配套,PPT,课件,5.1.2,R,语言基本功能介绍,数据存储和处理系统,数,组运算工具,，（,其向量,、,矩阵,运算,方面功能尤其强大,）,完整连贯的统计分析工具,优秀的统计制图,功能,R,语言是一套完整的数据处理、计算和制图软件,系统,，主要包括以下功能,of,44,5,5,.1,R,语言简介,大数据,配套,PPT,课件,丰富的数据读取和存储能力,可以保存和加载,R,语言的,数据,，,与,R.data,的交互是通过,R,语言的,save( ),函数和,load(),函数实现的,能够加载和导出,.csv,文件（,write.csv(),函数和,read.csv(),函数,）,能够导入,SPSS/SAS/Matlab,等数据,集,可以通过,RODBC,接口，从数据库中导入,数据,可以通过,odbcConnectExcel,接口从,Excel,表格中导入数据,R,语言,读取,存储,of,44,6,5,.1,R,语言简介,大数据,配套,PPT,课件,丰富的,数据,处理功能,数据挖掘中，需要花,70%,以上的时间在数据处理,上,，,R,语言,提供丰富,的数据处理功能,筛选,filter(),按给定的逻辑判断筛选出符合要求的子数据,集,排列,arrange(),按给定的列名依次对行进行排序,选择,select(),用列名作参数来选择子数据集,变形,mutate(),或,transformation(),用来进行列变形,汇总,summarise(),进行汇总操作，返回一维结果,分组,分组动作,group_by(),of,44,7,5,.1,R,语言简介,大数据,配套,PPT,课件,丰富的,数据,处理能力,向量,因子,数组,矩阵,列表,R,语言处理数据的最基本单位是,向量,，,而不是原子数据,R,语言定义了一类非常特殊的数据类型：因子,数组是向量和矩阵的直接推广，是由三维或三维以上的数据构成的,较复杂的继承关系，和数组的,关系,既是父亲又是儿子,，,还是,孙子,列表由向量直接派生而来,数据框,可以将几个不同类型但长度相同的向量合并到一个数据框,特殊值数据,定义了如,NULL,、,NA,、,NaN,、,inf,等特殊数据,有用函数,提供,了,获取数据类型信息的一些有用函数,of,44,8,5,.1,R,语言简介,大数据,配套,PPT,课件,统计分析,应用数学,计量经济,金融分析,财经分析,生物信息学,数据可视化,数据挖掘,人工智能,R,语言,应用领域,of,44,9,5.1.3,R,语言常见的应用领域,第五章,R,语言,5,.1,R,语言简介,5,.2,R,与数据挖掘,5,.3,SparkR,习题,of,44,10,5.2,R,与数据挖掘,大数据,配套,PPT,课件,数据挖掘,数据挖掘（,Data Mining,）是从大量的数据中发现有趣知识的过程,，涉及统计学、机器学习、模式识别等多个交叉；,主要技术包括分类与预测、聚类、离群点检测、关联规则、序列分析和文本挖掘,以及,社交网络分析和情感分析,等。,R,语言与数据挖掘有关的任务视图,MachineLearning,：主要涉及机器学习和统计学习功能,Cluster,：主要涉及聚类分析和有限混合模型,TimeSeries,：主要涉及时间序列分析,Multivariate,：主要用于多元统计分析及其算法,Spatial,：主要用于空间数据分析,R,语言主要用于统计计算和统计制图，提供了大量的统计和制图工具,of,44,11,5.2,R,与数据挖掘,大数据,配套,PPT,课件,K-,近邻算法,决策树,支持向量机,分类与预测算法,分类与预测算法,of,44,12,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,分类与预测算法,K-,近邻算法,of,44,13,如果一个样本与特征空间中的,K,个最相似（特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别,library(kknn), data(iris), m val +prob=rep(1/m,m), iris.learn iris.valid iris.kknn +kernel=triangular), summary(iris.kknn), fit table(iris.valid$Species,fit),fit,setosa versicolor virginica,setosa 12 0 0,versicolor 0 21 0,virginica 0 0 17,kknn,函数,的使用,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,分类与预测算法,决策树,of,44,14,iris,数据集的,决策树,决策树（,Decision Tree,）是一种依托于分类、训练上的预测树，根据已知预测、归类,未来,生成树,阶段,决策树修剪阶段,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,分类与预测算法,支持向量机,of,44,15,支持向量机（,Support Vector Machine,，,SVM,）是一个二分类的办法，即将数据集中的数据分为两类,SVM,中的超平面,对比,利用超平面分割数据集,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,聚类算法及其,R,包,“聚类”是根据“物以类聚”的原理，将本身没有类别的样本聚集成不同的组（或称为簇），并对每个簇进行描述的过程,常用的聚类算法主要包括,K-means,聚类、层次聚类和基于密度的聚类,K-means,聚类,层次聚类,基于密度的聚类,of,44,16,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,聚类算法及其,R,包,K-means,聚类,of,44,17,同一聚类中的对象相似度较高；而不同聚类中的对象相似度,较小,部分鸢尾花数据的,3-means,聚类,结果,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,聚类算法及其,R,包,层次聚类,of,44,18,一层一层地进行聚类，可以从下而上地把小的,cluster,合并聚集，也可以从上而下地将大的,cluster,进行,分割,iris,数据集中,20,个样本的层次聚类,结果,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,聚类算法及其,R,包,基于密度的聚类,of,44,19,DBSCAN,算法的数据集,DBSCAN,算法的密度聚类结果,关键,参数,可到距离，用于定义邻域的大小,eps,最小数目的对象点,MinPts,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,离群点检测与,R,包,离群点检测与,R,包,单变量的离群点检测,返回的统计信息用于绘制箱体图,实现多变量离群点的,检测,多变量离群点检测,局部离群点因子检测,用聚类方法进行离散点检测,基于密度的局部离群点,检测,将不属于任务一类的数据作为异常值检测,of,44,20,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,关联规则,与,R,包,Groceries,数据集关联度的散点图,top-10,关联规则关系图,of,44,21,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,时间序列分类与,R,包,人口出生率时间序列图,出生率时间序列解构图,of,44,22,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,文本挖掘,提取文本中的词语，并统计频率,of,44,23,5.2.1,R,软件包与常见的数据挖掘算法介绍,5.2,R,与数据挖掘,大数据,配套,PPT,课件,背景,河流中海藻的集中爆发不仅会对河流的生态环境造成破坏，还会影响河流的水质,需求,基于以往的观测数据，对河流中海藻的爆发情况进行预测并采取必要防范措施,以,提高河流的水,质量,方法,以海藻样本数据为,数据集，通过数据挖掘的方式分析影响海藻爆发的主要因素，并通过构建预测模型，对海藻的爆发情况进行事先预测,of,44,24,5.2.2,R,在数据挖掘中的应用举例,5.2,R,与数据挖掘,大数据,配套,PPT,课件,数据集加载,数据集中的数据分析,预测模型的构建,模型的评价与选择,海藻爆发频率预测,完成对海藻爆发情况的实现预测,无效数据处理,of,44,25,5.2.2,R,在数据挖掘中的应用举例,5.2,R,与数据挖掘,大数据,配套,PPT,课件,of,44,26, lm.predictions.a1 rt.predictions.a1 mae.a1.lm mae.a1.rt mae.a1.lm #,显示线性回归模型预测值的平均误差,1 13.10681, mae.a1.rt #,显示回归树模型预测值的平均误差,1 8.480619,部分代码,线性回归和回归树模型的预测,回归树的,MAE,值,为,8.48,线性回归模型的,MAE,值,13.11,回归树模型的预测值的平均误差要优于线性回归模型预测值的平均误差,5.2.2,R,在数据挖掘中的应用举例,第五章,R,语言,5,.1,R,语言简介,5,.2,R,与数据挖掘,5,.3,SparkR,习题,of,44,27,5.3,SparkR,大数据,配套,PPT,课件,taFrames,的数据来源非常广泛,高扩展性,DataFrames,的,优化,SparkR,就是用,R,语言编写,Spark,程序，它允许数据科学家分析大规模的数据集，并通过,R Shell,交互式地在,SparkR,上运行作业,上,1,2,3,SparkR,的核心是,SparkR DataFrame,，,数据组织成一个带有列名的分布式数据集,对,RDD API,的支持,4,of,44,28,5.3.1,SparkR,简介,5.3,SparkR,大数据,配套,PPT,课件,1. Linux,下安装,R,2.,rJava,包安装,3.,SparkR,的安装,首先,在,官网下载,R,的软件包，官网网址为,/,SparkR,包对,rJava,包有依赖关系，因此，在安装,SparkR,之前，需要先完成,rJava,包的,安装,为了避免,Spark,版本的兼容问题，采用源码编译的方式来安装,SparkR,of,44,29,5.3.2,SparkR,环境搭建,5.3,SparkR,大数据,配套,PPT,课件,创建,SparkSession,创建,SparkDataFrmes,SparkSession,（即,Spark,会话）是,SparkR,的切入点，它使得,R,程序和,Spark,集群相互,通信,根据需要从本地,R,数据框（,R data frame,），,Hive,表（,Hive table,）或者从其他数据源创建,SparkDataFrmes,of,44,30,5.3.3,SparkR,使用,5.3,SparkR,大数据,配套,PPT,课件,HQL,是一种类,SQL,的语言，这种语言最终被转化为,Map/Reduce,，,通过,Hive,可以使用,HQL,语言查询存放在,HDFS,上的数据,SparkR,利用,Hive,表来创建,DataFrame,；,将,DataFrame,转化为,Spark SQL,；,SparkR,提供了对,HQL,的支持和,API,，但是,Hive,适合用来对一段时间内的数据进行分析查询,of,44,31,5.3.4 SparkR,与,HQL,5.3,SparkR,大数据,配套,PPT,课件,广义线性模型,简单最小二乘回归（,OLS,）的扩展,，,响应,变量,可以是,正整数,或分类,数据,，,为,某指数分布族,期望值函数,与预测变量,之间,为,线性关系,，,需要,指定分布类型和连接函数,加速失效时间生存回归模型,AFT,模型将经典线性回归模型的建模方法直接拓展到了生存分析领域，即具有截尾生存时间的情形,朴素贝叶斯,模型,通过某对象的先验概率，利用贝叶斯公式计算出其后验概率,，,选择具有最大后验概率的类作为该对象所属的类,K-means,模型,SparkR,提供了对,K-means,算法的支持,，,K-means,算法是很典型的基于距离的,聚类,算法，采用距离作为相似性的评价,指标,模型的保存,与加载,模型训练好了以后，需要将训练好的模型保存起来，以便下一次再用,of,44,32,5.3.5 SparkR,实现的主要机器学习算法概述,5.3,SparkR,大数据,配套,PPT,课件,利用,SparkR,提供的接口函数，在,Hadoop,集群环境中对“德国信用数据集”进行处理，并利用训练得到的信用梯度损失模型对贷款人的信用度进行,预测,加载,Spark,解析,文件,矩阵,形式,从,HDFS,中,读取德国,信用数据文件,预测,模型,模型,评价,分割为训练数据集和测试数据集,完成模型训练和数据预测,梯度下降算法优化损失函数和逻辑回归算法,对借款人的信用进行评级,of,44,33,5.3.6 SparkR,在数据分析中的应用举例,5.3,SparkR,大数据,配套,PPT,课件,of,44,34,部分代码,利用梯度下降算法优化损失函数和逻辑回归算法，计算信用等级预测模型,#,初始化向量,theta, theta hypot gCost - function(t,X,y) ,+ 1/nrow(X)*(t(X)%*%(hypot(X%*%t)-y),#,定义训练函数,+ train - function(theta, rdd) ,#,计算梯度,+ gradient_rdd - lapplyPartition(rdd, function(part) ,+ X - part,1:25,+ y - part,26,+ p_gradient - gCost(theta,X,y),+ list(list(1, p_gradient),+ ),+ agg_gradient_rdd alpha tol step while(T) ,+ cat(step: ,step,n),+ p_gradient - train(theta, matrix_train_rdd),+ theta - theta-alpha*p_gradient,+ gradient - train(theta, matrix_train_rdd) #,根据梯度下降算法进行模型训练,+ if(abs(norm(gradient,type=F)-norm(p_gradient,type=F)=tol) break,+ step - step+1,+ ,5.3.6 SparkR,在数据分析中的应用举例,R,语言是解释性语言还是编译性语言？,简述,R,语言的基本功能,。,R,语言通常用在哪些领域,？,简述,R,软件包的安装和加载过程,？,R,语言常用的分类与预测算法有哪些,？,简述,如何利用,R,程序包进行数据分析、建模和数据预测,。,如何使用“聚类”和“分类”对数据样本进行分组？,查阅相关资料，实例演示,R,语言在数据挖掘中的应用。,查阅相关资料，实例演示,SparkR,环境搭建。,SparkR DataFrame,的作用有哪些？,简述,SparkR,与机器学习的,关系,。,查阅,相关资料，实例演示,SparkR,在数据分析中的应用。,习题：,演讲完毕，谢谢观看！,

展开阅读全文

《大数据》第5章R语言325

最新文档