相关分析ppt课件

上传人:钟*** 文档编号:1307509 上传时间:2019-10-13 格式:PPT 页数:34 大小:905.50KB
返回 下载 相关 举报
相关分析ppt课件_第1页
第1页 / 共34页
相关分析ppt课件_第2页
第2页 / 共34页
相关分析ppt课件_第3页
第3页 / 共34页
点击查看更多>>
资源描述
第七章,相关分析,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.1相关分析简介,(1) 函数关系与相关关系 变量之间的关系可以分为两种:一种是函数关系,另一种是相关关系。函数关系是一一对应的确定性关系,比较容易分析和测度。可是在现实世界中,变量间的关系往往并不是简单的确定性关系,也就是说,变量之间有着密切的关系,但又不能由一个或几个变量的值确定另一个变量的值,即当自变量x取某一值时,因变量y的值可能会有多个。这种变量之间的非一一对应的、不确定性的关系,称之为相关关系。 (2) 相关分析基本概念 衡量事物之间,或称变量之间线性相关程度的强弱并用适当的统计指标表示出来,这个过程就是相关分析。相关系数是衡量变量之间相关程度的一个指标,总体的相关系数用表示,样本的相关系数用r表示。,7.1相关分析简介,相关关系的种类,1按相关关系涉及的变量数量分类,2按变量相关关系的表现形式分类,3按变量相关关系变化的方向分类,4按变量相关的程度分类,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数 (1)皮尔逊(Pearson)相关系数 这是最简单也最常用的相关系数,用于衡量间隔尺度变量间的线性关系。其计算公式如下: 上式只是代表了样本的相关系数,其中,n为样本数,xi, yi 代表两个变量的样本观测值,,7.2,1基本概念及统计原理 1.相关系数 (2)斯皮尔曼(Spearman)相关系数 在进行相关分析的过程中,我们经常会遇到一些不适宜用皮尔逊相关系数的数据,例如,变量的度量尺度不是间隔尺度而是顺序尺度的数据,变量总体的分布不详,这时用皮尔逊相关系数就不再适用。 若两列变量值为顺序尺度的数据(又称为定序数据),并且变量值所属的两个总体并不一定呈正态分布,样本容量不一定大于30,这时两个变量之间的相关性可以通过计算斯皮尔曼相关系数进行分析。斯皮尔曼相关系数的计算公式为 上式中,n为样本容量; ,这里的( ) 是两变量的秩。,7.2 两变量相关分析,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数 (3)肯德尔tau-b(Kendall )等级相关系数 肯德尔tau-b等级相关系数计算仍基于数据的秩,利用变量的秩计算一致对数目U和非一致对数目V。例如,两变量(xi, yi)的秩对分别为(2,3)、(4,4)、(3,1)、(5,5)、(1,2),对变量x的秩按升序排列后的秩对为(1,2)、(2,3)、(3,1)、(4,4)、(5,5),于是,变量y的秩随变量x的秩同步增大的秩对(一致对)有(2,3)、(2,4)、(2,5)、(3,4)、(3,5)、(1,4)、(1,5)、(4,5),一致对数目U等于8;变量y的秩未随变量x的秩同步增大的秩对(非一致对)有(2,1)、(3,1),非一致对数目V等于2。于是,一致对数目定义为 ,非一致对数目定义为 。显然,当一致对数目较大、非一致对数目较小时,两变量呈较强的正相关;当一致对数目较小、非一致对数目较大时,两变量呈较强的负相关;当一致对数目和非一致对数目接近时,两变量呈较弱的相关关系。 肯德尔tau-b等级相关系数的计算公式为,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数的显著性检验 (1)皮尔逊相关系数假设检验 检验的原假设是总体相关系数 = 0,即相关系数不显著,在原假设为真的条件下,与样本相关系数有关的t统计量服从自由度为(n- 2)的T分布: SPSS会自动计算T检验统计量的观测值和对应的显著性概率P值,根据P值来判断相关系数的显著性。,7.2 两变量相关分析,7.2,1基本概念及统计原理 1.相关系数的显著性检验 (2)斯皮尔曼相关系数假设检验 检验的原假设也是总体相关系数 = 0,在小样本下,斯皮尔曼相关系数r就是检验统计量,在大样本时,采用正态检验统计量Z统计量,即 式中,Z统计量服从标准正态分布。SPSS将自动计算斯皮尔曼相关系数、Z检验统计量的观测值和对应的概率P值。,7.2 两变量相关分析,7.2.1基本概念及统计原理 1.相关系数的显著性检验 (3)肯德尔tau-b等级相关系数假设检验 检验的原假设也是总体相关系数 = 0,在小样本情况下,肯德尔tau-b等级相关系数 就是检验统计量,在大样本情况下采用的检验统计量为 式中,Z统计量近似服从标准正态分布。SPSS将自动计算肯德尔tau-b等级相关系数、Z检验统计量和对应的概率P值。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析 【例7-1】 为了分析父亲与儿子身高之间的相关性,现抽样了12对父子的身高,数据如表7.1所示。请对其进行相关性分析(显著性水平取 = 0.05)。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析 第1步 分析。 由于考虑的是父亲和儿子身高的相关性问题,故应用二元变量的相关性进行分析,同时身高是定距变量,考虑用皮尔逊相关系数来衡量。 第2步 数据的组织。 数据分成两列,一列是父亲的身高,变量名为“father”;另一列是儿子的身高,变量名为“son”,输入数据并保存。 第3步 两变量的相关性分析 选择菜单“分析相关双变量”,打开如图7-1所示的对话框,将“father”和“son”两变量移入“变量”框中;“相关系数”选择“皮尔逊”;在“显著性检验”中选择“双尾”;单击“选项(O)”按钮,弹出如图7-2所示的对话框,选中“统计”选项框下的两项,计算结果中将输出均值和标准差、叉积偏差和协方差。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析 第4步 主要结果及分析。 (1)描述性统计表 (2)相关分析结果表 下表是相关分析的主要结果,其中包括平方和与叉积、协方差、皮尔逊相关系数及显著性概率P值。从表中可看出,相关系数为0.703 0,说明呈正相关,相关系数的显著性为0.011 0.05,因此应拒绝原假设(H0:两变量之间相关系数为零),即说明儿子身高受父亲身高显著性正影响。从表下的注释可看出,两变量在0.05水平上显著相关。,7.2 两变量相关分析,7.2.2 两变量相关分析SPSS实例分析,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,主要内容,7.3 偏相关分析,7.3.1 基本概念及统计原理 1.基本概念 偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量,这种相关系数称为偏相关系数。偏相关系数的数值和简单相关系数的数值常常是不同的,在计算简单相关系数时,所有其他自变量不予考虑。在计算偏相关系数时,要考虑其他自变量对因变量的影响,只不过是把其他自变量当作常数处理了。 根据观测资料应用偏相关分析计算偏相关系数,可以判断哪些自变量对因变量的影响较大,而选择作为必须考虑的自变量。至于那些对因变量影响较小的自变量,则可舍去。这样在计算多元回归分析时,只需保留起主要作用的自变量,用较少的自变量描述因变量的平均变动量。偏相关分析在自然科学和社会科学的各个方面都有着非常广泛的应用。,7.3 偏相关分析,7.3.1 基本概念及统计原理 2.统计原理 控制变量为z,变量x、y之间的偏相关系数定义为 上式中, 是在控制z的条件下,x、y之间的偏相关系数; 是变量x、y之间的简单相关系数, 是变量x、z之间的简单相关系数, 是变量y、z之间的简单相关系数。,7.3 偏相关分析,7.3.1 基本概念及统计原理 2.统计原理 当控制两个变量z1、z2时,变量x、y之间的偏相关系数计算公式为 在利用样本研究总体的特性时,由于抽样误差的存在,样本中控制了其他变量的影响,有时可能在样本中两个变量间偏相关系数不为0,但不能说总体中这两个变量间的偏相关系数不为0,因此必须进行检验。检验公式为 上式中,n为观测量数;k为控制变量的数目;n k 2是自由度。,7.3.1 基本概念及统计原理 3分析步骤 偏相关分析的步骤可分为两步: 第1步 根据公式计算偏相关系数。 第2步 对样本来自的两总体是否存在显著性相关进行推断。,7.3 偏相关分析,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 【例7-3】 下表是四川绵阳地区3年生中山柏的生长数据,分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度4个气候因素中哪些因素有关。,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 第1步 分析 这4个气候因素彼此均有影响,分析时应对生长量与4个气候因素分别求偏相关,如在求生长量与气候因素的相关时控制其他因素的影响。然后比较相关系数,按4个气候因素对中山柏生长量影响程度的大小排序,需进行偏相关分析。 第2步 数据组织 分别定义变量“month”(月份)、“hgrow”(生长量(cm)、“temp”(月平均气温()等变量。,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 第3步 进行偏相关分析。 选择菜单“分析相关偏相关”,打开如图7-3所示的对话框,指定分析变量和控制变量,分析变量“hgrow”和“temp”的偏相关系数,并将“rain”、“hsun”、“humi”设为控制变量。在主对话框中使用系统默认的“双尾”检验,“显示实际显著性水平”,具体设置如下图所示,7.3 偏相关分析,7.3.2 偏相关分析SPSS实例分析 第4步 主要结果及分析。 运行结果如下表所示,从中可以看出,月降雨量、月平均日照时数和月平均湿度为控制变量,生长量与月平均气温关系密切,偏相关系数为0.977,双尾检测的显著性概率为0.000(表示趋近于0的正数),明显小于显著性水平0.05。故应拒绝原假设,说明中山柏的生长量与气温间存在显著的相关性。,主要内容,7.1 相关分析简介 7.2 两变量相关分析 7.3 偏相关分析 7.4 距离分析,7.4 距离分析,7.4.1 基本概念及统计原理 1.基本概念 距离分析是对观测量之间(变量之间)相似或不相似程度的一种测量,是计算一对观测量之间(一对变量之间)的广义距离。这些相似性或距离测量可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。例如,是否可以根据汽车的一些特性,如发动机的大小、MPG(每加仑汽油所行驶的距离)和马力来测量两种汽车的相似性?通过计算汽车间的相似性,可以对这些汽车获得一些认识,如哪些汽车彼此类似,哪些彼此不同,还可以考虑对相似性使用分层聚类或多元定标分析去探测深层结构。,7.4.1 基本概念及统计原理 2.统计原理 (1)非相似性测量 对定距数据的非相似性(距离)测量可以使用的统计量有:欧氏距离(Euclidean distance)、平方欧氏距离(Squared Euclidean Distance)、切比雪夫距离(Chebychev)、块(Block)距离、明科夫斯基距离(Minkowski)等。 对定序数据,主要使用卡方测量(Chi-Square measure)和Phi平方测量(Phi-Square measure)。 对二值(只有两种取值)数据变量之间的距离描述,使用欧氏距离、平方欧氏距离、大小差、模式差、形状、方差、兰斯-威廉姆斯等距离统计量。,7.4 距离分析,7.4.1 基本概念及统计原理 2.统计原理 (2)相似性测量 两变量之间可以定义相似性测量统计量,用来对两变量之间的相似性进行数量化描述。又分为以下两种: 对于定距数据主要使用皮尔逊(Pearson)相关系数和夹角余弦(Cosine)距离。 对于二元数据的相似性测量主要包括拉塞尔-拉奥(Russell-Rao)、简单匹配系数(Simple matching)、杰卡德(Jaccard)相似性指数、哈曼(Hamann)相似性测量等20余种。,7.4 距离分析,7.4 距离分析,7.4.2 距离分析SPSS实例分析 【例7-4】 已知我国四城市2004年各月的日照时数如下表所示,请分析各城市日照数是否近似。,7.4 距离分析,7.4.2 距离分析SPSS实例分析 第1步 分析。 这是4个城市的日照时数是否相似的问题,可用距离分析法实现,既可以计算其相似性测量,也可以计算其不相似性测量。 第2步 数据组织。 分别定义变量“月份”(用字符型变量)、“北京”、“天津”、“石家庄”、“大连”,输入数据并保存。 第3步 设置距离分析主对话框。 选择菜单“分析相关距离”,弹出如图7-4所示的“距离”对话框,将4个变量(“北京”、“天津”、“石家庄”、“大连”)移入“变量”框中进行相似性测量计算;在“计算距离”组中选中“变量间”单选框,进行变量间的距离分析;在“测量”单选框组中选中“非相似性”,求解其非相似性测量。,7.4 距离分析,7.4.2 距离分析SPSS实例分析 第4步 设置非相似性测量方法。 由于非相似性与相似性测量的方法不同,因此单击“测量(M)”按钮设置测量方法时会弹出不同的对话框。第2步中设置的测量标准是非相似性,单击“测量(M)”按钮弹出如图7-5所示的“距离:非相似性测量”对话框。在本例中,“测量”单选框内选择“区间”类型,“测量”统计量选择“欧式距离”计算变量之间的非相似性。,7.4 距离分析,7.4.2 距离分析SPSS实例分析 第5步 主要结果及分析 (1)数据摘要 (2)距离分析结果表 下表所示是距离分析的结果表。这是一个对称矩阵,两变量的欧氏距离越大,说明其差别越大,反之越小。从表中可看出“北京”和“大连”的日照数最接近,而“北京”和“天津”的日照数相差最大。表格下方注释说明距离分析采用的是非相似性测量。,7.4 距离分析,7.4.2 距离分析SPSS实例分析 第5步 主要结果及分析 (2)距离分析结果表,The End,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!