第5章 两个样本和多个样本的相关分析

上传人:cel****460 文档编号:240440882 上传时间:2024-04-10 格式:PPTX 页数:46 大小:486.36KB
返回 下载 相关 举报
第5章 两个样本和多个样本的相关分析_第1页
第1页 / 共46页
第5章 两个样本和多个样本的相关分析_第2页
第2页 / 共46页
第5章 两个样本和多个样本的相关分析_第3页
第3页 / 共46页
点击查看更多>>
资源描述
第5章两个样本和多个样本的相关分析第1页,共46页。参数统计的关联性分析参数统计的关联性分析参数统计中衡量两个定量变量之间线性相关程参数统计中衡量两个定量变量之间线性相关程度的常用指标是皮尔逊度的常用指标是皮尔逊 Pearson Pearson相关系数,相关系数,也称积距相关系数或动差相关系数离差相乘也称积距相关系数或动差相关系数离差相乘。相关系数的定义公式是:相关系数的定义公式是:第2页,共46页。参数统计的关联性分析参数统计的关联性分析1.提出假设:提出假设:H0:;H1:02.计算检验的统计量:计算检验的统计量:3.确定显著性水平确定显著性水平,并作出决策。,并作出决策。相关系数非常高的样本也有可能来自无相关关系的相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进展显总体。为了排除这种情况,需要对相关系数进展显著性检验。检验的步骤是:著性检验。检验的步骤是:这一检验在零假设成立且两个变量服从正态分布的这一检验在零假设成立且两个变量服从正态分布的情况下得出的。情况下得出的。第3页,共46页。皮尔逊相关系数的局限性皮尔逊相关系数的局限性皮尔逊相关系数及其显著性检验是建立在数据变量皮尔逊相关系数及其显著性检验是建立在数据变量为定量且服从正态分布的前提下。假设这一前提不为定量且服从正态分布的前提下。假设这一前提不成立,那么结果不可信或是错误的。此时需要非参成立,那么结果不可信或是错误的。此时需要非参数方法。数方法。皮尔逊相关系数只能用来度量两个变量的线性相皮尔逊相关系数只能用来度量两个变量的线性相关性,不能用来度量两者的相关性。关性,不能用来度量两者的相关性。例,例,X X,Y Y,g(X)g(X)是是X X的单调函数,那么有:的单调函数,那么有:X X和和Y Y的接近时,的接近时,Y Y和和g(X)g(X)的可能接近于。的可能接近于。第4页,共46页。皮尔逊相关系数皮尔逊相关系数错误!变量:连续型正态分布线性关系第5页,共46页。连续数据连续数据(Pearson积矩相关系数不讲积矩相关系数不讲:Kendall秩相关检验秩相关检验Spearman秩相关检验秩相关检验偏秩相关偏秩相关Kendall评定协和系数评定协和系数本章主要内容本章主要内容第6页,共46页。5.1 Spearman秩相关检验秩相关检验 Spearman秩秩相相关关是是利利用用斯斯皮皮尔尔曼曼等等级级相相关关系系数数测测定定变变量量间间等等级级相相关关程程度度的一种非参数统计相关分析方法。的一种非参数统计相关分析方法。第7页,共46页。根本思路与检验步骤根本思路与检验步骤 设x,y是抽自两个不同总体X,Y的样本,其观察值为 ,将它们配对形成 ;如果将 各自排序,分别评出 在两个顺序样本中所在位置的名次称为秩,记作 ,得到n对秩:n对秩可能完全一样,也可能完全相反,或者不完全一样。第8页,共46页。第9页,共46页。可见,当X与Y完全相关时,记作 。其中,可以用来度量x和y的相关程度:越大,x与y之间的相关越不完全。由于 可正可负,直接用 测度相关会缩小 之间的差值,故用 来反映 的差值大小;但 既受 不一致程度的影响,也受观察值个数n的多少之影响。为了准确度量x和y的相关程度,我们用 的最大值去除 ,那么得到了一个相对测量指标,称为等级相关系数,记为R。的最大值反映了x与y之间完全负相关,它等于:第10页,共46页。检验步骤:检验步骤:1建立假设:建立假设:或或 或或2计算检验统计量:计算检验统计量:斯斯皮皮尔尔曼曼等等级级相相关关系系数数是是测测定定两两个个样样本本相相关关程程度的重要指标:度的重要指标:式中:式中:第11页,共46页。的取值范围在的取值范围在-1到到+1之间。之间。0为正相关,为正相关,0为为负负相相关关;=+1为为完完全全正正相相关关,=-1 为为完完全全负负相相关关;当当 越越接接近近1,表表示示样样本本之之间间的的相相关关程程度度越越高高;越越接接近近于于0,表表示示样样本本之之间间的的相相关关程程度度越越低低。一一般般认认 为相关程度越高。为相关程度越高。3做出决策:做出决策:当当 时,拒绝时,拒绝 ;当;当 ,不能拒绝,不能拒绝 。是是临临界界值值书书中中记记为为 ,它它是是根根据据样样本本观观测测之之个个数数n、备备 择择 假假 设设 单单 或或 双双 侧侧 以以 及及 给给 定定 的的 显显 著著 性性 水水 平平 查查?Spearman秩相关系数检验临界值表秩相关系数检验临界值表?查得。查得。第12页,共46页。注意:注意:1:遇遇到到打打结结的的情情况况时时,如如果果x或或y打打结结不不多多,可可以以用用平平均均秩秩解解决决;如如果果打打结结过过多多超超过过全全部部数数据据的的1/5,在在计计算算时时需要加上校正因子公式略。需要加上校正因子公式略。2:当:当n为大样本时,为大样本时,近似服从正态分布近似服从正态分布N(0,1)。单侧:单侧:P()=;双侧:双侧:2P()=2 。第13页,共46页。应用应用 某班某班15名学生的数学成绩与统计学成绩如下表所示名学生的数学成绩与统计学成绩如下表所示:试分析学生的数学成绩和统计学成绩的相关性试分析学生的数学成绩和统计学成绩的相关性 。第14页,共46页。解:解:1:提出假设:提出假设:2:计算检验统计量:计算检验统计量3:作决策:作决策 所所以以拒拒绝绝 ,可可以以在在5%的的显显著著性性水水平平下下认认为为数数学学成成绩绩与与统统计计学学成成绩绩存存在在正正相相关关关关系系。又又因因为为 ,两两者者呈高度正相关,相关程度达呈高度正相关,相关程度达82.5%。第15页,共46页。练习练习 在一次跳水比赛中,有2名裁判员给运发动的评分引起了争议。下表列出了他们给12名选手的评分情况。试在5%的显著性水平下对这两名裁判员在本次比赛中的评分进展相关分析。第16页,共46页。5.2 Kendall秩相关检验 这种方法与这种方法与SpearmanSpearman秩相关检验一秩相关检验一样,也是利用秩来研究两个变量之间的样,也是利用秩来研究两个变量之间的相关程度,只是考虑问题的角度不同而相关程度,只是考虑问题的角度不同而已。已。第17页,共46页。7.2.1 根本思路与检验步骤 对于n对配对数据,现分别评出x与y两个数列的秩,然后将x的n个数据的秩按自然顺序排列,再考察x的秩与y的秩的一致性。如果两个秩次由小到大排列,那么称为一个一致对,记作+1;否那么成为非一致对,记作-1。由于x的秩次是按照自然序列由小到大排列的,因此x的观察值每两个秩之间都是一致对。第18页,共46页。例例如如,对对于于样样本本数数据据(10,6,(8,12,(11,7,(9,8而言,而言,x与与y的秩为:的秩为:X的秩:的秩:R 3 1 4 2 Y的秩:的秩:S 1 4 2 3将将x的秩按自然顺序排列,四对秩的顺序变为:的秩按自然顺序排列,四对秩的顺序变为:X的秩:的秩:R 1 2 3 4 Y的秩:的秩:S 4 3 1 2第19页,共46页。x与与y的一致对和非一致对的数目计算:的一致对和非一致对的数目计算:在在x的的秩秩按按自自然然顺顺序序排排列列时时,y的的一一致致对对最最大大数数目目产产生生于于y的的秩秩也也按按自自然然顺顺序序排排列列的的情情形形,此此时时它它等等于于 。所所以以,用用y的的一一致致对对数数目目与与最最大大可可能能一一致致对对数数目目相比较,可以测定相比较,可以测定x与与y的相关程度。的相关程度。第20页,共46页。Y的一致对数目与最大可能一致对数目之比为:的一致对数目与最大可能一致对数目之比为:Y的非一致对数目与最大可能一致对数目之比为:的非一致对数目与最大可能一致对数目之比为:当当y的的秩秩完完全全按按自自然然顺顺序序排排列列时时,1式式的的值值为为1,2式式的的值值为为0;当当y的的秩秩完完全全与与x的的秩秩相相反反时时,1式的值为式的值为0,2式的值为式的值为1。为为测测定定两两组组秩秩之之间间的的相相关关程程度度,定定义义的的相相关关系系数数取取值范围从值范围从-1到到+1。第21页,共46页。Kendall秩相关系数的定义公式为:秩相关系数的定义公式为:令 ,那么Kendall秩相关系数 公式为:如果x与y有完全一样的评秩,那么 ,说明x与y完全正相关;如果x与y有完全相反的评秩,那么 ,说明x与y完全负相关。一般认为,两组秩次相关程度较高。第22页,共46页。Kendall秩相关系数的概率解释秩相关系数的概率解释对于对配对数据两两比较,将会出现三种情对于对配对数据两两比较,将会出现三种情形,即:形,即:和谐、不和谐和同分的概率分别记为,和谐、不和谐和同分的概率分别记为,且有:且有:对于连续数据,一般有,肯德尔系数的被对于连续数据,一般有,肯德尔系数的被定义为:定义为:前面计算公式就是这一公式的一个估计。前面计算公式就是这一公式的一个估计。第23页,共46页。检验步骤:检验步骤:1建立假设:建立假设:或或 或或2计算检验统计量计算检验统计量3作决策作决策当当 或或 时,拒绝时,拒绝 ;当当 或或 时,不能拒绝时,不能拒绝 。注注:一一般般的的表表只只是是当当k或或 为为正正的的情情况况。在在k0,且且 ,所所以以拒拒绝绝 ,可可以以认认为为总总体体数数学学成成绩绩与与统统计计学学成成绩绩之之间间确确实实存存在在正正相相关关系。关关系。第27页,共46页。练习 1.10个国家和地区个国家和地区1999年的国际化程度和国际年的国际化程度和国际竞争力排名情况如下表所示:竞争力排名情况如下表所示:试试分分析析国国家家化化程程度度与与国国际际竞竞争争力力的的相相互互关关系系()第28页,共46页。2.美国阿尔塔郡的市长对每年一次的美男子美国阿尔塔郡的市长对每年一次的美男子比赛感兴趣。比赛按比赛感兴趣。比赛按5个方面来评选参赛者:个方面来评选参赛者:容貌,知识,才能,体形和音质。市长想知容貌,知识,才能,体形和音质。市长想知道这道这5个方面变量之间有无联系。比赛个方面变量之间有无联系。比赛之后,他得到了之后,他得到了7位参赛选手的容貌和才能位参赛选手的容貌和才能的得分见下表,试分析容貌是否和才能的得分见下表,试分析容貌是否和才能有关。有关。参赛者编号参赛者编号 容貌容貌 才能才能 1 50 12 2 48 10 3 30 40 4 47 13 5 20 50 6 25 45 7 40 20第29页,共46页。3.试根据以下资料分析驾校训练场模拟驾驶考试的成绩与在公路上的实地驾驶试根据以下资料分析驾校训练场模拟驾驶考试的成绩与在公路上的实地驾驶考试的成绩之间是否相关。考试的成绩之间是否相关。12名学员两次考试的结果名学员两次考试的结果 学员编号学员编号 模拟考试模拟考试 实地路考实地路考 1 97 94 2 60 61 3 52 48 4 87 85 5 77 76 6 89 87 7 79 75 8 98 97 9 94 92 10 83 80 11 74 71 12 73 72第30页,共46页。假设有结时,用估计就会低假设有结时,用估计就会低估。这时需要修正公式。估。这时需要修正公式。对于一个有个一样观测值的结情形,共有对于一个有个一样观测值的结情形,共有个对子,显然一个修正可以如下:个对子,显然一个修正可以如下:有结修正与大样本近似式中,式中,是是x中打结观察值的个数中打结观察值的个数(结长结长);是是y中打结观察值的个数。中打结观察值的个数。第31页,共46页。解:计算对子的原那么是一样解:计算对子的原那么是一样的不计入。的不计入。顺序对反序对0.9100920.9104631.0961001.3113161.5106441.6102211.6104211.6104211.6109211.6115031.7113011.8113012.298003824第32页,共46页。当当n40n40时时,可可以以视视为为大大样样本本,用用正正态态分布逼近:分布逼近:大样本近似大样本近似第33页,共46页。5.3 偏秩相关偏秩相关 当研究两个样本的相关性时,可能计算出当研究两个样本的相关性时,可能计算出来的相关系数并不直接反映两个样本间存在真来的相关系数并不直接反映两个样本间存在真正的或直接的关系。这种相关性是因为两个样正的或直接的关系。这种相关性是因为两个样本都和第三个样本有关系而产生的。这个问题本都和第三个样本有关系而产生的。这个问题在参数统计中是通过偏相关解决的,在非参数在参数统计中是通过偏相关解决的,在非参数统计中也可以用偏相关的测算方法处理。本节统计中也可以用偏相关的测算方法处理。本节介绍介绍Kendall偏秩相关系数。偏秩相关系数。第34页,共46页。5.3.1 根本思路根本思路假设假设X、Y与第三个样本与第三个样本Z有关,即由于有关,即由于Z的变化的变化对对X、Y之间的关系有影响,那么考察去掉之间的关系有影响,那么考察去掉Z的影响,的影响,仅仅研究仅仅研究X、Y之间的相关就是偏相关。在统计上,之间的相关就是偏相关。在统计上,偏相关就是保持偏相关就是保持Z恒定下恒定下X、Y之间的相关。之间的相关。假设有三个样本假设有三个样本X、Y、Z,每个样本有,每个样本有n个数据,个数据,且都至少是在定序尺度上测量,那么根据且都至少是在定序尺度上测量,那么根据Kendall秩秩相关系数的定义,表示相关系数的定义,表示X与与Y之间的秩相关程度,之间的秩相关程度,表示表示X与与Z之间的秩相关程度,之间的秩相关程度,表示表示Y与与Z之间的秩之间的秩相关程度。相关程度。Kendall偏秩相关系数:偏秩相关系数:第35页,共46页。是Z不变时X与Y之间的相关系数,其取值范围是-1到+1之间,但它的抽样分布迄今未知,因而无法对其进展显著性检验。5.3.2 应用例 社会上普遍认为:取得学士学位以后在工作中继续研究生课程的学习很重要,也就说在职继续学习比单纯地学院式学习更有意义。今调查了7个人的年龄、花在继续学习上的时间以及月收入情况,得到以下数据。试根据上述资料分析收入与继续受教育程度的相关性。第36页,共46页。序号序号 年龄岁年龄岁 继续学习时间小时继续学习时间小时 月收入千元月收入千元 (Z)(X)(Y)(Z)(X)(Y)解:对于要分析研究的收入与继续学习的关系,在调查中增解:对于要分析研究的收入与继续学习的关系,在调查中增加了年龄,这可以看作是第三个样本。分析收入与继续学习加了年龄,这可以看作是第三个样本。分析收入与继续学习的关系,可以利用上表资料计算相关系数。虽然表中数据均的关系,可以利用上表资料计算相关系数。虽然表中数据均为定比尺度测量,但样本数目较少,不符合参数统计中计算为定比尺度测量,但样本数目较少,不符合参数统计中计算积相关系数的要求,且对总体不做任何假设,采用非参数统积相关系数的要求,且对总体不做任何假设,采用非参数统计方法中的计方法中的Kendall秩相关系数较为适宜。秩相关系数较为适宜。第37页,共46页。X 0 6 15 18 24 30 45 y=5+5+4+3+0+1+0=18 根据根据n=7,查表可得到,查表可得到,p近似等于,近似等于,对于的显著性水平来讲,对于的显著性水平来讲,p值足够小,因此数据值足够小,因此数据拒绝不相关的零假设,说明收入与继续学习的拒绝不相关的零假设,说明收入与继续学习的时间存在相关。由于时间存在相关。由于,说明两者的相关程度不,说明两者的相关程度不算高。算高。但考虑到收入可能受年龄的影响,继续学习但考虑到收入可能受年龄的影响,继续学习的时间也会受到年龄的影响,因而应排除年龄的时间也会受到年龄的影响,因而应排除年龄因素的影响,计算偏秩相关系数因素的影响,计算偏秩相关系数 。第38页,共46页。为此,先要计算为此,先要计算 和和。将将X依次排序,得到依次排序,得到Z的排列及相应的相关系数:的排列及相应的相关系数:X 0 6 15 18 24 30 45Z 35 30 36 40 41 45 48 uxz=5+5+4+3+2+1+0=20 =4020/77-1将将Y依次排序,得到依次排序,得到Z的排列及相应的相关系数:的排列及相应的相关系数:Z 30 35 36 40 45 48 41 uyz=6+5+4+3+1+0+0=19 =419/77-1第39页,共46页。所以,所以,与与 比较相差甚远。比较相差甚远。仅仅是一个仅仅是一个很小的数值,以至无法做出存在相关的结论。很小的数值,以至无法做出存在相关的结论。但它与但它与 共同使用可以说明收入与继续学习共同使用可以说明收入与继续学习的时间,在年龄因素的影响下存在一定的相关。的时间,在年龄因素的影响下存在一定的相关。除了年龄的影响外,两者之间几乎没有什么联除了年龄的影响外,两者之间几乎没有什么联系。系。第40页,共46页。5.4 Kendall协同系数检验协同系数检验检验问题:检验问题:H0:对于不同个体的评判是否随机或不相关。:对于不同个体的评判是否随机或不相关。H1:对于不同个体的评判是正相关的或一致的。:对于不同个体的评判是正相关的或一致的。Kendall协同系数:协同系数:第41页,共46页。Kendall协同系数的简易公式协同系数的简易公式简易手工计算公式简易手工计算公式第42页,共46页。Kendall协同系数的显著性检验协同系数的显著性检验W值越大,值越大,Kendall协同系数越应该拒绝零假设,协同系数越应该拒绝零假设,承受备择假设。承受备择假设。在零假设在零假设H0下,对于固定的下,对于固定的m,当,当n趋于无穷大趋于无穷大时,时,可以进展显著性检验决策。可以进展显著性检验决策。第43页,共46页。实例四个独立的环境研究单位对四个独立的环境研究单位对10个城市的空气等级个城市的空气等级排序如下:排序如下:评估机评估机构构m=4被评估城市的排名被评估城市的排名ABCDEFGHIJA92410768531B10138759642C84210975631D 91210674853秩和秩和368113829252625157第44页,共46页。解:解:m=4,n=10 统计量的值为:。在显著性水平统计量的值为:。在显著性水平5下,其临界下,其临界值为:值为:。显然应该协同系数具有显著性。显然应该协同系数具有显著性。第45页,共46页。谢谢!第46页,共46页。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 中学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!