相关与偏相关

上传人:可**** 文档编号:252843139 上传时间:2024-11-20 格式:PPTX 页数:42 大小:270.71KB
返回 下载 相关 举报
相关与偏相关_第1页
第1页 / 共42页
相关与偏相关_第2页
第2页 / 共42页
相关与偏相关_第3页
第3页 / 共42页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,相关与偏相关,#,医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。,相关就是用于研究和解释两个变量之间相互关系的。,相关与偏相关,2,主要内容,第一节 直线相关,第二节 偏相关,第三节 小 结,第一节 直线相关,Linear Correlation,为了研究父亲与成年儿子身高之间的关系,卡尔,.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴,X,上的数代表父亲身高,垂直轴,Y,上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,一、相关的类型,正相关,负相关,完全正相关,完全负相关,称零相关,二、相关系数,样本的相关系数,用,r(correlation coefficient),相关系数,r,的值在,-1,和,1,之间,但可以是此范围内的任何值。正相关时,,r,值在,0,和,1,之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,,r,值在,-1,和,0,之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。,r,的绝对值越接近,1,,两变量的关联程度越强,,r,的绝对值越接近,0,,两变量的关联程度越弱。,三、相关系数的计算公式,r,的计算结果说明了两个变量,X,与,Y,之间关联的密切程度(绝对值大小)与关联的性质(正负号)。,一个产科医师发现孕妇尿中,雌三醇含量,与产儿的,体重,有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间,相关系数,是多少?是正相关还是负相关?,分析问题:目的、变量、关系,编号,(1),尿雌三醇,mg/24h(2,产儿体重,kg(3),编号,(1),尿雌三醇,mg/24h(2),产儿体重,kg(3),1,7,2.5,17,17,3.2,2,9,2.5,18,25,3.2,3,9,2.5,19,27,3.4,4,12,2.7,20,15,3.4,5,14,2.7,21,15,3.4,6,16,2.7,22,15,3.5,7,16,2.4,23,16,3.5,8,14,3.0,24,19,3.4,9,16,3.0,25,18,3.5,10,16,3.1,26,17,3.6,11,17,3.0,27,18,3.7,12,19,3.1,28,20,3.8,13,21,3.0,29,22,4.0,14,24,2.8,30,25,3.9,15,15,3.2,31,24,4.3,16,16,3.2,待产妇尿雌三醇含量与产儿体重关系,相关与偏相关,10,计算结果,从计算结果可以知道,,31,例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是,0.61,。,问题:我们能否得出结论说明,待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是,0.61?,为什么?,相关与偏相关,12,四、相关系数的假设检验,上例中的相关系数,r,等于,0.61,,说明了,31,例样本中雌三醇含量与出生体重之间存在相关关系。但是,这,31,例只是,总体,中的,一个样本,,由此得到的相关系数会存在抽样误差。因为,总体相关系数,(,),为零时,由于抽样误差,从总体抽出的,31,例,其,r,可能不等于零。所以,要判断该样本的,r,是否有意义,需与总体相关系数,=0,进行比较,看两者的差别有无统计学意义。这就要对,r,进行假设检验,判断,r,不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,相关与偏相关,13,对相关系数的假设检验,常用,t,检验,选用统计量,t,的计算公式如下:,=n-2,H,0,:,=0,H,1,:,0,=0.05,r=0.61,n=31,代入公式,t=,=n-2=31-2=29,t=4.14,查,t,值表,,=2.756,查,t,值表,,=2.756,上述计算,t=4.142.756,,由,t,所推断的,P,值小于,0.01,,按,=0.05,水准拒绝,,接受,认为临产妇,24,小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,SPSS,计算,1.,做散点图:标题、标目、散点,GRAPHS-SCATTERT-SIMPLE-DEFIND,双击,TITLE,加标题、标目,2.,相关分析,ANALYZE-CORRELATION,BIVARIATE-VARIABLES,相关与偏相关,16,相关与偏相关,17,五、直线相关的应用,前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果,r,的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果,r,绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。,一般说来,当样本量较大(,n100,),并对,r,进行假设检验,有统计学意义时,,r,的绝对值大于,0.7,,则表示两个变量高度相关;,r,的绝对值大于,0.4,,小于等于,0.7,时,则表示两个变量之间中度相关;,r,的绝对值大于,0.2,,小于等于,0.4,时,则两个变量低度相关。,例题:某地,29,名,13,岁男童身高,X1,(,cm,)、体重,X2,(,kg,)和肺活量,Y,(,ml,),请用该资料计算身高与肺活量,体重与肺活量的相关关系。,第二节 偏相关,一、概念,当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。,二、偏相关系数,偏相关系数是用来衡量任何两个变量之间的关系的大小。,相关与偏相关,21,三、选择不同的方法计算相关系数,Pearson,:双变量正态分布资料,连续变量,Kendall,:资料不服从双变量正态分布或 总体分布未知,等级资料。,Spearman,:等级资料。,相关与偏相关,22,Analyze-Correlation-Partial,把分析变量选入,Variable,框,把控制变量选入,Controlling for,框,点击,Options,点击,Statistics,:选择,Mean and standard deviation,Zero-order correlation,Continue OK,四、,SPSS,操作步骤,相关与偏相关,23,Variable Mean Standard Dev Cases,X1,(身高 ),152.5759 8.3622 29,Y,(肺活量),2206.8966 448.5541 29,X2,(体重),37.3069 5.6704 29,结 果:,相关与偏相关,24,身高与肺活量的简单相关系数,1,、身高与肺活量的简单相关系数,相关与偏相关,25,2,、体重与肺活量的简单相关系数,相关与偏相关,26,3,、身高与体重的简单相关系数,相关与偏相关,27,4,、体重为控制变量,身高与肺活量的偏相关系数,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S,Controlling for.X2,(体重),Y,(肺活量),X1,(身高),Y,(肺活量),1.0000 .2361,(0)(26),P=.P=.226,X1,(身高),.2361 1.0000,(26)(0),P=.226 P=.,相关与偏相关,28,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S,Controlling for.X1,(身高),Y,(肺活量),X2,(体重),Y 1.0000 .4152,(0)(26),P=.P=.028,X2 .4152 1.0000,(26)(0),P=.028 P=.,5,、身高作为控制变量,肺活量与体重的偏相关系数,应用相关注意事项,1.,实际意义,进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。,2.,相关关系,相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素,年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,3.,利用散点图,对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关分析。,4.,变量范围,相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,相关与偏相关,31,第三节 小结,一、基本概念,二、分析计算,1.,为了了解某地,2029,岁健康女性血红蛋白的正常值范围,现随机调查了该地,2000,名,2029,岁的健康女性,并对其血红蛋白进行测量,请问本次调查的总体是,A,该地所有,2029,的健康女性,B,该地所有,2029,的健康女性的血红蛋白测量值,C,抽取的这,2000,名,2029,岁女性,D,抽取的这,2000,名,2029,岁女性的血红蛋白测量值,选择最佳答案,2.,各观察值加同一数后:,A.,均数不变,标准差改变,B.,均数改变,标准差不变,C.,二者均不变,D.,均改变,3.,用均数和标准差可全面描述:,A.,正偏态资料,B.,负偏态资料,C.,正态分布和近似正态分布,D.,任何分布,4.,正态分布曲线下,从均数,u,到,u,+1.96,的面积为;,A.95%B.45%C.97.5%D.47.5%,5.,按,=0.10,水准做,t,检验,,P0.10,,不能认为两总体均数不相等,此时若推断有错,其错误的概率为()。,A,大于,0.10 B,而,未知,C,小于,0.10 D,1-,而,未知,6,某地正常成年男子红细胞的普查结果,均数为,480,万,/mm3,,标准差为,41.0,万,/mm3,,后者反映(),A,个体变异,B,抽样误差,C,总体均数不同,D,均数间变异,7.,两个样本均数比较,经,t,检验,差异有显著 性,,p,越小,说明(),A,两样本均数差别越大,B,两总体差别越大,C,越有理由认为两总体均数不同,D,越有理由认为两样本均数不同,是非判断:,1,标准误是一种特殊的标准差,其表示抽样误差的大小。,2,N,一定时,测量值的离散程度越小,用样本均数估计总体均数的抽样误差就越小。,3,假设检验的目的是要判断两个样本均数的差别有多大。,思考:,1.,标准差和标准误有何区别和联系?,2.,可信区间和参考值范围有何不同?,3.,一类错误和二类错误的区别,4.,方差分析的基本思想是什么?,相关与偏相关,38,分析计算,要求:,注意应用条件,选择合 适的计算程序,在计算机上计算出结果,会看结果,完整的书写出来,相关与偏相关,39,1.,1976,年美国,8,岁男孩的平均身高为,146,厘米,标准差为,8,厘米,估计在该研究中有,%,多少的男孩平均身高在,138,与,154,之间?又有多少在,130,到,162,之间?,相关与偏相关,40,2.,随机将,20,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 开题报告


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!