资源描述
,#,单击此处编辑母版标题样式,精选PPT课件,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,精选PPT课件,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,两,变量关联性分析,在大量的医学研究中我们需要对两个随机变量之间的,关系进行量化研究,一是确定两个变量间是否有联系,及联系强度大小,二是定量地确定它们之间的相互依,存关系。,如研究某年龄儿童的身高与体重的关系、血压与年,龄、体温与脉搏、疗效与药物剂量等的关系。,1,精选PPT课件,两变量关联性分析1精选PPT课件,第一,节 直线相关,一,、直线相关的概念及其统计描述,例,1,某医师测量了,15,名正常成年人的体重,(kg),与,CT,双肾体积,(ml),大小,数据如表,1,所,示。据此回答两,变量是否,有关联,其方向与密切程度如何?,2,精选PPT课件,第一节 直线相关2精选PPT课件,表,1,15,名,正常成年人的体重与双肾体积,的测量值,3,精选PPT课件,表1 15名正常成年人的体重与双肾体积的测量值3精选PPT,1,散点图,15,个人的一对对测得值可看成,(,x,y,),的样本取值,据,此在直角坐标系中标出对应的点来,这样的图形称为,散点图。,4,精选PPT课件,1散点图4精选PPT课件,图,1 15,名正常成年人体重和双肾体积的散点图,5,精选PPT课件,图1 15名正常成年人体重和双肾体积的散点图5精选PPT课,由于,x,、,y,两个变量都是随机变量,它们间的关系不可能像函数关系那样,能以一个变量的数值精确地确定出另一个变量的数值,我们称这类变量之间的关系为非确定性关系。,两个随机变量,x,、,y,之间大致呈直线趋势的关系称为直线相关,又称简单相关,直线相关的性质可由散点图直观 说明。,散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和,零相关。,6,精选PPT课件,由于x、y两个变量都是随机变量,它们间的关系不可能像函数关系,0,r,1,7,精选PPT课件,0 r 1 7精选PPT课件,-1,r,0,8,精选PPT课件,-1 r 0,为正相关,,r0,为负相关,,r=0,为零相关;,(3) r,的绝对值越接近,1,,说明相关性越好或密切程度越,高;,r,的绝对值越接近,0,,说明相关性越差或密切程,度越低。,16,精选PPT课件,相关系数的特点:16精选PPT课件,例,2,计算上述,例,1,中,体重与双肾体积之间的样本相关系数,。,本例计算过程如下表:,17,精选PPT课件,例2 计算上述例1中体重与双肾体积之间的样本相关系数。17,18,精选PPT课件,18精选PPT课件,说明,双肾体积,随,体重,增,加,而,增大,,两变量,呈正,相关。,19,精选PPT课件,说明双肾体积随体重增加而增大,两变量呈正相关。 19,三、相关系数的统计推断,我们在实际工作中,常常只能得到样本相关系数,r.,因此需要对总体相关系数,是否等于零进行假设检验,.,H,0,:,0,H,1,:,0,假设检验的假设前提为,x,和,y,均服从正态分布,。,20,精选PPT课件,三、相关系数的统计推断20精选PPT课件,两种常用的检验方法:,(,一,),直接查,r,界值表,根据自由度,v,=n-2,,查,r,界值表,用,r,绝对值与界值进行,比较,统计量越大,概率,P,越小;统计量越小,概率,P,越大。,21,精选PPT课件,两种常用的检验方法:21精选PPT课件,(,二,),采用,t,检验,实际应用中使用得比较普遍,22,精选PPT课件,(二) 采用t 检验,实际应用中使用得比较普遍2,例,3,在,例,2,算得,r=0.875,后,,试检验相关是否有统计学意,义。,.,建立假设,H,0,:,=,0,H,1,:,0,.,确定检验水准,=0.05,.,方法,1,:,由自由度,v,=15-2=13,,查附表,13 r,界值表,得,p0.001.,23,精选PPT课件,例3 在例2算得r=0.875后,试检验相关是否有,方法二:,.,确定概率,P,值,v,=n-2=15-2=13,,,t,r,=6.517,,查,t,界值表,,得,p0.001,。,.,下结论,因为,p0.001,,按,=0.05,水准,拒绝,H,0,,接受,H,1,,差异有统计学意义。即双肾体积与体重之间,存在直线相关关系。,24,精选PPT课件,方法二:24精选PPT课件,假设检验是回答两变量间的相关关系是否具有统计学意义,,p,值越小并不表示相关性越强,回答相关的强弱需要计算总体相关系数的,置信区间。由于一般情况下,(,0,时,),的分布并不对称,故先对,r,按,(1),式作,z,变换:,由于变换后的,z,近似地服从于均数为 ,标准差为 的正态分布,故,z,的,(1-,),置信区间按下式计算:,25,精选PPT课件,假设检验是回答两变量间的相关关系是否具有统计学意义,p值越小,将,(2),式的上、下限代入下列,(3),式,即得到总体相关系数,的,(1-,),置信区间。,26,精选PPT课件,将(2)式的上、下限代入下列(3)式,即得到总体相关系数的,例,3(,续,),在,例,2,算得,r=0.875,后,试估计总体相关系数,的,95%,置信区间。,将,r=0.875,代入,(1),式,得,将,z=1.3540,, 和代入,(2),式得,z,的,95%,置信区间为,(0.7882, 1.9198),;将,z,的上、下限分别代入,(3),式,得,27,精选PPT课件,例3(续) 在例2算得r=0.875后,试估计总体相关系数,的下限:,的上限:,故体重与双肾体积总体相关系数的,95%,置信区间为,(0.6574,0.9579),28,精选PPT课件,的下限:28精选PPT课件,四、线性相关应用中应注意的问题,1.,样本的相关系数接近零并不意味着两变量间一定,无相关性。,通常应先绘出样本值的散点图,利用散点图可直观,地判断两变量之间是否具有线性联系。,2.,一个变量的数值人为选定时不应作相关。相关分析,要求两变量均为随机变量。,29,精选PPT课件,四、线性相关应用中应注意的问题29精选PPT课件,3.,出现异常值时慎用相关。,4.,相关未必真有内在联系,5.,分层资料盲目合并易出假象。,30,精选PPT课件,30精选PPT课件,第二,节 秩相关,一,、秩相关的概念及其统计描述,Pearson,积矩相关的假设检验要求,x,和,y,均服从正态分,布。,对不服从正态分布的资料,或是总体分布未知,的资料,或者原始数据用等级表示的资料,需采用秩相关来描述两变量的相关性。,秩,相关是利用两变量的秩次大小作直线相关分析,对,原变量,的分布不作要求,属非参数统计方法,。,其中最常用的统计量是,Spearman,秩,相关系数,r,s,,又称等级相关系数,。,31,精选PPT课件,第二节 秩相关31精选PPT课件,例,4,某研究者对,15,例,3050,岁成年男子的舒张压,(mmHg),与夜间最低血氧含量分级进行研究,结果见,表,2,,试分析两者的关联性,。,32,精选PPT课件,例4 某研究者对15例3050岁成年男子的舒张压(mm,表,2 15,例,成年男子的舒张压与夜间最低血氧含量分级值,33,精选PPT课件,表2 15例成年男子的舒张压与夜间最低血氧含量分级值33,将,两变量,x,、,y,成对的观察值分别从小到大排序,编秩,以,p,i,表示,x,i,的秩次;,q,i,表示,y,i,的秩次,观察值,相同的,取平均秩次。,将,p,i,、,q,i,直接替换,x,i,与,y,i,,对秩次计算得的相关系数,称为,Spearman,秩相关系数,用统计量,r,s,表示。,34,精选PPT课件,将两变量x、y成对的观察值分别从小到大排序编秩, 以pi表示,秩相关为正,表明两变量间有正相关关系。,35,精选PPT课件,秩相关为正,表明两变量间有正相关关系。35精选PPT,二、秩相关系数的统计推断,类似于积矩相关系数,秩相关系数的检验假设为:,H,0,:,s,=0,H,1,:,s,0,当,n50,时,,查附表,14 r,s,界值表;,n,50,时,可采用,t,检验。,36,精选PPT课件,二、秩相关系数的统计推断36精选PPT课件,例,5,对,例,4,的秩相关系数作假设检验,。,(1),建立假设,H,0,:,s,=0,,即舒张压与夜间最低血氧含量分级有无关关系,H,1,:,s,0,,即舒张压与夜间最低血氧含量分级有相关关系,(2),确定检验水准,=0.05,(3),计算统计,r,s,值,37,精选PPT课件,例5 对例4的秩相关系数作假设检验。37精选PPT课件,(4),确定,P,值,本例,n=1550,,查等级相关系数戒指表,,得,P0.001.,(5),下结论,因为,P0.001,,按,=0.05,的水准,拒绝,H,0,,接受,H,1,,,差异有统计学意义。可以认为舒张压与夜间最低血,氧含量分级之间存在相关关系,且为正相关。,38,精选PPT课件,(4) 确定P值38精选PPT课件,第三节 分类变量的关联性分析,对定性变量之间的联系通常用的方法是根据两个定性变量交叉分类计数所得的频数资料,(,列联表,),作关联分析,即关于两种属性独立性的卡方检验。,39,精选PPT课件,第三节 分类变量的关联性分析39精选PPT课件,一,、交叉,分类,22,表的关联,分析,例,6,为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了,384,名青少年,并对每,名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如,表,3,所示。,试问青少年在校情况与对艾滋病知晓情况之间是否,存在关联性?,表,3,某地青少年是否在校与对艾滋病是否知晓交叉表,40,精选PPT课件,一、交叉分类 22 表的关联分析40精选PPT课件,该例是关于样本含量为,384,的一份随机样本的受试对象两种属性,(,变量,),的关联性的研究。,和分析两定量变量间的相关性类似,,表,3,是关于,两个,变量,的一份随机样本,要检验的是是否在校与对艾滋病是否知晓两个变量之间的关联性。,交叉分类资料独立性检验与比较两独立样本频率的假,设检验所用的卡方公式、理论频数计算公式和自由度,的计算公式完全相同。但是,必须注意,这两类问题,的研究目的、设计方案、数据结构以及对结果的解释,都是不同的。,41,精选PPT课件,该例是关于样本含量为384的一份随机样本的受试对象两,现对,例,6,的数据作两属性的关联性分析,(1),建立假设,H,0,:青少年是否在校与对艾滋病是否知晓之间互相独立,H,1,:青少年是否在校与对艾滋病是否知晓之间互相关联,(2),确定检验水准,=0.05,(3),计算统计量,值,42,精选PPT课件,现对例6的数据作两属性的关联性分析42精选PPT课件,(4),确定,P,值,(2,1),(2,1),1,,查卡方界值表,得,P0.01.,(5),下结论,因为,P0.01,,按,=0.05,的水准,拒绝,H,0,,接受,H,1,,差异有统计学意义。说明青少年是否在校,与对艾滋病是否知晓之间互相关联存在关联性。,43,精选PPT课件,(4) 确定P值43精选PPT课件,关于两个分类变量之间的关联程度,可采用 系数、,Cramer V,系数和,Pearson,列联系数,来度量。,44,精选PPT课件,关于两个分类变量之间的关联程度,可采用 系数、Cra,这三个系数值越接近于,0,,说明两个分类变量之间几乎没有关系,越接近于,1,,说明关系越密切。 系数只适用于四格表,对于多行多列资料,只能用,Cramer V,系数与列联系数。列联系数的最大值为 ,如四格表资料的列联系数最大值为 ,为了获得,0-1,尺度的列联系数,可将获得的列联系数除以列联系数最大值 。相对而言, Cramer V,系数已为,0-1,尺度,因此该系数更适用。,本例两变量的关联程度为,45,精选PPT课件,这三个系数值越接近于0,说明两个分类变量之间几乎没有关系,越,二、,22,配对资料的关联性分析,例,7,有,132,份食品标本,把每份标本一分为二,分别用甲、乙两种检验方法作沙门菌检验,检验结果如,表,4,,,问两种检验方法的结果是否存在关联?,46,精选PPT课件,二、22 配对资料的关联性分析46精选PPT课件,表,4,两种检测方法的结果比较,前面,我们用,McNemar,检验解决了两种培养基的阳性率是否相等的问题。但如要了解两种培养基结果之间是否有关联,则需作两种属性的关联性分析。,47,精选PPT课件,表4 两种检测方法的结果比较47精选PPT课件,(1),建立假设,H,0,:两种检验方法的结果之间互相独立,H,1,:两种检验方法的结果之间互相关联,(2),确定检验水准,=0.05,(3),计算统计量 值,48,精选PPT课件,(1) 建立假设48精选PPT课件,(4),确定,P,值,(2,1),(2,1),1,,查卡方界值表,得,P0.05,。,(5),下结论,因为,P0.05,,按,=0.05,的水准,拒绝,H,0,,接受,H,1,,差异有统计学意义。可以认为甲、乙两种检,验方法的结果之间互相关联,。,进一步计算关联程度,49,精选PPT课件,(4) 确定P值49精选PPT课件,三,、,R,C,表分类资料的关联性分析,例,8,为,研究自我效能感与领导行为类型是否有关,某研究者抽样调查了来自某省各三甲医院的,238,名,护士长,并对每个个体按自我效能感和领导行为类型两种属性交叉分类,如,表,5,所示。试分析两变量的关联性,。,表,5,自我效能感和领导行为交叉分类表,50,精选PPT课件,三、R C 表分类资料的关联性分析50精选PPT课件,(1),建立假设,H,0,:自我效能感与领导行为类型间无关联,H,1,:自我效能感与领导行为类型间有关联,(2),确定检验水准,=0.05,(3),计算统计量卡方值,51,精选PPT课件,(1) 建立假设51精选PPT课件,(4),确定,P,值,(4,1),(2,1),3,,查卡方界值表,得,P0.01,。,(5),下结论,因为,P0.01,,按,=0.05,的水准,拒绝,H,0,,接受,H,1,,差异有统计学意义。说明自我效能感与领导,行为类型间有关联,。,其关联强度,52,精选PPT课件,(4) 确定P值52精选PPT课件,例,9,某,省随机抽查了,1043,位居民的,ABO,血型与,MN,血型,资料如,表,6,。,问两种血型之间有无关联性,?,表,6,某地,1043,位居民的血型,53,精选PPT课件,例9 某省随机抽查了1043位居民的ABO血型与M,(1),建立假设,H,0,:两种,血型系统互相独立,H,1,:两种血型系统互相关联,(2),确定检验水准,=0.05,(3),计算统计量卡方值,54,精选PPT课件,(1) 建立假设54精选PPT课件,(4),确定,P,值,(4,1),(3,1),6,,查卡方界值表,得,P0.01,。,(5),下结论,因为,P0.01,,按,=0.05,的水准,拒绝,H,0,,接受,H,1,,差异有统计学意义。说明两种血型之间有关,联。,55,精选PPT课件,55精选PPT课件,其关联强度,56,精选PPT课件,其关联强度56精选PPT课件,四、两个有序分类变量的关联性分析,当两个变量均为有序分类变量,如果采用,Spearman,秩相关会产生大量秩次相等的平均秩次,从而低估两变量间的关联系数;如果采用独立性卡方检验,也不正确,因为,RC,表资料的卡方检验与分类变量的顺序无关,当有序分类变量,RC,表资料的分类顺序固定不变时,无论将任何两行,(,或两列,),频数互换,所得的卡方值不变,其结论相同。两有序分类变量的关联性分析宜采用,Goodman-Kruskal Gamma,方法,简称,Gamma,法。,57,精选PPT课件,四、两个有序分类变量的关联性分析57精选PPT课件,随机变量,(random variable),表示随机现象,(,在一定条件下,并不总是出现相同结果的现象称为随机现象,),各种结果的变量。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等等,都是随机变量的实例。,随机变量在不同的条件下由于偶然因素影响,其可能取各种不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的,此种变量称为随机变量。随机变量可以是离散型的,也可以是连续型的。,58,精选PPT课件,随机变量(random variable)表示随机现,此课件下载可自行编辑修改,此课件供参考!,部分内容来源于网络,如有侵权请与我联系删除!感谢你的观看!,此课件下载可自行编辑修改,此课件供参考!,此课件下载可自行编辑修改,此课件供参考!,部分内容来源于网络,如有侵权请与我联系删除!感谢你的观看!,此课件下载可自行编辑修改,此课件供参考!,
展开阅读全文