第九讲 相关与回归

上传人:仙*** 文档编号:252485699 上传时间:2024-11-16 格式:PPT 页数:37 大小:335.50KB
返回 下载 相关 举报
第九讲 相关与回归_第1页
第1页 / 共37页
第九讲 相关与回归_第2页
第2页 / 共37页
第九讲 相关与回归_第3页
第3页 / 共37页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,相关与回归,*,相关与回归,相关与回归,1,医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。,相关与回归就是用于研究和解释两个变量之间相互关系的。,相关与回归,2,直线相关,Linear Correlation,相关与回归,3,散点图,为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。,相关与回归,4,为了研究父亲与成年儿子身高之间的关系,卡尔,.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴,X,上的数代表父亲身高,垂直轴,Y,上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,相关与回归,5,相关的类型,正相关,负相关,完全正相关,完全负相关,称零相关,相关与回归,6,相关系数,样本的相关系数,用,r(correlation coefficient),相关系数,r,的值在,-1,和,1,之间,但可以是此范围内的任何值。正相关时,,r,值在,0,和,1,之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,,r,值在,-1,和,0,之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。,r,的绝对值越接近,1,,两变量的关联程度越强,,r,的绝对值越接近,0,,两变量的关联程度越弱。,相关与回归,7,相关系数的计算公式,r,的计算结果说明了两个变量,X,与,Y,之间关联的密切程度(绝对值大小)与关联的性质(正负号)。,相关与回归,8,例 一,一个产科医师发现孕妇尿中,雌三醇,含量与产儿的,体重,有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间,相关系数,是多少?是正相关还是负相关?,分析问题:目的、变量、关系,相关与回归,9,编号,(1),尿雌三醇,mg/24h(2,产儿体重,kg(3),编号,(1),尿雌三醇,mg/24h(2),产儿体重,kg(3),1,7,2.5,17,17,3.2,2,9,2.5,18,25,3.2,3,9,2.5,19,27,3.4,4,12,2.7,20,15,3.4,5,14,2.7,21,15,3.4,6,16,2.7,22,15,3.5,7,16,2.4,23,16,3.5,8,14,3.0,24,19,3.4,9,16,3.0,25,18,3.5,10,16,3.1,26,17,3.6,11,17,3.0,27,18,3.7,12,19,3.1,28,20,3.8,13,21,3.0,29,22,4.0,14,24,2.8,30,25,3.9,15,15,3.2,31,24,4.3,16,16,3.2,待产妇尿雌三醇含量与产儿体重关系,10,X=534,Y=99.2,X,2,=9876,Y,2,=324.8,XY=1750,N=31,相关与回归,11,计算结果,从计算结果可以知道,,31,例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是,0.61,。,相关与回归,12,问题:我们能否得出结论说明,待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是,0.61,。为什么?,相关与回归,13,相关系数的假设检验,上例中的相关系数,r,等于,0.61,,说明了,31,例样本中雌三醇含量与出生体重之间存在相关关系。但是,这,31,例只是,总体,中的,一个样本,,由此得到的相关系数会存在抽样误差。因为,总体相关系数,(,),为零时,由于抽样误差,从总体抽出的,31,例,其,r,可能不等于零。所以,要判断该样本的,r,是否有意义,需与总体相关系数,=0,进行比较,看两者的差别有无统计学意义。这就要对,r,进行假设检验,判断,r,不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,相关与回归,14,对相关系数的假设检验,常用,t,检验,选用统计量,t,的计算公式如下:,=n-2,相关与回归,15,H,0,:,=0,H,1,:,0,=0.05,r=0.61,n=31,代入公式,t=,=n-2=31-2=29,t=4.14,查,t,值表,,t,0.05(29),=2.045,查,t,值表,,t,0.05(29),=,2.756,上述计算,t=4.142.045,,,由,t,所推断的,P,值小于,0.05,,按,=0.05,水准拒绝,,接受,认为临产妇,24,小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,相关与回归,16,直线相关的应用,前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果,r,的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果,r,绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。,一般说来,当样本量较大(,n100,),并对,r,进行假设检验,有统计学意义时,,r,的绝对值大于,0.7,,则表示两个变量高度相关;,r,的绝对值大于,0.4,,小于等于,0.7,时,则表示两个变量之间中度相关;,r,的绝对值大于,0.2,,小于等于,0.4,时,则两个变量低度相关。,相关与回归,17,前面我们讨论了待产妇尿中雌三醇含量和产儿体重之间的关系,知道了二者之间成正相关。那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?,或产儿的体重可能在什么范围内呢?,还有,随着身高的增加,体重也在增大,它们之间也成正相关关系。那么,身高每增加1厘米,体重增加多少克呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。,相关与回归,18,直线回归,Simple Regression,相关与回归,19,当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为,直线回归方程,,这种关系为直线回归.,相关与回归,20,直线回归就是用来描述一个变量如何,依赖于,另一个变量,相关与回归,21,回归方程,直线回归的任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程,。,式中的,是由自变量,X,推算应变量,Y,的估计值,,a,是回归直线在,Y,轴上的截距,即,X=0,时的,Y,值;,b,为样本的回归系数,即回归直线的斜率,表示当,X,变动一个单位时,,Y,平均变动,b,个单位。如果,a,、,b,已知,代入上式,就可求得直线回归方程。,相关与回归,22,回归系数,根据上例的数据,求,待产妇尿中雌三醇含量与产儿体重之间的回归方程。,从相关系数的计算中,已经求得,:,相关与回归,23,这就是我们求得的二者关系的回归方程,相关与回归,24,回归直线的描绘,根据求得的回归方程,可以在自变量,X,的实测范围内任取两个值,代入方程中,求得相应的两个,Y,值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(,0,,,a,),()。,这两点可以用来核对图线绘制是否正确。,相关与回归,25,相关与回归,26,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数,b,进行假设检验,以判断,b,是否从回归系数为零的总体中抽得。,为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用,表示。,相关与回归,27,=2.15+0.061X,是否一定能说明雌三醇与产儿体重之间存在回归关系?,相关与回归,28,1.,方差分析,F=MS,组间,/MS,组内,2.t,检验,回归系数的假设检验,H,0,:=0,H,1,:0,=0.05,选择合适的假设检验方法,计算统计量,计算概率值,P,做出推论:统计学结论和专业结论,相关与回归,29,采用,t,检验方法,其中,S,y.x,为各观察值,Y,到回归直线的距离的标准差,表示去除,X,影响后,Y,的变异程度,,,相关与回归,30,自由度,=31-2=29,,查,t,值表,,t,0.05(29),=2.045,P0.05,按,=0.05,检验水准,拒绝,H,0,,,认为待产妇,24,小时尿中雌三醇含量与产儿体重之间存在直线回归关系。,相关与回归,31,直线回归的应用,描述两变量之间的依存关系:,通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。例如上例回归方程:,就是待产妇尿雌三醇含量与产儿出生体重的定量表达式。,利用回归方程进行预测,:把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某待产妇的尿雌三醇浓度,代入回归方程,再用区间估计的方法,即可知道生产时,产儿的体重的范围。,利用回归方程进行统计控制,利用多元回归描述多因素的影响,相关与回归,32,应用直线相关与回归的注意事项,1.,实际意义,进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。,2.,相关关系,相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素,年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,相关与回归,33,3.,利用散点图,对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。,4.,变量范围,相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,相关与回归,34,相关与回归的区别,1.,意义:,相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。,2.,应用:,研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。,3.,研究性质:,相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。,4.,相关系数,r,与回归系数,b,:,r,与,b,的绝对值反映的意义不同。,r,的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。,b,的绝对值越大,回归直线越陡,说明当,X,变化一个单位时,,Y,的平均变化就越大。反之也是一样。,相关与回归,35,相关与回归的联系,关系:,能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!