资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,线性相关与回归,线性相关与回归,1,一、线性相关的基本概念,二、线性相关系数,三、相关系数的显著性检验,四、进行线性相关分析的注意事项,第一节 线性相关(,linear correlation,),第1页/共43页,一、线性相关的基本概念第一节 线性相关(linear co,2,例 从男青年总体中随机抽取,11,名男青年组成样本,,分别测量每个男青年的身高和前臂长,编号,身高(,cm,),前臂长(,cm,),XY,X,2,Y,2,(,X,),(,Y,),1,170,47,7990,28900,2209,2,173,42,7266,29929,1764,3,160,44,7040,25600,1936,4,155,41,6355,24025,1681,5,173,47,8131,29929,2209,6,188,50,9400,35344,2500,7,178,47,8366,31684,2209,8,183,46,8418,33489,2116,9,180,49,8820,32400,2401,10,165,43,7095,27225,1849,11,166,44,3174,28561,2116,合计,1891,500,86185,326081,22810,第2页/共43页,例 从男青年总体中随机抽取11名男青年组成样本,编号身高,3,一、线性相关的基本概念,为直观地判断两个变量之间的关系,可在直角坐标系中把每对(,X,i,Y,i,)值所代表的点绘出来,形成散点图。例如,12,名男青年身高与前臂长资料绘制的散点图如图所示:,第3页/共43页,一、线性相关的基本概念 为直观地判断两个变量之间的,4,若一个变量,X,由小到大(或由大到小),另,一变量,Y,亦相应地由小到大或由大到小,则两个,变量的散点图呈直线趋势,我们称这种现象为,共变,也就是这两个变量之间有“相关关系”。,男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相关。,第4页/共43页,若一个变量X由小到大(或由大到小),另第4页/共43,5,线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:,1.,正相关,2.,负相关,3.,无相关,第5页/共43页,线性相关用于双变量正态资料。它的性质可由散点图直观地,6,二、线性相关系数,在分析两个变量,X,与,Y,之间关系时,常常要了解,X,与,Y,之,间有无相关关系,相关是否密切,是呈正相关还是负相,关。相关系数就是说明具有直线关系的两个变量间相关,密切程度和相关方向的统计量。,皮尔森,(Pearson),相关系数的计算公式为:,相关系数,r,没有测量单位,其数值为,-1,r,1,第6页/共43页,二、线性相关系数 在分析两个变量X与Y之间关系时,常常要了,7,相关系数的计算方法,计算时分别可用下面公式带入相关系数,r,的计算公式中,第7页/共43页,相关系数的计算方法 计算时分别可用下面公式带入相,8,例 从男青年总体中随机抽取,11,名男青年组成样本,,分别测量每个男青年的身高和前臂长,身高和前臂长,均以,cm,为单位,测量结果如下表所示,试计算身高与前,臂长之间的相关系数。,编号,身高(,cm,),前臂长(,cm,),XY,X,2,Y,2,(,X,),(,Y,),1,170,47,7990,28900,2209,2,173,42,7266,29929,1764,3,160,44,7040,25600,1936,4,155,41,6355,24025,1681,5,173,47,8131,29929,2209,6,188,50,9400,35344,2500,7,178,47,8366,31684,2209,8,183,46,8418,33489,2116,9,180,49,8820,32400,2401,10,165,43,7095,27225,1849,11,166,44,3174,28561,2116,合计,1891,500,86185,326081,22810,第8页/共43页,例 从男青年总体中随机抽取11名男青年组成样本,编号身高,9,第9页/共43页,第9页/共43页,10,三、相关系数的显著性检验,与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个,X,与,Y,无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。,因此要判断两个变量,X,与,Y,是否真的存在相关关系,仍需根据作总体相关系数,是否为零的假设检验。,第10页/共43页,三、相关系数的显著性检验 与前面讲的其它统计量一样,根,11,常用的检验方法有两种,:,1.,按自由度直接查附表,11,的界值表,得到,P,值。,2.,用假设检验法,计算统计量,其公式为:,第11页/共43页,常用的检验方法有两种:1.按自由度直接查附表11的界值表,,12,例,10.1,所得的,r,值检验男青年身高与,前臂长之间是否存在相关关系,?,第12页/共43页,例10.1所得的 r 值检验男青年身高与第12页/共,13,第13页/共43页,第13页/共43页,14,第14页/共43页,第14页/共43页,15,四、进行线性相关分析的注意事项,线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。,相关分析要求,x,、,y,是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。,第15页/共43页,四、进行线性相关分析的注意事项 线性相关表示两个变量之间,16,四、进行线性相关分析的注意事项,依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。,第16页/共43页,四、进行线性相关分析的注意事项 依据公式计算出的相关系数,17,四、进行线性相关分析的注意事项,相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。,第17页/共43页,四、进行线性相关分析的注意事项 相关分析是用相关系数来描,18,出现异常值时慎用相关,分层资料盲目合并易出假象,第18页/共43页,出现异常值时慎用相关分层资料盲目合并易出假象第18页/共43,19,一、线性回归的基本概念,二、线性回归方程的计算,三、线性回归方程的显著性检验,四、进行线性回归分析的注意事项,第二节 线性回归(,linear regression,),第19页/共43页,一、线性回归的基本概念第二节 线性回归(linear reg,20,一、线性回归的基本概念,相关是分析两个正态变量,X,与,Y,之间的互相关系。在相关分析中,分不清,X,与,Y,何者为自变量,何者为因变量。现在假设两个变量,X,、,Y,中,当一个变量,X,改变时,另一个变量,Y,也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数,r,表示变量,Y,与,X,线性关系的密切程度,也可以用一个直线方程来表示,Y,与,X,的线性关系。,根据大量实测数据,寻找出其规律性,寻求一个直线方程来,描述两个变量间依存变化的数量关系,,即线性回归关系,这样得出的直线方程叫做线性回归方程,linear regression equation,。,第20页/共43页,一、线性回归的基本概念 相关是分析两个正态变量X与Y之间的,21,第21页/共43页,第21页/共43页,22,a,为回归直线在,Y,轴上的截距,x,取,0,时,,y,的平均估计值,a,0,,,表示直线与纵轴的交点在原点的上方,a,0,,,直线从左下方走向右上方,,Y,随,X,增大而增大,b,0,直线从左下方走向右上方,,24,最小二乘法原理:,各点到回归线的纵向,距离的平方和最小。,直线回归,Method of least square,使计算出的回归直线最能代表实测数据所反映出的直线趋势,第24页/共43页,最小二乘法原理:直线回归Method of least sq,25,二、线性回归方程的计算,例,10.3,有人研究了温度对蛙的心率的影响,得到了表,10-2,中所示的资料,试进行回归分析,。,对象,温度(,X,),心率(,Y,),XY,X,2,Y,2,1,2,5,10,4,25,2,4,11,44,16,121,3,6,11,66,36,121,4,8,14,112,64,196,5,10,22,220,100,484,6,12,23,276,144,529,7,14,32,448,196,1024,8,16,29,464,256,841,9,18,32,576,324,1024,10,20,34,680,400,1156,11,22,33,726,484,1089,合计,132,246,3622,2024,6610,第25页/共43页,二、线性回归方程的计算 例10.3 有人研究了温度对蛙,26,根据表,10-2,数据绘制散点图,如下图所示,:,第26页/共43页,根据表10-2数据绘制散点图,如下图所示:第26页/共43页,27,2.,计算回归系数与常数项,在本例中,:,则,回归方程为,第27页/共43页,2.计算回归系数与常数项 在本例中:则,回归方程为第27,28,3.,作回归直线,第28页/共43页,3.作回归直线第28页/共43页,29,第29页/共43页,第29页/共43页,30,三、线性回归方程的显著性检验,对线性回归方程要进行假设检验,就是要检验,b,是否为,=0,的总体中的一个随机样本。该假设检验通常用方差分析或者,t,检验,两者的检验效果等价。,第30页/共43页,三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就,31,H,0,:,0,(两变量之间无直线关系),H,1,:,0,0.05,n,2,第31页/共43页,H0:0(两变量之间无直线关系)n2第3,32,对例,10.3,的回归方程用,t,检验进行假设检验,(,1,)建立假设检验,=0,0,=0.05,(,2,)计算统计量,V,=11,2=9,(,3,)确定,P,值作结论,根据,V,=9,,,3.250,P,0.01,,,拒绝,H,0,,,第32页/共43页,对例10.3的回归方程用t 检验进行假设检验(1)建立假设检,33,直线回归方程的应用,1.,描述两个变量之间的数量依存关系。,2.,利用回归方程进行预测,(,1,)由现在已知的变量值预测将来未知的变量值,(父母身高预测子女身高),(,2,)由易测的变量值估算难测的变量值,(体重预测体表面积),3.,利用回归方程进行控制,利用回归方程进行逆估计,第33页/共43页,直线回归方程的应用1.描述两个变量之间的数量依存关系。第3,34,四、进行线性回归分析的注意事项,只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。,作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为,X,以“果”的变量为,Y,。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为,X,。,在回归分析中,因变量是随机变量,自变量既可以是随机变量(,II,型回归模型,两个变量应该都服从正态分布),也可以是给定的量(,I,型回归模型,这时,与每个,X,取值相对应的变量,Y,必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。,第34页/共43页,四、进行线性回归分析的注意事项 只有
展开阅读全文