资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,9,章,spss,的相关分析和线性回归分析,相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。,本章主要内容:,对变量之间的相关关系进行分析(,Correlate,)。其中包括简单相关分析(,Bivariate,)和偏相关分析(,Partial,)。,建立因变量和自变量之间回归模型(,Regression,),其中包括线性回归分析(,Linear,)和曲线估计(,Curve Estimation,)。,数据条件:参与分析的变量数据是数值型变量或有序变量。,本章内容,9.1,相关分析,9.2,偏相关分析,9.3,线性回归分析,9.4,曲线估计,9.5,二项,Logistic,回归,相关分析用于测量了解变量之间的密切程度。如:教育事业的发展与科学技术的发展存在着一定的关系,学生的数学成绩与物理成绩存在着一定的关系,相关分析就是要分析这种密切程度。,相关类型:,1,、直线相关:两变量呈线性共同增大,或一增一减。,2,、曲线相关:两变量存在相关趋势,但非线性。此时若进行直线相关,有可能出现无相关性的结论,曲线相关分析是一般都先将变量进行变量变换,以将趋势变换为直线分析,或者采用曲线回归方法来分析。,相关的方向,依照两种变量变动的方向分,有正相关、负相关和无相关(零相关)。,相关分析基本步骤:,1.,绘制散点图,2.,计算相关系数,3.,进行相关系数检验,如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?,最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量,x,和,y,的样本。,第,1,点,不相关,正线性相关,负线性相关,相关但非线性相关,但如何在,数量,上描述相关呢?下面引进几种对相关程度的度量。,Pearson,相关系数,Spearman,秩相关系数,Kendall,t,相关系数,Pearson,相关系数,(,Pearsons correlation coefficient,)又叫相关系数或线性相关系数。它一般用字母,r,表示。,它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于,-1,和,1,之间。当两个变量有很强的线性相关时,相关系数接近于,1,(正相关)或,-1,(负相关),而当两个变量不那么线性相关时,相关系数就接近,0,。,Pearson,相关系数的局限性:,要求变量服从正态分布,只能度量线性相关性,对于曲线相关等更为复杂的情形,该相关系数的大小并不能代表相关性的强弱。如果,Pearson,系数很低,只能说明两变量之间没有线性关系,并不能说明两者之间没有相关关系。也就是说,该指标只能度量,线性,相关性,而不是相关性。(线性相关性隐含着相关性,而相关性并不隐含着线性相关性),另外:,样本中存在的极端值对,Pearson,相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。,Spearman,秩相关系数,它和,Pearson,相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。,为两变量各自对应的秩,,为对应的秩之差。,Spearman,相关系数也是取值在,-1,和,1,之间,也有类似的解释。,Spearman,秩相关系数适用范围:,Spearman,相关系数更多用于测量两个有序分类变量之间的相关程度。对于适合,Pearson,相关系数的数据亦可计算,Spearman,相关系数,但统计效能要低一些。通过它也可以进行不依赖于总体分布的非参数检验。,侧重于两个分类变量均为有序分类的情况。这里的度量原理是把所有的样本点配对(如果每一个点由,x,和,y,的秩组成的坐标,(,x,y,),代表,一对点就是诸如,(,x,1,y,1,),和,(,x,2,y,2,),的点对),然后看每一对中的,x,和,y,的的秩的观测值是否同时增加(或减少)。比如由点对,(,x,1,y,1,),和,(,x,2,y,2,),,可以算出乘积,(,x,2,-,x,1,)(,y,2,-,y,1,),是否大于,0,;如果大于,0,,则说明,x,和,y,同时增长或同时下降,称这两点协同(,concordant,);否则就是不协同。如果样本中协同的点数目多,两个变量就更加正相关一些否则就更负相关些;如果样本中不协同(,discordant,)与协同的点数差不过一样多,两个变量相关性就弱。,Kendall,相关系数(,Kendalls,),Kendalls,统计量的数学定义为:,Kendall,相关系数(,Kendalls,),U,、,V,分别为协同和不协同的数目,大样本下采用的检验统计量为:,Z,统计量近似服从标准正态分布,人们可能会问,上面的三种对相关的度量都是在其值接近,1,或,-1,时相关,而接近于,0,时不相关。到底如何才能够称为“接近”呢?,这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和,p,-,值;因此可以根据这些结果来判断,是否相关,画散点图,GraphsScatter,选择散点图的类型,根据所选择的散点图类型,单击,Define,对散点图作具体定义。,计算相关系数,Analyze,Correlate,Bivariate,选择参加计算的变量到,Variable,中,在,Correlation,Coefficents,框中选择计算哪种相关系数,在,Test of Significance,框中选择输出单尾还是双尾,p,值,选择,Flag significance correlations,输出星号标记,在,Options,中选择其他描述统计量,简单相关分析菜单,简单相关分析,实例:有,50,个从初中升到高中的学生。有他们在初三和高一的各科平均成绩,(,数据在,highschool.sav,),。要求比较初三的成绩是否和高中的成绩相关。,练习:利用数据,SY-8.sav,,对城镇居民消费额与人均国内生产总值两变量进行相关分析。,分析结果,从运行结果看,城镇居民消费额与人均国内生产总值有很强的线形相关关系,.,本章内容,9.1,相关分析,9.2,偏相关分析,9.3,线性回归分析,9.4,曲线估计,9.5,二项,Logistic,回归,偏,相关分析,简单相关分析计算两个变量间的相关系数,分析两个变量间线性关系的程度。往往因为第三个变量的作用,使相关系数不能真正反应两个变量间的线性程度。例如用简单相关系数检验,可以得到肺活量与身高、体重均存在较强的线性关系,如果对体重相同的人,分析身高和肺活量,是否身高越高肺活量越大呢?因为身高与体重有线性关系,体重又与肺活量存在线性关系,因此,很容易得出身高与肺活量存在较强线性关系的错误结论。,偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量。分析身高与肺活量之间的相关性,就要控制体重在相关分析中的影响。正确运用偏相关分析,可以解释变量间的真实关系,识别干扰变量并寻找隐含的相关性。,偏,相关系数的计算,控制了变量,z,,变量,x,、,y,之间的偏相关系数和控制了两个变量 ,变量,x,、,y,之间的偏相关系数分别为,是控制了,z,的条件下,,x,、,y,之间的偏相关系数。 是变量,x,、,y,间的简单相关系数。,偏,相关系数的检验,检验的零假设:两个变量间的偏相关系数为,0,。使用,t,检验,公式如下:,r,是相应的偏相关系数。,n,是观测个数,,k,是控制变量的数目,,n-k-2,是自由度。,在,SPSS,的偏相关分析过程的输出中只给出偏相关系数和假设成立的概率,p,值。,偏,相关分析的操作,与简单相关分析操作类似,只不过菜单为,Analyze,Correlate,Partial,实例:利用数据,相关回归分析(高校科研研究),.,sav,,,分析发表立项课题数与论文数之间的偏相关关系,其中投入高级职称的人数为控制变量。,练习:利用数据,data10-03.sav,,分析中山柏月生长量与,4,个气候因素哪个因素有关。,本章内容,9.1,相关分析,9.2,偏相关分析,9.3,线性回归分析,9.4,曲线估计,9.5,二项,Logistic,回归,线性回归,分析,线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象 (因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。这一节将专门介绍,SPSS,软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。,线性回归模型假设条件与模型的各种检验,1,、线性回归的假设理论,(,1,)正态性假设:即所研究的变量均服从正态分布;,(,2,)等方差假设:即各变量总体的方差是相等的;,(,3,)独立性假设,即各变量之间是相互独立的;,(,4,)残差项无自相关性,即误差项之间互不相关,,Cov(,i,,,j,),= 0,2,、线性回归模型的检验项目,(,1,)回归系数的检验(,t,检验)。,(,2,)回归方程的检验(,F,检验)。,(,3,)拟合程度判定(可决系数,R,2,)。,(,4,),D.W,检验(残差项是否自相关)。,(,5,)共线性检验(多元线性回归)。,(,6,)残差图示分析(判断异方差性和残差序列自相关)。,对初三和高一的各科平均成绩这两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图中的那些点的趋势。,首先需要确定选择这条直线的标准。这里介绍,最小二乘回归(,least squares regression,),。古汉语“二乘”是平方的意思。,这就是寻找一条直线,使得所有点到该直线的竖直距离的平方和最小。用数据寻找一条直线的过程也叫做,拟合(,fit,),一条直线。,根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出来截距(,Constant,),26.444,和斜率,(,变量,j3,的系数,) 0.651,。,截距,=26.444;,斜率,=0.651,这个直线实际上是对所假设的下面线性回归模型的估计(这里的,e,是随机误差):,我们得到的截距和斜率(,26.444,和,0.651,)是对,b,0,和,b,1,的估计。,由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分布,也可以用由他们构造检验统计量来检验,b,0,和,b,1,是不是显著。拿回归主要关心的来说,假设检验问题是,计算机输出也给出了这个检验:,t,检验统计量为,9.089,,而,p,-,值为,0.000,。,除了对,b,1,的检验之外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数(,coefficient of determination,,也叫测定系数或可决系数),用,R,2,表示。,R,2,=0.632,;这说明这里的自变量可以大约解释,63,的因变量的变化。,R,2,越接近,1,,回归就越成功。由于,R,2,有当变量数目增加而增大的缺点,人们对其进行修改;有一修正的,R,2,(,adjusted R square,),。,此外,计算机还计算了一个在零假设下有,F,分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。,和刚才简单的回归模型类似,一般的有,k,个(定量)自变量,x,1,x,2,x,k,的对因变量,y,的线性回归模型为(称为多元回归),这里,b,0,b,1,b,k,称为回归系数。对计算机来说,计算多个自变量的回归和计算一个自变量的情况类似,计算机也会自动输出相应的检验结果。,用数据来拟合所选的一个模型时,并不一定所有的变量都显著,(,并不一定所有的系数都有意义,),。,在多元回归分析中,自变量的筛选一般有三种的策略和方法:,1.,向前筛选法(,Forward,)。,2.,向后筛选法(,Backward,)。,3.,逐步回归法(,Stepwise,)。,各种方法的思路见课本,P,203,。,多元回归中变量筛选问题,画散点图先做数据散点图,观测因变量与自变量之间关系是否有线性特点,若散点图的趋势大概呈线性关系,可以建立线性回归模型,Analyze,Regression,Linear,选择因变量变量到,Dependent,中,因变量选入,Independent.,在,Method,框中选择回归分析自变量筛选策略。,选择一个变量作为条件变量放到,Selection Variable,中,并单击,Rule,给定一个判断条件,只有变量值满足给定条件才参与回归分析。,在,Case,Lables,框中指定哪个变量作为样本数据点的标志变量,该变量的值将标在回归分析的输出图形中。,回归分析基本操作,线性回归分析,实例:,利用数据,相关回归分析(高校科研研究),.,sav,,,分析发表立项课题数受那些因素的影响。,练习:,利用,美国收入消费数据,.,sav,,建立用消费来预测收入的回归方程。,利用数据,A商品需求多元回归.sav,建立一个以居民人均收入、,A,商品单价为自变量,销售量为因变量的回归模型。,A,商品需求多元回归,要注意的值有,3,个,:,adjusted R square,F,t,由此得,回归方程为,Y=4.588+1.868X1-1.8X2,t,值,(1.82) (6.93) (-2.455),本章内容,9.1,相关分析,9.2,偏相关分析,9.3,线性回归分析,9.4,曲线估计,9.5,二项,Logistic,回归,对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合,(liner),、,二次拟合,(Quadratic),、,三次拟合,(Cubic),等。,不同模型的表示,模型名称,回归方程,相应的线性回归方程,Linear(,一元线性,),Y=b,0,+b,1,t,Quadratic(,二次曲线,),Y=b,0,+b,1,t+b,2,t,2,Compound(,复合曲线,),Y=b,0,(b,1,t,),Ln(Y,)=ln(b,0,)+ln(b,1,)t,Growth(,增长曲线,),Y=,e,b,0+,b,1,t,Ln(Y,)=b,0,+b,1,t,Logarithmic(,对数曲线,),Y=b,0,+b,1,ln(t),Cubic(,三次曲线,),Y=b,0,+b,1,t+b,2,t,2,+b,3,t,3,S,曲线,Y=,e,b,0+,b,1,/t,Ln(Y,)=b,0,+b,1,/,t,Exponential(,指数曲线,),Y=b,0,*,e,b,1,*t,Ln(Y,)=ln(b,0,)+b,1,t,Inverse(,逆函数,),Y=b,0,+b,1,/t,Power(,幂函数,),Y=b,0,(,t,b,1,),Ln(Y,)=ln(b,0,)+b,1,ln(t),Logistic(,逻辑函数,),Y=1/(1/u+b,0,b,1,t,),Ln(1/Y-1/u)=ln(b,0,+ln(b,1,)t),采用哪种拟合方式,可以画散点图判断,但更主要的是取决于各种拟合模型对数据的充分描述,(,看,修正,Adjusted,R,2,),曲线估计的基本操作,Analyze,Regression,Curve,Estimation,选择因变量变量到,Dependent,中。,曲线估计的自变量可以是相关因素变量也可以是时间变量。如果自变量是相关因素变量,则选择,Variable,选项,并把一个自变量指定到,Independt,里,如果是时间变量则选择,Time,选项。,在,Models,中选择模型。,选择,Plot Models,选项绘制回归线;选择,Display ANOVA table,输出各个模型的方差分析表和各回归系数显著性检验结果。,在,Save,中选择要保存的数据。,实例:,数据,相关回归分析(年人均消费支出和教育),.,sav,1.,利用,1990,2002,年的数据,以,年人均消费性支出,为自变量,,教育支出,为因变量拟合回归模型。,2.,利用,1981,2002,年居民在外就餐消费的数据,对居民未来在外就餐的趋势进行分析和预测。,练习:利用数据,居民收入支出情况,,以,人均生活费收入,为自变量,,人均生活费支出,为因变量拟合回归模型。,曲线估计,本章内容,9.1,相关分析,9.2,偏相关分析,9.3,线性回归分析,9.4,曲线估计,9.5,二项,Logistic,回归,在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问题的特点是因变量只有两个值,不发生,(0),和发生,(1),。这时,就无法直接采用一般线性回归模型来分析了。,Logistic,(逻辑)回归模型,设某一事件发生的概率为,p,(则不发生的概率为,1- p,),,Logistic,回归模型的形式如下:,对此,人们通常会考虑下面的模型(称为,logistic,回归模型),为了循序渐近,先拟合没有性别作为自变量(只有年龄,x,)的模型,我们通过例子来介绍,Logistic,回归,数据,logi.sav,中,,观点,为二值型的因变量,受,年龄,(定距变量)和,性别,(定类变量)的影响。,很容易得到,b,0,和,b,1,的估计分别为,2.381,和,-0.069,。拟合的模型为,下面,再加上性别,变量进行拟合,得到对,b,0,,,b,1,和,0,1,的估计分别为,1.722, -0.072, 1.778, 0,。对于女性和男性,该拟合模型分别可以表示为,Logistic,回归,的操作,自变量为定量变量时:,利用,SPSS,选项:,Analize,Regression,Binary Logistic,,,再把,因变量,(opinion),选入,Dependent Variable,,,把,自变量,(,age,),选入,Covariates,,,OK,即可得到结果。,自变量为定类变量及定性变量时:,利用,SPSS,选项:,Analize,Regression,Binary Logistic,,,再把,因变量,(opinion),选入,Dependent Variable,,,把,自变量,(,age,和,sex,),选入,Covariates,,,然后点,Categorical,,,再把,定性变量,sex,选入,Categorical Covariate,,,回到主对话框,点击,OK,即可得到结果。,实例:,数据,LOGI.sav,以年龄、性别为自变量,观点为因变量拟合逻辑回归模型。,练习:利用,住房收入情况数据,,以收入为自变量,是否拥有住房为因变量拟合逻辑回归模型。,Logistic,回归,
展开阅读全文