《SPSS回归分析》PPT课件.ppt

上传人:w****2 文档编号:15565419 上传时间:2020-08-21 格式:PPT 页数:82 大小:689.50KB
返回 下载 相关 举报
《SPSS回归分析》PPT课件.ppt_第1页
第1页 / 共82页
《SPSS回归分析》PPT课件.ppt_第2页
第2页 / 共82页
《SPSS回归分析》PPT课件.ppt_第3页
第3页 / 共82页
点击查看更多>>
资源描述
第七章 相关和回归分析,变量间的关系,人们每时每刻都在关心事物之间的关系。 比如,职业种类和收入之间的关系、政府投入和经济增长之间的关系、广告投入和经济效益之间的关系、治疗手段和治愈率之间的关系等等。 这些都是二元的关系。 还有更加复杂的诸多变量之间的相互关系, 比如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润等诸因素的关系是不能用简单的一些二元关系所描述的。,7.1 问题的提出,对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的, 但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。 类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。,发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。,假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。 这里Y称为因变量或被解释变量(dependent variable, response variable),而X称为自变量,也称为解释变量(independent variable, explanatory variable)。建立这种关系的过程就叫做回归(regression)。,一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。 这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。 先看几个后面还要讨论的数值例子。,例7.1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。这两个成绩的散点图展示在下图中。,(1)总体看来有个上升趋势;即初三时成绩 相对较高的学生,在高一时的成绩也较 高。,(2)但对于具体个人来说,大约有一半的学 生的高一平均成绩比初三时下降,而另 一半没有变化或有进步。,目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关? 能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。,该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。,为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成绩的盒形图,右边一个是不同收入群体的高一和初三成绩之差的盒形图。,可以看出收入高低对高一成绩稍有影响,但不如收入对成绩的变化(高一和初三成绩之差)的影响那么明显。 到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响? 是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?,例7.2 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav)。这里年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量观点则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量(见下页数据)。 想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否用统计模型表示出这个关系。,年龄和观点的散点图(左)和性别与观点的条形图,这里因变量(观点)是定性变量,而自变量既有定量变量(年龄),又有定性变量(性别),如何能够找到一个数学模型来描述他们的关系呢?,7.2 定量变量的相关,如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢? 最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。,不相关,正线性相关,负线性相关,相关但非线性相关,例7.3 广告投入和销售之间的关系,这是什么关系?,这两个变量有关系;这从散点图就很容易看出。基本上销售额是随着广告投入的递增而递增,称为相关关系。 如果有关系,它们的关系是否显著?这也可以从散点图得到。当广告投入在6万元以下,销售额增长很快;但大于这个投入时,销售额增长就不明显了。因此,这两个变量的关系是由强变弱。,这是什么关系?,这个关系是否带有普遍性?也就是说,仅仅这一个样本有这样的关系,还是对于其他企业也有类似的规律。 这里的数据还不足以回答这个问题。可能需要考虑更多的变量和收集更多的数据。一般来说,人们希望能够从一些特殊的样本,得到普遍的结论,以利于预测。,变量之间的相关关系,由于变量可分为定性变量和定量变量,因此变量之间的相关关系也可分为: 定性变量之间的相关关系 定性变量与定量变量之间的相关关系 定量变量之间的相关关系 对不同的变量之间的相关关系的分析方法也不一样。,定性变量间的关系(关于某项政策调查所得结果),大致可以看出女性赞成的多,低收入赞成的多,定性和定量变量间的混合关系,关于高等学校的数据的一些指标包括:在校生人数,研究生比例, 教师人数, 职工人数,SCI和SSCI文章数目,具有各种职称的教职工人数, 科研项目数,科研经费, 招生专业等。,相关分析的基本方法之一:绘制散点图,在spss中提供了四种散点图: 简单散点图Simple 重叠散点图Overlay 矩阵散点图Matrix 三维散点图3-D,相关分析的基本方法之一:计算相关系数,对不同类型的变量数据,应采用不同的相关系数来度量。 定量变量的相关分析: Pearson简单相关系数(Pearsons correlation coefficient) :又叫相关系数或线性相关系数。它一般用字母r表示。它是用来度量定量变量间的线性相关。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。 Spss将计算r 统计量,并对相关系数进行检验,检验的原假设是:相关系数为0。,相关分析的基本方法之一:计算相关系数,定性变量的相关分析 Spearman 等级相关系数,用来度量序次变量间的线性相关关系。它利用的是非参数检验的方法,在定义中把点的坐标换成各自样本的秩(变量的排序名次)。 Kendall 等级相关系数,它也是用来度量序次变量间的线性相关关系。这里的度量原理是把所有的样本点配对,看每一对中的x和y是否都增加来判断总体模式。,Spearman 等级(秩)相关系数(Spearman rank correlation coefficient 或Spearmans r)它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在-1和1之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。,Kendall 等级相关系数(Kendalls t)这里的度量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同(concordant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(discordant)的点数目多,两个变量就不很相关。,人们可能会问,上面的三种对相关的度量都是在其值接近1或-1时相关,而接近于0时不相关。到底如何才能够称为“接近”呢? 这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和p-值;因此可以根据这些结果来判断是否相关(见下面例6.1的继续)。,例7.1(继续)得到初三和高一成绩的Pearson相关系数,Kendall t 相关系数和Spearman 秩相关系数分别为0.795, 0.595和0.758。 这三个统计量相关的检验(零假设均为不相关)全部显著,p-值都是0.000。注意这种0.000的表示并不表示这些p-值恰好等于零,只是小数点前三位是0而已。,Spss中的相关系数计算与检验,Spss选项: Analyze Correlate Bivariate 选择要计算相关系数的变量到Variables中; 根据数据类型决定选取哪一个相关系数; 确定是双尾检验还是单尾检验。,以例7.1来说明相关系数的计算。 在例7.1中数据中,除了初三和高一的成绩之外,还有一个定性变量。 它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。,初三和高一的成绩的相关系数,下面是对三种收入对高一成绩和高一与初三成绩差的盒形图,高一成绩与家庭收入的相关系数,初三成绩与家庭收入的相关系数,高一与初三成绩之差与家庭收入的相关系数,偏相关分析,简单相关关系有时不能真实反映现象的关系, 如:在研究商品的需求量和价格、消费者收入之间的关系时会发现,需求量和价格之间的相关关系实际上还包含了消费者收入对商品需求量的影响。 所以,我们在进行相关分析时往往要控制第三个变量,而研究变量之间的相关关系。,Spss中的偏相关系数计算与检验,Spss选项: Analyze Correlate Partial,高一成绩作为控制变量, 初三成绩与家庭收入的相关系数,初三成绩作为控制变量,高一成绩与家庭收入的相关系数,回归分析,回归分析,如果两个定量变量没有关系,就谈不上建立模型或进行回归。 当变量之间确实存在相关关系时,就可进行回归分析。 对例6.1中的两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点,首先需要确定选择这条直线的标准。这里介绍最小二乘回归(least squares regression)。 这就是寻找一条直线,使得所有点到该直线的垂直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。,回归分析最小二乘法的原理,即: 由此确定回归系数: 多元回归的原理也相同,回归方程的检验问题等,对于回归系数b1=0的检验 t检验 对于拟合方程的检验 F检验 对于方程的解释程度 R2(决定系数)及修正的R2.,多个自变量的回归,也称多元回归,即: 因变量 自变量,回归分析的类型,因变量与自变量都是定量变量的回归分析即我们常做的回归分析 因变量是定量变量,自变量中有定性变量的回归分析即含有虚拟变量的回归分析 因变量是定性变量的回归分析Logistic回归分析,因变量与自变量都是 定量变量的回归分析,例7.1(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出来截距(Constant)26.444和斜率(变量j3的系数) 0.651。,截距=26.444; 斜率=0.651,这个直线实际上是对所假设的下面线性回归模型的估计(这里的e是随机误差):,我们得到的截距和斜率(26.444和0.651)是对b0和b1的估计。,由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分布,也可以用由它们构造的检验统计量来检验b0和b1是不是显著。拿回归主要关心的来说,假设检验问题是,计算机输出也给出了这个检验:t检验统计量为9.089,而p-值为0.000。,除了对变量的检验之外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数(coefficient of determination,也叫测定系数或可决系数),用R2表示。 对于例1,R2=0.632;这说明这里的自变量可以大约解释63的因变量的变化。R2越接近1,回归就越成功。由于R2有当自变量数目增加而增大的缺点,人们对其进行修改;有一修正的R2(adjusted R square)。,此外,计算机还计算了一个在零假设下有F分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。,和刚才简单的回归模型类似,一般的有k个(定量)自变量x1, x2, xk的对因变量y的线性回归模型为(称为多元回归),这里b0, b1, bk称为回归系数。对计算机来说,计算多个自变量的回归和计算一个自变量的情况类似,计算机也会自动输出相应的检验结果。,并且用数据来拟合所选的一个模型时,并不一定所有的变量都显著(并不一定所有的系数都有意义)。 软件有一种一边回归,一边检验的所谓逐步回归(stepwise regression)方法。 该方法或者从只有常数项开始,逐个地把显著的变量加入;或者从包含所有变量的模型开始,逐步把不显著的变量减去。注意不同方向逐步回归的结果也不一定相同。,例7.4 有关我国民用航空数据,进行变量的相关分析,去掉铁路客运量变量,进行回归分析-enter,进行回归分析-enter,进行回归分析-stepwise,进行回归分析-stepwise,进行回归分析-stepwise,进行回归分析-stepwise,容忍度,自变量中有定性变量的回归,在例7.1的数据中,还有一个自变量是收入,但它是定性变量,以虚拟变量或哑元(dummy variable)的方式出现。(这里收入的“低”,“中”,“高”,用1,2,3来代表)。如果要用这种哑元进行前面的回归就没有道理了。可以用下面模型描述:,自变量中有定性变量的回归,注意,哑元的各个参数a1, a2, a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。对于例6.1得到,对于例7.1,对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。,Logistic 回归,如果因变量为取两个值的定性变量,前面介绍的回归模型就无法解决了。 我们通过例7.2来介绍另一种回归,即Logistic回归(logistic regression)。 例6.2数据前面已经见到,有自变量性别、年龄和因变量观点。,例7.2 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav)。这里年龄age是定量变量,性别sex是有男和女(分别用1和0表示)两个水平的定性变量,而变量观点opinion则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量(见下页数据)。这里观点是因变量,它只有两个值。,Logistic 回归,对此,人们通常会考虑下面的模型(称为logistic回归模型),为了循序渐近,先拟合没有性别作为自变量(只有年龄x)的模型,Logistic 回归,很容易得到b0和b1的估计分别为2.381和-0.069。拟合的模型为,Logistic 回归,下面再加上性别变量进行拟合,得到对b0, b1和a0, a1的估计(同样事先确定为a1=0)分别为1.722, -0.072, 1.778, 0。对于女性和男性,该拟合模型分别可以表示为,SPSS的相关分析,相关分析(hischool.sav) 利用SPSS选项:AnalyzeCorrelateBivariate 再把两个有关的变量(这里为j3和s1)选入,选择Pearson,Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。,SPSS的回归分析,自变量和因变量都是定量变量时的线性回归分析(hischool.sav) 利用SPSS选项:AnalyzeRegressionLinear 再把有关的自变量选入Independent,把因变量选入Dependent,然后OK即可。如果自变量有多个(多元回归模型),只要都选入就行。,SPSS的回归分析,自变量中有定性变量(哑元)和定量变量而因变量为定量变量时的线性回归分析 (hischool.sav) 利用SPSS选项:AnalyzeGeneral linear modelUnivariate 为了输出待估参数,在Options中选择Parameter Estimates 在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定性因变量(income)选入Fixed Factor中。 点击Model,在Specify Model中选full factorial,然后就Continue-OK,就得到结果了。,SPSS的Logistic回归(logi.sav),自变量为定量变量时: 利用SPSS选项:AnalyzeRegressionBinary Logistic,再把因变量(opinion)选入Dependent Variable,把自变量(age)选入Covariates,点击OK即可得到结果。 自变量为定性变量及定量变量时: 利用SPSS选项:AnalyzeRegressionBinary Logistic,再把因变量(opinion)选入Dependent Variable,把自变量(age和sex)选入Covariates,然后点Categorical,再把定性变量sex选入Categorical Covariate,回到主对话框,点击OK即可得到结果。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!