资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,1,SPSS,基础与,Access,数据库,姓 名,:,电 话,:,E-mail:,上课时间,:,上课程点,:,答疑地点,:,答疑时间,:,2,相关分析,相关分析就是描述两个或两个以上变量间关系密切程度的统计方法,有效地揭示事物之间相关关系的强弱程度。,二元变量分析,偏相关分析,距离相关分析,上节回顾,3,第,13,讲,回归分析,4,基本概念,5,一、“回归”起源,“,回归,”,一词是英国生物学家、统计学家高尔顿(,F.Galton,)在研究父亲身高和其成年儿子身高关系时提出的。,从大量父亲身高和其成年儿子身高数据的散点图中,,Galton,发现了一条贯,穿,其中的,直线,,它能描述父亲身高和其成年儿子身高的关系,并可以用于根据父亲身高,预测,其成年儿子身高。,Galton,通过上述研究发现儿子的平均身高一般总是介于其父亲与其种族的平均高度之间,即儿子的身高在总体上有一种,“,回归,”,到其所属种族高度的趋势,这种现象称为,回归现象,,贯穿数据的直线称为,回归线,。,回归概念产生以后,被广泛应用于各个领域之中,并成为研究,随机变量,与,一个或多个自变量,之间变动关系的一种统计分析技术。,6,二、回归分析的基本概念,回归分析的概念,回归分析就,是研究,一个或多个,变量的,变动,对,另一个,变量的,变动,的,影响程度,的方法。,相关分析与回归分析的关系,相关分析是根据统计数据,通过计算分析变量之间,关系的方向,和,紧密程度,,而不能说明变量之间相互关系的,具体形式,,无法从一个变量的变化来,推测,另一个变量的变化情况。,回归分析能够确切说明变量之间相互关系的具体形式,可以通过一个相关的,数学表达式,,从一个变量的变化来,推,测另一个变量的变化情况,使,估计和预测,成为可能。,相关分析是回归分析的,基础和前提,,回归分析是相关分析的,深入和继续,。,相关与回归,7,二、回归分析的基本概念,回归分析的目的,根据已知的资料或数据,找出变量之间的,关系表达式,(,找到回归方程,),,用自变量的已知值去,推测,因变量的值或范围,(,进行预测,),,实际上是研究,因果关系,。,(,例如:,),回归分析的基本过程,确定自变量,选择回归分析的模型,估计模型中的参数,模型检验,模型应用,8,二、回归分析的基本概念,回归分析可以,解决的问题,确定,因变量,与若干个,自变量,之间联系的,定量表达式,,即回归方程或数学模型,通过控制可控变量的数值,借助数学模型来,预测,或,控制,因变量的取值和精度,进行,因素,分析,从影响因变量变化的自变量中区分出,重要因素,和,次要因素,分类,根据变量之间相关关系的,表现形式,分为,线性,回归分析:变量之间的相关关系是,线性,关系,非线,性回归分析:变量之间的相关关系是,非线性,关系,根据影响因变量的,自变量的多少,分为,一元,回归分析,多元,回归分析,9,二、回归分析的基本概念,回归分析的功能,实现回归分析的功能主要在,“,Analyze,Regression,”,命令菜单中,主要分为:,线性回归分析,曲线估计分析,二维逻辑分析,多维逻辑分析,顺序分析,概率分析,非线性回归分析,加权估计分析,两阶最小二乘分析,10,线性回归分析,11,三、线性回归分析,线性回归的,概念,线性函数,是变量之间存在的各种关系中最简单的形式,具有这种关系的回归叫做线性回归。,线性回归根据自变量多少分为,一元回归,和,多元回归,对数据的要求:,自变量和因变量必须是,数值型,变量,标志或范畴变量,如专业、性别,必须记录为二元的哑变量,(,虚拟变量,),或者其他类型的对立变量,对于,因变量,的所有观测值(样本)应该认为是来自相互独立的等方差,(,方差齐性,),的,正态总体,(,正态分布,),,并且因变量和各自变量之间应有一定的,线性关系,12,三、线性回归分析,线性回归的模型,下面以,一元线性回归,为例,解析线性回归模型。,一元线性回归的数学模型为:,在数学模型中 分别称为,回归常数,和,回归系数,,称为,随机误差,。,从数学模型可以看出因变量,y,的变化由,两部分,组成,自变量,x,的变化所引起的,y,的线性变化,即,其他,随机因素,引起的,y,的变化,即,如果随机误差的,期望为,0,,那么数学模型可以转化为:,称为,一元线性回归方程,从几何意义上讲,一元线性回归方程是一条,直线,,即,回归线,。,从一元线性回归方程可以看出,,一元线性回归分析,是在,不考虑随机因素,条件下进行分析的,所以是在比较理想状态下的分析,13,三、线性回归分析,线性回归方程的统计检验,通过样本数据建立的回归方程,不能立即用于对实际问题的分析和预测,还需要进行各项,统计检验,。,回归方程的,拟合优度检验,拟合优度检验采用,判定,(,决定,),系数,和,调整判定,(,决定,),系数,,来检验。其中 是,自变量,x,和因变量,y,之间的相关系数。,和 取值范围是,01,,越接近,1,表示,拟合优度越高,,反之就,越低,。,14,三、线性回归分析,线性回归方程的统计检验,回归方程和回归系数的显著性检验,1.,显著性检验,H,0,假设是:,回归系数与,0,无显著性差异。,2.,检验采用,F,统计量,和,t,统计量,,,SPSS,自动计算统计量的观测值和对应的伴随概率。,3.,如果伴随概率,小于,显著性水平,(,0.05,),,,拒绝,H,0,假设,回归系数与,0,有显著性差异,,表明自变量,x,和因变量,y,之间,有线性关系,,,回归方程有实际意义,。,反之,,接受,H,0,假设,回归系数与,0,无显著性差异,,表明自变量,x,和因变量,y,之间,线性关系不显著,,回归方程,无实际意义。,15,三、线性回归分析,线性回归方程的统计检验,残差分析,残差是指由回归方程计算所得的,预测值,与,实际样本值,之间的差距。,残差分析是回归方程检验的重要组成部分,如果回归方程能够较好地反映变量之间的变化规律,那么残差中不包含明显的,规律性和趋势性,。,16,三、线性回归分析,线性回归方程的统计检验,残差分析的主要内容,(1),残差,均值为,0,的,正态性分析,对应的残差有正负,但总体上应服从以,0,为均值的正态分布。可以通过绘制标准化,(,或学生化,),残差的累计概率图来分析。,(2),残差的,独立性,分析,回归方程要求前期和后期的残差数值之间不存在相关关系,即不存在自相关。可以通过绘制残差的序列图、计算残差的自相关系数和,DW(Durbin-Watson),检验来分析,17,三、线性回归分析,线性回归方程的统计检验,残差分析的主要内容,(3),异方差,分析,无论变量的取值如何变化,对应的残差分析的方差都应相等,(,齐性,),,否则认为出现了,,异方差,现象。可以通过绘制残差图和等级相关分析来分析。,(4),探测样本中的,异常值,异常值对回归方程影响较大,可以利用残差分析探测样本中的异常值,加以排除。,对于探测,因变量,y,中的异常值方法:标准化残差、学生化残差和剔除残差,对于探测,自变量,x,中的异常值方法:杠杆值、库克距离、标准化回归系数和标准化预测值的变化,18,三、线性回归分析,SPSS,操作及案例分析,例一:一元线性回归分析,一家地产公司调查了某城市的房地产,销售价格,与,房产的评估价值,的数据,请用一元线性回归分析,能否用房产的评估价值来,预测,房地产销售的价格。,分析:,自变量,x,:,房产的评估价值;,因变量,y,:,房地产销售价格,散点图分析,一元线性回归结果分析,19,三、线性回归分析,SPSS,操作及案例分析,操作步骤:,(1),根据数据建立散点图,进行初步分析,(2),Analyze,Regression,Linear,数据文件:,9-linear_one.sav,保存文件:,9-linear_one.spo,1,2,自变量,因变量,20,三、线性回归分析,SPSS,操作及案例分析,结果分析:,从建立的散点图来看,自变量,x,和因变量,y,之间存在,一定的线性关系,,而且相关,程度较高,。,21,表,1,表,2,三、线性回归分析,SPSS,操作及案例分析,结果分析:,(1),表,1,:变量进入,/,移出表,Enter,表示选定变量,全部进入,模型,(2),表,2,:模型综述表,相关系数,R=0.916,、判定系数,R,2,=0.839,、调整判定系数,R,2,=0.830,,说明变量之间相关,程度高,,回归方程的,拟合优度高,。,22,三、线性回归分析,SPSS,操作及案例分析,结果分析:,(3),表,3,方差分析表,F,检验统计量得观测值,=93.567,,伴随概率,=0.0000.05,,,拒绝,零假设,说明自变量,x,和因变量,y,之间,线性关系显著,,可以建立,线性模型,。,(4),模型系数表,常数项,Constant=895.020,,,回归系数,=1.351,;回归系数的伴随概率,=0.000,,,拒绝,零假设,说明自变量,x,和因变量,y,之间,线性关系显著,,可以建立,线性模型,。,结论:,根据上述分析结果,可以得到,回归方程,用该方程来进行分析和,预测实际问题,结果较为,准确,。,表,3,表,4,23,三、线性回归分析,SPSS,操作及案例分析,例二:一元线性回归分析,Nambe Mills,公司生产,5,种金属餐具产品,分别是,Bowl(,碗,),、,Casserole(,焙盘,),、,Dish(,碟,),、,Tray(,托盘,),、,Plate(,盘子,),。在生产过程中都有一个抛光的过程。为了有助于安排生产,记录了,59,个产品的抛光时间,(time),、产品类型,(type),和产品直径,(diam),。,用一元线性回归分析能否用产品的,直径,来预测产品的,抛光时间,。,24,三、线性回归分析,SPSS,操作及案例分析,操作步骤:,(1),绘制抛光时间和产品直径的散点图,(2)Analyze,Regression,Linear,数据文件:,9-polishing.sav,保存文件:,9-polishing.spo,1,2,25,三、线性回归分析,SPSS,操作及案例分析,结果分析:,从建立的散点图来看,自变量,x,和因变量,y,之间存在一定的线性关系,但数据分布较为,分散,,所以相关程度,不是很高,。,26,三、线性回归分析,SPSS,操作及案例分析,结果分析,(1),变量进入,/,移出方式表,表示选定变量,全部进入,模型,(2),模型综述表,反映了因变量和自变量之间的线性相关系数,R=0.700,,判定系数,R,2,=0.490,,说明自变量可以解释因变量,49%,的变异性,。说明自变量与因变量之间的相关程度,一般,,回归方程的拟合优度,不高,。,27,三、线性回归分析,SPSS,操作及案例分析,结果分析,(3),方差分析表,F,检验统计量的观测值为,54.865,,,F,分布的伴随概率为,0.000,,从而,拒绝,零假设,说明因变量和自变量的线性关系是,显著,的,可以建立,线性模型。,(4),模型系数表,回归模型的常数项为,-1.955,,自变量回归系数为,3.457,回归方程为:,time=3.457*diam-1.955,回归系数的伴随概率,=0.000,,应,拒绝,t,检验的零假设,说明因变量和自变量的线性关系是,显著,的,可以建立,线性模型,28,三、线性回归分析,SPSS,操作及案例分析,例三:,多元,线性回归分析,为了研究某公司职工当前工资水平,收集了影响职工当前工资水平的,6,个因素的数据。这些影响因素是:职工的开始工资,salbegin($),、受教育时间,educ(,年,),、来公司工作时间,jobtime(,月,),、工种,jobcat,、来本公司前的工作经验,prevexp(,月,),、是否为少数民族,minority,。,试用多元线性回归过程对该公司职工当前工资水平寻求一个恰当的回归模型。,29,三、线性
展开阅读全文