多元回归分析的原理与应用演示文稿课件

资源描述

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,多元回归分析的原理与应用演示文稿,第1页，共41页。,多元回归分析的原理与应用,第2页，共41页。,提纲,多元回归分析,的统计原理,多元回归分析在心理学研究中的应用,第3页，共41页。,1,多元回归分析,(regression),的统计原理,回归分析的含义,回归分析的分类,一元线性回归,多元线性回归,在,SPSS,中如何做多元回归分析,第4页，共41页。,1.1,回归分析的含义,客观世界中事物之间的关系是各种各样的。从定量的角度看，主要有两种：一是确定性关系，如重力加速度，即自由落体的距离与时间：,S=0.5gt,2,；另一类是不确定性关系，即相关关系。,由于事物的变化常常受多种因素的影响，导致了事物变化的不确定性。人们常用相关系数来描述事物之间的这种不确定性程度。,但对于如何通过一个事物的值去估计和预测另一个事物的发展变化，相关系数却无能为力。但是，通过大量的实际调查，可以总结出它们之间的关系，回归分析即是对这种关系的描述。,第5页，共41页。,1.1,回归分析的含义,“,回归”,一词最早由英国统计学家,高尔顿,（,Francis Galton,）在,19,世纪末期研究孩子的身高和他们父母身高关系时提出。,研究发现，孩子的身高总是趋于他们父母身高的平均值。孩子的身高，比身材矮的父母要高，比身材高的父母要矮，这种,趋于中间值的趋势称作“回归效应”,，而他提出的这种研究两个数值变量关系的方法称作,回归分析,。,第6页，共41页。,1.1,回归分析的含义,含义：,是借助数学模型对客观世界所存在的事物间的不确定关系的一种数量化描写，,即通过一个或几个变量的变化去解释另一变量的变化。,目的：,在于对相关随机变量进行估计、预测和控制，,确定变这些量之间数量关系的可能形式，并用一个数学模型来表示。,第7页，共41页。,X,Y,X,Y,自变量,(,independent,variable),：解释变量，给定的或可以控制的、用来解释、预测因变量的变量。,因变量,(,dependent,variable),：响应变量，由自变量来解释其变化的变量。,在回归分析中：,第8页，共41页。,1.1,回归分析的含义,数学模型：,y,=f(x,1,x,2,x,3,x,i,)+,模型的基本含义：,因变量,y,受到两部分自变量的影响，即：已知的,K,个自变量,x,1,x,2,x,3,x,i,的影响；一些未知因素或随机因素的影响。对于,K,个已知自变量的影响，设想可以通过函数,f(x,1,x,2,x,3,x,i,),来表示，而剩下的将由那些未知因素或随机因素的影响确定，将这些影响的结果记为，称为随机误差。对于每一组实际观察获得的值,y,i,，,x,1,x,2,x,3,x,i,就可以表示成,:,y,i,=,f(x,1,x,2,x,3,x,i,)+,第9页，共41页。,1.1,回归分析的含义,对于自变量,x,1,x,2,x,3,x,i,的每一组确定的值，,f(x,1,x,2,x,3,x,i,),的值也是确定的；但由于,是不确定的，所以，,y,也是不确定的，但在每一组确定的自变量之下，所有的,服从均数为零的正态分布，因此，对于自变量的每一组确定的值，因变量也服从正态分布，其平均数就是,f(x,1,x,2,x,3,x,i,),，该公式即为回归方程，记为：,第10页，共41页。,回归分析,按自变量个数分类,一元回归,简单回归,多元回归,复回归,按方程式特征分类,线性回归,非线性回归,1.2,回归分析的分类,第11页，共41页。,1.3,一元线性回归,只有一个自变量的线性回归叫一元线性回归，也叫简单回归。,与方差分析不同，在回归分析中，“元”是指自变量，而不是指因变量。,第12页，共41页。,总体的一元线性回归模型：,模型参数,残差,假定：,E,(,)=0,总体的一元线性回归方程：,第13页，共41页。,一元线性回归方程的几何意义,一元线性回归线的可能形态,截距,斜率：回归系数,1,0,1,0,1,=,0,第14页，共41页。,样本的一元线性回归方程：,(,估计的回归方程,),总体未知参数,以样本统计量估计总体参数,回归系数,第15页，共41页。,最小二乘法,(,Least squares method,):,以极小化为目标，求估计方程的过程。,残差,(Residual):,e,第16页，共41页。,最小二乘法,因为一组数据可以有多条回归直线，但是哪条最理想呢？,想得到比较精确的回归方程，必须使用最小二乘法。,最小二乘法就是使误差的平方和最小。,误差,e,就是残差,，,e,=y-y,，其平方和为：,(y,y),2,=(y-a-bx),2,要使误差最小，只要分别对,a,、,b,求偏导数，使其,0,即可。,第17页，共41页。,判定系数,(Coefficient of determination):,估计的回归方程拟合优度的度量，表明,Y,的变异性能被估计的回归方程解释的部分所占比例的大小。是判定,回归方程有效性高低的指标,r,2,当残差平方和为,0,时，判定系数为,1,，为完全的拟合。,当残差平方和最大时，判定系数为,0,，为最差的拟合。,判定系数,第18页，共41页。,判定系数与相关系数,第19页，共41页。,判定系数与相关系数,从二者的计算公式可知，积差相关系数,r,的平方等于判定系数,r,2,，即,Y,的变异性能被估计的回归方程解释的部分所占比例的大小,。,如果,r,2,=0.64,表明变量,Y,的变异中有,64,是由变量,X,的变异引起的。所以，,r,2,叫判定系数。,第20页，共41页。,1.4,多元线性回归,(,Multiple Regression),多元线性回归，就是有多个自变量的线性回归，也叫复回归。,其数学模型为：,截距：常数项,(constant),偏回归系数：,误差：残差,第21页，共41页。,1.4,多元线性回归,多元回归分析的基本假设,多元回归方程及其显著性检验,筛选自变量的方法,多元回归方程有效性的判定,第22页，共41页。,1.4.1,多元回归分析的基本假设,相关存在性：,就自变量,X,1,，,X,2,，,X,3,，,X,K,的特殊组合而言，,Y,变量（单变量）是一个随机变量，具有某种概率分配，有一定的平均数及变异数，各个变量之间都存在显著相关关系。,独立性：,每一个观察值,Y,彼此间是统计独立的，观察值间没有关联，即非共线性。,直线性：,Y,变量的平均数是变量,X,1,，,X,2,，,X,3,，,X,K,间的线性函数，此线性函数关系即回归方程。,方差齐性：,就,X,1,，,X,2,，,X,3,，,X,K,任何一个组合而言，因变量,Y,的变异数均相同。,正态性：,就任何,X,1,，,X,2,，,X,3,，,X,K,的线性组合而言，因变量,Y,的分配是正态的。,第23页，共41页。,1.4.2,多元回归方程及其显著性检验,多元回归的,样本与总体的回归方程：,第24页，共41页。,1.4.2,多元回归方程及其显著性检验,回归方程的显著性检验,就是检验样本回归方程的变量的线性关系是否显著，即能否根据样本来推断总体回归方程中的多个回归系数中至少有一个不等于,0,，主要是为了说明样本回归方程的,r,2,的显著性。,检验的方法：用方差分析，又叫回归的方差分析。这时因变量,Y,的总变异被分解为回归平方和与误差平方和。,F,值等于回归均方除以误差均方。,第25页，共41页。,1.4.2,多元回归方程及其显著性检验,多元回归方程的求法,依然与一元线性回归一样，只是在求多元线性回归方程时，,需要对自变量进行检验和筛选,，剔除那些对因变量没有影响或影响甚小，经检验未达到显著水平，不足以入选的自变量，,以达到简化变量间关系结构、简化所求回归方程的目的,。,第26页，共41页。,1.4.3,筛选自变量的方法,在建立回归方程之前，任何自变量都可以作为进入方程的目标。但对于因变量而言，只有那些对因变量具有预测作用的自变量才能被选中。,选择的依据是对,回归系数做显著性检验,，只有能够显著地预测因变量的自变量才会被选择进来。,好的回归方程不但方程显著，而且每个自变量的偏回归系数也显著。,选择的方法主要两大类，四种。,第27页，共41页。,1.4.3,筛选自变量的方法,探索性回归：,向前选择法（,forward,）,向后剔除法（,backward,）,逐步回归法（,stepwise,）,验证性回归（层次回归）：,人为地逐步增加变量（,enter,），根据理论假设决定。,第28页，共41页。,向前选择,(Forward),基本过程：首先将与因变量有最大正相关或最大负相关的变量进入方程，然后按假设,H,0,：“进入方程的变量系数为零”进行,F,检验，检验的标准有两个：,(1),只有当,F,检验显著时（概率小于或等于概率），变量才能进入回归方程,F-to-enter-FIN,。,(2),必须达到,F,统计量的最小值（一般意义上的显著性检验），,Probability of F-to-enter-PIN,。,第29页，共41页。,向前选择,(Forward),注意：随着变量加入到方程中，残差平方和变化的自由度在增加，使得第一种标准的显著性水平依赖于方程中当前变量数。这意味着原来显著的变量可能会随着进入方程的变量数的增加而变得不显著。,第30页，共41页。,向后选择,(Backward),基本过程：首先将所有变量纳入到方程中，然后根据指定剔除的标准剔除不显著的变量，标准有两个：,(1),F,移出法,(F-to-remove-FOUR),(2),F,最大概率移出,(Maximum probability of F-to-remove-POUT),第31页，共41页。,逐步选择,(Stepwise),基本过程：首先采用向前选择的方式选择第一个变量，若不满足标准则终止选择，按偏相关系数选择下一个。同时，根据向后剔除的标准，考察已经进入方程的变量是否应该剔除，直到没有一个变量满足移出标准，为防止变量重复进入和移出，,F-,进入判据必须大于,F-,剔除判据。,第32页，共41页。,1.4.4,多元回归方程有效性的判定,检验残差,方差齐性检验,偏回归系数与常数项的检验,共线性问题的判别,第33页，共41页。,检验残差,回归分析中误差项（残差）的基本假设：,（,1,）误差项的均值为零；,（,2,）误差项有固定的方差；,（,3,）各次观察的误差相互独立；,（,4,）误差服从正态分布。,第34页，共41页。,检验残差,看残差图：是以某种残差为纵坐标，以其他指定的变量为横坐标，满足模型假设的残差图应当是呈水平带状；,检验相邻误差项是否有序列相关：使用,Durbin-Watson,检验，,DW,介于,1.2,2.8,之间时可认为是独立的。,查找异常点,(casewise)Outlier,，通常以超出,3,个残差标准差的样品为异常点。,检验误差正态的假设，一是看标准化残差直方图与正态曲线比较是否接近；二是看标准化残差正态概率图，与对角直线相比，若接近为正态。,第35页，共41页。,方差齐性检验,方差齐性,(variance of homogeneity),：指残差的分布是常数，与预测变量或因变量无关。即残差应随机地分布在一条穿过,0,点的水平直线两侧。在实际应用中，一般是绘制因变量预测值（如,ZPRED-X,）与学生残差（如,SRESID-Y,）的散点图。,第36页，共41页。,偏回归系数与常数项的检验,检验的假设是：各自变量的偏回归系数为,0,，常数项为,0,。,使用的统计量为,t,值：,t,=,偏回归系数,/,偏回归系数的标准误。,第37页，共41页。,共线性问题的判别,(collinearity diagnostic),共线性是指由于自变量间的相关太

展开阅读全文

多元回归分析的原理与应用演示文稿课件

最新文档