多元线性回归分析

上传人:yc****d 文档编号:243310692 上传时间:2024-09-20 格式:PPT 页数:96 大小:4.24MB
返回 下载 相关 举报
多元线性回归分析_第1页
第1页 / 共96页
多元线性回归分析_第2页
第2页 / 共96页
多元线性回归分析_第3页
第3页 / 共96页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章 回 归 分 析目录,回归分析,6.1 REG过程,6.2 线性回归,6.2.1线性回归模型的数学表示,6.2.2 回归参数的估计,6.2.3 回归方程的假设检验,6.2.4 自变量的选择,6.2.5 多重共线性识别及处理,6.2.6 回归诊断,6.2.7 综合实例,返回,作业,思考题,1,回 归 分 析,多元线性回归,回归分析是研究变量间的依赖关系一种方法,本章目录,2,回 归 分 析,多元线性回归,提 纲,REG过程,回归分析的基本内容,回归分析实例,本章目录,3,回 归 分 析,多元线性回归,REG,过程的调用格式,:,PROC REG DATA=SAS,数据集,选项1,;,MODEL,因变量=自变量名表/,选项2,;,PLOT Y,变量*,X,变量/,选项3,;,OUTPUT OUT=,数据集名,关键字,=变量名.;,RUN;,必选项,1 REG过程,本章目录,4,回 归 分 析,多元线性回归,1 REG过程,选项1,中常用选择项有:,GRAPHICS 高分辩率的图形方式,OUTEST=SAS数据集 保存回归分析的结果,COVOUT=SAS数据集 存入估计的协方差阵,OUTSSCP=SAS数据集 保存离差阵,RIDGE=值 给出岭回归中的K值,其方式有M、 M TO N、,M TO N BY I 、M1,M2 TO M3,NOPRINT 不打印输出,本章目录,5,回 归 分 析,多元线性回归,1 REG过程,选项2,中常用选择项有:,CLI 每个个体预测值的95%上、下限,CLM 每个观测因变量期望值的95%上、下限,R 每个个体的预测值、残差及标准误,P 每个个体的观测值、预测值、残差等,(若选择CLI CLM R,则无需选择它),I 计算(XX),-1,XPX,计算,XX XY,本章目录,6,回 归 分 析,多元线性回归,1 REG过程,选项2,中常用选择项有:,VIF 方差膨胀因子,它表示由于共线性的存在而使参数,估计值的方差增大的情况.,STB 标准化偏回归系数,CORRB 参数估计的相关阵,COVB 参数估计的协方差阵,COLLIN 要求进行共线性分析,INFLUENCE,要求分析观测值对参数估计和预测值的影响,本章目录,7,回 归 分 析,多元线性回归,1 REG过程,选项2,中常用选择项有:,SELECTION=,BACKWARD,后退法,SLSTAY=,值(缺省值为0.1),FORWARD,向前法,SLENTRY=,值(缺省值为0.5),STEPWISE,逐步回归法,SLSTAY=,值,SLENTRY=,值(缺省值均为0.15),RSQUARE R,2,选择法,ADJRSQ,修正.,R,2,选择法,CP,Mallous,Cp,统计量,MAXR R,2,最大增量法,MINR R,2,最小增量法,本章目录,8,回 归 分 析,多元线性回归,1 REG过程,选项3,中常用选择项有:,OVERLAY 多个图在一个图上表示,SYMBOL= 用某一符号表示图形,HPLOTS=N 在同一页水平方向作N幅图,VPLOTS=N 在同一页垂直方向作N幅图,本章目录,9,回 归 分 析,多元线性回归,1 REG过程,常用的,统计关键词,有,:,P(PRIDICTED) 预测值,R(RESIDUAL) 残差,L95M 期望值的95%下限,U95M 期望值的95%上限,L95 个体预测值的95%下限,U95 个体预测值的95%上限,STDP 期望值的标准误,本章目录,10,回 归 分 析,多元线性回归,1 REG过程,常用的,统计关键词,有,:,STDI 预测值的标准误,STUDENT 学生化残差,RSTUDENT 去掉某观测后的学生化残差,COOKD COOK D值,H 杠杆值,PRESS 当去掉第I个观测值后拟合模型的第I个观测的残差除以1-H;,DFFITS,预测值的标准影响力,.,本章目录,11,回 归 分 析,多元线性回归,2 线性回归,2.1 线性回归的数学表示,因变量,自变量为,满足线性关系,(I),次观测,,对,进行,所得的,组数据为,它们均满足(I)式,本章目录,12,回 归 分 析,多元线性回归,2 线性回归,2.1 线性回归的数学表示,因变量,自变量为,满足线性关系,(I),次观测,,对,进行,所得的,组数据为,它们均满足(I)式,本章目录,13,回 归 分 析,多元线性回归,2 线性回归,2.1 线性回归的数学表示,本章目录,14,因此(I)式可写成如下矩阵形式:,(II),此为多元线性回归方程。,回 归 分 析,多元线性回归,2 线性回归,2.1 线性回归的数学表示,本章目录,15,最小二乘法解,回 归 分 析,多元线性回归,2 线性回归,2.2 回归参数的估计,本章目录,16,回 归 分 析,多元线性回归,2 线性回归,2.2 回归参数的估计,若对 进行标准化,即 ,,其中 , ,则得到的回归系数,即,标准化回归系数,。标准化回归系数 表示当其,他自变量固定时, 每变化一个单位,因变量 平,均变化 个单位。因此 反映了自变量 对因,变量 的影响大小。另外 的正号反映了 与 间,是正相关关系,负号则为负相关关系,本章目录,17,回 归 分 析,多元线性回归,2 线性回归,2.3 回归方程的假设检验,模型的检验,对于任一组观测数据,我们都可按上述方法建立,回归方程,那么它们是否具备建立线性回归方程,的条件呢?这就需要进行回归方程的显著性检验。,即检验假设 ,也就是所有回归系数都等,于零。如果检验的结果是拒绝 ,即接受其备择,假设,说明至少有一个回归系数 ,从而说明,变量 线性依赖于某个变量 ;若检验的结果是,接受 ,则说明所有变量 对变量的线性,关系是不重要的。,本章目录,18,回 归 分 析,多元线性回归,2 线性回归,2.3 回归方程的假设检验,模型的检验,对回归方程的显著性检验是通过方差分析得到。,首先将因变量的离均差平方和分解为由回归和,误差引起两部分,然后构造F统计量来进行统计,推断的,本章目录,19,其中,复决定系数,回 归 分 析,多元线性回归,2 线性回归,2.3 回归方程的假设检验,模型的检验,其中:,本章目录,20,回 归 分 析,多元线性回归,2 线性回归,2.3 回归方程的假设检验,回归系数的检验,回归方程显著性检验是从总体上对自变量与因变量之间是否存在线性关系进行了考察,若检验的结果是拒绝原假设,则接受其对立假设,也就是说至少存在某个变量的回归系数不为零,因此还需对每个变量的回归系数进行逐个检验,即对某个固定的,检验:,本章目录,21,回 归 分 析,多元线性回归,2 线性回归,2.3 回归方程的假设检验,回归系数的检验,考虑统计量 ,则 服从自由度,为的T-分布。其中 , 的标准误为,,其估计为 。,通过计算 和 ,若 或 中,任一个不比 大,则拒绝 , 认为该变量的,回归系数显著地不为零。反之则认为该变量与,因变量之间没有显著的线性关系。,本章目录,22,回 归 分 析,多元线性回归,2 线性回归,2.3 回归方程的假设检验,预测与置信区间,将变量 的一组观测值代入回归方程,,即得到变量 的预测值。因此预测是一件很简,单的事,只要确定了一个非常有效的回归方程即,可。有时我们还需要对预测值进行区间估计,下,面给出因变量的期望值 和预测值 的区间估计。,本章目录,23,例,回 归 分 析,多元线性回归,2 线性回归,2.3 回归方程的假设检验,预测与置信区间,预测值的 置信区间为:,的 置信区间为:,本章目录,24,熟悉,SAS,中的,REG,过程,掌握回归分析的过程,回 归 分 析,多元线性回归,2 线性回归,小结与作业,SAS,中的,REG,过程,回归分析的基本内容,小 结,作 业,本章目录,25,自变量的选择,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,26,选择自变量的准则,选择自变量进入回归模型的方法,(,SAS,实,例),提 纲,提 纲,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,27,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,1.,引言,因变量,自变量为,满足线性关系,(I),次观测,,对,进行,所得的,组数据为,它们均满足(I)式,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,28,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,29,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,因此(I)式可写成如下矩阵形式:,(II),此为多元线性回归方程。,全模型,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,30,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,其中,复决定系数,最小二乘法解,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,31,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,选模型,现在从 个变量中选出 个 变量,同样考虑上述过程:,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,32,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,2. 从拟合的角度考虑的准则:,-观测个数,-模型中参数个数,其中:,修正决定系数准则:,(,最大,),回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,33,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,2. 从拟合的角度考虑的准则:,均方误差准则:,(,最小,),回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,34,选择自变量的准则,选择自变量进入回归模型的方法,3. 从极大似然估计法考虑的准则:,选择自变量的准则,AIC或BIC信息量准则: (,最小,),日本统计学家赤池(Akaike)1974年提出的。,应用到我们的选模型,有:,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,35,选择自变量的准则,选择自变量的准则,选择自变量进入回归模型的方法,4. 从预测的角度考虑的准则:,准则: (,最小,),1964年由马勒斯(Mallows)提出,其思想是:,使得,(均方预测误差)愈小愈好,是全模型下误差方差的估计。即:,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,36,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,向前引入法(FORWARD),向后剔除法(BACKWARD),逐步筛选法(STEPWISE),回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,37,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,引言,:(偏F检验),-全模型,-选模型,记:,表示全模型的复决定系数,表示减模型的复决定系数,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,38,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,引言,:(偏F检验),定义:,显然若,几乎为零,说明增加 对 的解释能力没有,明显提高;否则,若,显著不为零,则 就可以为,回归模型提供显著的解释信息。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,39,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,引言,:(偏F检验),统计假设:,统计检验量为:,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,40,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,引言,:(偏F检验),检验:(对给定的检验水平 ),从全模型中删除 , 对Y的解释能力无明显的减弱变化。,若,时,则接受,,,显著为零,所以,,若,时,拒绝,引入 会明显提高对 的解释能力;,说明,显著不为零,这,说明在,变量已进入模型后,,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,41,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,向前引入法,:(FORWARD),其做法是:,令:,(1)对 个自变量,分别同因变量,建立一元回归方程,计算变量 相应的 值,记为,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,42,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,向前引入法,:(FORWARD),(2)建立因变量,与自变量子集,的二元回归方程,并计算相应的 ,记为:,若:,,则将,引入回归方程.,否则,算法终止。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,43,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,向前引入法,:(FORWARD),若:,,则将,引入回归方程,否则终止。,(3)重复上述过程,直到没有变量可引入为止。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,44,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,向后删除,:(BACKWARD),其做法是:,选其中最小者,的全模型,然后计算各自变量 相应选模型的 值,记为:,(1)建立 个自变量,与因变量,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,45,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,向后删除,:(BACKWARD),(2)对剩下的 个变量重复(1),直到没有,变量可剔除为止。,若:,,则将,从回归方程中剔除,否则算法终止。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,46,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,逐步筛选法,:(STEPWISE),逐步筛选法是人们最常用的的变量筛选方法。它是向前选择变量法和向后删除变量法的一种结合。,向前选择变量法中,一旦某个自变量被选入模型,它就永远留在模型之中。然而,随着其他变量的引入,由于变量之间互相传递的相关关系,一些先进入模型的变量的解释作用可能会变得不再显著。,向后删除变量法中,一旦某个自变量被删除后它就永远被排斥在模型之外。但是,随着其他变量的被删除,它对Y的解释作用也可能会显著起来。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,47,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,逐步筛选法,:(STEPWISE),其做法是:,(1)(模型的起始与向前选择变量法一样)首先,求Y与每一个X,j,的一元线性回归方程,选择F值最大的变量进入模型。然后,对剩下的(p-1)个模型外的变量进行偏F检验,在若干通过偏F检验的变量中,选择F,j,值最大者进入模型。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,48,选择自变量的准则,选择自变量进入回归模型的方法,1. 常用的简便方法:,选择自变量进入回归模型的方法,逐步筛选法,:(STEPWISE),(2)对模型外的(p-2)个自变量做偏F检验。在通过偏F检验的变量中选择F,j,值最大者进入模型。接着对模型中的三个自变量分别进行偏F检验,如果三个自变量都通过了偏F检验,则接着选择第四个变量。但如果有某一个变量没有通过偏F检验,则将其从模型中删除。,(3)重复上述步骤,直到所有模型外的变量都不能通过偏F检验,则算法终止。,其做法是:,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,49,选择自变量的准则,选择自变量进入回归模型的方法,2. 全子集法:,选择自变量进入回归模型的方法,其做法是:,先计算所有可能变量子集的回归方程(共 个), 然后按修正R,2,选择法(ADJRSQ)、 选择法(CP)、均方误差法(MSE)以及AIC或BIC等准则进行选择。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,50,选择自变量的准则,选择自变量进入回归模型的方法,例子,考虑Hald水泥,数据,。,其中:,X13CaOAl,2,O,3,的含量(%),X23CaOSiO,2,的含量(%),X34CaOAl,2,O,3,Fe,2,O,3,的含量(%),X42CaOSiO,2,的含量(%),Y表示水泥凝固时释放的热量(卡/克)。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,51,选择自变量的准则,选择自变量进入回归模型的方法,小 结,R,2,adj,最大,均方误差最小,C,p,最小,AIC,或,BIC,最小,选择自变量进入回归模型的方法,:,向前引入法,向后删除法,逐步筛选法,利用选择自变量的准则,计算所 有可能变量子集的回归方程,选择自变量的准则,:,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,52,选择自变量的准则,选择自变量进入回归模型的方法,进一步阅读的文献:,1 王松桂,陈敏,陈立萍。 线性统计模型-线性回归,与方差分析。 北京:高等教育出版社,1999,2 何晓群。 回归分析与经济数据建模。 北京:中国人,民大学出版社,1997,3 胡良平。 现代统计学与SAS应用。 北京: 军事医学,科学出版社,2000。,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,53,选择自变量的准则,选择自变量进入回归模型的方法,谢谢,回 归 分 析,多元线性回归,2 线性回归,2.4 自变量的选择,本章目录,54,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,多重共线性的识别及处理,本章目录,55,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,提 纲,背景,多重共线性的识别,多重共线性的处理,本章目录,56,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,在多元线性回归中,有时会出现一些奇怪的现象,,有时在某一显著性水平下,回归方程通过了显著,性水平检验,而回归系数则不能通过相应的显著,性检验;有时某个自变量与因变量有很强的相关,性,然而在回归方程中该变量的回归系数却没有,通过显著性检验;有时回归系数的符号与相关专,业相矛盾等,这些现象的出现,是由于所选的自,变量间存在着线性相关。这种现象称为,多重共线性,。,背景,背景,多重共,线性的,识别,多重共,线性的,处理,背景,本章目录,57,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,背景,多重共,线性的,识别,多重共,线性的,处理,多重共,线性的,识别,共线性的识别方法是基于信息矩阵 进行的,,常用的统计量有方差膨胀因子,VIF,(或容限,TOL,)、,条件指数和方差比例等。,本章目录,58,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,方差膨胀因子,背景,多重共,线性的,识别,多重共,线性的,处理,设变量为 ,若它们之间存在或近似存在多重共线性,表明其中某个变量能表示或近似表示为其它变量的线性组合,因此,若分别以 为因变量,以 自变量( )建立线性回归方程,看这,个回归方程的决定系数 ( )有没有较大者,若有,则表明它们之间有多重共线性关系。,多重共,线性的,识别,多重共,线性的,识别,本章目录,59,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,方差膨胀因子,背景,多重共,线性的,识别,多重共,线性的,处理,方差膨胀因子表示由于共线性的存在而使参数估计值,的方差增大的情况,与 的关系,多重共,线性的,识别,多重共,线性的,识别,本章目录,60,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,方差膨胀因子,背景,多重共,线性的,识别,多重共,线性的,处理,当 =0, =1,此时表示 与其它变量间不存在线性关系;,当01,此时表示 与其它变量间存在不同程度的,线性关系;,当 =1时, ,此时表示 与其它变量间存在完全的线性关系。,在实际应用中若某个,10,,则表明模型中存在,很强的共线性问题。,多重共,线性的,识别,多重共,线性的,识别,本章目录,61,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,条件指数和方差比例,背景,多重共,线性的,识别,多重共,线性的,处理,若矩阵 的特征值为 ,则比值 ( )反映了矩阵 奇异的程度,故称此,比值为条件指数,。,在具体实践中,设计矩阵不包含常数项:若条件指数值在,10,30,为弱共线性;在,30,100,为中等共线性;大于,100,为强共线性。,设计矩阵中包括常数项:条件指数值小于,100,为弱共线性;在,100,1000,为中等共线性;大于,1000,为强共线性。,多重共,线性的,识别,多重共,线性的,识别,本章目录,62,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,条件指数和方差比例,背景,多重共,线性的,识别,多重共,线性的,处理,每个条件指数,都对应着一个特征值。对于较大的条件指数,则对应着一个较小的特征值,此时可求得其对应的特征向量,故构成这一特征向量的变量间有近似的线性关系,由此即可找出存在强线性关系的变量组。此外统计中用方差比例来量化各个变量在构成这个特征向量中的贡献,一般认为在大的条件指数中由方差比例超过,0.5,的变量间存在共线性。,多重共,线性的,识别,多重共,线性的,识别,本章目录,63,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,对变量进行筛选(具体内容见上一节的描述),背景,多重共,线性的,识别,多重共,线性的,处理,多重共,线性的,处理,本章目录,64,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,背景,多重共,线性的,识别,多重共,线性的,处理,岭回归,当变量间存在共线性关系时,我们用下式来估计线性回归方程参数, ,此式称为回归系数的岭估计。其中 是可选择的参数,岭回归就是要选择合适的 值,选择的原则是使得回归模型的均方误差最小,即使得 达到最小时的 值;或选取使得 中每个分量的变化大体上稳定的,值。,多重共,线性的,处理,本章目录,65,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,背景,多重共,线性的,识别,多重共,线性的,处理,主成分回归,多重共,线性的,处理,本章目录,步骤如下:首先提取主成分 , 其中,是矩阵 的特征根 所对应的单位正交化的特征向量, 中第 个分量就称为第,个主成分;其次根据方差累计贡献率确定主成分的个数r,(即根据 的值来确定r的值,通常取 时最小的r值即可)并利用这r个主成分进行回归建模;最后再还原到原变量即得主成分回归模型。,66,小 结,方差膨胀因子,VIF,(,或容限,TOL,),条件指数,方差比例,多重共线性的处理,:,对变量进行筛选,岭回归,主成分回归,多重共线性的识别,:,回 归 分 析,多元线性回归,2 线性回归,2.5 多重共线性的识别及处理,背景,多重共,线性的,识别,多重共,线性的,处理,多重共,线性的,处理,本章目录,67,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,回归模型的建立是有一定条件的,在检验时通常还假定 ,那么在建立模型时这样的,条件是否能得到满足,?关于这方面的内容又称之为,残差分析,;同时我们还要考察,观测值对模型影响,,当然我们不希望所建模型仅受一组或少数几组数据的强烈影响,那样会使模型不稳定,如何判断观测数据的影响,这也是回归诊断的内容,关于这方面的分析又称之为,影响分析,。,本章目录,68,残差分析,影响分析。,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,提 纲,本章目录,69,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,残差图,因变量实测值与模型预测值之差称之为,残差,。,即 ,它是模型中误差项 的估计。再,将 标准化即得到学生化残差,即 ,,其中 为帽子矩阵第 行第 列的元素。,以 为纵轴,以, ,任一个量作为,横轴所得到的图称为,残差图,影响,分析,残差,分析,残差,分析,本章目录,70,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,残差图,若模型关于误差正态性的条件得到满足,则有,95.4%,的 落在,-2,,,2,范围内,在残差图上则表现为有,95.4%,的 落在 和 的带子里,且不呈现任何趋势。这就告诉我们,可从残差图来判断模型的条件是否满足。只要给出的残差图中其点大致落在宽度为,4,的水平带 内,且不呈现任何趋势,则表明误差的正态性得到满足。,影响,分析,残差,分析,残差,分析,本章目录,71,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,影响,分析,方差齐性的,检测,及修正,残差,分析,残差,分析,本章目录,72,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,影响,分析,方差齐性的,检测,及修正,残差,分析,残差,分析,(,a,)表示正常的残差图,,(,b,)表示回归函数可能是非线性的,应改为曲线模型。,(,c,)表示残差的绝对值随着预测值的增加,而增加的趋势(或有减少的趋势,或先增后减,的趋势),表明关于方差齐性的假定不成立。,(,d,)则表示观测值间的独立性不成立。,本章目录,73,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,影响,分析,方差齐性的检测及,修正,残差,分析,残差,分析,对于误差方差非齐性时,可通过适当的变换,,使得变换后的变量在回归中误差的方差接近齐,性即可,否则通过改变变换函数重新计算,直,到方差齐性为止。常用的变换为平方根变换、,对数变换和倒数变换等,即 、,和,本章目录,74,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,影响,分析,Cook D统计量,残差,分析,影响,分析,其中 表示剔除第个数据点后得到的回归系数,估计值,其余变量定义同前,本章目录,75,回 归 分 析,多元线性回归,2 线性回归,2.5 回归诊断,影响,分析,Cook D统计量,残差,分析,影响,分析,这是一种从参数估计的角度提出的统计量,,一般认为当 时,为强影响点,本章目录,76,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,数据:,X1,X2,X3,X4,Y,7,26,6,60,78.5,1,29,15,52,74.3,11,56,8,20,104.3,11,31,8,47,87.6,7,52,6,33,95.9,11,55,9,22,109.2,3,71,17,6,102.7,1,31,22,44,72.5,2,54,18,22,93.1,21,47,4,26,115.9,1,40,23,34,83.8,11,66,9,12,113.3,10,68,8,12,109.4,本章目录,77,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,建立数据集及一般线性方程,Data hald;,Input x1-x4 y;Cards;,7 26 6 60 78.5,1 29 15 52 74.3,11 56 8 20 104.3,11 31 8 47 87.6,7 52 6 33 95.9,11 55 9 22 109.2,3 71 17 6 102.7,1 31 22 44 72.5,2 54 18 22 93.1,21 47 4 26 115.9,1 40 23 34 83.8,11 66 9 12 113.3,10 68 8 12 109.4,Run;,proc reg data=hald;,model y=x1-x4;,run;,本章目录,78,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,建立数据集及一般线性方程,模型检验: ProbF 0.0001,表明y与x1,x2,x3,x4之间的线性关系成立,参数检验:(结果表明每个参数均不显著),Variable Prob |T|,INTERCEP 0.891,X1 2.083,X2 0.705,X3 0.135,X4 -0.203,结论:可能存在多重共线性,本章目录,79,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,识别多重共线性,proc reg data=hald;,model y=x1-x4/,vif collin,;,run;,本章目录,80,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,识别多重共线性,Variance,Variable Inflation,INTERCEP 0.00000000,X1 38.49621149,X2 254.42316585,X3 46.86838633,X4 282.51286479,X4,的方差膨胀因子达282.51286479,可认为这四个变量间存在严重的多重共线性关系,本章目录,81,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,识别多重共线性,Collinearity Diagnostics,Condition Var Prop Var Prop Var Prop Var Prop Var Prop,Number Eigenvalue Index INTERCEP X1 X2 X3 X4,1 4.11970 1.00000 0.0000 0.0004 0.0000 0.0002 0.0000,2 0.55389 2.72721 0.0000 0.0100 0.0000 0.0027 0.0001,3 0.28870 3.77753 0.0000 0.0006 0.0003 0.0016 0.0017,4 0.03764 10.46207 0.0001 0.0574 0.0028 0.0457 0.0009,5 0.0000661,249.57825,0.9999,0.9316 0.9969,0.9498 0.9973,最大的条件指数为249.57825,介于100到1000之间,,表明这些变量间存在中等程度的多重共线性关系。,从方差比例来看,对应最大条件指数的那一行,其方差比例最小的是变量X1,其值为0.9316,比0.5大,表明这四个变量就是一个共线性组。,本章目录,82,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,选择变量法,逐步回归法,proc reg data=hald;,model y=x1-x4/selection=stepwise;,run;,本章目录,83,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,选择变量法,逐步回归法,All variables left in the model are significant at the 0.1500 level.,No other variable met the 0.1500 significance level for entry into the model.,Summary of Stepwise Procedure for Dependent Variable Y,Variable Number Partial Model,Step Entered Removed In R*2 R*2 C(p) F ProbF,1 X4 1 0.6745 0.6745 138.7308 22.7985 0.0006,2 X1 2 0.2979 0.9725 5.4959 108.2239 0.0001,3 X2 3 0.0099 0.9823 3.0182 5.0259 0.0517,4 X4 2 0.0037 0.9787 2.6782 1.8633 0.2054,可以看出,逐步回归法第一步是选进变量,X4,,在第二、三两步选入变量,X1,和,X2,后,,变量,X4,的作用变得不明显,故第四步将,X4,从模型中删除掉。故用此法所选的变量为,X1,和,X2,本章目录,84,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,选择变量法,全子集法,proc reg data=hald;,model y=x1-x4/selection=adjrsq cp bic;,run;,本章目录,85,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,选择变量法,全子集法,In AdjRsq C(p) BIC Variables in Model,1 0.6450 138.7 55.54 X4 ,1 0.6359 142.5 55.85 X2,1 0.4916 202.5 60.00 X1,1 0.2210 315.2 65.39 X3,-,2 0.9744 2.678 29.24 X1 X2,2 0.9670 5.496 30.98 X1 X4,2 0.9223 22.37 37.89 X3 X4,2 0.8164 62.44 46.84 X2 X3,2 0.6161 138.2 55.51 X2 X4,2 0.4578 198.1 59.74 X1 X3,-,3 0.9764 3.018 31.17 X1 X2 X4 ,3 0.9764 3.041 31.18 X1 X2 X3,3 0.9750 3.497 31.41 X1 X3 X4,3 0.9638 7.337 33.00 X2 X3 X4,-,4 0.9736 5.000 34.41 X1 X2 X3 X4,-,C,p,原则比较准确,得到相应的回归方程为:,y=52.577349+1.468306X1+0.66225X2,本章目录,86,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,岭回归法,proc reg data=hald outest=rghald outvif graphics corr;,model y=x1-x4/ridge=0 to 1 by 0.1 2 3 4 5 6 ;,plot/ridgeplot;,run;,proc print data=rghald;,run;,本章目录,87,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,岭回归法,其中,outest=rghald,要求,REG,过程将结果保存,在,rghald,数据集中,选项,outvif,要求输出方差,膨胀因子,选项,graphics,要求在高分辨率方式,下作图,,corr,则要求计算相关系数。,MODEL,语句后面,ridge=0 to 1 by 0.1 2 3 4 5 6,给出岭回,归中的,k,值,共计有,16,个。,plot,语句后面加上参,数,ridgeplot,,要求作出岭迹图。,本章目录,88,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,岭回归法,可取k=0.2的岭回归估计,得到如下岭回归模型:,y=87.7519+0.9788X1+0.289X2-0.3268X3-0.324X4,本章目录,89,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,主成分回归法,proc reg data=ff.hald outest=pchald outvif;,model y=x1-x4/pcomit=1,2 ;,run;,proc print data=pchald;,run;,选项,pcomit=1,2,表示分别求出在删除最后,1,个和,2,个,主成分后所得到的回归方程,本章目录,90,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,多重共线性的处理,主成分回归法,数据集,pchald,中关于主成分回归的输出为,OBS _MODEL_ _TYPE_ _DEPVAR_ _RIDGE_ _PCOMIT_ _RMSE_,1 MODEL1 PARMS Y . . 2.44601,2 MODEL1 IPCVIF Y . 1 .,3 MODEL1 IPC Y .,1,2.32206,4 MODEL1 IPCVIF Y . 2 .,5 MODEL1 IPC Y .,2,3.08195,OBS INTERCEP X1 X2 X3 X4 Y,1 62.4054 1.55110 0.51017 0.10191 -0.14406 -1,2 . 2.71096 0.78071 2.48086 0.46813 -1,3,85.7433 1.31189 0.26942 -0.14277 -0.38007,-1,4 . 0.26570 0.25093 0.30167 0.26348 -1,5,88.9559 0.78884 0.36145 -0.59624 -0.32690,-1,本章目录,91,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,回归诊断,利用前面所选的变量,X1,X2,进行回归建模,,并进行残差分析和用,COOK D,值进行影响分析,proc reg data=hald graphics;,model y=x1-x2/,r,;,plot,student.*p.;,run;,选项,r,要求给出残差及,COOK D,值,,plot student.*p.,语句要求打印残差图,,student,和,p,后的点号,(.),不可省略,分别表示调用程序输出中的学生化残差和预测值,本章目录,92,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,回归诊断,r,值落在,-2,,,2,区间内,且无明显的规律,因此,可认为这些观测符合高斯,-,马尔可夫条件,本章目录,93,回 归 分 析,多元线性回归,2 线性回归,2.6 综合实例,回归诊断,Dep Var Predict Std Err Std Err Student Cooks,Obs Y Value Predict Residual Residual Residual -2-1-0 1 2 D,1 78.5000 80.0740 1.206 -1.5740 2.082 -0.756 | *| | 0.064,2 74.3000 73.2509 1.231 1.0491 2.067 0.507 | |* | 0.030,3 104.3 105.8 0.830 -1.5147 2.259 -0.671 | *| | 0.020,4 87.6000 89.2585 1.184 -1.6585 2.095 -0.792 | *| | 0.067,5 95.9000 97.2925 0.696 -1.3925 2.304 -0.605 | *| | 0.011,6 109.2 105.2 0.816 4.0475
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!