资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,43(,*,),回归分析(三),逐步回归分析,1,最优回归方程的问题,寻求最优回归方程的问题,在有,p,个自变量的情况下,根据自变量的不同组合可能建立2,p,-1个回归方程。这些回归方程的效果有好有坏,而人们希望的是回归效果最好的,即“最优”的回归方程,最优回归方程的要求,回归效果最佳,自变量的个数最少,选择一个最佳的变量组合,一方面对因变量起显著作用的自变量都选进回归方程,另一方面对因变量作用不显著的自变量都剔除回归方程,,2,选择最优回归方程的方法,方法一:穷尽法,从所有可能的变量组合中,选择其中最优的回归方程,这种方法一定能选出一个最优组合,但工作量特别大,方法二:逐步剔除法,基本步骤:,从包含全部,p,个自变量组合的回归方程中逐个检验回归系数,剔除对因变量作用不显著的自变量;,对剔除后剩下的,q,个自变量建立对因变量的多元回归方程,再逐个检验回归系数,剔除不显著的变量;,重复上述步骤,直到保留在回归方程中自变量的作用都显著为止,缺点:一开始把全部自变量都要引入回归方程,计算量很大,实际上有些不重要的就不必引入,3,方法三:逐步引入法,(1)基本步骤:,先逐个比较,x,l,x,p,对,y,的回归方程那些是显著的,从显著的方程中挑选,F,值最大的,相应的自变量,x,就被“引入”方程。无妨设,x,就是,x,1,再逐个比较(,x,1,x,2,)、(,x,1,x,3,)、(,x,1,x,p,)对,y,的回归方程,看有没有,F,值显著的,此时的,F,就是考虑添加,x,i,之后,,x,i,的回归系数是否显著地不为0,将显著的,F,中最大的,F,所相应的变量“引入”方程。无妨设第二次“引入”的自变量是,x,2,再考察以,x,1,、,x,2,为基础,逐个添加,x,3,、,x,4,、,x,p,之后的回归方程,是否较,x,1,、,x,2,的方程有显著的改进,有就再“引入”新的自变量,这样下去,终于到某一步就没有可以再“引入”的自变量了。这时就获得了最后的回归方程,4,方法四:逐步回归分析方法,按照自变量对因变量所起作用的显著程度,从大到小逐个地引入回归方程,当每一变量引入以后,若先前已经引入的变量由于后来变量的引入而使其作用变得不显著时,就及时从回归方程中剔除出去,直到作用显著的变量都引入到回归方程,而作用不显者的变量都剔出回归方程,得到一个最佳的变量组合为止,(2)“逐步引入“法的缺点:,不能反映后来变化的状况,设想,x,1,、,x,2,、,x,3,引入后,又引入了,x,6,,也许,x,3,、,x,6,引入后,,x,1,的作用就不重要了,应该予以剔除,而“逐步引入”法不能达到这个要求,5,逐步回归分析的几个问题,一、建立标准正规方程组,二、变量的引入、剔除与消去法的关系,6,一、建立标准正规方程组,为了分辨,p,个自变量对因变量,Y,所起影响(或作用)的大小,一个自然的想法是比较各自变量回归系数,(,j,1,2,p,)的绝对值的大小。,根据回归系数的含义,,X,j,的回归系数,是在其余,p,1个自变量保持不变的条件下,,X,j,改变一个单位所引起,Y,平均变化的大小。因而回归系数绝对值的大小反映了它所代表的因素的重要程度,由于回归系数和自变量所取的单位(或数量级)有关,而各个自变量取不同的量纲的情况是常见的,因而不能将回归系数直接进行比较,7,建立标准正规方程组,为了消除这个影响,对自变量和因变量都要加以标准化,标准化的方法,经过标准化的变量,其均值为 0,标准离差,L,x,j,x,j,为 1,事实上,,8,标准正规方程组,由标准化数据建立的正规方程组的系数矩阵即为变量间的,相关系数矩阵,,称为标准化正规方程组,标准化正规方程组为:,9,标准正规方程组,标准化正规方程组的解 称为,标准回归系数,,其常数项 为,0,由于因变量也进行了标准化,其总离差平方和,L,yy,=1,求解标准化正规方程组还需要解决以下两个问题,引入变量和剔除变量的标准;,引入变量与剔除变量的方法。,10,二、变量的引入、剔除与消去法的关系,假定已有,l,个自变量引入到回归方程,即,相应的平方和分解公式是,为了表明,U,和,Q,与引入的自变量是有关的,分别用符号,U,(,x,1,x,l,)和,Q,(,x,1,x,l,)表示,11,当增加一个自变量,x,i,(,i,=,l,+1,p,)后,有了新的回归方程,相应的平方和分解公式是,原来的分解公式是,注意到上两式左端,L,yy,是一样的,当,x,i,引入后,,回归平方和,从,U,(,x,1,x,l,)增加到,U,(,x,1,x,l,x,i,),而,残差平方和,从,Q,(,x,1,x,l,)降到,Q,(,x,1,x,l,x,i,),12,因此,有,记,u,i,就是回归方程中引入,x,i,后对回归平方和的贡献,即,偏回归平方和,,且有,13,经,F,检验,当,x,i,作用显著时,可将其引入。,同理,,如果,x,i,原来已经在回归方程中,若检验后其作用不显著,可及时从回归方程中剔除出去。,利用统计量,因此,取剔除和引入变量,x,i,的标准相同,即,14,在逐步回归中引入一个变量与剔除一个变量都涉及变换,变换公式相同,采用,求解求逆紧凑格式,在第,s,次对,第,k,列,消去的变换公式是:,二、变量的引入、剔除与消去法的关系,15,由相关矩阵构成的系数矩阵中,第,i,个变量的偏回归平方和,u,i,(,s,),为:,由,可推倒出来,u,i,(,s,),为下一步引进变量的指标,每一步引入都是从,未出现在,回归方程的剩余变量中挑选,u,i,(,s,),的最大者,进行上述变换后,回归分析中的,剩余平方和,Q,的值即为系数矩阵中,r,yy,位置所得的结果。即有,,(,证明,),16,式中,,l,为先前已经引入到回归方程中的变量个数,,F,i,服从,F,(1,n,-,l,-2)分布。,如果已引进的变量中有不显著的,则选其最不显著者作剔除变换,然后再检验。在未引入的变量中检验有无回归显著的变量,若有,则挑选最显著的作引入的消去变换,然后再检验。,反复进行,直到没有变量可以引进,也没有变量可以从方程中剔除为止。,构造检验统计量,17,用消去法求解正规方程组的过程,二、变量的引入、剔除与消去法的关系,当消去正规方程组系数矩阵的第一列时,常数项列的第一个数就是,只有,x,1,这一个自变量情况下,所建立的回归方程的回归系数,这是因为:当回归方程,只有一个自变量,时,表明其他自变量在多元回归方程中的回归系数为0。因此,正规方程的常数项部分就是该变量的解,即回归系数。,18,二、变量的引入、剔除与消去法的关系,第二次消去了正规方程组系数矩阵的第一、二两列时,常数项列中的第一、二两个数即为,只有,x,1,,,x,2,两个自变量情况下,所建立回归方程的回归系数,和,依次类推,得到引入的各个自变量的回归系数,系数矩阵中每消去一列,等价于回归方程中引入一个新的变量,而且与变量排列的顺序无关。,19,由相关系数矩阵得到的回归系数是标准回归系数 ,如果要把它化为一般回归系数,两者关系为:,其中,L,ii,和,L,YY,为变量,X,i,和,Y,的方差。,二、变量的引入、剔除与消去法的关系,推导,20,三、例题分析,【,例,】,某种水泥在凝固时,放出的热量,Y,(卡克)与水泥中下列4种成分有关:,X,1,:铝酸三钙,X,2,:硅酸三钙,X,3,:铁铝硅四钙,X,4,:硅酸二钙,通过试验,取得数据资料如右所示:,编号,X,1,X,2,X,3,X,4,Y,1,2,3,4,5,6,7,8,9,10,11,12,13,7,1,11,11,7,11,3,1,2,21,1,11,10,26,29,56,31,52,55,71,31,54,47,40,66,68,6,15,8,8,6,9,17,22,18,4,23,9,8,60,52,20,47,33,22,6,44,22,26,34,12,12,78.5,74.3,104.2,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4,21,说明:按第一种方法选最优,全部可能的回归方程有,C,4,1,+,C,4,2,+,C,4,3,+,C,4,4,=15,个,计算各要素之间的相关系数,得到相关系数矩阵,R,(0),准备工作:,22,根据本例资料,算出,从矩阵,R,(0),中可以看出:,x,1,与,x,2,两因子不相关,,x,2,与,x,4,、,x,1,与,x,3,之间关系密切,,x,3,与,y,关系不太密切,,x,4,与,y,最相关,23,逐步回归步骤:,计算公式:,t,变换步数,第一步,(,t,=1),选择第一个变量进入回归方程,对所有4个变量,按下面公式计算偏回归平方和当变量引入回归方程后,24,计算结果为:,比较4个,u,i,(1),,可知第4个因子的偏回归值最大,即,x,4,对,y,的回归贡献最大,于是优先考虑选入,x,4,25,引入因素的显著性检验,其中,分子的自由度是1,,l,为方程中的变量个数,求解回归方程时,若对资料进行标准化处理,可以证明:,统计量,26,当引入第一个因子时,,l,1,故,则统计量,于是,由于,F,4,(1),F,0.05,(1,11)=4.84,表明引入的因子,x,4,对回归方程的贡献是显著的,应将,x,4,引入方程。,27,矩阵R,(0),的高斯亚当变换(紧凑变换方式),以,x,4,为主元进行矩阵变换(,x,4,刚刚引入方程),变换公式如下,a,.非主元所在行、列,b,.主元所在行(除主元),c,.主元所在列(除主元),d,.主元,变换过程要求按,a,d,顺序进行。,28,记变换后的矩阵为,R,(1),(,t,=1),解,29,x,4,引入回归方程后的结果,标准回归系数(利用标准化数据求得的回归系数)为:,剩余平方和,回归方程的,标准形式,为:,其中,l,1,表明方程只引入一个变量,30,回归方程的,一般形式,为:,一般回归系数为:,常数项为,31,第二步(,t,=2),选择第二个变量进入回归方程,计算偏回归平方和,u,i,(2),(,i,=1,2,3)(利用,R,(1),对不在回归方程中的每个变量做计算),其中以,u,1,(2),=0.2980最大,故最优先考虑,x,1,引入回归方程(能否引入方程要做检验)。,7A,32,引入变量的检验(引入检验),偏回归系数检验,式中,分母表示,x,1,引入回归方程后,剩余平方和 等于只包含,x,4,一个变量时的剩余平方和,减去,x,1,引入回归方程而使回归平方和增大的部分 。,由于,F,1,(2),F,0.05,(1,10)=4.96,,因此,x,1,应引入回归方程中。,将,x,1,引入,方程中有两个因子,即,l,=2,33,矩阵,R,(1),的高斯亚当变换 记变换后的矩阵为R,(2),引入因子,x,1,后,对原有因子,x,4,重新检验(偏回归检验)剔除检验,因为,F,4,(2),F,0.05,(1,10),因此,x,4,不应从方程中剔除。,*(2),解,*(2),解,即以,x,1,的回归方程引入,x,4,后的偏回归显著性检验,其中,,x,1,的回归贡献为0.5339,而,x,4,的偏回归贡献为0.4385的,合计为0.9724,34,将,x,1,引入回归方程的结果,标准回归系数:,回归方程的一般形式:,剩余平方和:,35,第三步(,t,=3),选择第三个变量引入回归方程,计算偏回归平方和,u,i,(3),(,i,=2,3)(利用,R,(2),对不在回归方程中的每个变量做计算),其中,u,2,(3),u,3,(3),,变量,x,2,的偏回归平方和最大,选择,x,2,引入检验 偏回归系数检验,36,矩阵,R,(2),的高斯亚当变换 引入,x,2,以,r,22,(2),为主元进行,记变换后的矩阵为,R,(3),引入,x,2,后,对原有因子,x,1,、,x,4,重新检验(,l,=3)剔除检验,*(3),解,*(3
展开阅读全文