回归分析概要(多元线性回归模型)

资源描述

第二章回归分析概要第五节多元线性回归分析一模型的建立与假定条件在一元线性回归模型中，我们只讨论了包含一个解释变量的一元线性回归模型，也就是假定被解释变量只受一个因素的影响。但是在现实生活中，一个被解释变量往往受到多个因素的影响。例如，商品的消费需求，不但受商品本身的价格影响，还受到消费者的偏好、收入水平、替代品价格、互补品价格、对商品价格的预测以及消费者的数量等诸多因素的影响。在分析这些问题的时候，仅利用一元线性回归模型已经不能够反映各变量间的真实关系，因此，需要借助多元线性回归模型来进行量化分析。1. 多元线性回归模型的基本概念如果一个被解释变量（因变量）有k个解释变量（自变量）Xtj，j =1,2,3,., k，同时，y不仅是忑的线性函数，而且是参数-0和一:“ i =1,2,3,.k （通常未知）的线性函数，随即误差项为ut，那么多元线性回归模型可以表示为：% = -0,Xti 当给定一个样本=1,2,.n时，上述模型可以表示为：、1 = %+3必11十卩2洛2+.+ PkX1k 十5、y2 = 3*P1X21* P2X22+. * PkX2k +口2 y3 = %+卩必31+ P2X32+. + Hx3k +出.yt = -0Xt1 jXt2 . kXtk Ut此时，yt与Xtj已知，：i与Ut未知。其相应的矩阵表达式为: JXt2 kXtk Ut,（t - 1,2, . n）这里E（yt） = ：0亠人xt1亠，；2X：2 亠，kX：k为总体多元线性回归方程，简称总体回归方程。其中，k表示解释变量个数，：0称为截距项，是总体回归系数。,i =1,2,3,.k表示在其他自变量保持不变的情况下，自变量Xtj变动一个单位所引起的因变量 Y平均变动的数量，因而也称之为偏回归系数。y2(T 1)11=*111P1U2 +丿U3 ，（T 磁）(k1)yrx11.x1j .x1kX21x2 j .x2kX31X3j X3kXT1 XTj .XTk可以简化为：Y = Xu -总体回归模型的简化形式。2. 假定条件与一元线性回归模型的基本假定相似，为保证得到最优估计量，多元线性回归模型应满足以下假定条件：假定1随机误差项ut满足均值为零，其方差匚2相同且为有限值。假定2随机误差项之间相互独立，无自相关。假定3解释变量Xtj，j =1,2,3,k之间线性无关，即解释变量的样本观测值矩阵式满秩矩阵，否则称解释变量之间存在多重共线性（与课本假定7合并）。假定4解释变量Xtj， j =1,2,3,.,k是确定性变量，与误差项彼此之间相互独立。假定5解释变量是非随机变量，且当T时，TXX Q，Q是一个有限值的非奇异矩阵。假定6随机误差项服从正态分布。假定7回归模型是正确设计的。二、最小二乘法根据最小二乘法的原则，总体回归模型可以推导为样本回归模型，即:Y =X? U?其中，E =（凫屛凤）是B的估计值列向量，i?=（Y-X阳称为残差列向量。因为，？=Y -X?，所以，U?也是Y的线性组合。关于多元线性回归模型中样本容量的问题：（1）最小样本容量在多元线性回归模型中，样本容量必须不少于模型中解释变量的数目（包括常数项），这就是最小样本容量，即：n 一 k 1o（2）满足基本要求的样本容量般经验认为，当n 一30或者至少n _3（k 1）时，才能说满足模型估计的基本要求。三、多元可决系数与调整后的多元可决系数类似于一元线性回归模型的情形，我们对估计的回归方程关于样本观测值的拟合优度进行检验，而检验的统计量是可决系数。因是多元回归，样本可决系数R2就称为多元可决系数。对于多元线性回归模型的情形，一元线性回归模型的总离差平方和的分解公式依然成立，即:TSS= ESS +RSS其中，TSS的自由度为n-1, n表示样本容量，ESS的自由度为k, k表示自变量的个数，RSS的自由度为n-k-1 om2ESS , RSSR1 -R2往往会增大。这是因为TSS TSS我们在模型应用中发现，如果在模型中增加一个解释变量,残差平方和往往随着解释变量个数的增加而减少，至少不会增加。这就给人一个错觉：要使模型拟合得好，只要增加解释变量就可以了。但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，因此，在多元线性回归模型之间比较拟合优度，R2就不是一个合适的指标，必须加以调整。在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以调整的思路是将残差平方和与总离差平方和分别处以各自的自由度，以剔除变量个数对拟合优度的影响定义调整的多元可决系数如下：R2RSS/( n - k -1)TSS/( n -1)=1 -n1n - k 一1(1-R2)2当模型中增加一个自变量，如果RSS/(n-k-1)变小，因而使 R增大，便可认为这个自变量对因变量有显著影响，应该放入模型中，否则，应予抛弃。在样本容量一定的情况下，R具有如下性质：(1) 若 k -1,则R2 岂 R2;(2)R2可能出现负值。女口 T =10,k =2,R2 =0.1时，-0.157。显然，负的拟合优度没有任何意义，在此情况下，取R2 =0在实际中，R2或R2越大，模型拟合得就越好，但拟合优度不是评价模型优劣的唯一标2 2准。因此，我们不能仅根据 R或R的大小来选择模型。补充知识：赤池信息准则和施瓦茨信息准则为了比较所含解释变量个数不同的多元线性回归模型的拟合优度，常用的标准还有赤池信息准则(Akaike In formation Criterio n ，AIC )和施瓦茨信息准则(Schwarz Criterio n，SC)，其定义分别为：AIC =ln(兰) n2(k 1)ne e kSC = I n() In (n)n n这两个准则均要求仅当所增加的解释变量能够减少AIC值或SC值时才能在原模型中增加该解释变量。显然，与调整的可决系数相仿，如果增加的解释变量没有解释能力，则对残差平方和e，e的减小没有多大帮助，但增加了待估参数的个数，这时可能到时AIC或SC的值增加。四、统计检验1. F检验为了从总体上检验模型中被解释变量与解释变量之间的线性关系是否显著成立，检验的原假设为：H0: , = -2 = = -k = 0 ( k表示方程中回归系数的个数，也可以称为自变量的个数)若成立，则模型中被解释变量与解释变量之间不存在显著的线性关系。备择解释为：H1 :打不全为零。若原假设成立，则检验统计量：ESS/kRSS/( n - k -1)F(k,n _k -1)这是自由度为k,n - k -1的F分布，对于预先给定的显著水平a,可以从F分布表中查出相应的自由度。设检验水平为a，则检验规则是：若F乞Fa(k,n - k -1)，接受原假设；若F Fa(k,n - k -1)，则接受备选假设。F与R2的关系:2R n k T一2n TF2， R=1 -1 -R2kn - k -1 kF22由公式，可以看出，F与R成正比，R越大，F值也越大。即总体的 F检验越显著(FF检验可以看作是对拟合优度的值越大)，R2的值也越大，回归方程拟合得就越好，所以, 检验。2.回归系数的显著性检验一t检验对于多元线性回归模型，总体回归方程线性关系的显著性，并不意味着每个解释变量对被解释变量的影响都是显著的。因此，有必要通过检验把那些对被解释变量影响不显著的解释变量从模型中剔除，只保留对被解释变量影响显著的解释变量，以建立更为简单合理的多元线性回归模型。如果一个解释变量冷对被解释变量的影响不显著，则对应于该解释变量的回归系数1 j的值等于0。因此，我们只要检验一个解释变量Xj的回归系数打的值是否为0就可以了。检验原假设：H0：r =0, j =1,2,.,k；备择假设：Hi：*=0判别标准，若tta(n-k-1),接受原假设；若|t追(n-k-1),接受备择假设。2 2

展开阅读全文

回归分析概要(多元线性回归模型)

最新文档