多元线性回归模型.ppt

资源描述

第三章多元线性回归模型,模型的建立及其假定条件最小二乘法最小二乘估计量的特性多元线性回归模型的预测可决系数显著性检验与置信区间预测案例分析,模型的建立及其假定条件,基本概念多元线性回归模型的基本假定,基本概念,多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般形式：,i=1,2,n,其中:k为解释变量的数目，j称为回归参数。习惯上：把常数项看成为一虚变量的系数，该虚变量的样本观测值始终取1。这样模型中解释变量的数目为（k+1）,也被称为总体回归函数。,被称为多元总体线性回归方程,简称总体回归方程。方程表示各变量X值固定时Y的平均响应。 j也被称为偏回归系数，表示在其他解释变量保持不变的情况下，Xj每变化1个单位时，Y的均值E(Y)的变化; 或者说j给出了Xj的单位变化对Y均值的“直接”或“净”（不含其他变量）影响。,总体回归模型矩阵表达式为 Y=X+U,其中,总体回归模型矩阵表达式,样本回归函数用来估计总体回归函数,其中的 ei为残差。样本回归函数的矩阵表达为,其中：,称,样本回归函数,基本假定,假设1 随机误差项具有零均值假设2 随机误差项具有同方差假设3 随机误差项不序列相关性,基本假定,假设4 n(k+1)矩阵X是非随机的，且X的秩=k+1，即X满秩。解释变量与随机项不相关E(XU)=0,假设6，随机项满足正态分布,假设5 解释变量之间不存在完全线性关系,3.2 最小二乘法,参数的最小二乘估计随机误差项的方差的估计量,参数的普通最小二乘估计,对于随机抽取的n组观测值,如果样本函数的参数估计值已经得到，则有：,i=1,2n,根据最小二乘原理，参数估计值应该是下列方程组的解,其中,于是得到关于待估参数估计值的正规方程组：,正规方程,即,由于XX满秩，故有,正规方程组的矩阵形式,将OLS过程用矩阵表示如下：,即求解方程组：,得到：,于是：,可以证明，随机误差项的方差的无偏估计量为,随机误差项u的方差2的无偏估计,第三节参数估计量的性质,在满足基本假设的情况下，其结构参数的普通最小二乘估计具有：线性性、无偏性、有效性。,1、线性性,其中,C=(XX)-1 X 为一仅与固定的X有关的行向量,2、无偏性,这里利用了假设: E(X)=0,3、有效性（最小方差性）,其中利用了,和,第四节可决系数,总离差平方和的分解多元样本可决系数修正样本可决系数,总离差平方和的分解,由于,=0,所以有：,=SSE+SSR,该统计量越接近于1，模型的拟合优度越高。,问题：在应用过程中发现，如果在模型中增加一个解释变量， R2往往增大。这就给人一个错觉：要使得模型拟合得好，只要增加解释变量即可。但是，现实情况往往是，由增加解释变量个数引起的R2的增大与拟合好坏无关，R2需调整。,可决系数,在样本容量一定的情况下，增加解释变量必定使得自由度减少，所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度，以剔除变量个数对拟合优度的影响:,其中：n-k-1为残差平方和的自由度，n-1为总体平方和的自由度。,调整的可决系数,调整的可决系数与可决系数的关系,第五节显著性检验与置信区间,方程的显著性检验，旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。,1、方程显著性的F检验,即检验模型 Yi=0+1X1i+2X2i+ +kXki+ui i=1,2, ,n 中的参数j是否显著不为0。,可提出如下原假设与备择假设：,H0： 1=2= =k=0 H1： j不全为0,F检验的思想来自于总离差平方和的分解式： TSS=ESS+RSS,如果这个比值较大，则X的联合体对Y的解释程度高，可认为总体存在线性关系，反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。,F检验的思想,根据数理统计学中的知识，在原假设H0成立的条件下，统计量,服从自由度为(k , n-k-1)的F分布,给定显著性水平，可得到临界值F(k,n-k-1)，由样本求出统计量F的数值，通过 F F(k,n-k-1) 或 FF(k,n-k-1) 来拒绝或接受原假设H0，以判定原方程总体上的线性关系是否显著成立。,2、关于拟合优度检验与方程显著性检验关系的讨论,或,解释变量的显著性检验（t检验）,方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的,因此，必须对每个解释变量进行显著性检验，以决定是否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。,由于,以cii表示矩阵(XX)-1 主对角线上的第i个元素，于是参数估计量的方差为：,其中为随机误差项的方差，在实际计算时，用它的估计量代替:,1、t统计量,因此，可构造如下t统计量,设计原假设与备择假设：,H1：i0,给定显著性水平，可得到临界值t/2(n-k-1)，由样本求出统计量t的数值，通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1) 来拒绝或接受原假设H0，从而判定对应的解释变量是否应包括在模型中。,H0：i=0 （i=1,2k）,2、t检验,一方面，t检验与F检验都是对相同的原假设H0：1=0 进行检验; 另一方面，两个统计量之间有如下关系：,一元线性回归中，t检验与F检验一致,3参数的置信区间,参数的置信区间用来考察：在一次抽样中所估计的参数值离参数的真实值有多“近”。在变量的显著性检验中已经知道：,容易推出：在(1-)的置信水平下i的置信区间是,其中，t/2为显著性水平为、自由度为n-k-1的临界值。,增大样本容量n，因为在同样的样本容量下，n越大，t分布表中的临界值越小，同时，增大样本容量，还可使样本参数估计量的标准差减小；提高模型的拟合优度，因为样本参数估计量的标准差与残差平方和呈正比，模型优度越高，残差平方和应越小。提高样本观测值的分散度,一般情况下，样本观测值越分散，(XX)-1的分母的|XX|的值越大，致使区间缩小。,如何才能缩小置信区间？,第六节预测,点预测区间预测,对于模型,给定样本以外的解释变量的观测值X0=(1,X10,X20,Xk0)，可以得到被解释变量的预测值：,它可以是总体均值E(Y0)或个值Y0的预测。但严格地说，这只是被解释变量的预测值的估计值。为了进行科学预测，还需求出预测值的置信区间，包括E(Y0)和Y0的置信区间。,E(Y0)的预测区间,易知,容易证明,于是，得到(1-)的置信水平下E(Y0)的置信区间：,其中，t/2为(1-)的置信水平下的临界值。,Y0的置信区间,如果已经知道实际的预测值Y0，那么预测误差为：,容易证明,e0服从正态分布，即,构造t统计量,可得给定(1-)的置信水平下Y0的置信区间：,第七节案例分析,

展开阅读全文