经济计量分析讲义第2章

资源描述

第2章最小二乘法和最小二乘估计线性模型中的参数估计有多种方法，其中最小二乘法是最为著名的。即使已经发现其他方法比较优越，但是最小二乘法仍然是线性模型估计的基础方法，最小二乘估计的性质已经得到了广泛应用。2.1 最小二乘回归(least squares regression)随机线性关系中的未知系数是我们考虑的重点，也是我们进行估计的主要目标。这时我们有必要区分母体变量(例如和)和它们的样本估计，对应地表示为和。母体回归方程可以表示为：它的估计表示为： (2.1)与第i个数据点相关的扰动项可以表示为： (2.2)如果获得了回归系数的估计，则可以利用回归方程的残差来估计随机扰动项，即 (2.3)根据这些定义和表示，可以得到： (2.4)母体量是每个的概率分布中的未知系数，我们希望利用样本数据来估计这些参数。虽然这是一个统计推断问题，但是我们仍然可以直观地认为应该选取向量，使得拟合直线尽量地靠近数据点。如果描述这种靠近性，需要一定的拟合准则，其中最为广泛使用的是最小二乘法。2.1.1 最小二乘系数向量可以通过极小化下述残差平方和来获得最小二乘系数向量。 (2.5)其中表示系数向量的选择。利用矩阵形式表示上述残差平方和： (2.6)将上述目标函数展开得到(注意利用标量的转置不变的性质)： (2.7)极小化的一阶条件为(相当于对向量求导数，要么利用向量展开，要么利用向量求导公式)： (2.8)假设是最小二乘的解，则它必须满足最小二乘正规方程(least square normal equations)： (2.9)如果解释变量矩阵的满秩条件满足，则有：这说明矩阵是可逆矩阵，因此正规方程的唯一解为： (2.10)注意到上述条件只是极小化问题的必要条件，为了判断充分性，我们需要求出目标函数的Hessian矩阵： (2.11)如果这个Hessian矩阵是正定的，则可以判断所得到的解是唯一的最小二乘解。显然，根据正定矩阵的定义或者正定矩阵的判断准则，可知当矩阵的满秩条件满足时，矩阵是正定的，因此最小二乘解的充分性成立。通过上述最小二乘解的表达式，我们可以得到最小二乘解的下述代数性质：命题2.1 对于线性模型和相应的最小二乘估计，则有：(1) 最小二乘残差的和为零。即 (2) 回归超平面通过数据的均值点，即(3) 从回归方程中获得的拟合值的均值等于样本观测值的均值，即证明：(1) 根据正规方程，可知：这说明对于矩阵的每一列，都有，由于矩阵的第1列中都是1，所以得到(因此这条性质成立的前提条件是回归模型中包含常数项)：(2) 正规方程表示为矩阵形式为：将上述矩阵方程的第一个方程表示出来，则有：根据数据的样本均值定义，则有：也即：(3) 根据拟合值的定义：，即，则有：上述矩阵方程的第一个方程可以表示为：则有：需要注意的是，上述命题成立的前提是线性模型中包含常数项，也就是第一个解释变量是“哑变量”形式。这样一个思考题目就是，当线性模型中不包含常数项时，结论是什么样的？2.1.2 投影和投影矩阵(projection and projection matrix)获得最小二乘估计以后，可以获得下述最小二乘残差： (2.12)将最小二乘估计的表达式代入，得到： (2.13)其中定义的矩阵在回归分析中是非常基础和重要的。显然，这个矩阵是对称幂等矩阵：，其次，还有一些重要的性质需要大家注意，例如对称幂等矩阵的特征根非0即1(对称矩阵的特征均为实数)，因此矩阵具有性质：矩阵的迹等于矩阵的秩。诸如这样的性质，需要大家复习一下线性代数中的有关定义和命题。根据上述方程(2.12)和(2.13)，矩阵的作用是，它乘积作用在某个向量上，就可以得到这个向量基于数据变量的最小二乘回归的残差向量，因此经常将这个矩阵称为“残差生成算子”(residual maker)。这里需要注意的定义和所作用的变量，是所作用变量关于定义中数据矩阵的回归残差。显然，基于自己的线性回归的最小二乘残差一定为零，则必然有(即使验证也十分显然)： (2.14)根据方程(2.12)，可以得到： (2.15)这说明最小二乘回归将变量分解成为两个部分，一个部分是拟合值，另一个部分是残差，由于 (2.16)这说明最小二乘回归与残差是正交的。因此，这样的分解是正交分解，也就是说最小二乘的拟合值向量和残差向量是正交的(意味着这两个向量之间的夹角为垂角)。这时也可以得到： (2.17)这里矩阵也是一个对称幂等矩阵，我们称其为投影矩阵(project matrix)，它是有矩阵构成的，并且它如果乘积作用到向量上，则可以得到基于变量的最小二乘回归的拟合值。这也是向量在矩阵的各列生成的线性空间上的投影。注释：假设在矩阵的各列生成的线性空间上的投影是，则的定义是：，且选择使得 (2.18)由于上述向量之间的模与最小二乘距离是一致的，因此上述最小值也得到了最小二乘估计，因此最小二乘估计的拟合值也是投影值。为了更好地理解上述定义和公式，我们将一些有用的结论归纳为下述命题：命题2.2 在线性模型的最小二乘估计中，可以得到：(1) 矩阵和矩阵是正交的，即： (2.19)(2) 矩阵具有自投影不变性，即： (2.20)(3) 向量可以通过投影进行正交分解，即分解为投影和残差： (2.21)其中是投影，是残差。(4) 平方和分解公式成立： (2.22)(5) 残差平方和可以表示为： (2.23)(6) 残差平方和也可以表示为： (2.24)证明：(1) 根据定义：，因此：。取转置矩阵就可以得到。(2) 根据投影矩阵定义，或者根据投影的定义，都可以直接验证。(3) 因为，因此可以得到分解公式为：，是投影，即最小二乘回归的拟合值；是最小二乘的残差向量，投影和残差是正交的。(4) 因为矩阵和矩阵都是对称幂等矩阵，则有：因此这种平方和分解公式十分重要，将其表示成为标量形式则更为清楚。(5) 因为，并且是对称幂等矩阵，则有：(6) 因为，则有：根据(4)所给出的平方和分解公式，则有：由此可知(也可以直接验证)：，因此得到：线性模型中存在多种关系式，需要多加联系并熟练掌握。2.2 分块回归和偏回归(partitioned regression and partial regression)通常在进行线性回归时我们假定了完全的回归变量，但事实上我们只对其中的部分变量感兴趣。这时我们就需要考虑将一部分变量从回归变量中删除所导致的结果。假设回归方程中涉及到两部分变量和，这时有： (2.25)为了求解上述参数的最小二乘估计，考虑下述正规方程： (2.26)上述四块矩阵可以通过下述分块逆矩阵公式得到： (2.27) (2.28)也可以直接求解得到： (2.29)上述解的公式表明，系数的最小二乘估计是基于的回归系数，减去一个修正向量。上述获得参数估计的过程具有典型的统计意义，首先，是被解释变量中剔除变量的剩余部分；其次，将剩余部分基于再进行回归，因此，参数估计是剔除变量所剩余的部分。一种特殊情形是，这时，正好是基于的回归系数。更为一般的结果可以由下述定理给出：定理2.1 正交分块回归在变量基于两部分变量和进行多元线性回归时，如果这两个变量之间是正交的，则和的回归系数可以通过单独进行基于的回归系数和基于的回归系数得到。证明：如果回归方程中的解释变量是正交的，则有。则有：，则和的回归系数可以通过单独进行基于的回归系数和基于的回归系数得到。获得系数的分块最小二乘估计的表达式(2.29)以后，将其代入到分块估计矩阵中，可以得到： (2.30)从中获得的估计式为： (2.31)注意到我们曾经讨论过的矩阵的性质，这是一种基于数据回归的“残差生成算子”，它作用到某个向量上所获得的便是这个向量基于数据回归的残差向量。因此，是一个由残差向量构成的残差矩阵，每个列向量是基于它数据回归的残差向量。注意到是幂等矩阵，则有： (2.32)其中，上述结论对于回归分析来说是一个基础结论，也非常重要。可以进一步归纳成为下述定理：定理2.2 Frisch-Waugh Theorem 在向量基于两部分变量和的最小二乘回归中，系数最小二乘估计的部分估计可以通过基于变量的残差，再基于的每列基于变量回归的残差，进行回归的回归系数得到。这个过程一般被称为变量作用的“挤出”或者“分离”过程。出于这个原因，多元回归系数经常被称为偏回归系数(partial regression coefficients)。对于这个情形的一种特例，我们考虑向量基于一组变量和一个附加变量的最小二乘回归问题。这时最小二乘系数表示为和。这种情形下的结果可以由下述推论得到：推论(Corollary) 3.1 单独回归系数在向量基于变量的多元最小二乘回归中，变量的系数可以按照下述公式计算： (2.33)这里和是和基于的最小二乘回归的残差向量。这个命题的一个直接应用是，可以考虑采用时间趋势脱离后的残差向量进行替代，以求出包含时间变量的多元回归系数。作为这些结论的一个应用，我们考虑矩阵的第一列全为1的包含常数项的情形。推论(Corollary) 3.2 具有常数项的回归包含常数项的多元回归的斜率估计可以按照下述方式获得，首先将数据转换为与其均值的偏离，然后将(表示为与均值偏离的形式)基于解释变量(表示为与均值偏离的形式)进行回归。证明：根据定理2.2，这里。此时残差生成矩阵为：此时的作用就是将数据进行样本均值为中心的中心化，因此命题成立。最后一个问题是，如果知道了系数，如何求解出系数？其中一个方法是改变变量和的作用，另外我们也可以直接从分块矩阵中求解。例如，如果，则可以得到常数项的估计为： (2.34)2.3 偏回归和偏相关系数(Partial regression and partial correlation coefficients)在多元回归使用中经常涉及到一个实践中难以进行的实验，就象经济学中的“其他假设不变”(ceteris paribus)。上述分析中我们假设一些变量的回归，然后利用这些变量的回归得到回归误差，这样的过程也涉及到“偏相关系数”的概念。在多元回归中，“偏相关系数”经常表示两个变量之间的“直接关系”，这是一种分离其他变量影响之后的两者之间的“净关系”。例2.1 收入和教育(earnings and education) 大量的研究在关注收入和教育之间的关系。正常情形下，人们认为教高的教育水平大都与较高的收入水平相关联。这时可以建立简单的线性回归模型为：但是，上面的假设中忽略这样的一个事实，即使是具有相同教育水平的人中，年龄张者的收入仍然高于年龄幼者，因此上述回归方程中的将过度估计教育对收入所产生的边际作用。如果年龄和教育是正相关的，那么上述回归模型中收入的所有可以观测的增加将同教育中的增加具有关联。一个更合适的模型是：我们还注意到，在获得收入的早期，收入上升的速度一般都大于获得收入的晚期时候，因此，可以将上述模型进一步调整为：这个模型的关键特点是允许我们进行一种观念性的实验(conceptual experiment)，这种实验可能是现实数据中无法观测到的。例如，我们可以比较两个具有相同年龄但是不同教育水平的两个个体的收入情况，虽然真实的数据中并不包含这样的情形。在操作过程中，如何度量“教育”变量是比较困难的，这也是目前研究的热点问题。现在的问题是，我们如何寻求“收入”和“教育”之间的偏相关系数，即排除年龄影响后，两者之间的“净关系”。一般的做法是：1. 假设是“收入”基于常数和“年龄”变量回归后获得的残差；2. 假设是“教育”基于常数和“年龄”变量回归后获得的残差；3. “收入”和“教育”之间的偏相关系数是和之间的简单相关系数。注释：偏相关系数的概念十分重要，也具有非常广泛的应用，例如在讨论我国经济增长的外贸依存度时，可以通过偏相关系数剔除其他变量的影响，直接考虑GDP与外贸规模之间的关系，这样能够就能够获得一些新的认识。表面上看，上述过程需要相当繁杂的计算。但是，计算偏相关系数具有一种捷径，这就是一旦计算的多元回归方程的估计，那么就可以获得检验系数等于零的检验统计量，从而得到：，是自由度 (2.35)利用推论，假设表示回归变量的数据矩阵，阶数为，假设。假设矩阵中包含常数项(第1列全为1)，则残差向量和的样本均值为零。则平方偏相关系数为： (2.36)假设是回归变量的系数，表示基于回归的残差向量，则统计量的平方为： (2.37)这里表示矩阵的第个对角元素(也是最后一个对角元)。可以利用四块矩阵的分块求逆公式获得上述对角元素。定理2.3 矩阵逆的对角元如果，则的最后一个对角元是： (2.38)这里，利用上述结果，可以得到： (2.39)这里：，是基于回归的残差向量。注意到，除非，那么就不等于。进一步，除非，那么就不等于。根据已经获得的推论，可以知道：代入到的表达式中，得到：因此其中，总结上述推导可以得到下述重要结果：定理2.4 增加回归变量时残差平方和的变化假设是基于线性回归的最小二乘残差平方和，是基于和线性回归的最小二乘残差平方和。则有 (2.40)这里是全变量回归中变量的系数的最小二乘估计，是基于线性回归的残差向量。上述定理的一个重要启示是，只要增加线性回归模型中的解释变量，就可以降低回归模型的残差平方和。这样一来，无论解释变量与相依变量之间的关系如何，解释变量都是“有用”的或者是“有价值”的。2.4 拟合优度和方差分析 (Goodness of fit and the analysis of variance)2.4.1 线性回归模型的决定系数最早的拟合准则，即残差平方和，提供了一个度量回归直线与数据拟合程度的度量。但是，可以很容易的证明，只要把所有的数据乘以一个相同的尺度，那么残差平方和就可以扩大任意倍数。由于回归方程的拟合值依赖数据，则我们关心的问题是，是否可以将中的变差(variation)作为数据中变差的一个推断因子？相依变量的变差可以利用数据与均值之间的偏离来度量，即。数据中的总变差(total variation)可以利用离差的平方和表示： (2.41)利用回归方程表示，可以将所有样本之间的关系表示为： (2.42)如果利用单个样本表示，则有： (2.43)如果回归方程中包含常数，则有：，利用这些条件，得到： (2.44)这说明，样本与均值的偏离等于拟合值与均值的偏离加上残差，进一步等于与均值的偏离和残差的和。这说明样本与均值的偏离大部分可以由与均值的偏离来加以解释。注意到方程(2.44)两端都是与均值的偏离，因此可以将其表示成为： (2.45)这里表示方阵，其作用是将样本观测值转变成为与均值的偏离，定义为：， (2.46)可以验证也是对称幂等矩阵。其中的作用也很重要定理2.5 残差平方和分解定理对于包含常数项的线性回归模型而言，下述平方和分解公式成立： (2.47)这说明整个“离差平方和”等于“回归平方和”加上“残差平方和”。证明：根据矩阵的定义，则有：其中，代入得到：注意到是数据矩阵的各列与残差向量的正交性，即，可知：其中：，因此得到： (2.48)这是一个著名的平方和分解公式，具有十分重要的统计含义，它表示原始数据所包含的信息被“回归”和“残差”所解释的比重。利用上述平方和分解公式，我们可以获得一种度量回归直线拟合数据程度的指标，即线性回归模型的确定系数(coefficient of determination)：显然，确定系数是界于0和1之间的常数，表示数据的整体变差中能够被回归变差所解释的比例。下面是我们经常遇到的关于确定系数的几种特殊情形：(1) 最小二乘估计中，除了常数项系数以外，其余系数都为零，这时回归直线是一条“水平线”，即(因为数据的中心落在回归直线上)。这是数据与其均值的偏离无法转移到对的推断当中，这时没有解释能力，因此。(2) 如果所有的和都落在一个超平面上，即所有的残差都为零，这时对应的极端情形为。(3) 另外一种极端是，所有的都相等，这时由于数据的离差平方和为零，这时确定系数没有意义，也无法计算。回归分析经常用于预测。因此我们对于回归模型如何推断相依变量的变化很感兴趣。出于这样的考虑，我们给出一种计算确定系数的等价方法。命题2.3 确定系数的计算公式对于多元线性模型而言，确定系数也可以按照下述公式计算： (2.49)这说明确定系数是样本观测值和样本拟合值之间相关系数的平方。证明：注意到：，又因为：，则有：利用上式子对决定系数进行变换，得到：其中：，线性回归的平方和分解，也可以利用方差分解的形式给出表示：方差分析(Analysis of Variance)方差类型方差来源自由度均方差回归残差总离差决定系数2.4.2 调整和拟合度量使用来分析拟合优度时存在一些问题，第一个考虑是在估计参数时所使用的自由度数量。随着新的变量增加到回归方程绝对不会出现降低，它是回归变量个数的递增函数。这个结论可以由下述定理给出。定理2.6 增添回归变量后的改变假设是基于和附加变量回归的决定系数，假设是基于回归的决定系数，假设是排除后和的偏相关系数，则有： (2.50)证明：假设基于回归的残差平方和为，基于和回归的残差平方和为，根据前面推证中采用的符号，则有：，这意味着。假设是在具有较多变量回归方程中变量的系数，则有：，从而有： (2.51)在上述等式两端同时除以，根据决定系数的定义，便可以得到定理结论。E.Q.D显然，上述定理说明，增加解释变量以后，回归方程的决定系数不会变小。甚至只要持续增添解释变量，则决定系数将收敛到极限1。为了消除增添变量所带来的对于决定系数的影响，则定义自由度调整，计算公式如下： (2.52)联系和的公式为： (2.53)当回归模型中增添变量以后，调整可能降低，甚至调整可能是负的。例如，在简单线性回归模型的极端情形，如果和之间的简单相关系数为零，则此时的调整等于，因此“调整”的称呼有些容易引起误解，即它不是任何数量的平方。当引入新变量以后，调整究竟是增加还是降低，依赖新增加的变量对于拟合效果的贡献和附加自由度损失两者的综合效果。一般的结果可以由下述结论给出：定理2.7 增添回归变量后调整的改变在多元回归模型中，如果从模型中删除一个变量，当与这个变量相关的t比率大于(小于)1时，将降低(提高)。我们已经证明，当回归方程中增添新的回归变量以后，不会降低，下面我们考虑更为一般的情形。当一组变量增加到回归模型以后，残差平方和的改变为：这里的脚标表示回归方程中所包含的变量集合，例如脚标1表示仅仅基于进行回归，而1、2表示基于和进行回归。这里的系数向量是基于和进行回归时的系数。因此有：根据上式，除非，则有(不会为零，否则是的线性函数，这时回归方程的满秩条件不满足)。对上述继续转变得到：注意到，则上述分式乘积的第一项是，第二项是基于回归的多元相关性(multiple correlation)，或者是基于回归的偏相关系数(删除的效果)。改变方程中的表示符号，可以得到：因此，可以通过增加回归变量将提高到预期的水平。这样就促使我们采用调整作为挑选模型的标准。由于在保持增加变量所导致的拟合程度增强的同时，对于自由度上的下降给予一定的补偿(惩罚)，因此我们经常选择极大化作为模型的标准。但是，也有一些研究认为对于自由度降低所给予的惩罚并不够充分，因此提出了一些其他比较模型效果的统计量，例如：这个标准极小化了Amemiya (1985)的推断准则(prediction criterion)：其他重要的模型选择标准，例如池田准则(Akaike criteria)和贝叶斯信息准则(Bayesian information criteria)在以后的内容中将专门讨论。另外，在计算时我们遇到的另外一个困难是考虑模型中是否包含常数项。在我们证明时，我们用到了一个假设，即矩阵中包含着一行全为1的列。如果不是这样的，那么就有，这时中的就不会消除。结果，当我们计算结果的取值范围就是不可推断的，甚至也可以是负值的。在计算机程序中，计算决定系数的公式是不同的。另外一种方式是：这样的计算方式仍然存在问题，此时可能大于1。一些计算机程序为了避免这样的问题，最后报告的是第三种，即的真实值和回归拟合值样本相关系数的平方。如果回归方程中包含常数，上述三种计算结果是一致的。如果不是这样，最后一种计算方法将给出界于0和1的数值，但是并不表示数据中通过回归所解释的部分。另一方面，这些相关性平方可以作为比较模型的一种描述性的统计量。对于使用者来说，应该了解计算软件是以何种方式计算的，一些软件还专门提示回归中没有常数项时的结果。2.4.3 模型的比较究竟的数值如何才能够算得上比较好？一般来说没有这方面的标准。一般来说，如果使用的是累积时间序列数据，则模型的比较高。如果研究者遇到的是交互部门中获得的数据，则0.5左右的则是比较高的了。交叉部门数据中所获得的0.5左右的也是值得注意和有价值的。因此，回归直线是否为数据的整体拟合提供好的拟合则依赖具体的环境。即使假设数据具有相同是生成机制，在不同内容或者不同数据集合下，我们也难以给出拟合直线拟合程度的相对定量标准。然而，即使在单变量情形下，我们也必须对比较一些模型所采用的相同标准给予小心。一般情况下，我们主要关系相依变量是如何计算的。例如，一个常见的问题是考虑线性或者对数线性更好地拟合数据。不巧的是，这样的问题无法利用直接的比较给予回答。线性回归的与对数线性回归的是不同的。出现在中的变差与出现在中的变差是不同的。后者的一般情况下会更大一些，但这并不意味着对数线性模型在绝对意义下就更好地拟合了数据。

展开阅读全文

经济计量分析讲义第2章

最新文档