何晓群应用回归分析考试重点题型.doc

资源描述

一元，多元线形回归分析：一. 请分别叙述变量间统计关系与函数关系的区别，以及相关分析与回归分析的联系与区别。答：各自然现象或社会现象之间普遍存在着各种联系，根据这些联系的紧密程度不同，可将之分为函数关系与统计关系。一种情况下某变量Y能被其余的一类变量完全决定，这时两者之间存在着完全的确定性关系，这种关系可以通过一个函数表示。这样的确定性关系被称为函数关系。另一种情况下变量之间虽然存在紧密的联系，但并不能互相唯一确定，这种非确定性的紧密联系被称为统计关系。相关分析与回归分析都是研究两边统计关系的方法，在实际问题的处理中往往结合使用两者。两者的区别主要在于：1.目标不同：相关分析主要用于刻画X,Y两变量间的联系的密切程度，而回归分析除此之外，还关心对未观察Y值的预测与控制。2.角度不同：相关分析中X，Y两变量地位相同，因此假设两者都是随机变量；而回归分析中只将变量Y作为主要研究对象，因而往往假设Y是随机变量，而X是非随机变量。二. 请叙述（一元）多元线性回归模型及其基本假设答：1.一元线性模型的基本形式是：，其中称为回归系数，称为随机误差。其基本假设为： G-M假设：或者更强的正态性假设：独立同分布，。 2.多元线性模型的基本假设是：称为回归系数阵，称为随机误差. 其基本假设为： a. G-M假设：或者更强的正态性假设：独立同分布，。 b.rank(X)=p+115),可以简化为。 3. 在未观测点处，的区间估计为（置信区间）。3. 给定置信上界与置信下界时，的取值范围为七.叙述样本数据与回归系数标准化的意义与方法答：多元线性回归模型中，由于自变量的数量级差异较大，因而舍入误差将对估计的精度造成较大的影响；同时自变量的单位不同也会造成回归方程的解释比较困难，因而通常需要对样本数据进行预处理，即数据的标准化。数据的标准化通常这样进行：利用标准化样本数据的得到的回归方程系数称为标准化回归系数，其满足: .八.给出偏决定系数、偏相关系数的定义答：1.当其余自变量固定时，对y的影响程度称为的偏决定系数，定义为 2. 当其余自变量固定时，与的相关程度称为两者的偏相关系数，定义为。计算：1. （20分）近来某时尚杂志进行了一项关于高清数字电视的调查。对于各不同品牌不同型号的数字电视，该杂志基于画面质量给出了一个测试总分（i=1,2,24），同时，该杂志也收集了这些数字电视的平均市场售价。数据显示假设样本数据符合正态性假设，随机项的方差为。根据以上条件，请（1）（5分）建立y关于x的一元线性回归方程（2）（5分）给出作的无偏估计。（3）（5分）在的显著性水平下，检验变量之间的显著性。（已知：）（4）（5分）假设某种新上市的数字电视的评分为45分，请给出其市场建议价，并作该价格的置信水平为95%的区间估计。解：（1）根据题意，有： -1分 -1分 -1分从而所以回归方程为 -2分（2） -3分所以 -2分（3）建立假设为： -1分构造检验统计量： -3分由于,所以拒绝原假设 -1分即认为变量之间存在显著的线性关系。（4）的估计值为 -1分由于样本量较大，所以可以用近似公式计算预测区间 -1分即价格的预测区间为 -3分 2.（15分）某市最近进行的一项有关公共交通的调查发现，公交车的维护费用与其已使用月数之间的关系可以用一元线性回归模型描述，其误差项满足，其中随机项满足G-M假设。实验的实际观测数据（10组）由下表给出，请根据数据给出该回归模型的估计，并预测某辆已使用了4年的公交车的维护费用。已使用月数61454855294360 维护费用4968631751985048918256964858652931831945716887解：由于误差项满足，而满足G-M假设,所以可以通过差分法来消除自相关性。 -1分对原样本数据做一阶差分，得到差分数据样本自变量差分-1637-2614175因变量差分1349-1119-1504134-3486-8383461-362 -37482316-4分由于差分数据必然已中心化，所以差分回归模型为 ,其中 -4分从而回归方程为 -4分将带入上述方程，得: -2分3.非参数检验（异方差）证明：1.对一元线性模型证明三种检验统计量等价证：对于一元线性回归模型来说，F检验、t检验、相关性检验的原假设与备择假设相同，均为 -2分而三者的检验统计量分别为：，。 -1分由各参数的定义 -3分所以 -2分 -2分所以，即三种检验完全等价。2. 在正态性假设下，求证 (一元)/ （多元）是的无偏估计a. 记，则。再记。则 -4分 -4分所以 -2分从而 -5分即是的无偏估计，证毕。b. 记. 则. -1分从而 -2分由正态性假设， -3分 -4分从而 -1分 -3分所以是的无偏估计 -1分3计算多元线性模型下，的期望阵与方差4. 证明数据标准化后参数估计值之间的转化关系5.证明dw的取值范围（0=dw=4） -2分 -2分样本充分大时，可以认为 -1分从而 -3分所以 -1分又，从而其余：一叙述全模型、选模型的优缺点答：设全模型为，选模型为（pm）.那么：1. 选模型的缺点为：a. 设与至少一个相关，则是有偏的，即。 b. 选模型的预测值是有偏的,即。 2. 选模型的优点为： a. 选模型回归参数的方差较小（稳定性较高），即 b. 选模型的预测值的残差方差更小，即，其中 c. 选模型的预测值的均方误差更小，即二叙述变量选择的基本准则答：通常根据以下三种准则进行变量选择。1. 自由度调整的复决定系数最大自由度调整的复决定系数是基于拟合效果提出的变量选择参数，定义为，其中是回归方程的决定系数（拟合优度）。2. 赤池信息量（AIC）或SBC最小赤池信息量是基于最大似然原则提出的变量选择参数，定义为。SBC是对AIC的修正，定义为。 3. Mallows统计量最小 Mallows统计量是基于预测效果（均方误差）提出的变量选择参数，定义为。三叙述变量选择的基本方法及其比较答：变量选择的基本方法有以下三种： 1.前进法，具体步骤为： a. 对所有可选变量作一元线性回归，对这p个回归方程分别作F检验，选择其中统计量最大值。若，则将选作回归自变量。 b. 对所有的二元变量对作二元线性回归，对这p-1个回归方程分别作（偏）F检验，选择其中统计量最大值。若，则将选作回归自变量。 c. 以此类推，直到引入q个自变量后所有q+1元回归方程的F统计量值均小于。 2. 后退法，具体步骤为： a. 对全部可选变量作P元线性回归，对该回归方程作t检验，选择其中统计量最小值。若，则将删除。 b. 对剩余自变量作p-1元线性回归，对该回归方程作t检验，选择其中统计量最小值。若，则将删除。 c. 以此类推，直到所有剩余自变量均能通过t检验。 3.逐步回归法，具体步骤为： a. 使用前进法选择自变量。 b. 每选入一个自变量，则利用后退法删除所有需要删除的自变量。 c. 以此类推，直到剩余自变量均不能被选入。由于前进法有进无出（自变量被选入之后无法被删除），后退法有出无进（自变量被删除后无法被再次选入），所以在选择效果上通常都不如逐步回归。四叙述所有违背基本假设的情形及其检验、改进方法答：违背基本假设的情形一共有四种:异方差性、自相关性、异常值以及多重共线性。1. 异方差性：a.可以通过spearman等级相关系数检验，其方法为：，其中，是的等级差。检验统计量：判断法则：时拒绝原假设。 b.可以通过加权最小二乘法改进2. 自相关性a.自回归阶数为1时可以通过D-W检验法检验，其方法为：根据样本容量n与解释变量个数p+1查得dw下届与dw上界。计算D-W统计量，其定义为若 b.可以通过迭代法或者差分法改进 3.异常值异常值可以简单分为y的异常值与x的异常值两种。 a. y的异常值可以用残差大小判断，通常认为学生化残差或者标准化残差即说明是异常值；精确的判断可以用学生化删除残差进行，其中。 b. x的异常值可以用库克距离判断，其定义为通常认为说明不是异常值，说明是异常值。 b 对于x还有强影响点的概念，是否属于强影响点可以通过杠杆值判断，通常认为说明是强影响点。 3. 多重共线性多重共线性可以通过方差扩大因子或者条件数进行检验。a. 方差扩大因子法：即认为与其余自变量之间存在着多重共线性。也可用均值判断，若即认为自变量整体存在着较强的多重共线性。b. 条件数法条件数。若，则认为无多重共线性；，则认为有较强的多重共线性；，则认为有严重的多重共线性。改进方法通常为改用有偏估计值估计回归系数。五叙述BOX-COX变换的定义与基本思路答：BOX-COX变换是处理异方差性与自相关性的有效手段，基本思路是通过对y进行变换使其满足正态性假设以保证最小二乘法的优良性。具体的方法为：其中a为任意选取的正常数，以保证BOX-COX的合理性。称为变换参数，可以通过最大似然法估计。通常取。六叙述岭参数k选择方法答：通常有三种选择方法1.通过岭迹法选择参数k。2.通过使所有的方差扩大因子来选择参数k,其中是矩阵的主对角线元素。3.通过不等式来选择参数k，其中c是预先指定的大于1的常数。七当自变量或因变量是定性变量时，回归方程的拟合方法答：当自变量是定性变量时，我们通过引入虚拟变量来建立回归方程，方法为：设定性自变量X可以取值，则引入如下的k-1个自变量：当因变量为只能取两值的定性变量时，我们改用逻辑回归模型拟合，回归方程为：

展开阅读全文