应用回归分析知识点总结

上传人:daj****de 文档编号:161176788 上传时间:2022-10-13 格式:DOCX 页数:31 大小:100.80KB
返回 下载 相关 举报
应用回归分析知识点总结_第1页
第1页 / 共31页
应用回归分析知识点总结_第2页
第2页 / 共31页
应用回归分析知识点总结_第3页
第3页 / 共31页
点击查看更多>>
资源描述
U4违背基本假设的情况一、异方差产生的原因在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变 量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同的方差。 即:var(e )丰var(e ),当i丰j时。样本数据为截面数据时容易出现异方差性。ij二、异方差性带来的问题1、参数估计值虽然是无偏的,但不是最小方差线性无偏估计。2、参数的显著性检验失效。3、回归方程的应用效果极不理想。三、异方差性的检验1、残差图分析法残差图分析法是一种只管、方便的分析方法。它以残差e为纵坐标,以其他适宜i的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值y为横坐标;(2) 以x (i二1,2,p )为横坐标;(3)以观测时间或序号为横坐标。irl*1*片离訓阖*卅(hj忖 TlullPH 3.6儿种常见的弦爍仿布不想图(a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式(d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。2、等级相关系数法等级相关系数又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检 验方法既可用于大样本,也可以用于小样本。进行等级相关系数检验通常有三个步骤: 第一步,做y关于x的普通最小二乘回归,求出的估计值,即e的值ii第二步,取e的绝对值,即丨e|,把x和|e |按递增或递减的次序排列后分成等级,iiii按下式计算出等级相关系数:r = 1 -6 Y d2,其中,n为样本容量,d为对应sn(n2 -1)iii=1于x和| e |的等级的差数。ii第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系n 2r数r进行t检验,检验统计量为:t =,如果t t (n - 2),说明x与| e |之间存在系统关系,异方差性问题存V 2ii在。(在这个检验中,原假设为:不存在异方差性)等级相关系数可以如实反映单调递增或单调递减趋势的变量间的相关性,而简单 相关系数值适宜衡量直线趋势变量间的向关系。四、一元加权最小二乘估计当研究的问题存在异方差性时,就不能用普通最小二乘法进行参数估计了。消除 异方差性的方法通常有加权最小二乘法、Box-Cox变换法、方差稳定变换法。 对于一元线性回归方程来说,普通最小二乘法的离差平方和为:Q(P ,卩)=丫(y -E(y )2 =1L(y -卩-卩x )2,其中每个观测值的权数相同。在等0 1 i i i 0 1 ii =1i =1方差的条件下,平方和的每一项的地位是相同的。然而,在异方差的条件下,平方和 中的每一项的地位是不同的,误差项方差b 2大的项,在平方和式子中的作用就偏大,i 因而普通最小二乘估计的回归线就被拉向方差大的项,而方差小的项的拟合程度就 差。加权最小二乘估计的方法是在平方和中加入一个适当的权数w,以调整各项在i 平方和中的作用。一元线性回归的加权最小二乘的离差平方和为:Q(卩,卩)=w (y - E (y )2 =w (y 卩卩x )2,其中w为给定的权数。使用加0 1 i i i i i 0 1 i ii =1i =1权最小二乘法时,为了消除异方差性的影响,为了使各项的地位相同,观测值的权数 应该是观测值误差项方差的倒数,即w =丄。误差项方差较大的观测值接受较小的i b 2i 权数,误差项方差较小的观测值接受较大的权数。在社会、经济研究中,经常会遇到 这种特色的权数,即误差项方差与X的幂函数xm成比例,其中,m为待定的未知参数。1此时权函数为:w =丄。i x mi加权最小二乘估计照顾小残差项是以牺牲大残差项为代价的,当回归模型存在异 方差时,加权最小二乘估计只是对普通最小二乘法估计的改进,这种改进有可能是细 微的,不能理解为加权最小二乘估计一定会得到与普通最小二乘估计截然不同的回归 方程,或者一定有大幅度的改进。另外,加权最小二乘以牺牲大方差项的拟合效果为 代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中, 通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的 项,而普通最小二乘恰好能满足这个要求。所以在这样的一些特定场合下,即使数据 存在异方差,也仍然可以选择使用普通最小二乘估计。五、多元加权最小二乘估计多元线性回归有多个自变量,通常取权数W为某个自变量x ( j二1,2,p )的j幂函数,即W = Xm,在X , X ,X这P个自变量中,应该选取哪一个自变量,这只需 j12p计算每个自变量X与普通残差的等级相关系数,选取等级相关系数最大的自变量构造 j权函数。六、自相关性如果一个回归模型不满足COV(S6 )丰0,则称为随机误差项之间存在自相关现ij 象。这里的自相关现象不是指两个或者两个以上的变量之间的相关关系,而指的是一 个变量前后期数值之间存在的相关关系。七、自相关产生的背景和原因 产生序列自相关的背景及原因通常有以下几个方面。1、遗漏关键变量时会产生序列的自相关性。2、经济变量的滞后性会给序列带来自相关性。3、采用错误的回归函数形式也可能引起自相关性。例如,假定某实际问题的正确回 归函数应由指数形式y =化exp(p x + 6)来表示,但无用了线性回归模型y = P +P x + 6,表示,这时,误差项也会表现为自相关性。014、蛛网现象可能带来序列的自相关性。(经济学中的蛛网模型)5、因对数据加工整理而导致误差项之间产生自相关性。八、自相关性带来的问题当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的基本假 设,仍直接用普通最小二乘法估计未知参数,序列相关性会带来下列问题:1、参数估计值不再具有最小方差线性无偏性2、均方误差MSE可能严重低估误差项的方差。3、容易导致对t值评价过高,常用的F检验和t检验失效。4、当存在序列相关性时,B仍然是0的无偏估计量,但在任一特定的样本中,B可能严重歪曲0的真实情况,即最小二乘估计量对抽样波动变得非常敏感。5、如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和进行结 构分析将会带来较大的方差甚至错误的解释。九、自相关性的诊断1、图示法图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参 数,求出残差项e,e作为随机项6的真实值的估计值,在描绘e的散点图,根据e t t t t t完整版学习资料分享=WORD完整版-可编辑-专业资料分享; 的相关性来判断随机项的序列相关性。t(1) 绘制e,e的散点图。tt111 l Io nr IVo111住f- * IV(a)團4+号图a表明随机扰动项存在正的序列相关,图b表明随机扰动项存在负相关。(2) 按照时间顺序绘制回归残差项e的图形,如果e随着t的变化逐次有规律地变化,tt呈现锯齿形或循环形状的变化,可断言e存在相关,表明存在着序列相关。如果ettt随着t的变化逐次变化并不断地改变符号,如下图d所示,那么随机扰动项存在负的t序列相关,这种现象称为蛛网现象;如果e随着t的变化逐次变化并不频繁地改变符t号,而是几个正的e后面跟着几个负的,则表明随着扰动项存在正的序列相关,如tt下图C所示。汕I 12、自相关函数法Hee自相关函数的估计值为6 =亠 t1,0作为自相关系数p的估计值与样本量反e2 He2ttit=2 t=2有关,需要做统计显著性检验才能确定自相关性的存在,通常采用)W检验代替对0的 检验。3、DW检验DW检验是适用于小样本的一种检验方法,而且DW检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。DW沁2(1- 0 ),计算出DW值后,根据样本容量n和解释变量的数目k (包括常数项)查DW分布表,得出临界值d和d。LU0 D.W d ,L误差项8 ,8,,8间存在正相关;12nd D.W d ,LU不能判定是否有自相关;d D.W4-d ,UU误差项8 ,8,,8间无自相关;12n4-d D.W4-d ,UL不能判定是否有自相关;4-d D.W15,这是因为样本如果再小,利用残差就很难对 自相关的存在性做出比较正确的诊断;(3)DW检验不适应随机项具有高阶序列相关的检验(只能判断一阶)。 十、自相关问题的处理方法1、迭代法设一元线性回归模型的误差项存在一阶自相关y 二 B + p x +8(1)t 0 1 t t2)E (p ) = 0, t = 1,2,nt3的相应观测值i 叭1- hii即判定为异常值,这简化了判断工作,但是没有解决方差不等的问题。学生化残差则 进一步解决了方差不等的问题,比标准化残差又有所改进。但是当观测数据中存在关 于y的异常观测值时,普通残差、标准化残差、学生化残差这三种残差都不再适用, 这是由于异常值把回归线拉向自身,使异常值本身的残差减少,而其余观测值的残差 增大,这时回归标准差or也会增大,因而用3准则不能正确分辨出异常值。解决这 个问题的方法是改用删除误差。删除误差的构造思想是:在计算第i个观测值的残差时,用删除掉这个第i个观测 值的其余n-1个观测值拟合回归方程,计算出第i个观测值的删除拟合值y,这个删(i)除拟合值与第i个值无关,不受第i个值是否为异常值的影响,定义第i个观测值的删 除残差为:e = y - y,删除残差e较普通残差更能如实反映第i个观测值的异常(i ) i (i )(i )性。可以证明,e =J,进一步可以给出第i个观测值的删除学生化残差,记为(i) 1- hiiSRE = SRE (一-P-2 )2 ,在实际应用当中,可以直接使用软件计算出删除(i)(i) n - p -1- SRE 2i学生化残差SRE的数值,| SRE |3的观测值即判定为异常值。(i )(i )2、关于自变量x的异常值有D(e ) = (1 - h )o 2,其中杠杆值h表示自变量的第i次观测值与自变量平均值之i ii ii 间的远近。较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能 够把回归方程拉向自身,因而把杠杆值大的样本点称为强影响点。强影响点并不一定是y值的异常值点,因而强影响点并不总会对回归方程造成不良 影响。但是强影响点对回归效果通常有较强的影响,这是由于一下两个原因:第一, 在实际问题中,因变量与自变量的线性关系只是在一定的范围内成立,强影响点原来 样本中心,因变量与自变量之间可能已不再是线性函数关系,因而在选择回归函数的 形式时,需侧重于强影响点;第二,即使线性回归形式成立,但是强影响点远离样本 中心,能够把回归方程拉向自身,使回归方程产生偏移。由于强影响点并不总是y的异常值点,所以不能单纯根据杠杆值的大小判断强影响 点是否异常,为此,引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为:D = i ii,库克距离反映了杠杆值h与残差e大(。(p + l)b 2 (1 h )2让1ii小的一个综合效应。杠杆值h的平均值为h = -Y h = 圧,一个杠杆值大于2倍或iin ii ni=1者3倍的h就认为是大的。中心化的杠杆值ch = h -丄,因此有中心化杠杆值ch的ii ii nii平均值是Ch = 1 ch =匕,对于库克聚类大小标准的初略判断是:D 1时,认为是异常值点。i诊断出异常值后,进一步判断引起异常值的原因,通常由以下几种。异常值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7模型选用错误,线性模型不适用改用非线性回归模型U5 自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有 m 个,由因变量 y 和 m 个 自变量构成的回归模型y = p + p x + P x + P x +8称为全模型。0 1 1 2 2 m m如果从可供选择的 m 个变量中选出 p 个,由选出的 p 个自变量组成的回归模型 y = P + P x + P x + P x +8 称为选模型。0 p 1 p 12 p 2 pp pp p二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误 用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的 影响。1、全模型正确而误用选模型的情况,性质1,在x与x , ,x的相关系数不全为0时,选模型回归系数的最小二乘估计 jp +1m是全模型相应参数的有偏估计,即E(P ) = P厘卩(j二1,2,p)jpjpj性质 2,选模型的预测是有偏的。性质 3,选模型的参数估计有较小的方差。性质 4,选模型的预测残差有较小的方差。性质 5,选模型的均方误差比全模型预测的方差更小。(用选模型去预测,可以提高 预测的精度)三、所有子集回归1、关于自变量选择的几个准则 准则一:自由度调整复决定系数达到最大。设R2 = 1 - n-1 (1 -R2)为自由度调整后的复决定系数,其中,n为样本容量, an p -1P为自变量的个数。所有回归子集中R2最大者对应的回归方程就是最优方程。a从另外一个角度考虑回归的拟合效果,回归误差项b 2的无偏估计为: 2 = 一1一SSE。用平均残差平方和&2和调整的复决定系数作为自变量选元准则实 际上是等价勺。因为有R2 = 1 口 2。 2小说明模型好,而& 2小R2就会大也说明 a SSTa模型好。准则二:赤池信息量AIC达到最小。设模型的似然函数为L(9 ,x),9的维数为p,x为随即样本,则AIC定义为: AIC=-2InL(9 ,x) +2p,其中为9的极大似然估计;p为未知参数的个数,选择使AIC LL 达到最小的模型是最优模型。在回归分析的建模过程中,对每一个回归子集计算 AIC, 其中AIC最小者所对应的模型是最优回归模型。准则三:C统计量达到最小p完整版学习资料分享即使全模型正确,仍有可能选模型有更小的预测误差,C正是根据这一原理提出 SSE 1 p来的。C = (n -m -1)p -n + 2p,其中b 2 = SSE为全模型中c 2的无偏估pSSEn - m -1m计。选择使C最小的自变量子集,这个自变量子集对应的回归方程就是最优回归方 p程。四、前进法 前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。在R中使用前进法做变量选择时,通常将初始模型设定为不包含任何变量,只含 有常数项的回归模型,此时回归模型的AIC统计量的值,不妨为Co。然后,将全部 m个自变量分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回 归方程的AIC统计量的值,选其中最小值记为:Cjl。因此,变量xj将首先被引人回 归模型,为了方便进一步地说明前进法,不妨将xj记作xl,此时回归方程对应的AIC 值记为C1。接下来,因变量y分别对(xl, x2), (xl, x3)(x1, xm)建立m-1个二元线 性回归方程,对这 m-1 个回归方程分别计算其 AIC 统计量的值,选其中最小值记为 Cj2则接着将变量xj引人回归模型,此时模型中包含的变量为X1和Xj.依上述方法接 着做下去,直至再次引人新变量时,所建立的新回归方程的AIC值不会更小,此时得 到的回归方程即为最终确定的方程。五、后退法后退法与前进法相反,通常先用全部 m 个变量建立一个回归方程,然后计算在 剔除任意一个变量后回归方程所对应的AIC统计量的值,选出最小的AIC值所对应 的需要剔除的变量,不妨记作X1;然后,建立剔除变量x1后因变量y对剩余m-I个变 量的回归方程,计算在该回归方程中再任意剔除一个变量后所得回归方程的AIC值, 选出最小的AIC值并确定应该剔除的变量;依此类推,直至回归方程中剩余的p个变 量中再任意剔除一个 AIC 值都会增加,此时已经没有可以继续剔除的自变量,因此 包含这p个变量的回归方程就是最终确定的方程。六、前进法和后退法的比较前进法的优点是能够将对因变量有影响的自变量按显著性一一选入,计算量小。 前进法的缺点是不能反映引进新变量后的变化,而且选入的变量就算不显著也不能删 除。后退法的优点是是能够将对因变量没有显著影响的自变量按不显著性一一剔除, 保留的自变量都是显著的。后退法的缺点是开始计算量大,当减少一个自变量时,它 再也没机会进入了。如果碰到自变量间有相关关系时,前进法和后退法所作的回归方 程均会出现不同程度的问题。七、逐步回归法逐步回归的基本思想是有进有出。step()函数的具体做法是在给定了包含p个变 量的初始模型后,计算初始模型的AIC值,并在此模型基础上分别剔除p个变量和添 加剩余m-p个变量中的任一变量后的AIC值,然后选择最小的AIC值决定是否添加 新变量或剔除已存在初始模型中的变量。如此反复进行,直至既不添加新变量也不剔 除模型中已有的变量时所对应的AIC值最小,即可停止计算,并返回最终结果。八、选择回归子集选择哪一个回归子集,用哪一个衡量准则要根据研究问题的目的来决定,回归模 型常用的三个方面是:结构分析,预测,控制。如果想通过回归模型去研究经济变量 之间的相关联系,即做结构分析,则在选元时可以考虑适当放宽选元标准,给回归方 程中保留较多的自变量,但这时需要注意回归系数的正负号,看它们是否符合经济意 义。如果希望回归方程简单明了,易于理解,则应该采用较严的选元标准。比如在逐 步回归选元中,给显著性水平 赋一个较小的值,就可使得回归方程中保留较少最 进重要最能说明问题的自变量。 如果建立回归方程的目的是为了用于控制,那么就应 采取能使回归参数的估计标准误差尽可能小的准则。如果建立回归方程的目的是用于 预测,就应该考虑使得预测的均方误差尽量小的准则,如C准则。U6 多重共线性的情形及其处理一、多重共线性对回归模型的影响设回归模型y =卩+卩x +卩x +卩x +8存在完全的多重共线性,即对设计矩0 1 1 2 2 p p阵X的列向量存在不全为零的一组数c ,c ,c,,c,使得:0 1 2 pc + c x + c x + c x = 0 ( i = 1,2,n).0 1 i 1 2 i 2p ip产生原因:采用时间序列数据样本;采用横截面数据 影响:1、完全共线性下参数估计量不存在;2、近似共线性下 OLS 估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功 能失效。二、多重共线性的诊断1、方差扩大因子法对自变量作中心标准化,则X : X * = (r )为自变量的相关阵,记ijC = (c ) = (X:X*)-1称其主对角线元素VIF = c为自变量x的方差扩大因子。ijj jjjvar(卩)=C Q2丄(j = 1,2,p),其中L为x的离差平方和。记R2为自变量x对 j力 力力 jjj1其余p-1个自变量的复决定系数,则有c =丄,该式子同样也可以作为方差扩大jj 1 R 2j因子VIF的定义。j由于R2度量了自变量x与其余p-1个自变量的线性相关程度,这种相关程度越 强,说明自变量之间的多重共线性越严重, R 2也就越接近于 1, VIF 也就越大。由Jj此可见VIF的大小反映了自变量之间是否存在多重共线性,因此可以由它来度量多重 共线性的严重程度。经验表明,当VIF 10时,就说明自变量x与其余自变量之间有 严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。也可以用 p 个自变量所对应的方差扩大因子的平均数来度量多重共线性,当 VIF = 1才VIF远远大于1时就表示存在严重的多重共线性问题。pj2、特征根判定法特征根分析:当矩阵XX有一个特征根近似为零时,设计矩阵X的列向量间必存在 多重共线性,并且XX有多少个特征根接近于零,X就有多少个多重共线性关系。条件数:(XX)=:纽,为矩阵XX的条件数。通常认为k100时,设计矩阵X 入min没有多重共线性;100k 1000时,则认完整版学习资料分享为存在严重的多重共线性。3、直观判定法(1)当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大 变化。(2)从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。(3)有些自变量的回归系数所带正负号与定性分析结果违背。(4)自变量的相关矩阵中,自变量间的相关系数较大。(5)些重要的自变量的回归系数的标准误差较大。三、消除共线性的方法1、删除一些不重要的解释变量在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线 性检验与自变量的经济含义结合起来考虑,以引进或剔除变量。2、增大样本容量例如,在建立二元回归模型时,假设数据都已经中心化,有var(3 )二iG 2(1 - r 2)L12 11,var(|3 )二2G 2(1 - r 2)L12 22其中 L =lLx 2 ,11i1i=1L12工x x ,i1 i 2i=1L可以看到,在r固定不变时,当12L =X x 2则x,x之间的相关系数r22i 21212i=1样本容量n增大时,L和L都会增大,两个方差均可减小,从而减弱了多重共线性11 22对回归方程的影响。但是,增加了样本数据,可能新的数据距离原来样本数据的平均 值较大,会产生一些新的问题,使模型拟合变差,没有达到增加样本数据期望的效果。3、回归系数的有偏估计为了消除多重共线性对回归模型的影响,还可以采取有偏估计为代价来提高估计 量稳定性的方法,如岭回归,主成份回归法,偏最小二乘法等。U7 岭回归分析一、岭回归的定义岭回归法是以引入偏误为代价减小参数估计量的方差是一种回归方法。当自变量 间存在多重共线性,| X X |沁0时,设想给XX加上一个正常数矩阵kI (k0)那么 XX + kI接近奇异的程度就会比XX接近奇异的程度小得多。考虑到变量的量纲问题, 先要对数据标准化,标准化后的设计矩阵仍用x表示,定义p(k)=( x X + ki)-i x y称 为0的岭回归估计,其中,k称为岭参数。由于假设X已经标准化,所以XX就是自 变量样本相关阵。y可以标准化也可以未标准化,如果y也经过标准化,那么计算的 实际是标准化岭回归估计。0(k)作为0的估计应比最小二乘估计0稳定,当k=0时 的岭回归估计0(0)就是普通的最小二乘估计。因为岭参数k不是唯一确定的,所以 得到的岭回归估计0(k)实际是回归参数0的一个估计族。二、岭回归估计的性质性质1, 0(k)是回归参数0的有偏估计。证明:E 0 (k) = E(X X + ki) -i X y) = (X X + ki) -1X E(y) = (X X + ki)-1X X0 显然只有 当k=0时,E 0 (0) = 0 ;当艮丰0时,0 (k)是0的有偏估计。性质2,在认为岭参数k是与y无关的常数时,0(k) = (XX + ki)-iXy是最小二乘估计0 的一个线性变换。也是 y 的线性函数。证明:0 (k) = (X X + ki)-1X y = (X X + ki)-1X X (X X)-i X y = (X X + ki) -1X X0性质3,对任意k0,卩卜0,总有10(k)|0,使得MSE0(k) MSE(0)。三、岭参数k的选择岭参数选择的目的是要选择使MSE( 0(k)达到最小的k,最优k值依赖于未知参数0和 2。1、岭迹法岭迹法的直观考虑是,如果最小二乘估计看来有不合理之外,如估计值以及正负 号不符合经济意义,希望能通过采用适当的岭估计0(k)来加以一定程度的改善,岭参 数k值的选择就是尤为重要。选择k值的一般原则是:(1) 各回归系数的岭估计基本稳定;(2) 用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理。(3) 回归系数没有不合乎经济意义的绝对值;(4) 残差平方和增大不太多。2、方差扩大因子法=m巩(XX +紗尸X上(X X +紗尸X y)WX + *7尸 Xcw(y.y)X(X X + W 尸+ kiy1 XX(X X +应用方差扩大因子法选择k的经验做法是:选择k使所有方差扩大因子c 10,入jj当c 10时,所对应的k值的岭估计0(k)就会相对稳定。jj3、由残差平方和来确定k值岭估计0(k)在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平 方和SSE(k)的增加幅度控制在一定的限度以内,从而可以给定一个大于1的c值,要 求SSE(k) cSSE,寻找使该式成立的最大的k值。四、用岭回归选择变量岭回归选择变量的原则:1、在岭回归的计算中,假定设计矩阵X已经中心化和标准化了,这样可以直接 比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小 的自变量。2、当k值较小时,标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k 的增加迅速趋于零,像这样岭回归系数不稳定,震动趋于零的自变量可以予以剔除。3、去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定, 究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进 行岭回归分析的效果来确定。U9 非线性回归一、可化为线性回归的曲线回归可线性化的曲线回归模型称为本质线性回归模型,不可线性化的曲线回归模型称 为本质非线性回归模型。乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型 认为y本身是异方差的,而lny是等方差的。加性误差项模型认为y是等方差的。从 t t t 统计性质看两者的差异,前者淡化了y值大的项(近期数据)的作用,强化了y值小 tt 的项(早期数据)的作用,对早起数据拟合得效果较好,而后者则对近期数据拟合得 效果较好。影响模型拟合效果的统计性质主要是异方差、自相关和共线性这三个方面。异方 差可以同构选择乘性误差项模型和加性误差项模型解决,必要时还可以使用加权最小 二乘。二、多项式回归多项式回归模型是一种重要的曲线回归模型,这种模型通常容易转化为一般的多 元线性回归来做处理。1、常见的多项式回归模型回归模型y =卩+卩x +卩x2 +8称为一元二阶多项式模型。通常将回归模型中i 0 1 i 2 i i的系数表示成:y =卩+卩x +卩x2 +8 ,回归函数y =卩+卩x +卩X2是一条抛物线i 0 1 i 11 i i i 0 1 i 11 i方程,通常称为二项式回归函数。回归系数P为线性效应系数,P为二次效应系数。1 11当自变量的幂次超过3 时,回归系数的解释变得困难起来,回归函数也变得很不 稳定,对回归模型的应用会收到影响。因而,幂次超过 3 的多项式回归模型不常使用。 在实际应用当中, 常遇到含两个或两个以上自变量的情况, 称回归模型: y =卩+卩x +卩x2 +卩x +卩x2 +卩x x +8为二元二阶多项式回归模型。它的i 01 i111 i12i 222i 212i1i2 i回归系数中分别含有两个自变量的线性项系数P和0 ,二次项系数P和0 ,并含1 2 11 22有交叉乘积项系数0,交叉乘积项表示x与x的交互作用,系数0通常称为交互影12 1 2 12 响系数。三、非线性模型在非线性回归中,平方和分解式SST=SSR+SSE不在成立,类似于线性回归中的复 决定系数,定义非线性回归的相关指数:R2=1-SSE/SST用非线性最小二乘法求解非线性回归方程,非线性最小二乘是使残差平方和达到 最小,这种平方损失函数的优点是数学性质好 ,在一定条件下具有统计学的一些优良 性质,但其最大的缺点是缺乏稳健性。当数据存在异常值时,参数的估计效果变得很 差。因而在一些场合,可以用一些更稳健的残差损失函数代替平方和损失函数,例如 绝对值损失函数。绝对值残差损失函数为:Q(9) = |y - f (x ,9)|有时候用最小绝对ii值法的最大残差比普通最小二乘法的最大残差更大尸这是否与最小绝对值法的稳健性 相矛盾?其实这正说明了最小绝对值法的稳健性。这是因为最小绝对值法受异常值的 影响程度小,回归线向异常值靠拢的程度也小,因而异常值的残差反而大。四、非线性回归的一些问题根据实际观测数据配以合适的曲线模型一般有两个重要的步骤。 一是确定曲线类型。对一个自变量的情况,确定曲线类型一般是把样本观测值画 成散点图,由散点图的形状来大体确定曲线类型。再就是根据专业知识来确定曲线类 型,如商品的销售量与广告费之间的关系,一般用 S 形曲线来描述;在农业生产中, 粮食的产量与种植密度之间的关系往往服从抛物线关系。对于由专业知识可以确定的 曲线类型,就用相应的模型去试着拟合,如果拟合的效果可以,问题就解决了。二是参数估计问题。如果可将曲线模型转化为线性模型,就可用普通最小二乘法 去估计未知参数,如果不能用某种变换把它转化成线性模型,则参数的估计就要用非 线性最小二乘法进行。非线性最小二乘法比普通最小二乘法要复杂得多,一般都是用 迭代方法。由于任一连续函数都可用分段多项式来逼近,所以在实际问题中,不论变量y与 其他变量的关系如何,在相当宽的范围内总可以用多项式来拟合。例如在一元回归关 系中,如果变量y与x的关系可以假定为p次多项式,就可以转化为多元线性回归模 型来处理。利用多项式回归模型可能会把已有的数据拟合得十分漂亮,但是,如果对 较大的 x 作外推预测,这种多项式回归函数就可能会得到很差的结果,预测值可能会 朝着意想不到的方向转折,可能会与实际情况严重不符。所有类型的多项式回归函数, 尤其是高阶多项式回归都具有外推风险。特别的,对于一元回归,只要用一元n -1次 多项式就可以把n对数据完全拟合,多项式曲线通过所有n-1个点,残差平方和为零, 但是这种的回归拟合却没有任何实际意义。因此,必须谨慎地使用高阶多项式回归模 型,因为得到的回归函数只是数据的良好拟合,而并不能如实地表明x与y之间回归 关系的基本特征,并会导致不规则的外推。所以在应用多项式回归时,阶数一般不要 超过三阶。一般地说,当非线性回归模型选择正确,回归拟合效果好时,相关指数R 2能够如 实反映回归拟合效果;而当回归拟合效果差时,相关指数R2则不能够如实反映回归 拟合效果,甚至可能取为负值。U10 含定性变量的回归模型一、自变量中含有定性变量的回归模型在回归分析中,对一些自变量是定性变量的情形先量化处理,引入只取0和 1 两 个值的虚拟自变量。一个定性变量有k类可能的取值时,只需要引入k-1个0-1型自 变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意 义,它仅仅用来说明观察单位的性质或属性。二、自变量中含有定性变量的回归模型的应用1、分段回归在实际问题中,会碰到某些变量在不同的影响因素范围内变化趋势截然不同。对 于这种问题,有时用多种曲线拟合效果仍不能令人满意。如果做残差分析,会发现残 差不是随机的,而具有一定的系统性。2、回归系数相等的检验三、因变量是定性变量的回归模型1、定性因变量的回归方程的意义设y是只取0, 1的定性变量,考虑简单线性回归模型y+P x +s ,在这种yi 0 1 i i只取0, 1的情况下,因变量均值E(y ) = B +p x有着特殊的意义。由于y是0-1型贝i 0 1 i i努力随机变量,则得如下概率分布P(y = 1)二兀,根据离散型随机变量期望的定义,ii可得E (y )二兀二B +P x,所以,作为由回归函数给定的因变量均值E (y )二B +P xi i 0 1 i i 0 1 i 是由自变量水平为x时y的概率。对因变量均值的这种解释既适应于这里的简单线性 ii回归函数,也适用于复杂的多元回归函数。当因变量是 0,1 时,因变量均值总是代 表给定自变量时 y=1 的概率。2、定性因变量回归的特殊问题(1) 离散非正态误差项对一个取值为0和1的因变量,误差项8 = y - B - B x只能取两个值:当y = 1i i 0 1 i i时,8 = 1B B x = 1 兀当y = 0时,8 = B B x二兀 显然,误差项8是i 0 1 i i i i 0 1 i i i 两点型离散分布,当然正态误差回归模型的假定就不适用了。(2) 零均值异方差当因变量是定性变量时,误差项8 仍然保持零均值,这时出现的另一个问题是误i差项8的方差不相等。0-1型随机变量8的方差为:D(8 )二D( y )i i i i =兀(1-兀)=(B + B x )(1 B B x),可以看到8的方差依赖于x,是异方差,不满 i i 0 1 i 0 1 i i i 足线性回归方程的基本假定,最小二乘估计的效果也就不会好。(3) 回归方程的限制当因变量为 0,1 虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下 限制:0 E(y )=兀p。如果*二p 对模型的参数估计会带来很严重的影响。因为:1. 在多元线性回归模型中,有p+1个待估参数B,所以样本容量的个数应该大于解 释变量的个数,否则参数无法估计。2. 解释变量X是确定性变量,要求rank(X)= p +1 n,表明设计矩阵X中的自变量 列之间不相关,即矩阵X是一个满秩矩阵。若rank(X) P+1,则解释变量之间 线性相关,(XX)T是奇异阵,则卩的估计不稳定。33证明Q 2 = SSE (n - p -1)随机误差项的方差62的无偏估计。 6 2 = 1 SSE = 1 (ee) = 1 Ye 2,n - p -1n - p -1n - p -1 ii=1:.E(工e2)=工D(e )=工62(1-h ) =62工(1-h ) =62(n-工h ) =62(n-p-1)iiiiiiiii=1i=1i=1i=1i=1E(62)=1E(He2) =62n - p -1 i34 一个回归方程的复相关系数R=099,样本决定系数R2=0.9801,我们能判断这个 回归方程就很理想吗?答:不能断定这个回归方程理想。因为:1. 在样本容量较少,变量个数较大时,决定系数的值容易接近 1,而此时可能 F 检 验或者关于回归系数的 t 检验,所建立的回归方程都没能通过。2. 样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,.,Xp整体上的 线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F检验和 t 检验。3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定 使得自由度减少,使得 R2 往往增大,因此增加解释变量(尤其是不显著的解释 变量)个数引起的 R2 的增大与拟合好坏无关。第 4章 违背基本假设的情况4.1 试举例说明产生异方差的原因。答:例 4.1:截面资料下研究居民家庭的储蓄行为Yi=0+1Xi+ e i其中:Yi表示第i个家庭的储蓄额,Xj表示第/个家庭的可支配收入。由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小, 所以 i的方差呈现单调递增型变化。例 4.2:以某一行业的企业为样本建立企业生产函数模型Yi=Aib1 Kib2 Lib3e i被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外 部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出 量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项的方差并不 随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。4.2 异方差带来的后果有哪些?答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1 、参数估计量非有效2、变量的显著性检验失去意义3、回归方程的应用效果极不理想总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y 的预测误差变大,降低预测精度,预测功能失效。4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项 的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下, 普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平 方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就 偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项 的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计, 但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对 较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以 提高参数估计的精度。4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的 类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数w,以调整i各项在平方和中的作用,加权最小二乘的离差平方和为:Q (卩,卩,卩)= w (y -卩-卩x 卩x )2(2)w 0 1pi i01 i1p ipi=1加权最小二乘估计就是寻找参数卩,卩,,卩的估计值0 ,0,,0使式(2)的离 0 1p0 w 1wpw差平方和Q达极
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!