一元线性回归课件

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,一元线性回归,第二章一元线性回归模型, 2.1 回归分析概述, 2.2 一元线性回归模型的参数估计, 2.3 一元线性回归模型的统计检验, 2.4 一元线性回归模型的应用：预测, 2.5 实例：时间序列问题,2.1 回归分析概述,一、回归分析的基本概念,二、总体回归函数,三、随机干扰项,四、样本回归函数,一、回归分析的基本概念,最早由高尔顿引入,给定父母的身高，儿女辈的平均身高趋向于全体人口的平均身高,研究一个变量关于另一个（些）变量的依赖关系的方法和理论，目的在于通过后者的已知或设定值，去估计和（或）预测前者的（总体）均值,1、变量间的相互关系,（1）,函数关系,：确定性现象的变量之间的关系，变量不具有随机性,如：,（2）,统计相关关系,：非确定性现象的变量之间的关系，涉及随机变量,如：,变量间的,相关关系,的可以通过,相关分析,(correlation analysis),或,回归分析,(regression analysis),来研究,相关分析主要研究随机变量间的,相关形式,与,相关程度,正相关,线性相关,不相关,负相关,正相关,非线性相关,不相关,负相关, 线性,相关程度：,相关系数, 测度,线性相关, 两个变量：单相关系数, 多个变量：复相关系数,偏相关系数,相关并不意味着因果关系,2、相关分析与回归分析,相关形式,具有相关关系的变量间有时存在,因果关系,，这时可以通过回归分析研究其间的具体依存关系,回归分析,(regression analysis),是研究一个变量关于另一个（些）变量的,具体依赖关系,的计算方法和理论。,前一个变量（结果变量）称为,被解释变量,（,Explained Variable,）或,因变量,（,Dependent Variable,），记为,Y,；,后一个（些）变量（原因变量）称为,解释变量,（,Explanatory Variable,）或,自变量,（,Independent Variable,），记为,X,i,。,具体依赖关系体现为,Y,和,X,的一个关系式：,Y,f(Xi,）,。其目的在于：通过解释变量,Xi,的已知或设定值，去估计和,(,或,),预测被解释变量,Y,的（总体）均值。,回归分析是经典计量经济学的主要分析方法,主要内容包括：,根据样本观察值对计量经济学模型参数进行估计，求得回归方程；,对回归方程、参数估计值进行显著性检验,利用回归方程进行分析、评价及预测,3、回归分析构成计量经济学的方法论基础,二者都是研究相关关系的方法，并能测度线性依赖程度的大小。,相关分析是回归分析的基础。,相关分析中变量的地位是,对称,的，而回归分析中变量是,不对称,的，具有被解释变量和解释变量之分。,相关分析中变量都可以是,随机,的；而回归分析中，被解释变量是,随机,的，而解释变量往往被看成是,非随机,的。,相关分析只关注变量的间的相关程度，不关注具体依赖关系；而回归分析更加关注这一,具体依赖关系,，因而可以通过解释变量的变化来估计和预测被解释变量的变化。,A1：相关分析和回归分析的联系区别,虽然回归分析通常用于研究具有因果关系的变量之间的具体依赖关系，但是回归关系式本身并不一定意味着因果关系,“一个统计关系式，不管多强也不管多么有启发性，却永远不能确立因果方面的联系；对因果关系的理念，必须来自于统计学以外，最终来自这种或那种理论” ,Kendall & Stuart,回归分析本身实质上只是一种数据分析方法和手段，而非确定因果的逻辑基础或理论,A2：回归分析与因果关系,二、总体回归函数,（population regression function，PRF）,描述总体中解释变量,X,和被解释变量,Y,的平均值,E(Y),之间的变化规律的关系式：,E(Y),f,（,X,i,）,回归分析关注的核心,【例2.1】假定,一个待研究的经济,总体,仅包括100户家庭，考察,家庭月消费支出Y,与,家庭月可支配收入X,的关系。,（1）对,同一,收入水平,X,，不同家庭的消费支出,Y不完全相同,，说明在给定X的情况下，Y取值的不定性,随机性,（2）随着X的增加，Y“平均地”也在增加,统计规律性,直观观察,：,（3）由于调查的完备性，我们可以计算给定收入水平X的条件下，消费支出Y的,总体（条件）均值,，如：,E(Y=|X=800）=605,。,这里Y的均值是在给定X的条件下计算的，称之为,条件均值（conditional mean）,或,条件期望（conditional expectation）,：E(Y|X=X,i,),进一步的分析,：,表,2.1.2,各收入水平组相应家庭消费支出的条件概率与各组家庭消费支出的条件均值,收入水平,800,1100,1400,1700,2000,2300,2600,2900,3200,3500,条件概率,1/4,1/6,1/11,1/13,1/13,1/14,1/13,1/10,1/9,1/6,条件均值,605,825,1045,1265,1485,1705,1925,2145,2365,2585,0,500,1000,1500,2000,2500,3000,3500,500,1000,1500,2000,2500,3000,3500,4000,每月可支配收入,X,（元）,每,月,消,费,支,出,Y,（元）,（4）描出散点图发现：,随着收入X的增加,，消费“平均地说”也在增加，且,Y的条件均值均落在一条正斜率的直线上,。这条线，我们称为,总体回归线,（population regression line，PRL）, 在几何意义上，给定解释变量,X,i,条件下，被解释变量,Y,i,的条件均值或期望的轨迹称为,总体回归线（population regression line），,或更一般地称为,总体回归曲线（population regression curve）,。,称为（双变量）,总体回归函数（population regression function, PRF）,或,总体回归方程（Equation）,。,在代数意义上，与总体回归线相应的函数：,PRF的定义,：,其具体函数形式由所考察总体固有的特征决定，基于总体的无法全部可观察性，总体回归函数形式的选择是一个经验的问题，经济理论在这一选择过程中具有基础性地位。,从数学角度而言，这一函数在形式上,可以是,线性或非线性的,。,例2.1,中，,居民消费支出可看成是其可支配收入的线性函数:,称为,线性总体回归函数,。,其中，,0,，,1,是,未知参数,，称为,回归系数,（,regression coefficients,）。,总体回归函数（,PRF,）表明了被解释变量,Y,的,平均状态,（总体条件期望）随解释变量,X,变化的规律,对变量为线性,解释变量以一次方的形式出现,从几何上看，此时总体回归线是一条直线,A1：“线性”的含义,对参数为线性,回归系数以一次方的形式出现,从几何上看，此时总体回归线并不一定是直线,三、总体回归模型与随机干扰项,（ population regression model，PRM & stochastic disturbance/error）,描述总体中解释变量,X,和被解释变量,Y,的个体值,Y,i,之间的变化规律：,Y,i,f,（,X,i,）,i,总体回归函数说明在给定的收入水平,X,i,下，该社区家庭,平均的,消费支出水平,E(Y|X,i,）,。,但对某一个别的家庭，其消费支出,Y,i,可能与该平均水平有偏差。,称,i,为观察值,Y,i,围绕它的期望值,E(,Y,|,X,i,),的,离差（deviation）,，是一个,不可观测,的随机变量，又称为,随机干扰项（stochastic disturbance）,或,随机误差项（stochastic error）,。,记,1、随机干扰项的出现,2、总体回归模型（PRM）,借助于随机干扰项，个别家庭的消费支出可表达为：,称为,总体回归函数的随机设定形式，,也称为,总体回归模型（PRM）,。,总体回归模型表明：从,总体中的个体层次,看，被解释变量,Y,i,除了受解释变量的系统性影响（,E(Y|X),）外，还受其它因素的随机性影响,i,是这些因素的综合代表。,随机误差项主要包括下列因素的影响：,1）在解释变量中被忽略或未知因素的影响；,2）变量观测值的观测误差的影响；,3）模型关系的设定误差的影响；,4）众多细小的影响因素；,5）变量的内在随机性,1,）理论的含糊性；,2,）数据的欠缺；,3,）节省原则。,3、随机干扰项的内容和原因,产生随机误差项的原因：,四、样本回归函数,（sample regression function，SRF）,描述样本中解释变量,X,和被解释变量,Y,的之间的平均变化规律：,Y,i,f,（,X,i,）,问题：能否从样本估计总体回归函数？,例2.2：,从例2.1的总体中获得如下一个样本：,总体的信息往往无法掌握，因此,PRF,实际上,未知,现实的情况只能是在一次观测中得到总体的一个样本，通过样本的信息来,估计,总体回归函数。,1、样本回归函数（SRF）,做该样本的,散点图,样本散点图近似于一条直线，这与总体中体现的X和Y的关系是一致的。,画一条直线以尽可能地拟合该散点图，由于样本取自总体，可用该线近似地代表总体回归线。,该线称为,样本回归线（sample regression lines）,。,记样本回归线的函数形式为：,称为,样本回归函数,（,sample regression function,，,SRF,）。,2、 SRF与PRF的关系,样本回归函数（,SRF,）是总体回归函数（,PRF,）的,近似替代（估计）,。,样本回归函数,总体回归函数,关系,样本回归函数（,SRF,）描述了样本所展示的,X,和,Y,之间的,平均变化联系,，这一联系与总体中的联系具有内在一致性。,同样地，引入,e,i,后，样本回归函数也有如下的,随机形式,：,称为,样本回归模型（sample regression model），,描述了样本中，,从个体层次看,，解释变量X与被解释变量Y之间的联系。,基于样本回归函数所得到的,i,与实际观测的,Y,i,之间同样存在着误差，记为,e,i,，有：,e,i,称为（样本）,残差项,或,剩余项（,residual,）,，代表了其它影响,Y,i,的随机因素的集合,3、样本回归模型（SRM）,4、残差e与误差,残差e,反映了实际观测值与其估计值之间的差异。直观上，e是实际观测值与,样本回归直线,上的对应值的距离。,在获得了样本回归函数后，利用,i,可以得到,e,的具体值,概念上，e与误差项相对应，可以看作是的估计,。,误差,反映了,Y,的实际观测值与其总体平均值之间的差异，直观上是实际观测值与,总体回归直线,上的相应值的距离。,由于总体均值的未知性，,具有,不可观测性,。,x,(,x,i,y,i,),i,y,(,x,2,y,2,),总体回归方程,残差,样本回归方程,误差,5、回归分析的目的,获得,一个优良的,样本回归函数,SRF,，,作为,总体回归函数,PRF,的估计，描述X和Y之间的变化规律。,这就要求,：寻求好的方法，构造尽可能好的SRF,换言之，构造PRF中未知参数的,优良估计量,2.2 一元线性回归模型的参数估计,一、基本假设,二、普通最小二乘估计,三、最大似然估计,四、最小二乘估计的性质,五、参数估计量的概率分布及随机干扰项方差的估计,一元线性回归模型的基本形式,最简单的回归模型：线性模型，只有一个解释变量,X,i=1,2,N,Y,为被解释变量，,X,为解释变量，,i,代表样本点,0,与,1,为,回归系数，,是,未知常数，待估计,为,随机干扰项,“线性”的含义：,Y,和,X,之间呈线性,Y,和,之间呈线性,一、基本假设,保障普通最小二乘法（OLS）适用的基本条件,1、基本假设的提出,回归分析的主要目的是要通过样本回归函数（模型）,SRF,尽可能准确,地估计总体回归函数（模型）,PRF,。,估计方法有多种，其种最广泛使用的是,普通最小二乘法,（,ordinary least squares, OLS,）。,为保证参数估计量具有良好的性质，通常对模型提出若干基本假设。,严格而言,，,这些基本假设并非针对模型的，而是针对普通最小二乘法的,寻求恰当的估计方法，使,是,i,的,优良,估计量,参数估计,2、基本假设的内容,假设1,：解释变量X是确定性变量，不是随机变量；,假设2,：随机误差项,具有零均值、同方差和不序列相关性：,E(,i,)=0 i=1,2,N,Var (,i,)=,2,i=1,2,N,Cov(,i,j,)=0 ij i,j= 1,2,N,假设3,：随机误差项,与解释变量X之间不相关：,Cov(X,i,i,)=0 i=1,2,N,假设4,：,服从零均值、同方差、零协方差的正态分布,i,N(0, ,2,) i=1,2,N,3、基本假设的意义,假设1,：模型中只有,是随机变量，从而Y是与,具有类似性质的随机变量,假设2,：,E(,i,)=0,E(Y,i,),0,1,X,i,Var(,i,)=,2,1）各样本点上，误差项的分布离散程度是相同的,2）,Y,i,与,i,具有相同的方差：,var(Y,i,)=,2,Cov(,I,j,)=0,1）各样本点上，随机因素是相互独立的,2）,Y,i, Y,j,也相互独立：,cov(Y,i,Y,j,)=0,假设3,：解释变量,X,和随机误差项,对,Y,的影响是完全独立的,假设4,：1）参数估计并不需要，但假设检验和预测需要,2）,Y,i,与,i,具有相同的分布，只是均值不同,4、暗含假设,假设5,：随着样本容量的无限增加，解释变量X的样本方差趋于一有限常数。即,假设6,：回归模型是正确设定的,假设,5,旨在排除时间序列数据出现持续上升或下降的变量作为解释变量，因为这类数据不仅使大样本统计推断变得无效，而且往往产生所谓的,伪回归问题（,spurious regression problem,）,。,假设,6,也被称为模型没有,设定偏误（,specification error,）,二、普通最小二乘估计（OLSE）,最基本和常用的估计方法,估计值与实际观测值的误差平方和最小,给定一组样本观测值,（X,i, Y,i,）,（i=1,2,n）要求样本回归函数尽可能好地拟合这组值。,样本回归线上的点与真实观测值的“总体误差”尽可能小，即被解释变量的估计值与真实观测值,总体上最为接近,。,普通最小二乘法（,Ordinary least squares, OLS,）,给出的判断标准是：二者之差的,平方和最小,1、最小二乘原理,2、最小二乘估计（OLSE）,正规方程组,（normal equations）,OLSE的离差形式,记,上述参数估计量可以写成：,称为OLS估计量的,离差形式（deviation form）,。,将（2.2.5）式看成,的一个表达式，则称,为“,估计量,”（estimator）。,利用具体样本资料，可以计算得到,的具体数值，这些值称为“,估计值,”（estimated value）。,从估计量的角度看，,是随机变量,，其取值依赖于具体的样本资料,估计量（estimator）和估计值（estimated value）,三、最大似然估计（MLE）,1、最大似然法的基本原理,最大似然法,（,Maximum Likelihood，ML,），也称最大或然法，是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。,更本质地揭示出通过样本估计总体参数的内在机理,基本原理,：,当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。,样本,X1,X2,.,Xn,总体1,总体k,总体2,联合概率P1,联合概率P2,联合概率,联合概率Pk,n个样本观测值同时出现的概率，体现为n个样本观测值的,联合概率,。,这一联合概率与总体参数有关，由其联合概率函数表达,样本观测值的联合概率函数称为变量的,似然函数,所以，,最大似然法是一种通过让似然函数极大化以求得参数估计量的方法,2、似然函数（Likelihood function）,在满足基本假设条件下，对一元线性回归模型，随机抽取,n,组样本观测值,（,X,i, Y,i,）（,i=1,2,n,）。,那么,Y,i,服从如下的正态分布：,于是，Y的,概率函数,为:,假如模型的参数估计量已经求得，为,因为Y,i,是相互独立的，所以，所有样本观测值的联合概率，也即,似然函数,为：,3、对数似然函数,将该似然函数极大化，即可求得到模型参数的极大似然估计量。,似然函数的极大化与似然函数的对数的极大化是等价的,4、最大似然估计（MLE）,解得模型的参数估计量为：,可见，在满足一系列基本假设的情况下，模型参数的,最大似然估计量（MLE）,与,普通最小二乘估计量（OLSE）,是相同的。,# 参数估计实例（计算过程）,例2.2.1,：在上述家庭可支配收入-消费支出例中，对于所抽出的一组样本数，参数估计的计算可通过下面的表进行。,X,Y,X,2,X*Y,1,800,594,640000,475200,2,1100,638,1210000,701800,3,1400,1122,1960000,1570800,4,1700,1155,2890000,1963500,5,2000,1408,4000000,2816000,6,2300,1595,5290000,3668500,7,2600,1969,6760000,5119400,8,2900,2078,8410000,6026200,9,3200,2585,10240000,8272000,10,3500,2530,12250000,8855000,求和,21500,15674,53650000,39468400,平均,2150,1567.4,因此，由该样本估计的回归方程为：,四、最小二乘估计量的性质,估计量是随机变量,满足基本假设的前提下，是最佳线性无偏估计量,1、判断估计量优劣的准则,一个用于考察总体的估计量，可从如下几个方面考察其优劣性,（,1,）,线性性,：它是否是另一随机变量的线性函数；,（,2,）,无偏性,：它的期望值是否等于总体的真实值；,（,3,）,有效性,：它是否在所有线性无偏估计量中具有最小方差。,（,4,）,渐进无偏性,：样本容量趋于无穷时，均值序列趋于总体真值,（,5,）,一致性,：样本容量区域无穷时，依概率收敛于总体真值,（,6,）,渐进有效性,：样本容量趋于无穷时，在所有的一致估计量中具有最小的渐进方差,当模型参数估计出后，需考虑参数估计值的精度，即是否能代表总体参数的真值，或者说需考察参数估计量的统计性质。,前三个准则称作估计量的,小样本性质,，不以样本大小而改变,拥有这类性质的估计量称为,最佳线性无偏估计量（,best linear unbiased estimator, BLUE,）。,后三个准则称为估计量的,大样本性质或渐进性质,如果小样本下不能满足估计的准则，则应考察参数估计量的大样本性质,2、OLSE的性质,高斯马尔可夫定理(Gauss-Markov theorem),在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量。,线,性,函,数,易知:,故:,由前:,（2）证明最小方差性,其中，,c,i,=,k,i,+,d,i,，,d,i,为不全为零的常数,则容易证明,五、参数估计量的概率分布及随机干扰项方差的估计,估计量是随机变量,满足基本假设的前提下，服从正态分布,1、参数估计量的概率分布,由于随机项,i,不可观测，只能从,i,的估计,残差,e,i,出发，对总体方差进行估计。,2,又称为总体方差,。,可以证明：,2,的,最小二乘估计量,为：,它是关于,2,的,无偏,估计量，即：,2、随机干扰项方差的估计,#,2,的最大似然估计,因此，,2,的最大似然估计量与最小二乘估计量,不同,从而，,2,的MLE,不具有无偏性,，但却具有,一致性,。, 回归估计的标准误（Standard Error of Regression）,随机误差项方差的估计量的平方根，称为,估计标准误差,或者,回归标准误差,，记为,S.E,S.E,反映了,被解释变量的实际值与估计值的,平均误差程度,，,S.E,越大，则回归直线的精度越低。,实际计算中，误差方差的估计可以采用如下公式计算,3、OLSE的样本方差与标准差,2.3 一元线性回归模型的统计检验,一、拟合优度检验,二、方程的显著性检验,三、变量的显著性检验,四、参数的置信区间,模型检验的必要性,回归分析是通过样本所估计的参数来代替总体的真实参数，或者说是用样本回归线代替总体回归线。不可避免地，这种估计存在着误差。,因此，尽管从,统计性质,上看，参数估计量具有,良好,的性质。即：如果有足够多的重复抽样，参数的估计值的期望（均值）就等于其总体的参数真值。,但是在一次抽样中，估计值不一定就等于该真值,。,那么，在,一次抽样中,，参数的估计值与真值的,差异,有多大，是否显著，这就需要进一步进行,统计检验,。,主要包括,拟合优度检验,、,变量的显著性检验,、,方程的显著性检验,、参数的区间估计。,一、拟合优度检验,SRF,对样本观测值的拟合程度,实质上可理解为对拟合优度的测定,1、拟合优度（Goodness of Fit）的含义,拟合优度,：SRF对样本观测值的拟合程度，即样本回归直线与观测散点之间的紧密程度,问题：采用普通最小二乘估计方法，已经保证了SRF最好地拟合了样本观测值，为什么还要检验拟合程度？,测度指标,：,判定系数（可决系数）,R,2,。,这是一个基于总离差分解基础之上的指标,答案,：定量测定的需要,相互比较的需要,2、总离差平方和的分解,对于,一个,实际观测值,Y,i,，定义,总离差,：,引入回归直线后，总离差可以分解为：,可以理解为：采用均值“,估计,”实际值时的“,总误差,”,离差分解示意图,对于,所有,样本点，定义如下,离差平方和,(Sum Square),：,总离差平方和,（样本观测值总体离差大小）,回归离差平方和,（SRF所能解释的离差大小）,残差平方和,（SRF无法解释的离差大小）,可以证明：,TSS=ESS+RSS,Y,的观测值围绕其均值的总离差,(total variation),可分解为两部分：一部分来自回归线,(ESS),，,另一部分则来自随机势力,(RSS),。,显然，在给定样本中，,TSS,不变，因此，如果样本回归线离实际观测点越近，即回归直线的拟合程度越好，则体现为,ESS,在,TSS,中占的比重越大,所以可用,回归平方和,ESS,占总离差平方和,TSS,的比例来判断回归线与样本观测值的拟合程度,3、可决系数,R,2,称,R,2,为（样本）,可决系数/判定系数,（coefficient of determination)。,【1】,可决系数,的取值范围：,0，1,。R,2,越大，拟合程度越好。,问题： R,2,多大才算好？,【2】,可决系数,是一个样本统计量。它也是随着抽样的不同而不同。为此，对可决系数的统计可靠性也应进行检验。,【3】对模型好坏的判断不能仅仅依据这一指标。,答案：没有绝对标准。,时间序列数据：0.8、0.9很常见。,横截面数据：0.4、0.5不算低,# 可决系数的计算方法1,在例2.2.1的,收入-消费支出,例中，,# 可决系数的计算方法2,计算,TSS,：,计算,RSS,：,X,Y,X,2,X*Y,Y,2,1,800,594,640000,475200,352836,2,1100,638,1210000,701800,407044,3,1400,1122,1960000,1570800,1258884,4,1700,1155,2890000,1963500,1334025,求和,21500,15674,53650000,39468400,29157448,平均,2150,1567.4,二、方程的显著性检验,考察,Y,与,所有,X,之间的线性关系在,总体上,是否显著成立,采用右侧,F,检验,1、方程显著性检验的含义,拟合优度检验对于模型总体线性关系的成立给出了一个模糊的推测，但还需要统计上严格的结论,方程的显著性检验,，旨在对模型中被解释变量与,全部,解释变量之间的线性关系在,总体上,是否显著成立作出推断。,所用的方法是数理统计中的,假设检验,。,建立原假设,和,备择假设,计算检验,统计量的,值,比较临界值,比较P值,拒绝或者,接受,原假设,方程显著性检验即是检验模型,Y,i,=,0,+,1,X,1i,+,2,X,2i,+ +,k,X,ki,+,i,i=1,2,n,中的参数,j,是否,至少,有,一个显著不为,0,。,可提出如下原假设与备择假设：,H,0,：,1,2, ,k,0,H,1,：,j,不全为0（j1,2,k),2、方程显著性检验原假设和备择假设,特别地，对于一元线性回归模型（,k1,）：,Y,i,=,0,+,1,X,i,+,，,方程显著性检验的原假设和备择假设为：,H,0,：,1,0,H,1,：,1,0,F,检验的思想,来自于总离差平方和的分解式：,TSS=ESS+RSS,回归平方和,ESS,是解释变量,X,的联合体对被解释变量,Y,的线性作用的结果，考虑比值：,如果这个比值,较大,，则,X,的联合体对,Y,的解释程度高，可认为总体存在线性关系，反之总体上可能不存在线性关系。,因此,可通过该比值的大小对总体线性关系进行推断,。,可以证明，在,原假设,H,0,成立,的条件下，统计量,服从自由度为(,k,n,-,k,-1)的,F,分布,3、方程显著性检验检验统计量,特别地，对于一元线性回归模型:,k1,Y=,0,+,1,X+,，,方程显著性检验的,F检验统计量,为,4、方程显著性检验完整步骤,【1】提出原假设和备择假设：,H,0,：,1,0,H,1,：,1,0,【2】在,H,0,成立的条件下，计算检验统计量的值：,【3】给定显著性水平,，检验临界值：,F,(,1,n-2,),【4】如果,F,F,(,1,n-2,),，,拒绝,原假设，即总体线性关系,成立,如果,F,F,(,1,n-2,),，,接受,原假设，即总体线性关系,不成立,这是一个右侧检验，为什么？,三、变量的显著性检验,考察,Y,与,某个,X,j,之间的线性关系在,总体上,是否显著成立,采用双侧,t,检验,1、变量显著性检验的含义,方程的显著性检验,是对Y和,全部X,之间的线性关系在总体上是否显著成立作出的判断；Y与全部X之间存在显著线性关系，并不代表Y与,每一个X,之间均存在显著的线性关系,变量的显著性检验旨在对模型中,某一个具体的X,与Y之间的线性关系在总体上是否显著成立作出判断，换言之，是考察,所选择的X,在总体上是否对Y有显著的线性影响,变量显著性检验所应用的方法同样是,假设检验,2、变量显著性检验原假设和备择假设,变量的显著性检验主要是检验变量所对应的,回归系数的真实值是否为零,来进行的。,对应这一问题的假设分别是：,H0,：,1,0,（变量的参数真值为零）,H1,：,1,0,一元线性回归模型,中，对变量,X,的显著性检验主要是检验回归系数,1,的,真实值,是否为,零,。,这是一个双侧检验！,3、变量的显著性检验检验统计量,正态变换,【1】提出原假设和备择假设：,H0：,1,0,H1：,1,0,【2】在H0成立的情况下借助样本信息构造检验统计量：,【3】给定显著性水平,，查t分布表，得临界值：,t,/2,(n-2),4、变量的显著性检验完整步骤,【4】比较，判断：,若,|t|,t,/2,(n-2),，则拒绝,H,0,，即X对Y具有显著影响；,若,|t|,t,/2,(n-2),，则接受H,0,，即X对Y不具有显著影响；,0,t,/2,(n-2),t,/2,(n-2),a,/2,a,/2,样本统计量,拒绝,H,0,拒绝,H,0,1 -,在上述,收入-消费支出,例中，首先计算,2,的估计值,t统计量的计算结果为：,给定,显著性水平,=0.05,，查t分布表得临界值：,t,0.05/2,(8)=2.306,|t,1,|2.306,，落在,拒绝域,，,拒绝原假设,。说明家庭可支配收入在95%的置信度下显著，即是消费支出的主要解释变量,# 变量的显著性检验:实例,四、参数的置信区间,参数估计量是随机变量,对未知参数进行区间估计,LSE,或,MLE,给出的只是总体参数,的一个,点估计,。这种估计虽然是真实值的无偏估计，但是但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。,要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值，往往需要通过构造一个以样本参数的估计值为中心的“区间”，来考察它以多大的可能性（概率）包含着真实的参数值。这种方法就是参数检验的,置信区间估计,。,1、置信区间的含义,这一区间，称之为,置信区间（confidence interval）,；,1-,称为,置信系数（置信度）（confidence coefficient）,；,称为,显著性水平（level of significance）,；,置信区间的端点称为,置信限（confidence limit）,3、的置信区间,在变量的显著性检验中已经知道：,给定置信度（,1-,）,，对于临界值,t,/2,(n-2),，,t,值处在,(-t,/2, t,/2,),的概率是,1-,。表示为：,于是得到,:(1-,),的置信度下,i,的置信区间是,2.4 一元线性回归模型的应用：预测,一、预测的理解,二、点预测及其性质,三、区间预测及其性质,四、预测区间的说明,一、预测的理解,预测,是指给定样本以外的解释变量的观测值,X,0,，对相应的被解释变量的值作出定量的估计。所以,预测问题实质上是估计问题,。,从对象上看，存在两种类型的预测：,均值预测,和,个值预测,理论上,，基于样本回归函数,SRF,得到的,Y,0,首先体现为对,均值,的预测,实际应用,中，通常又将,Y,0,作为某个,X=X,0,的,个体,的预测,x,y,(,x,2,y,2,),总体回归方程,残差项,样本回归方程,二、点预测及其性质, ,0,是总体条件均值E(Y,0,|X=X,0,)无偏估计，同时是实际个值Y,0,的一个有偏但良好的估计,对于,总体回归函数,：E(Y|X)=,0,+,1,X,，,X=X,0,时：E(Y|X=X,0,)=,0,+,1,X,0,于是：,可见：,0,是条件均值E(Y|X=X,0,)的无偏估计。,1、对于X=X,0,处的所有个体的平均值而言，这一估计是无偏的,基于SRF，有：,而,可见：,0,并不是实际个值Y,0,的无偏估计。,但另一方面，由于：,因此： ,0,仍然是实际个值Y,0,的一个良好估计。,2、对于x=x,0,处的个体的实际值而言，这一估计是有偏的,对于总体回归模型： Y=,0,+,1,X+,，,X=X,0,时：,即：,用,0,预测Y,0,的平均预测误差为0,三、区间预测及其性质,从结果上看，均值预测和个值预测的结果相同，均为,0,二者内在的差别在于预测的精度不同，或者说误差不同,均值预测的精度大于个值预测,均值预测的误差小于个值预测,这一点可以从二者的,置信区间,中看出,1、总体均值E(Y,0,|X=X,0,)的置信区间,所以：,0,服从正态分布,，且：,于是，在,1-,的置信度下，,总体均值E(Y|X,0,)的置信区间,为,2、总体个值Y,0,的置信区间,Y,0,=,0,+,1,X,0,+,0,从而在1-,的置信度下， Y,0,的置信区间为,总体个值和均值的置信区间都以估计值为中心，但个值预测的置信区间宽度大于均值预测的置信区间,x,0,y,x,x,预测上限,置信上限,预测下限,置信下限,回归分析的预测实例,在上述,收入-消费支出,例中，样本回归函数为,则在,X,0,=1000,处，,0,= 103.172+0.7771000=,673.84,因此，,总体均值E(Y|X=1000)的95%的置信区间,为：,673.84-2.306,61.05 E(Y|X=1000) 673.84+2.306,61.05,即：,（533.05, 814.62）,同样地，,对于Y在X=1000的个体值，其95%的置信区间,为：,673.84 - 2.306,61.05 Y,x=1000, 673.84 + 2.306,61.05,即：,(372.03, 975.65), 关于置信区间的说明,1、样本容量一定时，,置信带的宽度在X均值处最小,，X越远离其均值，置信带越宽，预测可信度下降。,说明：,如果给定的X值靠近均值，则相应的预测精度就要高，反之则低,2、影响预测区间（预测精度）的因素,误差方差,2,的大小。越小，预测精度越高。,样本容量,n,的大小。越大，预测精度越高。,X,的方差（,X,i,X,）,2,的大小。越大，表示,X,抽样的范围越大，,预测精度越高。,预测点离均值的远近（,X,0,X,）,2,的大小。越近，预测精度越高。,

展开阅读全文

一元线性回归课件

最新文档