线性回归分析基础

上传人:沈*** 文档编号:252946526 上传时间:2024-11-26 格式:PPT 页数:55 大小:681KB
返回 下载 相关 举报
线性回归分析基础_第1页
第1页 / 共55页
线性回归分析基础_第2页
第2页 / 共55页
线性回归分析基础_第3页
第3页 / 共55页
点击查看更多>>
资源描述
Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,第一章 一元线性回归分析基础,Click to edit Master title style,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一章 一元线性回归分析基础,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一章 一元线性回归分析基础,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一章 一元线性回归分析基础,*,重点问题,参数的最小二乘估计,最小二乘估计的性质,参数估计的检验,预测,2024/11/26,第一章 一元线性回归分析基础,1,、几个概念,条件分布(,Conditional distribution,):以,X,取定值为条件的,Y,的条件分布,条件概率(,Conditional probability,):给定,X,的,Y,的概率,记为,P(Y|X),。,例如,,P(Y=55|X=80)=1/5,;,P,(,Y=150|X=260,),=1/7,。,条件期望(,conditional Expectation,):给定,X,的,Y,的期望值,记为,E(Y|X),。,例如,,E(Y|X=80)=551/5,601/5,651/5,701/5,751/5,65,总体回归曲线(,Popular Regression Curve,)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。,2,、总体回归函数,( Popular Regression Function,,,PRF),E(Y|X,i,)=f(X,i,),当,PRF,的函数形式为线性函数,则有,,E(Y|X,i,)=,1+,2,X,i,其中,1,和,2,为未知而固定的参数,称为回归系数。,1,和,2,也分别称为截距和斜率系数。,上述方程也称为线性总体回归函数。,3,、“线性”的含义,“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数,为线性的一种回归(即参数只以它的,1,次方出现)。,2024/11/26,第一章 一元线性回归分析基础,4,、,PRF,的随机设定,将个别的,Y,i,围绕其期望值的离差,(Deviation),表述如下:,u,i,=Y,i,-E(Y|X,i,),或,Y,i,=E(Y|X,i,)+u,i,其中,u,i,为随机误差项(,Stochastic error,)或随机干扰项(,Stochastic disturbance,)。线性总体回归函数:,PRF,:,Y,i,=,1,+,2,X,i,+u,i,=E(Y|X,i,)+u,i,5,、随机干扰项的意义,随机扰动项是从模型中省略下来的而又集体地影响着,Y,的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,而以随即扰动项来替代?理由是多方面的:,(,1,)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。,(,2,)数据的欠缺:无法获得有关数据。,(,3,)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。,(,4,)内在随机性:因变量具有内在的随机性。,(,5,)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。,(,6,)省略原则:研究中尽可能使回归式简单。,(,7,)错误的函数形式:回归式的的选择是主观的。,2024/11/26,第一章 一元线性回归分析基础,6,、样本回归函数(,SRF,),由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计,PRF,。,X,(收入),80,100,120,140,160,180,200,220,240,260,Y,(支出),55,65,79,80,102,110,120,135,137,150,样本,1,X,(收入),80,100,120,140,160,180,200,220,240,260,Y,(支出),70,80,94,103,116,130,144,152,165,178,样本,2,样本回归函数,SRF,:,在回归分析中,我们用,SRF,估计,PRF,。,2024/11/26,第一章 一元线性回归分析基础,估计量(,Estimator,):一个估计量又称统计量,(statistic),,是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计(值)(,estimate),。,样本回归函数,SRF,的随机形式为:,其中 表示(样本)残差项(,residual,)。,Xi X,PRF:E(Y|Xi)=,1,+,2,Xi,SRF,:,Y,E(Y|Xi),SRF,是,PRF,的近似估计。,为了使二者更为接近,即要使,2024/11/26,第一章 一元线性回归分析基础,主要内容,第一节 模型的假定,第二节 参数的最小二乘估计,第三节 最小二乘估计量的性质,第四节 系数的显著性检验,第五节 预测和预测区间,2024/11/26,第一章 一元线性回归分析基础,第一节 模型的假定,一、一元线性回归模型,各种经济变量之间的关系,可以划分为两种类型。一类是变量之间有惟一确定的关系,即函数关系,可表示为,:,F(X,1,,,X,2,,,,,X,n,,,Y)=0,(11),或,Y=f(X,1,,,X,2,,,,,X,n,),(12),其中,最简单的形式为一元线性函数关系,Y=PX,(13),另一类关系为不完全确定的相关关系,表示为,:,F(X,1,,,X,2,,,,,X,n,,,Y,,,u)=0,(14),2024/11/26,第一章 一元线性回归分析基础,第一节 模型的假定,或,Y=f(X,1,,,X,2,,,,,X,n,,,u),(15),其中最简单的形式为一元线性回归模型,Y=,1,+,2,X+u,(16),计量经济学只讨论变量之间不完全确定的关系,如式,(14),或式,(15),所表示的关系。,如式,(16),所表示的关系式,称为一元线性回归模型。,“一元”是指只有一个自变量,X,,,这个自变量,X,可以解释引起因变量,Y,变化的部分原因。因此,,,X,称为解释变量,,,Y,称为被解释变量,,,1,和,2,为参数,。,2024/11/26,第一章 一元线性回归分析基础,第一节 模型的假定,“线性”一词在这里有两重含义。它一方面指被解释变量,Y,与解释变量,X,之间为线性关系,另一方面也指,Y,与参数,1,、,2,之间为线性关系。,在数理统计学中,“回归”通常指散布点分布在一条直线,(,或曲线,),附近,并且越靠近该直线,(,或曲线,),,点的分布越密集的情况。,“模型”一词通常指满足某些假设条件的方程或方程组。,2024/11/26,第一章 一元线性回归分析基础,第一节 模型的假定,二、 误差项的性质,与精密数学中的函数关系相比,回归模型式,(14),式,(15),式,(16),中的显著特点是多了误差项,u,。产生误差项的原因主要有以下几方面:,1.,忽略掉的影响因素造成的误差,2.,模型关系不准确造成的误差,3.,变量观察值的计量误差,4.,随机误差,误差项的存在是计量经济学模型的特点,是计量经济学模型与精密数学中完全确定的函数关系的主要区别。,2024/11/26,第一章 一元线性回归分析基础,第一节 模型的假定,三、 经典假设条件,经典的一元线性回归模型,Y,t,=,1,+,2,X,t,+u,t,(t=1, 2, ,,,n),(17),通常要满足五个假设条件:,假设,1,误差项,u,t,的数学期望,(,均值,),为零,即,E(u,t,)=0 (t=1, 2, ,,,n),(18),假设,2,误差项,ut,的方差与,t,无关,为一个常数,即,var(u,t,)=E(u,t,-E(u,t,),2,),= E(u,t,2,),=,u,2,(t=1, 2, ,,,n),(19),假设,3,不同的误差项,ut,和,us,之间互相独立,即,cov(u,t,u,s,)=E(u,t,-E(u,t,)(u,s,-E(u,s,)=0,(110),2024/11/26,第一章 一元线性回归分析基础,第一节 模型的假定,(,ts,;,t=1, 2, , n,;,s=1, 2, , n),或,E(u,t,u,s,)=0,(111),假设,4,解释变量,X,t,与误差项,u,t,不相关,即,cov(X,t, u,t,)=E(X,t,-E(X,t,)(u,t,-E(u,t,),=E(X,t,-E(X,t,)u,t,),=0,(t=1, 2, ,,,n),(112),假设,5,u,t,为服从正态分布的随机变量,即,u,t,N(0, ,u,2,),以上五个假设条件称为经典假设条件。,综上所述,一元线性回归模型可以归结为,Y,t,=,1,+,2,X,t,+u,t,(t=1, 2, ,,,n),(113),2024/11/26,第一章 一元线性回归分析基础,第一节 模型的假定,E(u,t,)=0,cov(u,t, u,s,)=0 (ts,;,t, s=1, 2, , n),var(u,t,)=,u,2,(,常数,),cov(X,t, u,t,)=0,u,t,N(0, ,u,2,),2024/11/26,第一章 一元线性回归分析基础,第二节 参数的最小二乘估计,一、 拟合准则与最小二乘估计,拟合准则:,1,使 达到最小值,2,使 达到最小值,3,使,达到最小值,4,使 达到最小值,第,4,种准则,由于逐项平方,不存在正负抵消的问题。它不仅考虑了所有点的影响,而且具有无偏性,是一个很好的准则。这个准则称为最小二乘准则。用最小二乘准则寻找拟合直线的方法称为最小二乘法。,2024/11/26,第一章 一元线性回归分析基础,第二节 参数的最小二乘估计,为简化表达式,从本节起,在不会发生误解的情况下,略去求和指标,t,求和的上下限。只要求和符号没有上下限,就表示为从,t=1,到,t=n,求和。即用求和符号代替符号,假设估计直线,:,Y=,*,+,*,X,*,,,*,为参数估计,当,X=X,t,Y,t,=,*,+,*,X,t,(X,t,Y,t,)(X,t,*,+,*,X,t,),残差,:,e,t,= Y,t,-(,*,+,*,X,t,),误差,:,u,t,= Y,t,-(,+,X,t,),残差平方和,:,Q= e,t,2,= Y,t,-(,*,+,*,X,t,),2,2024/11/26,第一章 一元线性回归分析基础,第二节 参数的最小二乘估计,2024/11/26,第一章 一元线性回归分析基础,第二节 参数的最小二乘估计,2024/11/26,第一章 一元线性回归分析基础,第二节 参数的最小二乘估计,2024/11/26,第一章 一元线性回归分析基础,第二节 参数的最小二乘估计,二、 总体与样本,在数理统计中,通常把研究对象的全体称为总体。把总体中的每个元素称为个体。从总体中随机抽取的一组个体称为样本。抽取的个体数,称为样本容量。从总体中抽取样本的过程称为随机抽样。,总体,有限总体,无限总体,任何样本都是有限的,2024/11/26,第一章 一元线性回归分析基础,第三节 最小二乘估计量的性质,一、线性特性,是指参数估计值,*,1,和,*,2,分别为观察值,Y,t,或扰动项,u,t,的线性组合。,证,:,*,2,=X,t,y,t,/ X,t,2,=X,t,(Y,t,- )/X,2,t,=,(,X,t,/X,t,2,),Y,t,令,b,t,=,(,X,t,/X,t,2,),得,*,2,= b,t,Y,t,即,*,2,是,Y,t,的线性组合,2024/11/26,第一章 一元线性回归分析基础,第三节 最小二乘估计量的性质,*,2,=b,t,Y,t,=,b,t,(,1,+,2,X,t,+u,t,),=,1,b,t,+,2,b,t,X,t,+b,t,u,t,其中,:,b,t,=(X,t,/X,t,2,)=X,t,/ X,t,2,=0,b,t,X,t,=(X,t,/X,t,2),X,t,=(X,t,(X,t,+ )/X,t,2,)=1,所以,*,2,=,2,+b,t,u,t,即,*,2,也是,u,t,的线性组合,2024/11/26,第一章 一元线性回归分析基础,第三节 最小二乘估计量的性质,*,1,= -,1,=(1/n)Y,t,- b,t,Y,t,=(1/n)- b,t,Y,t,令,a,t,= (1/n)- b,t,由于和,b,t,均为非随机变量,所以,a,t,也是非随机变量,。,因此,*,1,=a,t,Y,t,即,*,1,是,Y,t,的线性组合。,2024/11/26,第一章 一元线性回归分析基础,第二节 参数的最小二乘估计,*,1,=a,t,(,1,+,2,X,t,+u,t,),=,1,a,t,+,2,a,t,X,t,+a,t,u,t,其中,:,a,t,=(1/n)- b,t,=1- b,t,=1,a,t,X,t,=1/n- b,t,X,t,=(1/n)X,t,- b,t,X,t,=0,所以,*,1,=,1,+a,t,u,t,即,*,1,也是,u,t,的线性组合,2024/11/26,第一章 一元线性回归分析基础,第三节 最小二乘估计量的性质,二、无偏性,指,*,1,和,*,2,的期望值分别等于总体参数,1,和,2,。,即,E(,*,1,)=,1,E(,*,2,)=,2,E(,*,2,)=E(,2,+b,t,u,t,),=,2,+b,t,E(u,t,),=,2,E(,*,1,)=E(,1,+a,t,u,t,),=,1,2024/11/26,第一章 一元线性回归分析基础,第三节 最小二乘估计量的性质,三、最优性,指最小二乘估计,*,1,和,*,2,在各种线性无偏估计中,具有最小方差。,1.,先求,*,1,和,*,2,的方差,var(,*,2,) = var(b,t,Y,t,) = b,t,2,var(,1,+,2,X,t,+u,t,),= b,t,2,var(u,t,)= (X,t,/X,t,2,),2,2,=,2,/X,t,2,var(,*,1,)= var(a,t,Y,t,) = a,t,2,var(,1,+,2,X,t,+u,t,),= a,t,2,var(u,t,)= (1/n)- b,t,2,2,=,2,(1/n+,2,/ X,t,2,),2024/11/26,第一章 一元线性回归分析基础,第三节 最小二乘估计量的性质,2.,证明最小方差性,假设,*,2,是其他方法得到的关于,2,的线性无偏估计,*,2,=c,t,Y,t,其中,,,c,t,=b,t,+d,t,,,d,t,为不全为零的常数,则容易证明,var(,*,2,) var(,*,2,),同理可证明,1,的最小二乘估计量,*,1,具有最小方差。,高斯,马尔可夫定理,(Gauss-Markov theorem),:,满足性质,1,、,2,、,3,的最小二乘估计量是最优线性无偏估计量(,best linear unbiased estimator,:,BLUE,),2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,一、误差项方差估计,对比总体回归模型和样本回归模型,可以看出,残差,e,t,可以看做误差项,u,t,的估计值。计算如下:,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,二、参数估计的显著性检验,在上一节中,已经证明,由于最小二乘估计,*,1,和,*,2,具有线性特性,所以,*,1,和,*,2,均为,Y,t,的线性组合,。,因为,Y,t,服从正态分布,所以作为,Yt,的线性组合的,*,1,和,*,2,也服从正态分布。,由无偏性,证明了,*,1,和,*,2,的期望分别为总体参数,1,和,2,。在证明最优性的过程中又得到,*,1,和,*,2,的方差。,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,因此,可以得到,*,1,和,*,2,的抽样分布为,由于真实的,2,不知,用它的无偏估计量,S,2,=e,t,2,/(n-2),替代时,可构造如下统计量:,2024/11/26,第一章 一元线性回归分析基础,检验步骤:,(,1,)对总体参数提出假设,H,0,:,2,=0,,,H,1,:,2,0,(,2,),以原假设,H,0,构造,t,统计量,并由样本计算其值,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,(,3,),给定显著性水平,,查,t,分布表,得临界值,t,/2,(n-2),(4),比较,判断,若,|t|,t,/2,(n-2),,则拒绝,H,0,,接受,H,1,;,若,|t|,t,/2,(n-2),,则拒绝,H,1,,接受,H,0,;,对于一元线性回归方程中的,1,,可构造如下,t,统计量进行显著性检验:,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,三、总体参数的置信区间,总体参数,1,和,2,的置信区间分别为,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,四、决定系数,由样本回归模型和样本回归方程,可以得到,这个恒等式把被解释变量的总偏差分解成相应的可解释偏差,(,回归偏差,),和残差,(,随机偏差两部分之和,如下图:,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,图,15,被解释变量偏差的分解,X,t,O,X,y,Y,t,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,记,总体平方和,(,Total Sum of Squares,),回归平方和,(,Explained Sum of Squares,),残差平方和,(,Residual Sum of Squares,),TSS=ESS+RSS,可以证明,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,由正规方程组,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,所以,即,TSS=ESS+RSS,Y,的观测值围绕其均值的,总离差,(total variation),可分解为两部分:,一部分来自回归线,(ESS),,,另一部分则来自随机势力,(RSS),。,在给定样本中,,TSS,不变,,如果实际观测点离样本回归线越近,则,ESS,在,TSS,中占的比重越大,。,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,因此定义,:,表示拟合的程度,因此称为决定系数,(,coefficient of determination,),或拟合优度。在相关分析中,R2,也称为复相关系数。,0R,2,1,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,五、相关分析,通常把相关分析作为回归分析的补充分析方法。相关分析分为线性相关与非线性相关,如果样本点集中分布在一条直线附近,则两变量的关系称为线性相关。当直线的斜率为正值,两变量的关系称为正线性相关。当直线的斜率为负值,两变量的关系称为负线性相关。如果样本点集中分布在一条曲线附近,则两变量的关系称为非线性相关。,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,线性相关:通常用相关系数表示,X,和,Y,的相关程度,r,XY,为,X,与,Y,的简单相关系数,(,只有两个变量相关的相关系数,),,同时也是样本相关系数,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,总体相关系数,-1,1,=0,,表示总体,X,与,Y,不相关;,0,,表示总体,X,与,Y,在一定程度上相关,;,=1,,表示总体,X,与,Y,完全正相关或完全负相关。,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,X,与,Y,总体是否相关的检验,提出假设:,H,0,=0 H,1,0,构造统计量,2024/11/26,第一章 一元线性回归分析基础,第四节 系数的显著性检验,六、相关分析与回归分析的联系,决定系数,R,2,与相关分析中的,简单相关系数,r,XY,之间的关系,简单相关系数,r,XY,与回归分析中的参数估计,*,2,的关系,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,一、预测的点估计,根据样本回归方程,对原样本外的任意解释变量,X,0,,可得到,因为:,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,值得注意,:,但是,在多次观察中,平均值趋向于零,从这个意义上,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,二、预测的区间估计,1.,E(Y,0,),的置信区间,因为,所以,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,因为,又因为,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,所以,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,又因为,所以,所以,上式中,常用样本方差,S,2,代替总体方差,2,进行计算,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,2.,Y,0,的预测区间,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,因为,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,又因为,所以,由经典假设条件,(,t,0,),所以,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,同理,即,所以,上式中,常用样本方差,S,2,代替总体方差,2,进行计算,2024/11/26,第一章 一元线性回归分析基础,第五节 预测和预测区间,三、影响预测区间大小的因素,(1),误差项,u,t,的方差或标准差的大小。 这是随机影响因素, 由总体决定,。,(2),样本容量,n,的大小,。,(3)x,2,t,的大小,(4),的大小,2024/11/26,第一章 一元线性回归分析基础,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!