第二章简单线性回归模型课件

资源描述

（一）具有相关关系的变量（一）具有相关关系的变量举一个例子举一个例子身高和体重人均消费与收入温度与二氧化碳排放量房地产价格与地理区位股票价格与利率工资与受教育年限第二章简单线性回归模型（一）具有相关关系的变量举一个例子身高和体重1（二）相关关系的统计概念（二）相关关系的统计概念（二）相关关系的统计概念2第二章简单线性回归模型第二章简单线性回归模型 3第一节回归分析与回归方程一、回归与相关一、回归与相关（一）经济变量之间的两类关系 1、确定性的函数关系确定性的函数关系变量X取确定值时，变量Y有唯一确定的值与之相对应。2、不确定性的统计关系不确定性的统计关系变量X取一定数值时，变量Y有数值与之对应，但不能事先确定，事后才能确定。不过所取的不同值按某种规律在一定范围内变化。这种关系有时也称为相关关系。第一节回归分析与回归方程4第二章简单线性回归模型课件5（三）回归分析（三）回归分析（三）回归分析6几何图示：几何图示：7第二章简单线性回归模型课件8 （三）回归与相关的联系与区别（三）回归与相关的联系与区别（三）回归与相关的联系与区别9 （三）回归与相关的联系与区别（三）回归与相关的联系与区别（三）回归与相关的联系与区别10第二章简单线性回归模型第二节总体回归函数一个例子：假如某地区有100个家庭构成的总体，我们要研究每月家庭消费支出Y和每月家庭可支配收入X之间的关系，并要根据已知的家庭可支配收入去预测该总体每月家庭消费支出的平均水平。为了研究的方便，把这个总体（即100个家庭）按收入水平分为10个组，并分别考察每组的家庭消费支出，见表：第二章简单线性回归模型第二节总体回归函数 11第二章简单线性回归模型课件12 将将总总体体应应变变量量的的条条件件期期望望表表示示为为解解释释变变量量的的某某种种函函数数，这这个个函函数称为总体回归函数。数称为总体回归函数。总总体体回回归归函函数数所所对对应应的的图图形形叫叫做做总总体体回回归归曲曲线线，其其几几何何意意义义就是解释变量取给定值时应变量的条件均值或期望值的轨迹。就是解释变量取给定值时应变量的条件均值或期望值的轨迹。一般表示为：一般表示为：此类型的总体回归函数称为此类型的总体回归函数称为条件期望形式条件期望形式。总体回归函数概念将总体应变量的条件期望表示为解释变量的某种函数，这个函13问题：当当总总体体所所包包含含的的单单元元数数相相当当多多时时，用用计计算算的的值值与与之之间间规规律律去确定回归函数形式是有困难的。去确定回归函数形式是有困难的。解决思路：（1）利用经济理论对总体回归函数形式作合理的假设；（2）利用局部散点图，观察总体回归函数的形式；（3）就设定总体回归函数为线性函数问题：当总体所包含的单元数相当多时，用计算的值与之间规律去确14 15（1）模型就变量而言是线性的；（2）模型就参数而言是线性的；例：就变量X而言不是线性的在计量经济学中线性模型的在计量经济学中线性模型的“线性线性”有两种解释有两种解释（1次课）次课）（1）模型就变量而言是线性的；在计量经济学中线性模型的“线性16 三、随机扰动项三、随机扰动项条件期望值与条件期望值与各个别的各个别的Y值的偏差称为随机扰动项值的偏差称为随机扰动项，即即称i为观察值Yi围绕它的期望值E(Y|Xi)的离离差差（deviation），是一个不可观测的随机扰动项，则有总体回归函数的随机设定形式：仍然取例1的数据说明三、随机扰动项条件期望值与各个别的Y值的偏差称为随17 18随机误差项主要包括下列因素的影响：随机误差项主要包括下列因素的影响：1）在解释变量中被忽略的因素的影响；2）变量观测值的观测误差的影响；3）模型关系的设定误差的影响；4）其它随机因素的影响。产生并设计随机误差项的主要原因产生并设计随机误差项的主要原因1）理论的含糊性；2）数据的欠缺；3）节省原则随机误差项主要包括下列因素的影响：1）在解释变量中被忽略的因19四、样本回归函数四、样本回归函数问题1：当当总总体体中中所所包包含含的的单单位位数数很很多多时时，将将所所有有单单位位纳纳入入考考察范围是有困难的，在这种情况下如何得到总体回归函数？察范围是有困难的，在这种情况下如何得到总体回归函数？解决思路：选出总体中部分单位（样本）加以考察，近似代替总体。问题2：部分在什么情况下可以近似代替总体？部分在什么情况下可以近似代替总体？解决思路：一般要满足几个条件（样本分布应尽可能与总体保持一致；样本的选择应是随机的；样本容量要达到一定的数量要求。）四、样本回归函数问题1：当总体中所包含的单位数很多时，将所有20问题问题3：用不同的样本，得到不同的样本回归函数，在总用不同的样本，得到不同的样本回归函数，在总体未知的情况下，怎样才知道，哪一个更接近总体，更优体未知的情况下，怎样才知道，哪一个更接近总体，更优呢？即如何寻求一种规则与方法，使所建立的样本回归函呢？即如何寻求一种规则与方法，使所建立的样本回归函数的参数，能够尽可能地数的参数，能够尽可能地“接近接近”总体回归函数中的参数总体回归函数中的参数？解决思路：解决思路：一般是对所建立的样本回归函数中的参数进一般是对所建立的样本回归函数中的参数进行一些检验，达到一定的检验指标，就认为模型是可接行一些检验，达到一定的检验指标，就认为模型是可接受的，即可以作为总体的近似。受的，即可以作为总体的近似。问题3：用不同的样本，得到不同的样本回归函数，在总体未知的情21第二章简单线性回归模型课件22以上两个线性回归函数来源于样本，称为样本回归函数以上两个线性回归函数来源于样本，称为样本回归函数以上两个线性回归函数来源于样本，称为样本回归函数 23第二章简单线性回归模型课件24第二章简单线性回归模型课件25第二节第二节简单线性回归模型的最小二乘简单线性回归模型的最小二乘法估计法估计一、简单线性回归模型的基本假定一、简单线性回归模型的基本假定1、关于变量和模型的假定、关于变量和模型的假定（1 1）解解释释变变量量X X看看作作是是非非随随机机的的，在在重重复复抽抽样样中中取取一一组组固固定的数值定的数值（2 2）若解释变量）若解释变量X X是随机的，也与随机扰动项是随机的，也与随机扰动项相独立；相独立；（3 3）解释变量的观测值无测量误差；）解释变量的观测值无测量误差；（4 4）变量和函数形式的设定是正确，无设定误差。）变量和函数形式的设定是正确，无设定误差。第二节简单线性回归模型的最小二乘法估计一、简单线性回归26一元线性回归模型计量模型：y=0+1x+u,The coefficients 0,1是回归系数（regression coefficients）.1、0 是常数项(constant term),或者截矩项 2、1 代表解释变量X的边际效果（marginal effects of the regressor,x）.也称作斜率参数0,1被称为回归系数 u 为误差项或扰动项，代表了除了x之外，可以影响y的其他所有因素一元线性回归模型 27Examples 一个简单的工资方程：工资=0+1 教育年限+u上述简单工资函数描述了工资和受教育年限，以及其他不可观测因素u之间的关系.1 衡量的是，在其他因素(包含在误差项u里面）不变的情况下，多接受一年教育，可以增加多少工资。其他因素包括：劳动力市场经验、内在的能力、目前所从事工作的工龄、职业道德,以及其他许多因素，包含在u中。Examples 一个简单的工资方程：28居民消费函数：Y=c+aX1+bX2+随机误差项u 其中，Y代表居民支出；X1代表居民收入；X2代表家庭财富；c是常数，即居民基本消费此时随机误差项代表的是：GDP、消费者价格指数、工业品价格指数、本币汇率、大宗商品价格指数、房价均值、子女教育费均值等等我们知道，收入和财富是决定居民支出较为直接的变量，所以我们将其引入模型中，而宏观经济情况和价格水平都是间接影响着居民支出的。如果我们需要更详细全面的模型，那么我们需要引入更多的变量；但引入更多变量的成本也较大，比如多重共线、自相关问题等。居民消费函数：Y=c+aX1+bX2+随机误差项u 其中292、关于随机扰动项的假定（称高斯假定或经典假定）（1）零均值假定。即（2）同方差假定。即（3）无自相关假定。即（4）随机扰动项与解释变量不相关假定。即（5）正态性假定。即 2、关于随机扰动项的假定（称高斯假定或经典假定）（1）零均30异方差XYXY异方差XYXY31序列自相关XXYY负相关正相关序列自相关XXYY负相关正相关32 不相关不相关自相关自相关(正正)自相关自相关(负负)不相关 333、关于被解释变量、关于被解释变量y的假定（的假定（2次课次课)3、关于被解释变量y的假定（2次课)34二、模型估计：普通最小二乘法（二、模型估计：普通最小二乘法（OLS）二、模型估计：普通最小二乘法（OLS）35yX.Y1Y2最小二乘法的原理:找一条直线使得所有这些点到该直线的纵向距离的和（平方和）最小yX.Y1Y2最小二乘法的原理:找一条直线使得36 对求导，得到正规方程组 37普通最小二乘法参数估计量的离差形式普通最小二乘法参数估计量的离差形式普通最小二乘法参数估计量的离差形式38Excel估计例1（P27）Excel估计例1（P27）39三、三、OLS回归的统计性质回归的统计性质1、回归线通过样本均值。、回归线通过样本均值。即即 2、估计值的均值等于实际观测值的均值。、估计值的均值等于实际观测值的均值。即即 3、剩余项的均值为零。、剩余项的均值为零。即即 4、应变量估计值与剩余项不相关。、应变量估计值与剩余项不相关。即即 5、解释变量、解释变量X与剩余项与剩余项e不相关。不相关。即即三、OLS回归的统计性质40 四、最小二乘估计量的性质四、最小二乘估计量的性质当模型参数估计出后，需考虑参数估计值的精度，即是否能代表总体参数的真值，或者说需考察参数估计量的统计性质。一个用于考察总体的估计量，可从如下几个方面考察其优劣性：（1）线性性）线性性，即它是否是另一随机变量的线性函数；（2）无偏性）无偏性，即它的均值或期望值是否等于总体的真实值；（3）有效性）有效性，即它是否在所有线性无偏估计量中具有最小方差。在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量四、最小二乘估计量的性质当模型参数估计出41概率密度的估计值无偏性概率密度的估计值最小方差性概率密度的估计值无偏性概率密度的估计值最小方差性42是关于样本观测值是关于样本观测值Yi的线性函数的线性函数线性特征线性特征因为是关于Y 的线性函数，而Y是关于随机扰动项 ui的线性函数，所以也是ui的线性函数，且服从正态分布是关于样本观测值Yi的线性函数线性特征因为是43第三节第三节经典经典线性回归模型的统计检验线性回归模型的统计检验一、拟合优度检验一、拟合优度检验二、变量的显著性检验二、变量的显著性检验三、参数的置信区间三、参数的置信区间第三节经典线性回归模型的统计检验一、拟合优度检验44 1 1、总离差平方和的分解、总离差平方和的分解已知由一组样本观测值（Xi,Yi），i=1,2,n得到如下样本回归直线 1、总离差平方和的分解已知由一组样本观测值（Xi,Y45 如果Yi=i 即实际观测值落在样本回归“线”上，则拟合最好拟合最好。可认为，“离差”全部来自回归线，而与“残差”无关。如果Yi=i 即实际观测值落在样本回归“线46 对于所有样本点，则需考虑这些点与样本均值离差的平方和,可以证明：记总体平方和总体平方和（Total Sum of Squares）回归平方和回归平方和（Explained Sum of Squares）残差平方和残差平方和（Residual Sum of Squares）对于所有样本点，则需考虑这些点与样本均值离差的平47TSS=ESS+RSS Y的观测值围绕其均值的总离差总离差(total variation)可分解为两部分：一部分来自回归线一部分来自回归线(ESS)，另一部分则来自随机势力，另一部分则来自随机势力(RSS)。在给定样本中，TSS不变，如果实际观测点离样本回归线越近，则ESS在TSS中占的比重越大，因此拟合优度拟合优度：回归平方和：回归平方和ESS/YESS/Y的总离差的总离差TSSTSSTSS=ESS+RSS Y的观测值围绕其均值的总482、可决系数、可决系数R2 2统计量统计量称 R2 为（样本）（样本）可决系数可决系数/判定系数判定系数（coefficient of determination)。可决系数可决系数的取值范围取值范围：0，1 R2 2越接近越接近1 1，说明实际观测点离样本线越近，拟，说明实际观测点离样本线越近，拟合优度越高合优度越高。2、可决系数R2统计量称 R2 为（样本）可决系数/判定系49 在例2.2收入收入-消费支出消费支出例中，注：可决系数注：可决系数是一个非负的统计量。它也是随是一个非负的统计量。它也是随着抽样的不同而不同。为此，对可决系数的统计着抽样的不同而不同。为此，对可决系数的统计可靠性也应进行检验，这将在第可靠性也应进行检验，这将在第3章中进行。章中进行。在例2.2收入-消费支出例中，注：可决系数是一50 二、变量的显著性检验二、变量的显著性检验回归分析回归分析是要判断解释变量解释变量X是否是被解释变被解释变量量Y的一个显著性的影响因素。在一元线性模型一元线性模型中，就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性变量的显著性检验。检验。变量的显著性检验所应用的方法是数理统计学变量的显著性检验所应用的方法是数理统计学中的中的假设检验假设检验。计量经计学中计量经计学中，主要是针对变量的参数真值，主要是针对变量的参数真值是否为零来进行显著性检验的。是否为零来进行显著性检验的。二、变量的显著性检验回归分析是要判断解释51 1、什么是假设检验、什么是假设检验所谓假设检验假设检验，就是事先对总体参数或总体分布形式就是事先对总体参数或总体分布形式作出一个假设，然后利用样本信息来判断原假设是否合作出一个假设，然后利用样本信息来判断原假设是否合理，即判断样本信息与原假设是否有显著差异，从而决理，即判断样本信息与原假设是否有显著差异，从而决定是否接受或否定原假设定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。假设检验采用的逻辑推理方法是反证法。先假定原假设正确，然后根据样本信息，观察由此假设而导致的结果是否合理，利用适当的符合某种概率分布的统计量和给定的显著性水平，构造一个小概率事件，通过小概率事件来判断对总体参数的假设是否正确判断结果合理与否，是基于判断结果合理与否，是基于“小概率事件不易发生小概率事件不易发生”这这一原理，小概率事件在一次抽样中不会发生，如果小概一原理，小概率事件在一次抽样中不会发生，如果小概率事件发生，说明原假设不正确，就拒绝原假设。率事件发生，说明原假设不正确，就拒绝原假设。1、什么是假设检验所谓假设检验，就是事先对总52 2、变量的显著性检验、变量的显著性检验：t检验 2、变量的显著性检验：t检验53 检验步骤：检验步骤：（1）对总体参数提出假设 H0：1=0，H1：10（2）以原假设H0构造t统计量，并由样本计算其值（3）给定显著性水平，查t分布表，得临界值t/2(n-2)(4)比较，判断若|t|t/2(n-2)，则拒绝H0，接受H1；若|t|t/2(n-2)，则拒绝H1，接受H0；检验步骤：（1）对总体参数提出假设（2）以原假设54t分布0X服从正态分布Y 服从分布接受原假设H0拒绝原假设H0假如接受域t分布0X服从正态分布接受原假设H0拒绝原假设H0假如接受域55 对于一元线性回归方程中的1，可构造如下t统计量进行显著性检验：在上述例2收入-消费支出例中，首先计算2的估计值对于一元线性回归方程中的1，可构造如下t统计量进行显56t统计量的计算结果分别为：给定显著性水平=0.05，查t分布表得临界值 t 0.05/2(8)=2.306|t1|2.306，说明家庭可支配收入在家庭可支配收入在95%95%的置信的置信度下显著，即是消费支出的主要解释变量；度下显著，即是消费支出的主要解释变量；|t2|2.306,表明在95%的置信度下，拒绝截距项为零（H0：2=0）的原假设 t统计量的计算结果分别为：给定显著性水平=0.057 假设检验假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围（如是否为零），但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值，往往需要通过构造一个以样本参数的估计值为中心的“区间”，来考察它以多大的可能性（概率）包含着真实的参数值。这种方法就是参数检验的置信区间估置信区间估计计。3 3、参数的置信区间、参数的置信区间假设检验可以通过一次抽样的结果检验总体参数可能的假设值58 如果存在这样一个区间，称之为置置信信区区间间（confidence interval）；1-称为置置信信系系数数（置置信信度度）（confidence coefficient），称为显显著著性性水水平平（level of significance）；置信区间的端点称为置置信信限限（confidence limit）或临界值临界值（critical values）。如果存在这样一个区间，称之为置信区间（confide59t分布0X服从正态分布Y 服从分布置信区间t分布0X服从正态分布置信区间60一元线性模型中一元线性模型中，i(i=1，2）的置信区间的置信区间:在变量的显著性检验中已经知道：意味着，如果给定置信度（1-），从分布表中查得自由度为(n-2)的临界值，那么t值处在(-t/2,t/2)的概率是(1-)。表示为：即一元线性模型中，i(i=1，2）的置信区间:在变量的显著61于是得到:(1-)的置信度下,i的置信区间是在上述收入收入-消费支出消费支出例中，如果给定=0.05，查表得：由于于是，1、2的置信区间分别为：（175.40，528.59)（0.4803，0.5797)于是得到:(1-)的置信度下,i的置信区间是在上62XiYiXiYi63 得，在显著性水平下，临界值为，则的估计区间是二、回归系数的区间估计二、回归系数的区间估计二、回归系数的区间估计二、回归系数的区间估计1、的方差的方差已知，已知，与与的区间估计。由的区间估计。由得，在显著性水平下，临界值为，则 642 2、的方差的方差的方差的方差未知，大样本下未知，大样本下未知，大样本下未知，大样本下与与与与的区间估计的区间估计的区间估计的区间估计在大样本下，用代替，仍可利用正态分布作区间估计，此时的区间估计分别为：2、的方差未知，大样本下与的区间估653 3、的方差的方差的方差的方差未知，在小样本下，未知，在小样本下，未知，在小样本下，未知，在小样本下，与与与与的区间估计。的区间估计。的区间估计。的区间估计。在小样本下：在小样本下：在显著性水平下在显著性水平下，临界值为，临界值为，则则的区间估计分别为：的区间估计分别为：3、的方差未知，在小样本下，与 66案例分析:中国城市居民消费支出案例分析:中国城市居民消费支出67第二章简单线性回归模型课件68第四节回归模型预测1、对、对Y0平均值的点预测平均值的点预测总体回归函数当人均收入Xi=8000时，人均消费第四节回归模型预测总体回归函数当人均收入Xi=80692、对、对Y0平均值预测的置信区间平均值预测的置信区间由于于是回归分析表解释：回归分析表解释：其中于是，在1-的置信度下，总体均值总体均值E(Y|X0)的置信区间为的置信区间为 2、对Y0平均值预测的置信区间由于于是回归分析表解释：其703、对、对Y Y0 0总体个值的预测区间总体个值的预测区间由 Y0=0+1X0+知:于是式中:从而在1-的置信度下，Y0的置信区间的置信区间为 3、对Y0总体个值的预测区间由 Y0=0+1X0+71在收入收入-消费支出消费支出例中，得到的样本回归函数为则在 X0=1000处，0=103.172+0.7771000=673.84 而因此，总体均值总体均值E(Y|X=1000)的95%的置信区间为：673.84-2.30661.05 E(Y|X=1000)673.84+2.30661.05 或（533.05,814.62）在收入-消费支出例中，得到的样本回归函数为则在 X0=72 对于Y的总体均值E(Y|X)与个体值的预测区间（置信区间）:（1）样本容量n越大，预测精度越高，反之预测精度越低；（2）样本容量一定时，置信带的宽度当在X均值处最小，其附近进行预测（插值预测）精度越大；X越远离其均值，置信带越宽，预测可信度下降。对于Y的总体均值E(Y|X)与个体值的预测区间（置信区间73eviewseviews应用软件中的广义差分法应用软件中的广义差分法在在Eview/TSP软软件件包包下下，广广义义差差分分采采用用了了科科克克伦伦-奥科特（奥科特（Cochrane-Orcutt）迭代法估计）迭代法估计。在在解解释释变变量量中中引引入入AR(1)(1)、AR(2)(2)、，即即可可得得到参数和到参数和1、2、的估计值。的估计值。其其中中AR(m)表表示示随随机机误误差差项项的的m阶阶自自回回归归。在在估估计过程中自动完成了计过程中自动完成了1、2、的迭代。的迭代。eviews应用软件中的广义差分法在Eview/TS74

展开阅读全文

第二章简单线性回归模型课件

最新文档