线性回归模型的有偏估计

资源描述

计量经济学的统计学基础简要复习数理统计学为什么要复习数理统计学n数理统计学是计量经济学的基础，它为计量经济学提供了唯一而有效的方法。n数理统计较难，而且许多同学对于数学公式与数学符号的健忘，提醒我们有必要在展开计量经济学讨论之前，对本课程中经常使用到的数理统计学基本内容事先进行一些温习和回顾。主要内容n第一节基本概念n第二节对总体的描述随机变量的数字特征n第三节对样本的描述样本分布的数字特征n第四节随机变量的分布总体和样本的连接点n第五节通过样本，估计总体（一）估计量的特征n第六节通过样本，估计总体（二）估计方法n第七节通过样本，估计总体（三）假设检验第一节基本概念n总体和个体n样本和样本容量n随机变量n统计量n随机变量的分布函数和分布密度函数1.1 总体（集合）、个体（构成集合的元素）、样本和样本容量n研究对象的全体称为总体或母体，组成总体的每个基本单位称为个体。n总体中抽出若干个个体组成的集体称为样本。样本中包含的个体的个数称为样本的容量，又称为样本的大小。注意：抽样是按随机原则选取的，即总体中每个个体有同样的机会被选入样本。随机变量n根据概率不同而取不同数值的变量称为随机变量（Random Variable）。n一个随机变量具有下列特性：可以取许多不同的数值，取这些数值的概率为p，10 p总体、随机变量、样本间的联系n样本就是一个随机变量，所谓“样本容量为 n的样本”就是n个相互独立且与总体有相同分布的随机变量X1，Xn。n每一次具体抽样所得的数据，就是n元随机变量的一个观察值，记为（x1，xn）。n样本是总体的一部分。总体一般是未知的，一般要通过样本才能部分地推知总体的情况。1.3 统计量n设（x1，x2，xn）为一组样本观察值，函数 y=f（x1，x2，xn）若不含有未知参数，则称为统计量。n统计量一般是连续函数。由于样本是随机变量，因而它的函数y也是随机变量，所以，统计量也是随机变量。n统计量一般用它来提取由样本带来的总体信息。就是一个统计量。样本方差1122ninixxs1.4 随机变量的分布函数n定义若X为一随机变量，对任意实数x，称 F（x）P（X x）为随机变量X的分布函数。连续型随机变量的分布密度n定义：对于任何实数x，如果随机变量X的分布函数F（x）可以写成。也常写成的概率分布密度函数，为为连续型随机变量，称，则称其中xXXxXxdttxFx0 分布密度函数的性质：n概率密度函数的大小能够反映X在x附近取值的概率的大小，从而比分布函数更直观。有的连续点上，并且在显然轴所夹面积为与）（）（xxFxdxxbXaPxxdxxxba)1 (1201举例：正态分布xuxdxfef）（）（分布函数：）（分布密度：xxF 21x222)(nXN（u，）2x2x2f(x)F(x)x1x1XX第二节对总体的描述随机变量的数字特征n2.1、数学期望n2.2、方差n2.3、数学期望与方差的图示2.1.1 数学期望：一个加权平均值n数学期望描述随机变量（总体）的一般水平。n定义2.1离散型随机变量数学期望的定义：n定义2.2 连续型随机变量数学期望的定义的数学期望。称为绝对收敛，则，若积分有分布密度函数若连续型随机变量XdxxxxEdxxxxX niiinnxppxpxpxxE12211变量X的取值x1x2xn相应概率Pp1p2pnn（1）如果a、b为常数，则 E(aX+b)=aE(X)+bn（2）如果X、Y为两个随机变量，则 E(X+Y)=E(X)+E(Y)n（3）如果g(x)和f(x)分别为X的两个函数，则 Eg(X)+f(X)=Eg(X)+Ef(X)n（4）如果X、Y是两个独立的随机变量，则 E(X.Y)=E(X).E(Y)2.2.1 方差的定义n定义离均差如果随机变量X的数学期望E(X)存在，称X-E(X)为随机变量X的离均差。显然，随机变量离均差的数学期望是0，即 E X-E(X)=0n定义方差、标准差随机变量离均差平方的数学期望叫随机变量的方差，记作Var(x)或D(x)。方差的算术平方根叫标准差。2)(EXXEn（1）离均差和方差都是用来描述离散程度的，即描述X对于它的期望的偏离程度，这种偏差越大，表明变量的取值越分散。n（2）一般情况下，我们采用方差来描述离散程度。因为离均差的和为0，无法体现随机变量的总离散程度。方差中由于有平方，从而消除了正负号的影响，并易于加总。2.2.3 方差的性质n（1）Var(c)=0n（2）Var(c+x)=Var(x)n（3）Var(cx)=c2Var(x)n（4）x,y为相互独立的随机变量，则 Var(x+y)=Var(x)+Var(y)=Var(x-y)n（5）Var(x)=E(x2)-(E(x)2数学期望与方差的图示n数学期望描述随机变量的集中程度，方差描述随机变量的分散程度。1.方差同、期望变大 2.期望同、方差变小51055第三节对样本的描述样本分布的数字特征一、样本均值：二、样本方差、样本标准差ixnx1散程度。它们用来描述样本的离差。分别为样本方差和标准以及，称对于样本niniininxxxxxxsxxxinsnnin1221212221111111,第四节随机变量的分布总体和样本的连接点n4.1 几种重要的分布n4.2 分布：总体和样本之间的连接点学习的重点应放在确定X服从什么分布，和各种分布的联系上。4.1 几种重要的分布n4.1.1 正态分布n4.1.2 卡方分布n4.1.3 t分布n4.1.4 F分布n4.1.5 临界值点4.1.1 正态分布n定义正态分布的定义n定理正态分布的数学期望和方差。服从正态分布，简记为则称为常数，、的概率密度为若连续型随机变量2,022122Nxxe2,VarE方差，正态分布的数学期望正态分布图示x2x2f(x)F(x)x1x1XX正态分布的标准化n定义标准正态分布n定理正态分布标准化标准化。标准正态分布，即将其为任何一个正态分布，化根据以上定理，可以将。，那么令如果1,0 ,2NN exxN22221 1,010。密度函数为记作正态分布，的正态分布，称为标准，当关于正态分布的和。，也服从正态分布，且不全为，则它们的线性函数服从正态分布相互独立，设定理2121121,0,iniiniiiiniiiiiinaaaxaxxxVarEN4.1.2 2 分布n 2 分布的定义）（记为：的卡方分布。分布为自由度为服从的则称若nZxniNxii2n1i2 nZ Z,.2,1 ),1,0(N=7N=11概率xN为自由度定理 2 分布的和仍然服从 2 分布)(.,.,2,1),(,.,1221221niiniinkXXXnikXXXX。则相互独立，且若4.1.3 t分布nt分布的定义。分布，记作个的服从自由度则称相互独立，与若连续型随机变量)(/),(),1,0(2nttnnYXTYXnYNX概率密度x标准正态分布t-分布04.1.4 F分布nF分布的定义。分布，简记为的第二自由度为，服从第一自由度为则称若nFFnnYmXnYX,mm/F),(),m(22x概率密度4.1.5 临界值点：（1）标准正态分布、t分布临界值点（双侧）1)(2/2/uUuP1)(2/2/tTtP2/2/2/21-02/t2/t类似：临界值点：（2）卡方分布（双侧）、F分布（单侧）临界值点x概率密度1-/2/21)(22/222/1P1-1)(FFPF22/122/x4.2 分布：总体和样本之间的连接点1,0/;,1 221NnxnNxNxxn样本，则有：的是取自正态总体设定理。则标准差，分别是样本的平均数和、的样本，是取自正态总体设定理1/,221ntnsxTsxNxxn第五节通过样本，估计总体（一）估计量的特征n无偏性n有效性n兼顾无偏和有效：最小均方误n一致性n大样本下，具一致性的估计量具“无偏”和“有效”特性。5.1 无偏性定义。的有偏估计，其偏差为我们称，具有无偏性。如果无偏估计，亦称的为参数成立，我们称如果定义-Bias EEE）（f的真值的真值有偏无偏）（f5.2 有效性定义具有有效性。的有效估计量，亦称称为的方差达到最小，则的一切无偏估计量中，如果在有效的估计量。是比的方差，则称的方差小于，总有意的样本容量的无偏估计量，若对任都是和设定义 n)(f)(f的真值的真值形象感觉无偏性和有效性：重庆长安厂4支比赛用枪的抽样结果准而不精又精又准精而不准不精不准偏差与方差的权衡：最小均方误有偏，方差极小无偏，方差极大)(f2)()()(BiasVarMSE5.3 一致性的定义具有一致性。的一致估计量，为参数则称，若任意给定定义10 :limn-Pn增大时，一致估计量的“无偏”“有效”特性N小N大N极大)(f的真值。第六节通过样本，估计总体（二）估计方法n点估计n区间估计n区间估计的概念、步骤n应用：对总体期望的区间估计 1、已知方差，对数学期望E进行区间估计n 正态总体n 一般总体大样本下 2、方差未知，对数学期望E进行区间估计n大样本下/小样本下6.1 区间估计的概念n所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。n具体作法是找出两个统计量 1(x1,xn)与2(x1,xn)，使 P(1 2)=1-n(1,2)称为置信区间，1-称为置信系数（置信度），称为冒险率（测不准的概率）或者显著水平，一般取5%或1%。对区间估计的形象比喻n我们经常说某甲的成绩“大概80分左右”，可以看成一个区间估计。（某甲的成绩为被估计的参数）P(1 2)=大概的准确程度（1-）如：P(75 =30时，近似地，样本平均数 N(，2/n)。n所以，对于大样本仍可以按正态总体进行均值的区间估计。x6.4 方差未知，正态总体，对数学期望Eu的区间估计n（1）大样本下根据中心极限定理，Var()可以用代替，所以仍按已知方差正态分布的方法进行的置信区间估计。2s2/2/,:-1nsxnsx的置信区间为置信度为（2）小样本下tttttttxxnsxnsxnsxnsxpnsxpTptnntnsxTNn2/2/2/2/2/2/2/221,1 1/,1,)1(/,的置信区间为：因此进而，即使分布的临界值的查自由度为对给定的未知，令由于来自正态总体设小样本区间估计，统计量的选择小结)1(/)1,0(/2.)1,0(/.1ntnsuxTNnsuxUNnuxU小样本下，选择：大样本下，选择：方差未知，正态总体，选择：或者一般总体大样本）已知方差，正态总体（第七节通过样本，估计总体（三）假设检验n基本概念：假设检验，原假设/备择假设n小概率事件原理在假设检验中的应用n置信水平n假设检验的步骤n应用：n正态总体期望的假设检验（方差已知/方差未知）（t检验等）n方差的假设检验)(2检验7.1 假设检验的概念n定义：称对任何一个随机变量未知的分布类型或参数的假设为统计假设，简称假设。检验该假设是否正确称为假设检验。n在统计假设，如 H0:p=0.5 （称为原假设）H1:p 0.5 （称为备择假设）7.2 “小概率原理”在假设检验中的应用n数理统计学中的“小概率原理”认为：概率很小的事件在一次抽样试验中几乎是不可能发生的。n在H0成立的条件下，统计量落在拒绝域为一个小概率事件，因此，在一次抽样试验中，依据小概率原理，是不会发生的。n要是小概率事件（“统计量落在拒绝域”）居然发生了。那么，只能是提出的假设H0发生了错误，所以必须拒绝H0。显著性水平n是小概率事件发生的概率；在假设检验中也称为置信水平。7.3 假设检验的步骤：nStep1:分析问题，提出原假设和备择假设；nStep2:选择和计算统计量U：在原假设成立时，U的分布已知；含有要检验的参数；各个参数应该都是已知的、可求的。nStep3：构造小概率事件：nStep4：判断小概率事件是否发生：nStep5：下结论：若小概率事件发生，拒绝原假设H0；选择备择假设H1。否则，原假设成立。)|(|2/uUP则，没发生。则小概率事件发生。否若,|2/uU 假设检验的具体操作步骤（以正态总体、已知方差，检验均值u为例）n1、提出零假设 H0：=0 H1：0n3、确定显著水平，如=0.05，查表得相应的临界值/2n4、判断和下结论：若|U|/2 ，拒绝H0；若|U|/2,接受H0；（判断区域图示）n5、依据结论，作出经济学上的解释。nuxU/,20计算统计量，由样本7.4 假设检验的应用正态总体均值u的假设检验设总体N（，2），0是已知数。对于其参数的假设检验，讨论2种情况：1.已知方差2，H0：=0，H1：0 2.未知方差2，H0：=0，H1：0nsuxTsnuxU/:022202，使用统计量：代替时，用未知方差时：选用统计量已知方差课本：第二章第三节（P30）n回归系数的区间估计；n随机扰动项方差的区间估计；n回归系数的假设检验（t检验）。n原假设、意义。n随机扰动项方差的假设检验)2(/)2(2222nn使用统计量)2(/)2(2222nn使用统计量)(2检验临界值点：（1）标准正态分布、t分布临界值点（双侧）1)(2/2/uUuP1)(2/2/tTtP2/2/2/21-02/t2/t类似：返回临界值点：（2）卡方分布（双侧）、F分布（单侧）临界值点x概率密度1-/2/21)(22/222/1P1-1)(FFPF22/122/x返回判断区域图示如下x f(x)不拒绝H0区域拒绝域拒绝域2/u2/u返回

展开阅读全文

线性回归模型的有偏估计

最新文档