计量经济学第二讲-计量经济分析的统计学基础

资源描述

Friday, 7 March 2008,CUFE,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,傅强,经济学博士,经济社会仿真实验室主任,电话,:,8610-62288971,二八年三月七日,第二讲,计量经济分析的统计学基础,计量经济学,Friday, 7 March 2008,CUFE,计量经济分析的统计学基础,本章是对计量经济学所用到的统计学概念和方法作一概括性的回顾，这些概念和方法对理解本书后面的内容是至关重要的。,第一节概率和概率分布,第二节统计推断,第三节参数估计,第四节假设检验,Friday, 7 March 2008,CUFE,概率的概念：,一枚硬币有正、反两面，在抛之前出现正面还是反面的结果是无法确知的，但却可以依据硬币的物理特征为可能出现的结果指定一个概率。如一枚完好的硬币，它的正面和反面都有同等机会出现，从而出现正面或反面的概率是,2,种情况中的一种，所以是,1/2,。,第一节、概率和概率分布,数学概率和统计概率：,数学概率：,不靠试验而从理论上求得的概率。,统计概率：,从多次试验得到的概率。,统计概率与数学概率相近的是大数法则。,Friday, 7 March 2008,CUFE,一、概率的概念,随机试验和事件：,随机试验是导致至少两种可能结果的过程，并且在此过程中将出现何种结果是不确定的。,样本空间或总体：,一个随机试验的所有可能结果的集合。,样本点：,样本空间的每个成员。,事件：,样本空间的子集。,互不相容或,互斥事件：,两个事件中一个事件的发生排除另一个事件的发生。,完备事件：,若干个事件包罗了一个试验的所有可能的结果。,Friday, 7 March 2008,CUFE,一、概率的概念,总体和样本：,给定的,一组观测值,通常被视为是从某个更大的总体中抽取的,一个样本,。总体可以是有限的，也可以是无限的。有限总体可能很大，也可能很小。为计算方便，大总体有时可假定为,无限总体,。,样本是总体的一部分。,之所以需要抽取样本，是因为在有些情况下，当分析某个变量的特征时，涉及的总体容量太大，以至于不可能对整个总体进行检查；或者这样做耗费太大，因而只能使用观测样本。,样本是总体的代表。,假定样本能够反映要研究的总体特征，因此可以依据样本来推断总体。,例如，为研究所有北京人的平均收入，很显然需要全体北京人（总体）的数据。可是，要收集每个人的收入是一件很困难的事。在实践中，可以抽取一个由,5000,人组成的随即样本，然后计算这,5000,人的平均收入，作为北京人的真实平均收入的估计值。,Friday, 7 March 2008,CUFE,一、概率的概念,事件的概率：,概率的古典定义,【,拉普拉斯（,1749,1827,）,】,：,设一试验有,n,个互不相容的等可能的结果（每个结果称为基本事件），每次试验必有一基本事件发生。,m,为事件,A,中包含的基本事件个数。则称比值,m/n,为事件,A,的概率，记作,P(A) = ,。,m,n,概率的统计定义,：,在相同的条件下进行,n,次试验，设事件,A,出现了,m,次。如果当试验次数,n,充分大时，事件,A,的频率,m/n,具有持久的稳定性，则称事件,A,是有概率的。,A,的概率记为,P(A),则,P(A),。,m,n,Friday, 7 March 2008,CUFE,一、概率的概念,概率的性质：,0P(A)1,对所有,A,成立,。,P(A)=0,表明事件,A,是不可能事件；,P(A)=1,表明事件,A,是必然事件。,一般情况下，概率值在,0,1,之间。,若,A,，,B,，,C,，,是完备事件集，则,P(A + B + C + ) = 1,。,其中：,A + B + C,的含义是,A,或,B,或,C,，等等。,若,A,，,B,，,C,，,是互不相容事件，则,P(A + B + C + ) = P(A) + P(B) + P(C) + ,。,若,A B,（即事件,B,包含事件,A,），则,P(A)P(B),。,若事件,A,是,A,的对立事件，则,P(A) + P(A) = 1,。,Friday, 7 March 2008,CUFE,二、随机变量与概率分布,随机变量：,可以在一个特定的数集中按一定概率取值的变量。,“A,random variable,is a variable that takes on alternative values, each with a probability less than or equal to 1.”,Pindyck, R.S. et. Al. (1991, p.19),离散随机变量：,只能取某些离散值。,“A,discrete random variable,may take on only a specific number of real values”,Pindyck, R.S. et. Al. (1991, p.19),如：掷骰子所得点数（,1,，,2,，,3,，,4,，,5,，,6,）。,随机变量通常用大写字母X, Y, Z来表示，它们所取的值用小写字母x, y, z等表示。,连续随机变量：,可以取一个有限（或无限）区间所有值。,“A,continuous random variable,may take on any value on the real number line”,Pindyck, R.S. et. Al. (1991, p.19),如：零件的直径。,Friday, 7 March 2008,CUFE,二、随机变量与概率分布,随机变量的概率分布和概率密度函数：,一个随机变量的,概率分布：,是该随机变量取给定值或属于一给定值集的概率所确定的函数。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定，则概率分布即完全被确定。,“We can describe a random variable by examining the process which generates its values. This process, called a,probability distribution, lists all possible outcomes and the probability that each will occur.”,Pindyck, R.S. et. Al. (1991, p.19),Friday, 7 March 2008,CUFE,二、随机变量与概率分布,离散随机变量的概率,分布,函数（,PDF,，,probability,distribution,function,）：,设,X,为取相异值,x,1,x,2,x,n,的离散随机变量，则函数,f(x,)=,称为,X,的概率分布或概率分布函数,其中,P(X=x,i,),为离散随机变量,X,取,x,i,值的概率。,p(X=x,i,),i=1,2,n,0,Xx,i,Friday, 7 March 2008,CUFE,二、随机变量与概率分布,连续随机变量的概率,密度,函数（,PDF,，,probability,density,function,）：,设,X,为连续随机变量，且满足下列条件：,f(x)0,f(x)dx,= 1,f(x)dx,=,P(a,xb,),则,f(x,),称为,X,的概率密度函数,其中,P(ax,b,),表示,X,位于区间（,a,b,之中的概率。,-,b,a,连续随机变量与离散随机变量不同，X取任何指定值的概率被认为是零，只有取某一范围（或区间）的值的概率值才有意义。,Friday, 7 March 2008,CUFE,三、概率分布的特征,概率分布常用两个概括性测度,期望值（集中趋势测度）,和,方差（离散测度）,来描述。,期望值（,expected value,）：,离散随机变量,X,的,期望值,，记作,E(X),，也叫做它的,均值,，记作,x,，定义为：,x,E(X)=p,1,X,1,+p,2,X,2,+ +,p,N,X,N,=,p,i,X,i,或,x,E(X)=,xf(x,),式中，,p,i,=1,f(x,),为,X,的概率分布函数。,由上述定义不难看出，随机变量的期望值是其所有可能的值的,加权平均,，权数是这些值的概率。,连续随机变量的,期望值,定义为：,x,E(X)=,xf(x)dx,它与离散随机变量期望值的唯一区别是用积分号代替求和号。,N,i=1,x,-,Friday, 7 March 2008,CUFE,三、概率分布的特征,期望的性质（,properties of the expectations operator,）：,若,b,为常数，则,E(b,),b;,设,X,为随机变量，,a,和,b,为常数，则,E(aX,+ b) =,aE(X,) + b;,设,X,为随机变量，,a,为常数，则,E(aX),2, = a,2,E(X,2,);,若,X,和,Y,为独立随机变量，则,E(XY)=E(X)E(Y),。,Friday, 7 March 2008,CUFE,三、概率分布的特征,方差（,variance,）：,一随机变量的方差通常用来度量该随机变量诸值对其均值的离散趋势。,（,The variance of a random variable provides a measure of the spread, or dispersion, around the mean.,）,设,X,为一随机变量，且,E(X)=,，则,X,的方差，记作,2,，定义为：,Var(X,) =,2,= E(X -,),2,。,2,的正平方根,称为,X,的,标准差,。方差和标准差都是用来描述随机变量诸值的分散程度。方差可用下式计算：,若,X,为离散随机变量，则：,Var(X,),2,=,p,i,X,i,-E(X),2,;,或,Var(X,),2,=,(X-),2,f(x),。,若,X,为连续随机变量，则：,Var(X,),2,=,(X-,),2,f(x)dx,。,x,-,N,i=1,Friday, 7 March 2008,CUFE,三、概率分布的特征,方差的性质（,properties of the variance,）：,Var(X,),E(X-,),2,=E(X,2,)-,2,;,常数的方差为,0,;,若,a,和,b,为常数，则,Var(aX+b,)= a,2,Var(X);,若,X,和,Y,为独立随机变量，则,Var(X+Y,)=,Var,(X)+,Var,(Y,),。,Friday, 7 March 2008,CUFE,三、概率分布的特征,协方差（,covariance,）：,若,X,和,Y,为两随机变量，均值分别为,x,和,y,，则两变量的协方差定义为,Cov(X,，,Y),E(X-,x,)(Y-,y,),=,p,ij,(X,i,-E(X)(Y,i,-E(Y,),;,其中，,p,ij,代表,X,和,Y,的联合概率。,N,i=1,N,j=1,结果,概率,结果,概率,X=￥5,000, Y=1,0,X=￥10,000, Y=0,1/8,X=￥5,000, Y=0,1/4,X=￥15,000, Y=1,1/3,X=￥10,000, Y=1,1/8,X=￥15,000, Y=0,1/6,联合概率是由对应于两随机变量发生的所有可能结果的一组概率来描述的。所有这些概率均为非负，且加总为1。,Friday, 7 March 2008,CUFE,三、概率分布的特征,若,X,和,Y,为独立随机变量，则,Cov(X, Y)=0,。,注：两随机变量的协方差可能为,0,，但彼此并不独立。,X,2,1,0,1,2,Y,4,1,0,1,4,所有观测值假定拥有同一概率（1/5）。在这种情况下，E(X)=0，E(Y)=2，且,Cov(X, Y) =,X,i,(Y,i,-2) = 0。,但显然X和Y并不独立。实际上，Y=X,2,。,5,i=1,Friday, 7 March 2008,CUFE,三、概率分布的特征,相关系数（,correlation coefficient,）：,两随机变量,X,和,Y,的总体,相关系数,xy,定义为：,xy,相关系数与变量单位无关，是度量两变量之间,线性关系,强度的测度，其值在1和1之间，即1,1。,Cov(X, Y) Cov(X, Y),Var(X)Var(Y),x,y,_,0,xy,1,-1,xy,0,xy,=0,xy,=1,xy,=-1,Friday, 7 March 2008,CUFE,三、概率分布的特征,相关变量的方差,设,X,和,Y,是两随机变量，则,：,Var(X+Y,)=Var(X)+Var(Y)+2Cov(X, Y),；,Var(X,-Y)=Var(X)+Var(Y)-2Cov(X, Y),。,证明：,Friday, 7 March 2008,CUFE,四、样本均值、方差、协方差和相关系数,样本均值,(,sample mean,),随机变量,X,的均值的一个无偏估计量，记作,X,，定义为,：,所谓无偏估计量是指待估计参数的估计量的期望值等于参数本身。,样本方差,(,sample variance,),和标准差,(,sample standard deviation,),随机变量,X,的方差及其标准差的一个无偏估计量定义为,样本方差：,样本标准差：,Friday, 7 March 2008,CUFE,四、样本均值、方差、协方差和相关系数,Pindyck, R.S. and D.L. Rubinfeld (1998),Econometric Models and Economic Forecasts,4th ed., pp. 24-5:,“Why do we divide by N-1 (rather than N) to get an unbiased estimate of the sample variance? an intuitive answer can be based on the concept of,degrees of freedom,. Our sample is known to contain N data points. However, in computing the sample variance a necessary first step was the computation of the sample mean. This places one constraint upon the N data points, that the N observations sum to N times the computed mean . This leaves N-1 unconstrained observations with which to estimate the sample variance.”,Friday, 7 March 2008,CUFE,四、样本均值、方差、协方差和相关系数,样本协方差,(,sample covariance,),测量,X,和,Y,的观测值共变（一起变动）程度的一个测度，定义为,：,样本相关系数,(,sample correlation coefficient,),更为常用，定义为：,式中：,S,xy,为,X,和,Y,的协方差；,S,x,和,S,y,分别为,X,和,Y,的标准差。,Friday, 7 March 2008,CUFE,五、,几个重要的理论概率分布,二项分布,（,Binomial Distribution,）,普哇松分布,（,Poisson Distribution,）,正态分布,（,Normal Distribution,）,2,分布,（,2 Distribution,）,t,分布或学生分布,（,t Distribution or Student Distribution,）,F,分布,（,F Distribution,）,Friday, 7 March 2008,CUFE,五、几个重要的理论概率分布,二项分布,（Binomial Distribution）,若离散随机变量,X,取值,0,1,n,，并存在数,p,（,0p0,）,使,：,P(X=k)= e,-,; k = 0, 1, 2, ,则称,X,服从普哇松分布，此时有：,E(X)=,;,Var(X,)=,。,k,k!,Simon-Denis Poisson (1781-1840)，法国数学家,Friday, 7 March 2008,CUFE,普哇松分布（,Poisson Distribution,）,举例：,大连港区1979年载货500吨以上船只共到达1271艘（不包括定期到达的船舶）,到达统计分布表列于下表上。,首先根据原始资料做出船舶到达的分布表，然后按照统计学方法确定其符合于那种理论分布，并估计它的参数。,表2：船舶到达分布表,船舶到达数,天数,频率,n,0,12,0.033,1,43,0.118,2,64,0.175,3,74,0.203,4,71,0.195,5,49,0.134,6,26,0.071,7,19,0.052,8,4,0.011,9,2,0.005,10以上,1,0.003,合计,365,1.000,Friday, 7 March 2008,CUFE,图4：到达数经验分布,普哇松分布（,Poisson Distribution,）,Friday, 7 March 2008,CUFE,平均到达率(,), =,3.48（艘/天）,这种分布为泊哇松分布（推导略）。,平均间隔,1/3.48,天有一艘船到达。,普哇松分布（,Poisson Distribution,）,到达总数,总天数,1271,365,Friday, 7 March 2008,CUFE,泊哇松分布的故事,他怎么啦？,Friday, 7 March 2008,CUFE,十九世纪时，巴特开惠茨根据普鲁士骑兵队的统计报告，对十个骑兵连中的骑兵在二十年中被马踢死的记录作了分析。这样，他的观察数值有10*20=200个（每年对每个连队作一个记录），他作了一个表，列出死亡人数的分布情况。,问题：,你也能列个表吗？,泊哇松分布的故事,Friday, 7 March 2008,CUFE,从这个表里可以看出，死亡事件共 0*109+1*65+2*22+3*3+4*1= 122（人次）。,平均每连队每年死亡人次为 = Ex = 122/200 = 0.61,可见，被马踢死的概率很小啊！为单位时间内的平均死亡人数。,泊哇松分布的故事,Friday, 7 March 2008,CUFE,再依据POISSON PROCESS计算其频率：,P(X=k)= e-,; k=0,1,2,P(X=0)=e-0.61=0.544P(X=1)=0.61e-0.61=0.331P(X=2)=0.612e-0.61/2!=0.101P(X=3)=0.613e-0.61/3!=0.021P(X=4)=0.614e-0.61/4!=0.003,简直太相似了！,k,k!,泊哇松分布的故事,Friday, 7 March 2008,CUFE,五、几个重要的理论概率分布,正态,分布,（,N,o,r,mal Distribution,）,若一个连续随机变量,X,的概率密度函数为,：,(,0); -X+,则称,X,服从正态分布，并记为,X,N(,2,),，此时有：,、,e,是常数。,Friday, 7 March 2008,CUFE,正态分布的性质（,Properties of the Normal,）,关于其均值（,）,的对称性,正态分布,(Nominal),正态分布,(Normal Distribution),Lower Spec Limit,Upper Spec Limit,对称钟型,X,-3,-2,-,2,3,1,2,3,1,2,3,X,2,1,3,1,2,3,X,Friday, 7 March 2008,CUFE,正态分布的性质（,Properties of the Normal,）,正态曲线下的面积,：,大约,68,的面积位于,之间，大约,95,的面积位于,2,之间，大约,99.7,的面积位于,3,之间。,95.46%,68.26%,正态分布,(Nominal),正态分布,(Normal Distribution),Lower Spec Limit,Upper Spec Limit,99.74%,X,-3,-2,-,2,3,34%,34%,14%,14%,2%,2%,Friday, 7 March 2008,CUFE,Mean,2 Parts per,Billion,C,p,(,Process Capability Index,) = 2,Lower Specification Limit,Upper Specification Limit,Six Sigma Is Virtual Perfection,Defects,Defects,99.9999998%,Friday, 7 March 2008,CUFE,正态分布的性质（,Properties of the Normal,）,正态分布完全被它的两个参数,和,所描述，且正态分布曲线的拐点,(points of inflexion),在,X,。,X,可以取任意实数值，且当,X,时，,f(X,),趋近于,X,轴。,正态分布,(Normal Distribution),1,=,2,=,1,2),。,K,K-2,0,概率,N(0,1),t(10),t,t(30),图23：t分布,-3,-2,-1,1,2,3,Friday, 7 March 2008,CUFE,五、几个重要的理论概率分布,F,分布,（,The F Distribution,）,有时候，我们需要做包含两个或两个以上回归参数的联合假设检验,(,joint hypotheses test,),这时就要用到,F,分布。,如：检验需求函数中截矩,(,),和斜率,(,),是否均为,0,，还是其中一个，或另一个，或两者均不为,0,。,若,Z,1,和,Z,2,是独立分布的自由度分别为,K,1,和,K,2,的,2,变量，则：,服从自由度为,K,1,和,K,2,的,F,分布，用,F(K,1,K,2,),或,F,K,K,表示。,K,1,为分子自由度（或要估测参数的数量），,K,2,为分母自由度（或自由度）。,1 2,Friday, 7 March 2008,CUFE,五、几个重要的理论概率分布,F,分布的性质,(,Properties of the F Distribution,),与,2,分布一样，,F,分布也是,向右偏斜,，,取值范围由,0,到正无穷。当,K,1,和,K,2,增大时，,F,分布趋向正态分布。,F分布密度曲线：,F(10,20),F(50,50),F(100,100),F(2,2),图24：F分布,Friday, 7 March 2008,CUFE,五、几个重要的理论概率分布,F,分布的性质,(,Properties of the F Distribution,),F,分布变量的均值为,（,K,2,2,），其方差为,，,K,2,4,。,F,分布可用于检验两正态分布随机变量的方差是否相等。,K,2,K,2,-2,Friday, 7 March 2008,CUFE,计量经济分析的统计学基础,第一节概率和概率分布,第二节统计推断,第三节参数估计,第四节假设检验,Friday, 7 March 2008,CUFE,统计推断的一般问题,第二节、统计推断,随机抽样：,从总体中随机抽取样本的过程。,随机样本：,如果一个样本是以这样一种方式抽取的,它与具有同样容量为,N,的其他任一样本被选取的概率相同。,抽取随机样本的,基本理由,是：与其他任何选取方式相比，这种样本更可能反映取样总体的特征。,统计推断的两个分支,假设检验：,判断手中的样本是否可能取自具有确定参数的某类总体，即从样本信息来检验关于总体参数的假设。,参数估计：,给定样本，作出总体诸参数可能值的推断，即如何从样本值估计总体参数。,统计推断的这两个分支，即假设检验和参数估计，是紧密相关的。,Friday, 7 March 2008,CUFE,（1）单纯随机抽样法(Simple random sampling),常用方法,：,A,、,抽签法；,B,、,乱数表法,(random table),Friday, 7 March 2008,CUFE,A、抽签法,抽签法：,常用一个骰子，这个骰子必须是从,0-9,的数字均具有同等的概率，一个立体正,10,面体的骰子，可以满足需要。,例如：要从,1000,个样本中选出,10,个样本，则把这个骰子转动,3,次，以最先得到的数字为百位，第,2,次为十位，第,3,次为个位，组成一个数，反复转动骰子，可得到一组数据，即为样本的序号。,Friday, 7 March 2008,CUFE,B、乱数表法,乱数表是从骰子之投掷得出来的数字列出的一张表。,乱数表（部分）,1 13 21 96 10 43 46 00 95 62 09 45 43 87 40 08 00,2 12 84 54 72 35 75 88 47 75 20 21 27 73 48 33 69,3 57 38 76 05 12 35 29 61 10 48 02 65 25 40 61 54,4 25 18 75 82 11 89 13 90 53 66 56 26 38 89 04 79,5 10 88 94 70 76 54 45 07 71 24 53 48 10 01 51 99,.,49 25 67 87 71 50 46 84 98 62 41 85 51 29 07 12 35,50 50 51 45 14 61 58 79 12 88 21 09 02 60 91 20 80,Friday, 7 March 2008,CUFE,（2）分层随机抽样法(Stratified random sampling),分层比例抽样法：按分层后各层母体数量的多少作比例而抽出样本数。,牛曼,(,Neyman,),分层抽样法：按各层的变异数的大小，而调整各层的样本数目，以提高样本的依赖程度。,戴明,(Deming),分层抽样法：当各层样本的调查费用有显著的差异时，在不十分影响依赖度的前提下，而调整各层的样本数目，使调查费用减至最低。,多次分层抽样法：于母体分层之后，对某些层再作一次或两次的分层，然后再用随机抽样法抽样。,Friday, 7 March 2008,CUFE,分层抽样法可以按性别或职业分层；按单位规模大小分层；按消费者所得分层，按年龄分层。,Friday, 7 March 2008,CUFE,（3）分群随机抽样法(Cluster sampling),又称两面三刀段式分群抽样法。适用于：界质乱度高的母体。因为母体的异质性很高，而且乱度很大，便不能订立标准分层，只能依其他外观的或地域的来划分成几个群。,案例：拟从某市抽出1000名样本，但无法取得市民名册，所有资料只有小区、办事处的名称和数目。假定该市共有200个单位的小区、办事处，每一个单位约有20名居民，因此可以小区、办事处为单位，从200个小区、办事处中随机抽出50个，并将所抽出的小区、办事处中的全体居民作为样本，如此可抽出1000名样本。,Friday, 7 March 2008,CUFE,（4）系统抽样法(Systematic random sampling),又称“等距抽样法”。系统抽样法介于机率抽样法和非机率抽样法之间。其第一种样本可以依立意抽样法抽取；亦可用随机方式抽取。,抽样流程：抽样前，须将母体的每一个单位编号，先计算样本区间（即N/m，N表示母体的数目，m表示样本的大小），如果样本区间为分数，可四舍五入化为整数。然后从1到N/m号中随机抽出一个号码作为第一个样本单位，将第一个样本单位的号码加样本区间即得第二个样本单位，依此类推，直到样本数抽够为止。,Friday, 7 March 2008,CUFE,此法适用于常规调查。例如母体样本有10000个，样本的大小决定为200个，则样本区间为10000/200=50，假如从1到50中我们随机抽出了7，则样本单位的号码，依次为7，57，107，157，207.直到样本达到200个为止。,问题：如果从1到50中我们随机抽出了16呢？,Friday, 7 March 2008,CUFE,（5）任意抽样法(Convenience sampling),任意抽样法是随调查者之方便所选取的样本，属于非机率抽样。母体的标志是“同质”时，可用此法，一般市场调查多用此法。例如街头作访问调查（看到谁就访问谁）。,优点：使用方便，最省钱。,缺点：抽样偏差极大，结果极不可靠；通常不应利用一个任意样本估计母体参数的数值，因为一个母体中“任意”单位极可能和其他“不任意”的单位有显著的不同。,Friday, 7 March 2008,CUFE,（6）判断抽样法( Judgement sampling),“立意抽样法”：系专家的判断而决定所选的样本。由法国社会经济学家黎伯莱(Leplay)所创造的一种抽样方法。设计调查必须对母体的有关特征具有相当的了解。使用这种抽样法应极力避免挑选极端的类型，而选取“多数型”或“平均型”的样本为调查研究的对象，以期透过对典型样本的研究而了解母体的状态。,适用于母体的构成单位极不相同而样本数很小的情况。在编制物价指数时，有关产品项目的选择及样本地区的决定等常采用此法。,Friday, 7 March 2008,CUFE,优点：由于判断抽样法系依照调查人的需要选定样本，较能适合特殊的需要，回收率也较高。缺点：如果主观判断偏差，则判断抽样极易发生抽样偏误。,Friday, 7 March 2008,CUFE,（9）配额抽样法(quota sampling),此法适用于一般小的市场调查。,执行步骤：,A、选择“控制特征”作为细分母体的标准；,B、将母体按“控制特征”细分，使分成数个子母体。,C、决定各子母体样本的大小，通常系将总样子数按各子母体在母体中所占的比例分配；,D、选择样本单位：各子母体样本数决定后，即可为每一个调查员指派“配额”要他在某个子母体中访问一定数额的样本。,Friday, 7 March 2008,CUFE,抽样分布,第二节、统计推断,抽样误差：,随机样本的样本值（统计量）与总体值（参数）之间的差异。抽样误差是在样本的选取中偶然因素作用的结果。,抽样分布（,sampling distributions,）：,假设从一给定总体中选取容量为,N,的随机样本的过程可以无限次重复进行，则将产生指定统计量（如均值,）的所有可能值的一个分布，它是与样本统计量联系在一起的概率分布。,在统计推断的应用中，必须首先导出有关统计量的抽样分布，这些抽样分布是进行假设检验和参数估计的基础。,Friday, 7 March 2008,CUFE,抽样分布,第二节、统计推断,例,2.1,：,某厂生产一种直径为,100mm,的轴。检验工人每批成品中随机抽取一个,16,根轴的样本进行检验，设该样本的均值为,110mm,，方差为,100mm,，试问生产线是否出了问题？,分析：,这是一个假设检验的问题：根据样本均值,110mm,，检验总体均值为,100mm,的假设是否正确。,步骤：,（,1,）确定该样本均值的抽样分布（如：正态分布或,t,分布）；（,2,）根据抽样分布来计算抽样误差,X,110-100=10,出现的概率；如果概率值非常小（如,0.01,），则说明测试结果不支持原来有关总体均值为,100,的假设。,Friday, 7 March 2008,CUFE,均值的抽样分布,第二节、统计推断,定理：,若,X,N,（,2,），则对于从,X,的总体中取出的容量为,N,的样本的均值,，在重复抽样的情况下，有,也就是说，样本均值,的抽样分布是均值为,方差为,2,/N,的正态分布。,标准误差,（,standard deviation,）:,在实际中，没有理由假定随机变量概率分布的,方差,(,variance,)或,标准差,(,standard deviation,)都是已知的。在它们均未知的情况下，对于标准差的估计量通常称为,标准误差,（standard error）,。,Friday, 7 March 2008,CUFE,均值的抽样分布,第二节、统计推断,中心极限定理：,若为从一均值为,标准差为,的非正态总体中取出,N,个独立观测值的随机样本的均值,，则只要,N,充分大，,的抽样分布近似于均值为,，标准差为的正态分布。,中心极限定理将正态总体均值的抽样分布的定理推广到非正态分布的一般情形。实际上，对于,N,30，就可以得到相当满意的近似。但一般来说，原总体对正态分布的偏离越大，样本也应当越大。,Friday, 7 March 2008,CUFE,均值的抽样分布,第二节、统计推断,Central Limit Theorem,: As the sample size is increased, the sampling distribution of the mean approaches the normal distribution in form regardless of the form of the population distribution of the individual measurements.,For practical purposes, the sampling distribution of the mean can be assumed to be approximately normal whenever the sample size is n30. (Kazmier, L. J. (1988), pp.129-130.),Friday, 7 March 2008,CUFE,计量经济分析的统计学基础,第一节概率和概率分布,第二节统计推断,第三节参数估计,第四节假设检验,Friday, 7 March 2008,CUFE,第三节、参数估计,参数估计,：,由样本数据来估计未知的总体参数的方法。参数估计和假设检验是统计推断的两个重要内容。,估计问题可分为两类：,点估计,和,区间估计,。,点估计：,估计量和估计值：,设,X,为一随机变量，其概率密度函数为,f(x,),，其中,为该分布的参数。假定，不失一般性，已知概率密度函数（,PDF,）的形式是,t,分布或正态分布，但不知道,的值。,为估计的值，从已知分布中抽取一个容量为,N,的随机样本，然后导出样本值的一个函数（公式）：,使得我们可以用该公式提供,的真值的估计值。称为总体参数的,估计量,(Estimator),，该估计量所取的一个具体值称为的一个,估计值,(Estimate),。显然，是告诉我们如何估计真值的一种规则或一个公式；是样本数据的函数，是一个,随机变量,。,这样得到的估计量称为,点估计量,，因为它仅提供,的单个（点）估计值。,Friday, 7 March 2008,CUFE,第三节、参数估计,点估计量的统计性质（,Properties of Point Estimators,）,估计量是基础，是计算估计值的公式。估计量和估计值相比，估计量更重要。“好”的估计量通常会产生比较接近总体参数真值的估计值，而与具体的样本无关。,估计量的统计性质可分为两类：,小样本性质,和,大样本性质,（渐近性质）,（1）小样本性质,：,无偏性（,Unbiasedness,）,有效性（,Efficiency,）,最佳线性无偏性（,The Best Linear,Unbiasedness,）,Friday, 7 March 2008,CUFE,点估计量的统计性质（,Properties of Point Estimators,）,第三节、参数估计,（1）,小样本性质,无偏性（,Unbiasedness,）,:,如果,E( )=,，则为的无偏估计量；,反之，则估计量是有偏估计量。,是有偏的（biased）：偏离度-E(,)。,是无偏的（unbiased）。,*,*,从图2-5中可以看出：从无偏分布中抽取的一个估计值比起从那些不以总体真值为中心的分布中抽取的估计值有更大可能靠近总体真值。,Bias,(=E( ),E( ),f( ),f( ),*,*,图2-5：无偏估计量和有偏估计量,*,Friday, 7 March 2008,CUFE,点估计量的统计性质（,Properties of Point Estimators,）,第三节、参数估计,（1）,小样本性质,无偏性举例,:,(1),如,E( )=,，,是,的一个无偏估计量。,是,2,的无偏估计量。,(2) , ,偏离度,但是,Friday, 7 March 2008,CUFE,点估计量的统计性质（,Properties of Point Estimators,）,第三节、参数估计,（1）,小样本性质,有效性（,Efficiency,）,:,考虑两个由容量为,N,的同一样本计算而来的无偏估计量和,如果有：；或，则称为有效估计量，,或者说,比更有效。,f( ),f( ),图2-6：有效性,显然，在一个参数,的各种估计量之间进行选择时，我们希望选择,既无偏又有效,的估计量。若在,的所有估计量中，我们能够找到一个具有,最小方差,的估计量，则称之为,的最佳估计量。,Friday, 7 March 2008,CUFE,点估计量的统计性质（,Properties of Point Estimators,）,第三节、参数估计,（1）,小样本性质,有效性举例,:,如；,。,即：,比m约60更有效。,Friday, 7 March 2008,CUFE,点估计量的统计性质（,Properties of Point Estimators,）,第三节、参数估计,（1）,小样本性质,最佳线性无偏性（,the best linear,unbiasedness,）,:,线性估计量（,linear estimator,）：,是指估计量是诸样本观测值的一个,线性函数,。,最佳线性无偏估计量（,BLUE: the best linear unbiased estimator,）,:,是指是,线性的,、,无偏的,，并且它在,的所有线性无偏估计量中具有,最小方差,。,Friday, 7 March 2008,CUFE,第三节、参数估计,点估计量的统计性质（,Properties of Point Estimators,）,（2）大样本性质,：,有时，一个估计量在小样本情况下不满足某些小样本性质，但随着样本容量N的无限增大，该估计量就会有一些令人满意的统计性质，这些性质称为大样本性质或,渐近性质,。,渐近无偏性（,Asymptotic Unbiasedness,）,一致性（,Consistency,）,Friday, 7 March 2008,CUFE,点估计量的统计性质（,Properties of Point Estimators,）,第三节、参数估计,（2）,大样本性质,渐近无偏性（,Asymptotic Unbiasedness,）,:,若对于估计量，有,则称为,的,渐近无偏,估计量,。也就是说，当,N,时，估计量的期望值趋向于,的真值。,用概率极限符号表示为,一个估计量

展开阅读全文

计量经济学第二讲-计量经济分析的统计学基础

最新文档