双变量回归的进一步讨论

上传人:wuxin****2020 文档编号:245085089 上传时间:2024-10-07 格式:PPT 页数:33 大小:487.50KB
返回 下载 相关 举报
双变量回归的进一步讨论_第1页
第1页 / 共33页
双变量回归的进一步讨论_第2页
第2页 / 共33页
双变量回归的进一步讨论_第3页
第3页 / 共33页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 双变量回归的进一步讨论,教师:卢时光,1.正态性假设,1.1 为什么要对干扰,u,i,的概率分布作出正态性假设?,在上一章的分析中,我们并没有对干扰,u,i,的概率分布作出任何假设。我们对,u,i,的描述是:它们的期望值为0,它们是,不相关,的,并且有着一个,不变的方差,。,有了这些假设,我们看到最小二乘(OLS)估计量 有着非常好的统计性质,例如它们是无偏估计的,最小方差。,如果我们的目的仅仅是做,点估计,,则上述假定就足够好了,但是点估计只是统计推断的一个方面,另一方面则是,假设检验,。,我们的目标并不仅仅是得到 ,而是要利用它对其真值 作出论断。更一般的来说,我们的目的不仅是要得到样本回归函数(SRF),而是要用它来推测总体回归函数(PRF)。,那么,我们为什么必须对干扰项,u,i,的概率分布进行进一步的假定呢?事实上,我们在前面的分析中已经强调过,最小二乘(OLS)估计量 都是,u,i,的线性函数,因此最小二乘(OLS)估计量 的概率分布是依赖于,u,i,的概率分布的。,在回归分析中,人们常常愿意假设,u,i,是遵循,正态分布,的,这种假设是有理由的,我们稍后来证明。,我们把假定了干扰,u,i,符合正态分布的模型称为双变量,经典正态线性回归模型(CNLRM),。,1.2 正态性假设,经典正态线性回归假定每个u,i,都是正态分布的,且:,顺便指出,,对两个正态分布变量来说,零协方差或零相关就意味着这两个变量是互相独立的,。,u,i,符合正态分布的解释:,1.u,i,代表了回归模型中未作为自变量引入的,而对因变量产生影响的其他因素的总和。我们希望这些被忽略的变量的影响是微小的,而且充其量是随机的。利用中心极限定理可以证明,如果存在大量的独立且同分布的随机变量,随着这些变量的数量的无限增大,它们的总和将趋于正态分布。,中心极限定理也说明,即便变量的个数是有限的,且不是严格独立的,它们的总和也可以看做是服从正态分布的。,正态分布的一个基本性质是:正态分布变量的任何线性函数都是正态分布的。这样最小二乘估计量 也都是正态分布的。,最后,正态分布是一种简单的,我们熟知的分布。,1.3 在正态性假设下OLS估计量的性质,在正态性假设下,OLS估计量 有如下统计性质:,1.它们是无偏的。,2.它们有最小方差。,3.,一致性,。随样本含量无限地增大,估计量将收敛到它们的真值。,4.是正态分布的。,5.服从n-2个自由度的 分布。,6.的分布独立于 。,7.是最优无偏估计量(BLUE)。,是正态分布的,是正态分布的,1.3 与正态分布有关的一些概率分布,t分布、CHI分布和F分布与正态分布有着密切关系,在统计推断中被大量的使用。以下以定理的形式将其关系概括,证明请参阅相关文献。,2.区间估计和假设检验,2.1 区间估计,回到上一章我们的例子中,我们在最后求得边际消费倾向,2,的估计值 为0.5091,这是对,2,的一个点估计值。虽然大量重复抽样的结果使得估计值的均值可望等于真值(E()=,2,),但单独一次抽样的结果可能是相背离的。,统计学上,一个点估计的可靠性是有它的标准误来衡量的。我们不能完全信赖一个点,而需要构造一个区间,比如在点估计量的两侧各宽2或3个标准误,使得它有95%的可能性包含真实的,2,。,我们试求两个正数,和,,,位于0和1之间,使得随机区间,包含,2,的的概率为1-,。用符号来表示:,如果这个区间存在,就称之为,置信区间,;1-,称为,置信系数,;而,称,显著性水平,;置信区间的端点分别称为,置信下限,和,置信上限,。,注意:,(1)上式并没有说,2,落在给定区域的概率是1-,,,因为,2,虽然未知,但是一个确定的数,它落在固定区域的可能性只有1或者0。,(2)因为 是随机的,而置信区域是根据 来构造的,因此置信区域也是随机的。,(3)因此,我们说如果重复多次,那么从长期来看,平均的说,这些区域将有1-,次包含着参数的真值。,2.2 回归参数,1,和,2,的置信区域,2,的置信区域,在,u,i,的正态假设下,OLS估计量 本身就是正态分布,因此构造一个随机变量:,这是一个标准化的正态分布变量。当,2,已知,以,为均值的正态分布有着良好的性质:正态曲线下,之间的面积约占68%;在,2,之间的面积约占95%;在,3,之间的面积约占99.7%。,但是,2,我们不知道,在实践中用无偏估计量 来测定。,构造一个随机变量:,这样定义的随机变量,t,是遵循自由度为,n,-2(因为先要估算 ,所以丧失了2个自由度)的,t,分布(利用定理5)。,在前面例子中,=0.5091,se()=0.0357,自由度为8。若取,=5%,查表,t,/2,=,t,0.025,=2.306,将这些值带入到上式中得到,2,的95%置信区间为:,0.4268,2,0.5914,2,的置信区域,在正态假设下,构建一个随机变量:,遵循自由度为n-2的,2,分布。,回到原来的例子:,2.3 假设检验:概述,假设检验问题可以简单概述如下:,问某一给定的观测值或发现是否与某声明的假设(stated hypothesis)相符(compatible)?这里用相符一词来表示与假设值“足够接近”,因而我们不拒绝所声称的假设,。,用统计语言来说,这个声称的假设叫做,虚拟假设,并用,H,0,来表示,通常在检验虚拟假设时要有一个,对立假设,,记做,H,1,。,假设检验就是要设计一个观测程序,以便决定拒绝或不拒绝一个虚拟假设。我们考虑变量遵循某种概率分布,通过计算这个参数的分布值来作出判定。通常来说在一次观测中,一个小概率的事件发生了,我们通常认为在概率统计是不成立的,通常拒绝这个虚拟假设。,假设检验有两种互为补充的方法:,置信区间,和,显著性检验,。,2.4 假设检验:置信区间的方法,双侧或双尾检验,回到我们的例子中,我们已经知道所估计的 的值是0.5091。我们设立一个虚拟假设及其对立假设,并对其进行判定:,H,0,:,2,0.3,H,1,:,2,0.3,在虚拟假设下 是0.3,而对立假设下 大于或者小于0.3。虚拟假设是一个简单假设,而对立假设是一个复合假设,这样就是我们所说的,双侧假设,。,那么所观测的 是否与H0相符?,从大量重复的角度上来看,像(0.4268,0.5914)这样的许许多多的区间将有95%的概率包含真实的,2,,因此,如果虚拟假设的,2,落在这个100(1-,)%置信区间,我们就,不拒绝,虚拟假设;如果落在区间之外,我们就可以,拒绝,虚拟假设。,回到例子中,,H,0,:,2,0.3。显然落在(0.4268,0.5914)所给的95%置信区间之外,因此我们能以95%的置信度拒绝 的真值是0.3的假设。即便虚拟假设是真的,我们一个大到0.5091的 的值,最多只有5%的机会,这是一个小概率的事件。,在统计学上,当我们拒绝虚拟假设时,我们说我们的发现是,统计上显著的,。反之,当我们不拒绝虚拟假设时,我们说我们的发现,不是统计上显著的,。,决策规则:构造一个,2,的100(1-,)%置信区间。如果,2,在假设,H,0,下落,入此区间,就不要拒绝,H,0,。但如果落入此区间之外,就要拒绝,H,0,。,单侧或单尾检验,有时候,我们根据某些先前的经验性工作,或者依照某种理论性的预测,而把对立假设取为单侧或单向的,,例如我们设立一个虚拟假设及其对立假设,并对其进行判定:,H,0,:,2,0.3,H,1,:,2,0.3,这种方式称为单侧或单尾检验。,检验统计假设的另一种方法被称为,显著性检验,,它是对置信区间法的一种补充,概括的来说,,显著性检验是利用样本结果,来证实一个虚拟假设的真伪的一种检验程序,。显著性检验的基本思想在于一个,检验统计量,以及在虚拟假设下这个统计量的抽样分布。根据算出来的统计值来决定是否接受,H,0,。,2.5 假设检验:显著性检验法,(1)回归系数的显著性检验:t检验,回忆在正态性假设下,构造的随机变量:,遵循自由度为n-2的t分布。如果我们给定虚拟假设,H,0,:,2,2,*,,则可以构造一个置信区间:,这样,我们构建的100(1-,)%置信区间叫做虚拟假设(,H,0,)的,接受域,,而置信区间之外的区域叫做虚拟假设(,H,0,)的,拒绝域,或,临界域,。,因为我们利用了t分布,所有上述检验程序被称为,t检验,。用显著性检验的语言来说,,如果一个统计量的值落在临界域上,这个统计量是统计上显著的。这时我们拒绝虚拟假设。同样,一个统计量的值落在了接受域中,这个统计量是统计上不显著的。这时我们不拒绝虚拟假设,。,我们注意到,我们把有关概率分布的两个尾端当做拒绝域,所以我们的检验程序仍然是一种,双侧,或,双尾显著性检验,。如果观测值落入任意一尾端,我们就拒绝该虚拟假设。之所以我们仍然使用双尾显著性检验,是因为我们的对立假设,H,1,:,2,0.3是一个,双侧复合假设,,,2,或者大于0.3,或者小于0.3。,如果经验告诉我们,,2,要比0.3大,这样我们设:,H,0,:,2,0.3以及,H,1,:,2,0.3。这样,假设是,单侧(右尾部),的。我们利用,单侧,或,单尾检验,。,除了上端置信限或临界值现在是t0.05,即5%的水平外,检验程序如前。,同样,拒绝虚拟假设,H,0,。,显著性,t,检验:决策规则,(2),2,的显著性检验:,2,检验,考虑以下变量:,(3)方差分析,在上一章,我们导出了等式:,对总平方和(TSS)的构成部分进行研究就叫方差分析(analysis of variance,ANOVA),。,同任一平方和联系在一起的是它所依据的自由度(df),即独立观测值的个数。因为在计算样本均值 时,我们失去了一个自由度,故TSS有n-1个自由度;而在估计 之前必须先计算 ,从而RSS有n-2个自由度。,把各项平方和及其相应的自由度引入后,我们得到了方差分析表:,现在考虑变量:,上述,F,有什么用处?可以证明:,如果,2,真的为0,则上述两个方程都给出相同的真实的,2,估计,这时解释变量,X,与,Y,没有任何线性关系,,Y,的变异全部是由于随机干扰,u,i,所带来的。这样,,F,比值提供了对虚拟假设,H,0,:,2,=0的一个检验,。我们所需做的,无非是算出,F,比值,再拿它同从,F,表中选定显著水平上读出的临界值相比较,或者查找所算,F,值的,p,值。,回到例子中,ESS=8552.73,自由度1;RSS=337.27,自由度8;,F,=8552.73/(337.27/8)=8552.73/42.159=202.87,查表95%临界值,F,1,8,=5.32202.87,拒绝,H,0,。或者根据,p,=0.0000001,确实是一个很小的概率,同样拒绝,H,0,。,事实上,根据,我们计算t,df=8,=14.24,(14.24),2,=F=202.87。可知,t检验和F检验是检验假设的两个互为补充的备选方法,对于双变量回归模型而言,确实不需要F检验。但当我们考虑多元(复)回归模型时,F检验成为检验统计假设的非常有用的方法。,2.6 回归分析的结果,上图中第一组括号内的数字代表估计的回归系数标准误,第二组数值是在回归系数为零假设下计算出来的,t,值(例如3.8128=24.45456.4138),而第三组数字代表估计的,p,值。比如当自由度为8时,得到一个等于3.8128或更大的t值的概率啊0.0026;得到一个等于或大于14.2405的t值的概率约合0.0000003。,把这些估计的,t,系数的,p,值显示出来,我们就能马上看到每一个,t,估计值的精确显著性水平。例如,在真实总体截距值为零的虚拟假设下,得到一个大到3.8128或更大的,t,值的精确概率(即p值)仅约为0.0026。因此我们拒绝这个虚拟假设,我们犯第1类错误(拒绝了真实的假设)的概率仅约合1万次中有26次,确实是一个很小的概率。从一切的实际目的考虑,我们都能说真实总体截距
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!