金融统计03假设检验与方差分析

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第3章假设检验与方差分析,第1节假设检验,第2节方差分析,第3节方差分析应用：恩格尔系数的城乡比较,第1节假设检验,主要内容,假设检验的概念,假设检验的标准,假设检验的步骤,假设检验的概念及形式,假设检验,对总体的某个参数或分布形式作出某种假设，然后利用样本信息来判断假设是否成立,假设检验的形式,假设分为,原假设,（H,0,）和,备择假设,（H,1,）两种,原假设,（Null hypothesis）：初始假定为真的假设,备择假设,（Alternative hypothesis）：与原假设的内容,相反,当原假设被拒绝时，被认为是真的假设,应用中，原假设一般是旧的、他人的观点或理论，备择假设一般是新的、自己的观点或理论，而统计分析的目的往往就是以新的数据来拒绝原假设，支持自己的观点,所以，习惯上，,能拒绝原假设的检验，称为显著的、有统计意义的,（Significant），否则为不显著,原假设(H,0,)和备择假设(H,1,)例,某汽车使用改进型发动机后声称油耗不超过百公里6升，对此进行检验,检验假设的设定：设u为百公里平均油耗，则,单边检验,（只检验小于或大于检验值中的一种情况）,工厂对收到的一批长度为2cm的零件抽检，检验长度是否合格？,检验假设的设定：设u为平均长度，则,双边检验,（同时检验小于、大于检验值的两种情况，常用）,假设检验的标准：显著水平,显著水平的定义,假设检验中的第一类错误(type I error)：拒绝正确的原假设（H,0,）,显著水平指犯第一类错误的最大概率，通常设定为5%或1%,显著水平的理解,形象的说，显著水平为1%是指，拒绝100次原假设，只有1次是拒绝错了（即只有1次原假设确实正确）,因为原假设往往是公认的观点、成熟的理论，甚至已经反复检验证明是正确的，所以为了加强拒绝的说服力，应设定一个严格的拒绝标准，即要将显著水平设的很小,显著水平越小，原假设值的允许变动范围就越大，备择假设成立的范围就越小，备择假设成立的概率就越小。如果能成立，则结论就很有说服力,不同显著水平的比较,（单边检验）,假设国家标准规定冰箱使用年限必须10年或以上,对某品牌抽样检验时，如果显著水平设为40%，则样本均值9年或以下即可认定为不合格。显著水平设为5%，则样本均值4年或以下才可认定为不合格，,相当于把原假设放宽到,H,0,4，,更有说服力,原假设,H,0,=10 即假设某品牌合格,4,某品牌冰箱总体的特征,显著水平5%,概,率,显著水平40%,9,10,冰箱使用年限,图中4为5%的临界值,9为40%的临界值,显著水平的运用：t 统计量,t 统计量的定义,假定总体服从正态分布，,则抽取的样本的平均值可用下列公式换算成,t 分布的,值（,简称t值,），该值可用来判断,样本平均值相对于总体平均值的误差程度,t 统计量公式的理解,公式中总体均值,0,在,假设检验时，等于原假设H,0,的值,上述t值公式就是将样本均值换算成一个,标准化,的t值，这与将正态变量换算成标准正态变量一样，所以t分布的中心为0,显然，t值的绝对值越大，样本均值离原假设H,0,的值越远，样本越不支持原假设,显著水平的运用：t 检验,显著水平在t 检验中的运用过程如下：,假定原假设成立，比如,将样本统计量的值按前述公式换算成t值，其中,0,等于原假设的，比如10,从t分布表查出某一显著水平（比如5%）的临界值t,0.05,比较换算的t值与临界值t,0.05,。如果|t值|t,0.05,，则拒绝原假设，反之，接受原假设,t检验示意图,（,双边检验，显著水平设为5%,）,将样本均值换算成标准化的t值，如果|t值|临界值，表明样本均值离原假设的总体均值很远，样本来自于这个总体的可能性很小，于是原假设(H,0,)成立的概率也很小，所以拒绝H,0,0,t临界值（约为-2）,2.5%,t值,拒绝域,单边检验示意图,显著水平,概,率,拒绝域,t临界值（约为2）,2.5%,95%,假设检验的实用标准：P值,根据样本值计算的显著水平又称为P值,比如：5%显著水平下的临界值为4，而实际的样本均值为3，小于临界值，则P值也小于5%（比如4%等）,统计软件作检验时，通常会根据样本值计算相应的P值，所以一般直接使用P值作为假设检验的标准，非常方便,判断原理如下,如果P值,1%，则检验值在1%水平显著，拒绝H,0,如果1%5%，则检验值不显著，接受H,0,P值与t 统计量,主要区别,P值不依赖于样本变量的分布形式，适用于任何假设检验，而t统计量依赖于样本变量的分布，适用范围有限,P值可直接与显著水平比较，判断简单，而t统计量需查表、换算，判断复杂,在应用统计的假设检验中，更多使用P值作为检验标准,主要联系,一般情况下，P值和t值有如下对应关系：,P值5%时，|t值|2,所以实用中（比如回归分析中），要获得有统计意义的结论（即在5%显著水平拒绝原假设（H,0,），可作下列任一种判断：,看P值时，应5%,看|t值|时，应 2,假设检验的步骤,(1)选择要检验的统计量（比如样本均值）,(2)确定原假设（H,0,）和备择假设（H,1,）,(3)确定检验的显著水平（一般为5%）,(4)查表确定与显著水平相对应的t分布的临界值,(5)将要检验的统计量换算成标准化的t值,(6)根据要检验的统计量的|t值|,大于,还是,小于,临界值，决定,是,否,拒绝原假设（H,0,）,如果使用统计软件，则只要（1）、（2）、（3）步，然后看输出的P值,是,否,小于显著水平决定,是,否,拒绝原假设,假设检验例,将旅客对机场的评价分为10级，7级以上为高服务质量。随机抽取12名旅客对某机场的评级，分别为7、8、10、8、6、9、6、7、7、8、9、8。检验该机场是否为高服务质量？,假设检验例（续）,(1)确定检验样本均值,(2)确定原假设和备择假设,(3)确定显著水平为5%,(4)查表得t分布的临界值,(5)将样本均值换算成标准化的t值,(6)要检验的统计量的|t值|临界值，所以拒绝原假设（H,0,）：,结论是：7.75确实大于7，该机场是高服务质量,第2节方差分析,主要点内容,方差分析的概念,组间平方和与组内平方和的概念,如何判断方差分析的结果,什么是方差分析？,方差分析（ANOVA）的定义,在相同方差假定下，检验多组正态样本的均值是否相等的一种统计分析方法,方差分析的基本概念,因子：实验中会改变状态的因素,因子的水平：因子的状态,方差分析的应用例,两种抗生素对某种疾病的疗效是否相同？,某软件的升级版是否比原版运行速度更快？,三个工厂生产的零件是否强度相同？,（单因子：工厂；三个工厂,该因子有三个水平）,单因素方差分析的统计模型,模型的假定：,因子A有r个水平，在第i水平下对要检验的指标作m次相互独立的观察，获得关于总体i的一个样本,假定总体i服从均值为，方差为的正态分布,模型要检验的问题：,模型检验的结论：,检验结果为F分布的值及其P值。一般将显著水平设为0.05，则当P,0.05时，拒绝H,0,，即r个水平不全相同；当P0.05时，接受H,0,，即r个水平全部相同。,单因素方差分析原理（1）,假定：,因子A有r个水平，在第i水平下对要检验的指标作m次相互独立的观察，获得关于总体i的一个样本。则共有,个观察值,总离差平方和为,总离差的两个来源：组间平方和与组内平方和,组间平方和，即每个水平的均值与总均值的离差的平方和,组内平方和，即每个水平内，各观察值之间的离差的平方和，视为随机取样的误差,总方差和两个来源的关系,单因素方差分析原理（2）,如何判断各个水平下的均值是否相等？,对组间平方和S,A,与组内平方和S,e,分别作自由度调整,将调整后的组间平方和S,A,与组内平方和S,e,相除，该比值服从F分布,F值1，表示组间的差距组内的随机差距，各组数据可能有质的区别，均值相等的可能性较小,根据F分布值的P值大小即可判断均值是否相等：P值0.05，检验结果显著，拒绝H,0,，即不全相等；P值,0.05为接受H,0,全相等,单因素方差分析原理（3）,使用EViews软件作单因素方差分析例（1）,某银行规定VIP客户的月均账户余额要达到100万元，并以此作为比较各分行业绩的一项指标。现从三个分行（A1、A2、A3）中，分别随机抽取4个VIP客户账户，用单因素方差分析判断三个分行此项业绩指标是否相同。,分行,（因子）,账户余额(万元),（检验指标）,A1（,因子的第1水平,）,103,101,98,110,A2,（因子的第2水平）,113,107,108,116,A3,（因子的第3水平）,82,92,84,86,例续1：EViews数据表,定义三个分行变量，分别输入4个账户余额，得数据表,例续2：三个分行账户余额的均值,求随机变量的均值等基本统计量：,菜单View,Descriptive StatsCommon Sample,例续3：作方差分析,选菜单View,Test of Equality,例续4：检验结论,显然方差分析的F分布值的P值=0.00010.05，拒绝H,0,，即三个分行VIP账户余额不全相同。,使用EViews软件作单因素方差分析的详细结果,Source of variation:离差来源,Between:组间平方和,Within:组内平方和,Total:总平方和,df:自由度,方差分析例：工资（1）,从美国劳工部的统计中，选出两个职业男、女周工资数据，分别分析两个职业的男女工资差异,方差分析例：工资（2）,各变量的基本统计量表,两种职业的男平均工资均大于女平均工资,财务管理男平均工资高出较大,财务女,财务男,程序女,程序男,Mean,635.00,979.00,741.00,797.00,Median,591.00,1019.00,700.00,766.00,Maximum,805.00,1117.00,884.00,901.00,Minimum,519.00,859.00,671.00,690.00,Std.Dev.,116.95,110.56,87.67,90.53,方差分析例：工资（3）,财务管理职业男女工资差别,方差分析的检验假设,H,0,：财务管理职业男女平均工资相等,H,1,：财务管理职业男女平均工资不相等,方差分析的检验结果,F值22.84，p值0.001,F值22.84，男女组间差距是各自组内差距的20倍以上。p值0.001，远远小于5%的显著水平（即非常显著），故拒绝H,0,，男女平均工资不相等，或者说男女平均工资差异大于抽样误差,方差分析例：工资（4）,计算机程序员职业男女工资差别,方差分析的检验假设,H,0,：计算机程序员职业男女平均工资相等,H,1,：计算机程序员职业男女平均工资不相等,方差分析的检验结果,F值0.99，p值0.35,F值0.99，男女组间差距比各自组内差距还小。p值0.35，远远大于5%的显著水平（非常不显著），不能拒绝H,0,，所以男女平均工资相等，差距来自抽样误差,第3节方差分析应用：恩格尔系数的城乡比较,主要内容,恩格尔系数的概念,对我国近年城乡恩格尔系数的方差分析,有关居民消费结构的恩格尔系数,恩格尔系数(Engels Coefficient),反映如下规律,收入越少，食品支出占总消费支出的比率越高，恩格尔系数越大,随着国民经济的增长，恩格尔系数呈下降趋势,国际标准,根据联合国粮农组织提出的标准，恩格尔系数在59%以上为贫困，50-59%为温饱，40-50%为小康，30-40%为富裕，低于 30%为最富裕。,我国近年恩格尔系数（表）,联合国粮农组织的标准，我国城镇居民的系数在30-40%之间，为富裕水平；农村居民的系数在40-50%，为小康水平,近年农村居民的恩格尔系数下降较为明显,我国近年恩格尔系数（图）,总体趋势是下降，但有波动。主要原因是农产品价格波动,农村居民恩格尔系数“悖论”：,农产品价格上升,收入增加,食品消费支出增加,恩格尔

展开阅读全文

金融统计03假设检验与方差分析

最新文档