资源描述
Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,10 -,79,统计学,STATISTICS,(第五版),第10章 方差分析,PowerPoint,统计学,10.1,方差分析引论,10.2,单因素方差分析,第10章 方差分析,学习目标,解释方差分析的概念,解释方差分析的基本思想和原理,掌握单因素方差分析的方法及应用,理解多重比较的意义,10.1 方差分析引论,10.1.1 方差分析及其有关术语,10.1.2 方差分析的基本思想和原理,10.1.3 方差分析的基本假定,10.1.4 问题的一般提法,什么是方差分析(ANOVA)?,(analysis of variance),表面上看,是检验多个总体均值是否相等,本质上,是研究变量之间的关系,2,、,分类型自变量,对,数值型因变量,的影响,3,、方差分析就是通过检验多个总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,什么是方差分析?,(例题分析),【 例 】,为了对几个行业的服务质量进行评价,消费者协会在4个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表,什么是方差分析?,(例题分析),消费者对四个行业的投诉次数,行业,观测值,零售业,旅游业,航空公司,家电制造业,1,2,3,4,5,6,7,57,66,49,40,34,53,44,68,39,29,45,56,51,31,49,21,34,40,44,51,65,77,58,方差分析中的有关术语,因素或因子,(factor),所要检验的对象,分析行业对投诉次数的影响,,行业,是要检验的因子,水平或处理,(,treatment),因子的不同表现,零售业、旅游业、航空公司、家电制造业,观察值,在每个因素水平下得到的样本数据,每个行业被投诉的次数,方差分析中的有关术语,试验,这里只涉及一个因素,因此称为单因素,4,水平的试验,总体,因素的每一个水平可以看作是一个总体,零售业、旅游业、航空公司、家电制造业是,4,个总体,样本数据,被投诉次数可以看作是从这,4,个总体中抽取的样本数据,方差分析的基本思想和原理,从,散点图上可以看出,不同行业被投诉的次数有明显差异,同一个行业,不同企业被投诉的次数也明显不同,家电制造被投诉的次数较高,航空公司被投诉的次数较低,行,业与被投诉次数之间有一定的关系,如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近,方差分析的基本思想和原理,(图形分析),散点图观察不能提供充分的证据证明不同行业被投诉的次数之间有显著差异,这种差异可能是由于抽样的随机性所造成的,需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析,方差分析的基本思想和原理,方差分析的基本思想和原理,(两类误差),随机误差:,抽样的随机性所造成的,2,、,系统误差:,不同总体间的系统性因素造成的,方差分析的基本思想和原理,(误差来源及分解),1、组内误差:,来自水平内部的数据误差。,仅为随机误差。,2、,组间误差:,来自不同水平之间的数据误差。,随机误差与系统误差的总和。,B无差异,如果不同水平的均值间( ),则不同水平间就,( )有系统误差,B不会,A会,A有差异,方差分析的基本思想和原理,(误差平方和SS),数据的误差用平方和,(,sum of squares,),表示,SST,组内平方和,(,within groups,),因素的同一水平下数据误差的平方和,组间平方和,(,between groups,),因素的不同水平之间数据误差的平方和,方差分析的基本思想和原理,(误差平方和SS),数据的误差用平方和,(,sum of squares,),表示,组内平方和,(,within groups,),因素的同一水平下数据误差的平方和,比如,零售业被投诉次数的误差平方和,只包含,随机误差,组间平方和,(,between groups,),因素的不同水平之间数据误差的平方和,比如,,4,个行业被投诉次数之间的误差平方和,既包括,随机误差,,也包括,系统误差,误差分解图,总误差,(SST),组内误差,(SSE),组间误差,(SSA),随机误差,随机误差+系统误差,方差分析的基本思想和原理,(均方MS),判断行业对投诉次数是否有显著影响,,就是检验被投诉次数的差异主要是什么原因所引起的,如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响.,方差分析的基本思想和原理,如果,4,个行业被投诉次数之间不存在系统误差,则意味着,每个样本都来自同一总体,即,H,0,:,m,1,=,m,2,=,m,3,=,m,4,X,f(X),1,2,3,4,方差分析的基本思想和原理,如果,4个行业被投诉次数之间存在系统误差,则意味着,4个行业的样本来自不同的总体,即,H,1,:,m,i,(,i,=1,2,3,4,),不全相等,至少有一个总体的均值是不同的,X,f(X),3,1,2,4,方差分析的基本假定,每个,总体都应服从正态分布,对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本,比如,每个行业被投诉的次数必须服从正态分布,各个,总体的方差必须相同,各组观察数据是从具有相同方差的总体中抽取的,比如,,4,个行业被投诉次数的方差都相等,观,察值是独立的,比如,每个行业被投诉的次数与其他行业被投诉的次数独立,F检验统计量,方差分析中的基本假定,在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的,4,个正态总体的均值是否相等,如果,4,个总体的均值相等,可以期望,4,个样本的均值也会很接近,4,个样本的均值越接近,推断,4,个总体均值相等的证据也就越充分,样本均值越不同,推断总体均值不同的证据就越充分,10.2 单因素方差分析,10.2.1 数据结构,10.2.2 分析步骤,10.2.3 关系强度的测量,10.2.4 方差分析中的多重比较,分析步骤,一、提出假设,二、构造检验统计量,三、统计决策,10.2 单因素方差分析,提出假设,构造检验统计量,统计决策,10.2 单因素方差分析例题分析,【 例 】,为了对几个行业的服务质量进行评价,消费者协会在4个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表,什么是方差分析?,(例题分析),消费者对四个行业的投诉次数,行业,观测值,零售业,旅游业,航空公司,家电制造业,1,2,3,4,5,6,7,57,66,49,40,34,53,44,68,39,29,45,56,51,31,49,21,34,40,44,51,65,77,58,10.2 单因素方差分析例题分析,一、提出假设,设,1,为零售业被投诉次数的均值,,2,为旅游业被投诉次数的均值,,3,为航空公司被投诉次数的均值,,4,为家电制造业,被投诉次数的均值,,,提出的假设为,H,0,:,1,2,3,4,H,1,:,1,2,3,4,不全相等,构造检验的统计量,(,F,分布与拒绝域),如果均值相等,,F,=,MSA,/,MSE,1,a,F,分布,F,(,k,-1,n,-,k,),0,拒绝,H,0,不能拒绝,H,0,F,10.2 单因素方差分析例题分析,二、构造检验统计量,问题:1、SSA、SSE如何计算,2、自由度如何确定,当,H,0,为真时,,二者的比值服从分子自由度为,k,-1、分母自由度为,n,-,k,的,F,分布,10.2 单因素方差分析例题分析,SSA、SSE如何计算,构造检验的统计量,(例题分析),构造检验的统计量,例题分析,(,SSE计算及自由度确定,),构造检验的统计量,例题分析,(,SSE计算及自由度确定,),构造检验的统计量,例题分析,(,SSA计算及自由度确定,),10.2 单因素方差分析例题分析,二、构造检验统计量,10.2 单因素方差分析例题分析,三、统计决策,根据给定的显著性水平,,在,F,分布表中查找与第一自由度,df,1,k,-1,、,第二自由度,df,2,=,n,-,k,相应的临界值,F,若,F,F,,,则拒绝原假设,H,0,。表明均值之间 的差异是显著的,所检验的因素对观察值有显著影响,若,F,F,,,则拒绝原假设,H,0,,,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响,若,FF,,,则不拒绝原假设,H,0,,,无证据表明所检验的因素对观察值有显著影响,单因素方差分析表,(基本结构),误差来源,平方和,(SS),自由度,(df),均方(MS),F值,P值,F,临界值,组间,(因素影响),SSA,k-,1,MSA,MSA,MSE,组内,(误差),SSE,n-k,MSE,总和,SST,n-,1,关系强度的测量,关系强度的测量,拒绝原假设表明因素,(,自变量,),与观测值之间有显著关系,组间平方和,(,SSA,),度量了自变量,(,行业,),对因变量,(,投诉次数,),的影响效应,只要组间平方和,SSA,不等于,0,,就表明两个变量之间有关系,(,只是是否显著的问题,),当组间平方和比组内平方和,(,SSE,),大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱,关系强度的测量,变量间关系的强度用自变量平方和,(,SSA,),占总平方和,(,SST,),的比例大小来反映,自变量平方和占总平方和的比例记为,R,2,即,其平方根,R,就可以用来测量两个变量之间的关系强度,关系强度的测量,(例题分析),R,=,0.591404,结论,行业,(,自变量,),对投诉次数,(,因变量,),的影响效应占总效应的,34.9759%,,而残差效应则占,65.0241%,。即行业对投诉次数差异解释的比例达到近,35%,,而其他因素,(,残差变量,),所解释的比例近为,65%,以上,R,=,0.591404,,,表明行业与投诉次数之间有中等以上的关系,方差分析中的多重比较,(,multiple comparison procedures,),多重比较的意义,通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异,可采用,Fisher,提出的,最小显著差异,方法,简写为,LSD,LSD,方法是对检验两个总体均值是否相等的,t,检验方法的总体方差估计加以修正,(,用,MSE,来代替,),而得到的,多重比较的步骤,提出假设,H,0,:,m,i,=,m,j,(,第,i,个总体的均值等于第,j,个总体的均值,),H,1,:,m,i,m,j,(,第,i,个总体的均值不等于第,j,个总体的均值,),计算检,验的统计量,:,计算,LSD,决策:若 ,,拒绝,H,0,;,若,,,不拒绝,H,0,多重比较分析,(例题分析),第1步:,提出假设,检验,1,:,检验,2,:,检验,3,:,检验,4,:,检验,5,:,检验,6,:,方差分析中的多重比较,(例题分析),第2步:,计算检验统计量,检验,1,:,检验,2,:,检验,3,:,检验,4,:,检验,5,:,检验,6,:,方差分析中的多重比较,(例题分析),第3步:,计算,LSD,检验,1,:,检验,2,:,检验,3,:,检验,4,:,检验,5,:,检验,6,:,方差分析中的多重比较,(例题分析),第4步:,作出决策,不能认为,零售业与旅游业均值之间有显,著差异,不能认为,零售业与航空公司均值之间有显著差异,不能认为,零售业与家电业均值之间有显著差异,不能认为,旅游业与航空业均值之间有显著差异,不能认为,旅游业与家电业均值之间有显著差异,航空业与家电业均值,有,显著差异,本章小结,方差分析,(ANOVA),的概念,方差分析的思想和原理,方差分析中的基本假设,单因素方差分析,结 束,THANKS,
展开阅读全文