资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一章 绪论及概率知识,第一节 统计学发展概述,第二节 事件及其相互关系,一、随机现象,在一定条件下,有多种可能的结果发生,但事先并不能100%地肯定发生哪一种结果的现象。,随机事件:泛指随机现象的任一种可能发生的结果,简称“事件”。用A、B、C或A1A2A3表示。,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第五章 方差分析(一),第一节,方差分析原理,(一个性质、两个分布、三个假定),第二节 单向分组数据,(各组观察值个数有相同和不相同之分),第三节,多向分组数据,(含两向分组、三向分组实例),第四节 三个假定与数据转换*,(正态性、可加性、同质性),第五章要点提示,方差分析是本课程的重点,它与试验研究联系最为密切。学习时要从完全随机设计(单向分组)的试验数据着手,结合显著性检验的知识,深刻理解方差分析原理的全部内涵,即一个性质、两个分布和 三个假定(某些情况下作数据转换的必要性);区分LSR法多重比较与t-test的异同点;重点掌握单因素随机区组和拉丁方试验结果的方差分析法,能熟练地运用字母法标记多重比较结果。,涉及教材内容:第六章第一、二、五节,第十二章第五、六、七节。,作业布置:,教材,第六章第四节内容自习,;,教材P131135,T1、T3,、,T4、T11,、,T12,、T13、,T20、T21,、,T22,,,教材P268269,T7、T8,、,T13。,第一节 方差分析原理,方差分析(analysis of variance),缩,写词原为,ANOVA,现在也用AOV。,它是对多个样本平均数进行假设测,验的方法,因为对三个以上的平均数差,异进行比较时,采用只能就一个或两个,样本平均数差异进行显著性测验的方法,已不敷应用,例如:,例5.1,某水产研究所为了比较 k=4种,不同配合饲料对鱼的饲喂效果,选取了,条件基本相同的鱼20尾,随机分成4组,,投喂不同饲料,一个月后每个处理各得,n=5个增重观察值,且T=550.8,=27.54,试予分析。,解 本例,需要分析两个方面的问题,:,鱼经不同饲料投喂后增重是否,有显著差异(即存在本质差别)?,若有显著差异的话,在哪些饲料之间?,如果按第三章的方法,直接进行显著性检验,就要,孤立地对以下6个两两差数做,t-test,,,即:,顺序,t,t,24.74 ,t,26.28 ,t,27.96,A,1,31.18,6.44 4.9 3.22,A,4,27.96,3.22 1.68,A,2,26.28,1.54,A,3,24.74,第一节 方差分析原理,把一份完整的原始数据部分地撇开,,孤立地对两两差数进行t-test,,其消极后,果佛克伦这样描述过:,从同一总体中抽样,每次抽两个样本,得,1,和,2,后求算 t 值,若指定它超过某,值的概率为5%的话,该值就是两尾表中,查得的临界值 t,0.05,再以相同的样本容,量每次抽三个样本,用最大的样本和,最小的样本求算 t 值,此时它超过“t,0.05,”,的概率上升到14.3%(即“t,0.05,”=t,0.143,),继续以相同的容量每次抽,四个样本,,,仍以最大的和最小的求算t 值,则,上升到26.5%(即“t,0.05,”=t,0.265,),以此,类推5个样本40%以上。,比如本例针对药剂,A,1,与药剂,A,3,的两两差数6.44(最大,最小,)进行的,t-test:,F=S,大,2,/,S,小,2,=41.67/415.97/4,F,0.05,S,e,2,=(SS,1,+SS,2,)/(,1,+,2,)=57.64/8,S,1-2,=,Se,2,(1/n,1,+1/n,2,)=1.70,t=(,1,-,2,)(,1,-,2,)S,1-2,=6.44 1.70=3.8 “t,0.05,”=2.306,由于撇开,A、B,孤立地进行,否定,H,O,的把握不到80%。,第一节 方差分析原理,一、数据整理,根据方差分析的先决条件,在“三个,假定”成立的前提下,对右表继续整理:,C=T,2,/nk=550.8,2,/20=15169.03,SS,T,=(Y,),2,=Y,2,C,=31.9,2,+28.5,2,15169=199.67,df,T,=nk 1=5 4 1=19,二、平方和、自由度的分解,Y=(Y,t,)+(,t,),两边同时平方,得:,(Y),2,=(Y,t,),2,+(,t,),2,+2(Y,t,)(,t,),由同一处理重复观察值的累加:,(Y),2,=(Y,t,),2,+(,t,),2,+2(,t,)(Y,t,)=0,(Y),2,=(Y,t,),2,+n(,t,),2,再把全部处理观察值的累加,得:,(,Y,),2,=,(Y,t,),2,+n,(,t,),2,即:,SS,T,=(,组内),SS,e,+,(,组间),SS,t,其中,SS,t,=,n,(,t,),2,=,T,t,2,/n C,=(,155.9,2,+131.4,2,+123.7,2,+139.8,2,)/5,15169.03=114.27,于是,SS,e,=,SS,T,SS,t,=199.67,114.27=85.4,=,SS,1,+,SS,2,+,SS,3,+SS,4,=,41.67+5.43+15.97+22.33,df,t,=k 1=3 df,e,=df,T,df,t,=193,=df,1,+,df,2,+,df,3,+df,4,=,4+4+4+4,=16,第一节 方差分析原理,三、列ANOVA表,进行F-test,变异来源,DF,SS MS F F,0.01,处理,3,114.27 38.09 7.13,*,5.29,误差,16,85.4 5.34,总,19,199.67,(F值右上角标一个,*,达到0.05,标两个,*,达到0.01),这里进行的,F-test,与第三章(,H,o,:,大,2,小,2,),的相同之处是都做右尾测验,查的是同一张F,临界值表;不同之处是固定用误差方差,S,e,2,作,分母(,H,o,:,t,2,e,2,),而不论其相对大小。,显然,F值越大,说明处理效应引起的数据变,异不仅在量的方面所占比重较大,而且相对于,误差引起的变异来讲显得越重要、越突出;本,例,F-test,结果显示极显著,表明原始数据的总变,异主要由不同的饲料种类引起,各处理之间至,少有两个存在着(极)显著差异。,以上一、二、三就是,R.A.Fisher,创建的方差分析法,其原理归纳如下:,平方和与自由度的可加性;,SS,T,综合了全部观察值的变异量,它汇总了各变异来源(,SOV),导致原始数据和全试验平均数(,),出现差异的分量,包括,可控因素分量和误差分量两类,;“可加性”证实前者就是观察值按可控因素分组后算得的组间平方和(可控因素可以是试验因素,也可以是象单位组那样的其它系统因素)。,试验设计有几个可控因素,数据就会有几种可能的分组方式,也就可以算出几个组间,SS,而本属于组内,SS,的误差分量在平方和分解时总是由,SS,T,减去所有可控因素,SS,得到,因此它又被称为“,剩余平方和,”。,自由度的剖分与平方和的剖分一一对应,。,依据,F,分布进行整体测验;,只确定可控因素分量和误差分量的相对,重要程度是否达到显著水平。,第一节 方差分析原理,四、多重比较,R.A.Fisher 创建的方差分析法并没有明确,(极)显著差异究竟存在于哪些“组平均数”,之间,F值(极)显著所包含的信息只有通过,对C,2,n,=k(k-1)/2个两两差数进行多次连续性,测验才能完全揭露出来,这就是多重比较。,多重比较不论用哪一种方法,区别于多,次孤立的 t-test 或者说体现其“连续性”特征,之处有两个,一是必须使用同一个共用的标,准误,记为“SE”),本例SEMS,e,/n ,5.345=1.033,(10g),;二是所依据的抽样分,布由计算MS,e,即S,e,2,的自由度df,e,决定,并根据,两两差数秩次距“k”的不同而有所修正。如,本例k=,2,、,3,、,4,,测验时依据df,e,=16的 t 分,布并在k=,3,和,4,时修正为SSR分布如右。,顺序,t,t,24.74 ,t,26.28 ,t,27.96,A,1,31.18,6.44,4.9,3.22,A,4,27.96,3.22,1.68,A,2,26.28,1.54,A,3,24.74,=16,k=2 SSR=t2,=16,k=3,=16,k=4,3.23,3.15,3.00,第一节 方差分析原理,附表6 列出了各自由度对应的t 分布曲线,再按9 种秩次距修正出来的SSR分布当两尾,概率取0.05和0.01时临界值,记为SSR,0.05,和,SSR,0.01,,其中k=2的那一条因为实际就是 t,分布曲线压缩横坐标刻度所得,所以表中列,出的SSR,0.05,和SSR,0.01,就分别等于附表3所列,t,0.05,和t,0.01,的2 倍;其它k3的SSR分布随,着P的递增,对 t 分布的修正幅度加大,因此,表中列出的SSR,0.05,和SSR,0.01,也就随之递增。,多重比较测验两两差数的显著性时不是,将它除以SE转换成SSR(也是标准化变量!),后再与SSR,0.05,和SSR,0.01,比大小,而是先将,SSR,0.05,和SSR,0.01,乘以SE算出“显著尺”LSR,再将它们直接和相应秩次距的两两差数比,大小,超过LSR,0.05,标,*,超过LSR,0.01,标,*,。,顺序,t,t,24.74 ,t,26.28 ,t,27.96,A,1,31.18,6.44,*,4.9,*,3.22,*,A,4,27.96,3.22,ns,1.68,ns,A,2,26.28,1.54,ns,A,3,24.74,=16,k=2 SSR=t2,=16,k=3,=16,k=4,3.23,3.15,3.00,第一节 方差分析原理,按照两两差数在三角梯形表中的排列规,律,本例多重比较过程列表如下:,LSR,0.05,=SE SSR,0.05,LSR,0.01,=SE SSR,0.01,顺序 ,t,t,24.74 ,t,26.28 ,t,27.96,A,1,31.18,6.44,*,4.9,*,3.22,*,A,4,27.96,3.22,ns,1.68,ns,A,2,26.28,1.54,ns,A,3,24.74,SE=1.033,综合包括多重比较在内的方差分析,全过程,其原理可归纳为:,一个性质(,SS、DF,的可加性),两个分布(,F,分布和,SSR,分布),本例根据,SSR,分布进行的多重比较,叫,新复极差测验,简称,SSR-test,。,因为,不能缺少,F-test,显著的前提,属于,Fishers protected multipe comparisons.,此前产生的,复极差测验,(,简称,q-test,、,又,称,SNK,测验)却可以不经过,F-test,原因,是,q-test,算,LSR,时要改查,q,值表(附表,5),所依据的,q,分布是按极差抽样分布原理,要保证各比较都是同一显著水平,因,而对,t,分布修正幅度随秩次距,k,的递增,而加大的速度要比,SSR,分布快,所以秩,次距,k3,时,q,0.05,和,q,0.01,比相应的,SSR,0.05,和,SSR,0.01,大。,第二节 单向分组数据,单向分组数据指观察值仅按一个方,向分组的数据。如例5.1中将全部供试单,位(试验材料)随机地分成若干组,然后,各组给以不同处理,即同组供试单位受,相同处理,不同组受不同处理,这样所,得的全部观察值在设计上称为,完全随机,试验数据,,而实际研究中下例5.2那样的,调查结果也属此类。,一、各组观察值个数相等,例5.2 抽测 5个不同品种(k=5)各5,头母猪(n=5
展开阅读全文