第十一章方差分析与试验设计课件

上传人:txadgkn****dgknqu... 文档编号:241595533 上传时间:2024-07-08 格式:PPT 页数:70 大小:668.10KB
返回 下载 相关 举报
第十一章方差分析与试验设计课件_第1页
第1页 / 共70页
第十一章方差分析与试验设计课件_第2页
第2页 / 共70页
第十一章方差分析与试验设计课件_第3页
第3页 / 共70页
点击查看更多>>
资源描述
第十一章 方差分析与试验设计第十一章 方差分析与试验设计1p方差分析导论p方差分析p多重比较方法p试验设计(完全随机化试验设计、随机化区组设计、双因素方差分析)方差分析导论2方差分析导论p之前已经讨论过对于双总体均值差异的假设检验,那么如果是三个或三个以上的总体均值差异比较的检验呢?p先看一个现实例子:p某公司有下属甲、乙、丙三家工厂生产主要产品。为了确定这些工厂中有多少员工了解全面质量管理,从每个工厂中抽取一个由6名员工组成的样本,对这些样本进行质量管理有关知识的考核。得到了下表所示的考试分数:方差分析导论之前已经讨论过对于双总体均值差异的假设检验,那么3员工代号工厂甲工厂乙工厂丙185715927575643827362476746957169756858267员工代号工厂甲工厂乙工厂丙185715927575643824p公司想知道:下属的三个工厂工人在质量管理知识掌握上是否有差异?p因此相应的检验假设为:p ;Ha:u1,u2,u3不全相等p该例题中,响应变量(response variables)为工人考分;因素(factor)为工厂;各工厂的名称所属为处理(Treatment)p我们本章引入的方差分析方法就是用来检验:三个或三个以上总体均值的方法。p如果拒绝了H0,则说明:三个或三个以上的总体均值不全相等;至少有两个总体均值不同。公司想知道:下属的三个工厂工人在质量管理知识掌握上是否有差异5p进行方差分析之前有几个假设:p1.对于每个总体,响应变量服从正态分布;p2.对于所有总体,响应变量的方差相同;p3.观测值是独立的。进行方差分析之前有几个假设:6p方差分析的原理:p如果H0:u1=u2=u3为真,且满足以上假定时,对于三个样本均值 都来自同一个抽样分布,那么此时该总体的均值估计(或称为 )可以用三个样本均值的算术平均数来估计。方差分析的原理:7p此时的总体方差 的估计可以由:p此时 可以由样本的组间方差估计得到;也可以通过样本的组内方差的平均值估计。在H0为真的情况下,二者的比值应接近于1。p组间方差:p组内估计:此时的总体方差 的估计可以由:8p如果H0:u1=u2=u3为假,说明总体均值不全相等,他们来自不同的抽样分布。此时的样本均值不接近。p相应的,组间方差增大。此时的组间方差不适合估计p且组间方差和组内方差的比值远大于1.如果H0:u1=u2=u3为假,说明总体均值不全相等,他们来9p由上例计算:p可见,总体方差的组间估计远大于组内估计,比率为9.p如前所述,当总体方差的组间估计与组内估计的比值较大时,可能导致拒绝原假设,那么多大的程度可以拒绝H0的原假设呢?由上例计算:10p方差分析的思想方差分析的思想:p比较总体方差的组间估计和组内估计:p组间估计是以样本均值间的变动来估计总体方差p组内估计是合并每个样本内的变动来估计总体方差比较总体方差的组内估计和组间估计在各总体均值无差异时,这两个估计应很接近若两个估计很接近,则不能否定各总体均值无差异若两个估计不是很接近,则按照一定的原则否定各总体均值无差异的假定方差分析的思想:比较总体方差的组内估计和组间估计在各总体均值11方差分析p根据之前对方差分析原理的阐述,我们可以用判断样本方差比值的方法对k个总体均值进行检验。p假设从k个总体或处理中选择一个样本容量为n的简单随机样本。我们有以下定义,方差分析根据之前对方差分析原理的阐述,我们可以用判断样本方差12其中,nTn1+n2+nk其中,nTn1+n2+nk13p若每个样本的样本容量相等,则总样本平均值为:p即总体均值恰好等于k个样本均值的算术平均数.若每个样本的样本容量相等,则总样本平均值为:14p定义总体方差的组间估计和组内估计总体方差的组间估计和组内估计p 的组间估计:pMSTR称为处理均方(mean square due to treatments)p其中,MSTR的分子称为处理平方和SSTR(sum of squares due to treatments)定义总体方差的组间估计和组内估计15p 的组内估计:pMSE称为组内均方(mean square due to error)p其中,MSE的分子称为组内平方和,(sum of square due to error)p若H0为真,组间估计是总体方差的无偏估计;若H0为假,组间估计得到的 则偏大.不论H0真或假,组内估计都是总体方差的无偏估计.组内估计反映每个处理内部的变动.的组内估计:16p定义方差分析的统计量定义方差分析的统计量pF统计量的构造:两个chi方分布被各自自由度除以后的比值.p在响应变量服从独立正态分布的假定下,且H0为真时,p我们可以推知,SSTR/,SSE/分别服从自由度为(K-1)和(nT-k)的chi方分布.根据F分布的构造,可知,统计量F=MSTR/MSEF(k-1,nT-k)服从自由度为k-1和nT-k的F分布.由上例的数据计算可得,样本F统计量为F=258/28.67=9定义方差分析的统计量17p方差分析的拒绝规则方差分析的拒绝规则:pH0:u1=u2=uk;Ha:u1,u2,uk 不全相等p在显著水平下的拒绝规则为:p若FF(;k-1,nT-k),则拒绝H0的原假设,认为总体1,总体2,.总体k的均值不全相等.p上例中的拒绝域是,pFF(0,05,2,15)=3.68p即当由样本信息计算得到的F统计量大于3.68时,拒绝初始假设H0.因为93.68,我们拒绝三个总体均值无差异的假设.方差分析的拒绝规则:18F=MSTR/MSEF(;k-1,nT-k)F=MSTR/MSEF(;k-1,nT-k)19p方差分析表方差分析表(ANOVA)方差来源平方和自由度均方(mean square)F统计量组间(处理)SSTRK-1MSTRMSTR/MSE组内(误差)SSEnT-kMSE合计SSTnT-1方差分析表(ANOVA)方差来源平方和自由度均方(mean 20p方差分析就是将总得平方和及自由度分解为相应的来源:处理和误差.p当各样本的容量相等时,方差分析就是将总得平方和及自由度分解为相应的来源:处理和误差21多重比较方法p之前讨论的方差分析检验原假设时,只能得到所有总体均值是否相等的结论,但具体到若干个配对总体均值是否相等,就不能得出准确结论.p多重比较方法:Fisher LSD方法(Least Significant Difference)p该法是对总体方差估计稍微做出修改得出,别切给予两个总体情形的t检验统计量.多重比较方法之前讨论的方差分析检验原假设时,只能得到所有总体22LSD方法的多重比较步骤p1.H0:ui=uj;Ha:uiujp2.检验统计量p3.拒绝规则为:p如果tt(a/2)或t-t(a/2),则拒绝H0p其中的t分布自由度为(nT-k)LSD方法的多重比较步骤1.H0:ui=uj;Ha:23p上例,我们对甲乙丙三家工厂的员工测试表明,三家工厂员工对质量管理的知识认同没有达到一致.但具体是哪两家工厂间,或所有工厂间出现了认识差异呢?p用LSD多重比较方法分别对甲乙、甲丙、乙丙来进行判断,p相应的变量为:n1=n2=n3=6,k=3,nT=18;pMSTR=258;MSE=28.67上例,我们对甲乙丙三家工厂的员工测试表明,三家工厂员工对质量24pH0:u1=u2;Ha:u1u2p在假定H0为真的情形下,有统计量t服从自由度为15的t分布p此时,tt(0.025;15)=2.131p拒绝H0,可以得出甲丙两厂工人对质量认知有差异的结论。H0:u1=u3;Ha:u1u326pH0:u2=u3;Ha:u2u3p在假定H0为真的情形下,有统计量t服从自由度为15的t分布p此时,tF(0.05;2,12)=3.89进行假设设定:38p由于F=9.183.89,说明拒绝H0原假设,即三种装配方法的平均产量有差异。p相应的ANOVA表方差来源平方和自由度均方(mean square)F统计量组间(处理)52022609.18组内(误差)3401228.33合计86014由于F=9.183.89,说明拒绝H0原假设,即三种装配方39试验设计:随机化区组设计p什么叫随机化区组设计p当试验单元同质时,完全随机设计有效;若试验单元异质,则需要采用随机化区间设计。p这个设计的目的就是通过剔除MSE项中的外部来源方差,来得到实际误差方差的最佳估计。p随机化区组设计由b个区组所组成,每个区组包含k个试验单位。K个处理被随机的指派给每个区组中的单位,且每个处理在每个区组中只出现一次。试验设计:随机化区组设计什么叫随机化区组设计40p例:一项对3种不同包装设计的顾客偏好研究采用随机化区组试验设计,在4个超级市场进行。该试验进行了3周。超级市场包装1包装2包装31173423215262131238462216例:一项对3种不同包装设计的顾客偏好研究采用随机化区组试验设41p表中给出的是每个超级市场在给定三周内每周每种包装设计售出的单位数。p问这些数据是否可以提供足够的证据表明各种包装设计的平均销售量有差异?p在纯随机设计中,包装设计被随机的指派到每个超级市场,然而由题可知,超级市场由于受到地域、人流量等的因素影响,存在异质性。因此总体方差的组内估计MSE除了误差的影响以外,还受到市场间的异质而导致的误差。因此,如果仍采用纯随机设计的方差分析方法,则可能产生错误的结果。表中给出的是每个超级市场在给定三周内每周每种包装设计售出的单42pSST=SSTR+SSBL+SSEp总方差可以分解为:分解为处理平方和(SSTR),区组平方和(SSBL)以及误差平方和(SSE)p其中,k为处理个数,b为区组数,nT为总的样本大小,SST=SSTR+SSBL+SSE43方差来源 平方和自由度均方(mean square)F统计量处理SSTRk-1MSTRMSTR/MSE区组SSBLb-1MSBL误差SSE(k-1)(b-1)MSE合计SSTnT-1方差来源平方和自由度均方(mean square)F统计量处44p由例题计算得到各统计量:pSSE=SST-SSTR-SSBL=45.5由例题计算得到各统计量:45p由例题计算得到各统计量:方差来源平方和自由度均方(mean square)F统计量处理547.1672273.483 36.08区组3483116误差45.567.58合计940.66711由例题计算得到各统计量:方差来源平方和自由度均方(mean 46p同样的,我们也可以根据统计量F=MSTR/MSE的抽样分布来判定处理均值之间的差异。p在假定H0为真,总体满足正态分布,且观测值独立的情形下,统计量F服从自由度为(k-1,(k-1)*(b-1)的F分布。p拒绝规则为:若FF(a;k-1,(k-1)*(b-1),则拒绝H0的原假设。p本例的F统计量为36.0810.92,因此我们拒绝原假设,认为各种包装设计的平均销售量有差异。同样的,我们也可以根据统计量F=MSTR/MSE的抽样分布来47p例:空中交管员的压力测试p一项研究通过衡量空中交通管制员的工作压力,建议改造并重新设置管制员工作站。设计三个工作方案,先想知道这三个工作方案对减轻管制员压力的效果有多大差异。p由于不同的管制员对压力的承受力是不同的,即考察对象不是同质的,组内方差有两个来源,一个是随机误差,一个是管制员的个人差异导致的误差。因此我们通过随机化区组设计将个人差异从MSE中分离出来。p为了体现随机化的特点,我们以管制员为区组,将三个方案以随机的顺序指派给每个管制员。p每个管制员要操作每个系统。例:空中交管员的压力测试48第十一章方差分析与试验设计课件49p收集到以下数据:p可以计算得到以下汇总数据:收集到以下数据:50第十一章方差分析与试验设计课件51p计算SST,SSTR,SSBL及SSEpSSE=SST-SSTR-SSBL=19计算SST,SSTR,SSBL及SSE52p将各平方和被各自的自由度除以后,可得到相应的均方:pMSTR=SSTR/(K-1)=10.5pMSE=SSE/(k-1)*(b-1)=1.9pMSBL=SSBL/(b-1)=6pF=MSTR/MSE=10.5/1.9=5.53将各平方和被各自的自由度除以后,可得到相应的均方:53p计算的结果通过ANOVA表表示出来,如下:p通过比较F与F(a;2,10)可以得出是否拒绝H0的结论:pF5.53F(a;2,10)=4.1,拒绝原假设H0:u1=u2=u3p说明,统计上可以认为三种方案在对空中交通管制员平均压力效果上有差异。计算的结果通过ANOVA表表示出来,如下:54试验设计:双因素试验p之前的试验设计仅针对一个因子(factor)考虑相应的统计结论,现在我们需要考虑关于两个或更多因子相关的结论。p我们介绍双因素试验以及双因素的方差分析方法。p例:某大学考虑以下三种GMAT辅导课程(factor1),对应的有三个因子值(处理):p1.3小时复习,内容覆盖GMAT常考题型;p2.1天课程,覆盖有关考试资料,及模拟考试;p3.10周课程,发现学生弱点并建立个人改进课程。p另外,报考GMAT考试的学生主要来自三类学院(factor2),对应的三个因子值(处理),分别为1.商学院;2.工学院;3.艺术与科学学院。试验设计:双因素试验之前的试验设计仅针对一个因子(facto55p因此,发现影响考试成绩的两个因素分别为:p课程类型及考生所在的院系。p现想考察辅导课程是否GMAT成绩的影响不同?考生所在的院系是否对GMAT成绩的影响不同?p以及是否某些院校的考生参加某种辅导课程表现不错,但参加另一种辅导课程则表现不佳?p显著水平为:5%因此,发现影响考试成绩的两个因素分别为:56p现分别从各学院抽取6名考生,将其随机安排,其中各学院中的两名学生参加课程1,两名参加课程2,两名参加课程3。由GMAT考试收集到的考分数据如下:现分别从各学院抽取6名考生,将其随机安排,其中各学院中的两名57p因此,总的观测个数为18.因子1的处理个数为3,因子2的处理个数为3.且样本进行了2次复制。(在每个组合中有2个观测值)p由于双因素之间也可能产生影响,因此有交互作用(interaction),如果这个影响对GMAT考分有明显作用,我们就能得出辅导课程效果依赖于毕业院校的结论。因此,总的观测个数为18.因子1的处理个数为3,因子2的处理58p方差分析方法:pSST=SSA+SSB+SSAB+SSEp设,a因子1的水平数(处理数);b-因子2的水平数(处理数);r-复制的个数;nT为总的观测个数。方差分析方法:59p相关记号:p A的第i个处理与B的第j个处理的第k个复制的观测值p A的第i个处理的样本均值p B的第j个处理的样本均值p A的第i个处理与B的第j个处理的组合的样本均值p 所有nT个观测值的样本均值相关记号:60第十一章方差分析与试验设计课件61第十一章方差分析与试验设计课件62p根据GMAT分数数据,我们计算以上统计量:方差来源平方和自由度均方(mean square)F统计量因素16100230501.38因素24530022265010.27交互作用11200428001.27误差1985092206合计8245017根据GMAT分数数据,我们计算以上统计量:方差来源平方和自由63p1.检验辅导课程是否对GMAT成绩影响差异?pH0:u1=u2=u3;Ha:u1,u2,u3不全相等pF=MSA/MSE=1.38p在H0为真的前提下,F统计量服从自由度为(2,9)的F分布。pF4.26,拒绝H0的假定,我们认为不同的学院对成绩的影响有明显差异。即三个来自不同学院的学生参加相同课程会产生明显差异的考试分数。2.检验学院类型是否对成绩有影响差异?65p3.检验两因素是否有显著的交互作用?pH0:V1=V2=V3;H0:v1,v2,v3不全相等p统计量F=MSAB/MSE1.27p在原假设为真(即三种辅导课程对不同学院学生的考试成绩影响相同),则该统计量服从自由度为(4,9)的F分布,p因为FF(a;4,9)=3.63,所以不能拒绝H0假设,即认为三种辅导课程对不同学院学生的GMAT考试影响没有显著差异。3.检验两因素是否有显著的交互作用?66作业p1.一次研究调查了市场专业人员的公司伦理价值观念。假定在类似的研究中得到了下列数据(高分值表明伦理价值观念程度高)。对于显著水平0.05,检验三个专业人员群体之间的观念有无显著差异。作业1.一次研究调查了市场专业人员的公司伦理价值观念。假定在67p2.一位汽车交易商进行测试以判断完成一个小型引擎启动所需分钟数是否与使用计算机引擎分析器或电子分析器有关。因为启动时间对于微型、中型和大型汽车是不同的,使用了三种类型的汽车作为试验中的区组,得到如下数据。显著水平为0.05.2.一位汽车交易商进行测试以判断完成一个小型引擎启动所需分钟68p3.一家邮购公司设计了一个析因试验以检验杂志广告大小以及广告方案对于收到邮购请求的数目(千个)的影响。考察了三种广告方案和两种不同大小的广告,得到如下数据。p利用双因素分析检验属于广告方案、广告大小或交互作用的显著影响。显著水平为5%3.一家邮购公司设计了一个析因试验以检验杂志广告大小以及广告69骑封篙尊慈榷灶琴村店矣垦桂乖新压胚奠倘擅寞侥蚀丽鉴晰溶廷箩侣郎虫林森-消化系统疾病的症状体征与检查林森-消化系统疾病的症状体征与检查谢谢骑封篙尊慈榷灶琴村店矣垦桂乖新压胚奠倘擅寞侥蚀丽鉴晰溶廷70
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!