概率论与数理统计教程方差分析与回归分析课件

上传人:txadgkn****dgknqu... 文档编号:241458253 上传时间:2024-06-27 格式:PPT 页数:118 大小:5.35MB
返回 下载 相关 举报
概率论与数理统计教程方差分析与回归分析课件_第1页
第1页 / 共118页
概率论与数理统计教程方差分析与回归分析课件_第2页
第2页 / 共118页
概率论与数理统计教程方差分析与回归分析课件_第3页
第3页 / 共118页
点击查看更多>>
资源描述
第八章 方差分析与回归分析 华东师范大学 1 December 2019 第2页 8.1 方差分析 8.1.1 问题的提出 实际工作中我们经常碰到多个正态总体均值的比较问题,处理这类问题通常采用所谓的方差分析方法。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第3页 例8.1.1 在饲料养鸡增肥的研究中,某研究所提出三种饲料配方:A1是以鱼粉为主的饲料,A2是以槐树粉为主的饲料,A3是以苜蓿粉为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各喂一种饲料,60天后观察它们的重量。试验结果如下表所示:第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第4页 表8.1.1 鸡饲料试验数据 饲料A 鸡 重(克)A1 1073 1009 1060 1001 1002 1012 1009 1028 A2 1107 1092 990 1109 1090 1074 1122 1001 A3 1093 1029 1080 1021 1022 1032 1029 1048 第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第5页 本例中,我们要比较的是三种饲料对鸡的增肥作用是否相同。为此,把饲料称为 因子,记为A,三种不同的配方称为因子 A的三个水平水平,记为A1,A2,A3,使用配方Ai下第 j 只鸡60天后的重量用yij表示,i=1,2,3,j=1,2,?,10。我们的目的是比较三种饲料配方下鸡的平均重量是否相等,为此,需要做一些基本假定,把所研究的问题归结为一个统计问题,然后用方差分析的方法进行解决。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第6页 8.1.2 单因子方差分析的统计模型 在例8.1.1中我们只考察了一个因子,称其为单因子试验。通常,在单因子试验中,记因子为 A,设其有r个水平,记为A1,A2,Ar,在每一水平下考察的指标可以看成一个总体 ,现有 r 个水平,故有 r 个总体,假定:第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第7页 1)每一总体均为正态总体,记为 N(?i,?i 2),i1,2,r;2)各总体的方差相同:?1 2=?22=?r2=?2;3)从每一总体中抽取的样本是相互独立的,即所有的试验结果 yij 都相互独立。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第8页 我们要比较各水平下的均值是否相同,即要对如下的一个假设进行检验:H0:?1=?2=?r (8.1.1)备择假设为 H1:?1,?2,?r 不全相等 在不会引起误解的情况下,H1 通常可省略不写。如果H0成立,因子A的r个水平均值相同,称因子A的r个水平间没有显著差异,简称因子A不显著;反之,当H0不成立时,因子A的r个水平均值不全相同,这时称因子A的不同水平间有显著差异,简称因子A显著。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第9页 为对假设(8.1.1)进行检验,需要从每一水平下的总体抽取样本,设从第 i个水平下的总体获得m个试验结果,记 yij 表示第i个总体的第j次重复试验结果。共得如下 n=r?m个试验结果:yij,i1,2,r,j1,2,m,其中r为水平数,m为重复数,i为水平编号,j 为重复编号。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第10页 在水平Ai下的试验结果yij与该水平下的指标均值?i 一般总是有差距的,记?ij=yij?i,?ij 称为随机误差。于是有 yij=?i+?ij (8.1.2)(8.1.2)式称为试验结果 yij 的数据结构式。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第11页 单因子方差分析的统计模型:(8.1.3)总均值与效应:称诸?i 的平均 为总均值.称第 i 水平下的均值?i 与总均值?的差:ai=?i-?为 Ai 的效应。2,1,2,.,1,2,.,(0,)ijiijijyir jmN?诸相互独立,且都服从1111(.)rriirr?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第12页 模型(8.1.3)可以改写为 (8.1.8)假设(8.1.1)可改写为 H0:a1=a2=ar=0 (8.1.9)12,1,2,.,1,2,.,0N(0,)ijiijriiijyair jma?相互独立,且都服从第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第13页 8.1.3 平方和分解 一、试验数据 通常在单因子方差分析中可将试验数据列成如下页表格形式。表8.1.2中的最后二列的和与平均的含义如下:.111,2,miiijijriiTTyyirmTTTTyr mnnr m?总试验次数第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第14页 表8.1.2 单因子方差分析试验数据 因子水平 试 验 数 据 和 平均 A1 y11 y12 y1m T1 A2 y21 y22 y2m T2 Ar yr1 yr2 yrm Tr T 1y2yyry第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第15页 数据间是有差异的。数据 yij与总平均 间的偏差可用yij?表示,它可分解为二个偏差之和 (8.1.10)记 二、组内偏差与组间偏差.()()ijijiiyyyyyy?.1111111,mrrmiijiijjiijmrn?yy第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第16页 由于 (8.1.11)所以yij-仅反映组内数据与组内平均的随机误差,称为组内偏差;而 (8.1.12)除了反映随机误差外,还反映了第 i个水平的效应,称为组间偏差。.()()ijiiijiiijiyy?ijy.()()iiiiiyya?.iyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第17页?在统计学中,把k个数据y1,y2,yk分别对其均值 =(y1+yk)/k 的偏差平方和 称为k个数据的偏差平方和,它常用来度量若干个数据分散的程度。三、偏差平方和及其自由度 y22211()()()kkiiQyyyyyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第18页?在构成偏差平方和Q的k个偏差y1?,yk?间有一个恒等式 ,这说明在Q中独立的偏差只有k?1个。?在统计学中把平方和中独立偏差个数称为该平方和的自由度,常记为f,如Q的自由度为fQ=k?1。自由度是偏差平方和的一个重要参数。yy1()0kiiyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第19页?各yij间总的差异大小可用 总偏差平方和 表示,其自由度为 fT=n?1;四、总平方和分解公式?仅由随机误差引起的数据间的差异可以用 组内偏差平方和 表示,也称为误差偏差平方和,其自由度为 fe=n?r;211()rmTijijSyy?2.11()rmeijiijSyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第20页?由于组间差异除了随机误差外,还反映了效应间的差异,故由效应不同引起的数据差异可用组间偏差平方和 表示,也称为因子A的偏差平方和,其自由度为 fA=r?1;2.1()rAiiSmyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第21页 定理8.1.1 在上述符号下,总平方和 ST可以分解为因子平方和SA与误差平方和Se之和,其自由度也有相应分解公式,具体为:ST=SA+Se,fT=fA+fe (8.1.16)(8.1.16)式通常称为总平方和分解式。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第22页 偏差平方和Q的大小与自由度有关,为了便于在偏差平方和间进行比较,统计上引入了 均方和的概念,它定义为MS=Q/fQ,其意为平均每个自由度上有多少平方和,它比较好地度量了一组数据的离散程度。如今要对因子平方和 SA 与误差平方和 Se 之间进行比较,用其均方和 MSA=SA/fA,MSe=Se/fe 进行比较更为合理,故可用 作为检验H0的统计量。8.1.4 检验方法/AAAeeeMSSfFMSSf?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第23页 定理8.1.2 在单因子方差分析模型 (8.1.8)及前述符号下,有 (1)Se/?2?2(n?r),从而E(Se)(n?r)?2 ,进一步,若H0成 立,则有SA/?2?2(r?1)(2)SA与Se独立。221()(1)rAiiE Srma?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第24页 由定理8.1.2,若H0成立,则检验统计量F服从自由度为fA和fe的F分布,因此拒绝域为W=F?F1?(fA,fe),通常将上述计算过程列成一张表格,称为方差分析表。表8.1.3 单因子方差分析表 来源 平方和 自由度 均方和 F比 因子 SA fA=r?1 MSA=SA/fA F MSA/MSe 误差 Se fe=n?r MSe=Se/fe 总和 ST fT=n?1 第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第25页 对给定的?,可作如下判断:?若F?F1?(fA,fe),则说明因子A不显著。该检验的p值也可利用统计软件求出,若 以Y记服从F(fA,fe)的随机变量,则检验的 p 值为 p=P(Y?F)。?如果 F F1?(fA,fe),则认为因子A显著;第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第26页 常用的各偏差平方和的计算公式如下:(8.1.19)一般可将计算过程列表进行。22112211rmTijijrAiieTATSynTSTmnSSS?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第27页 例8.1.2 采用例8.1.1的数据,将原始数据减去 1000,列表给出计算过程:表8.1.4 例8.1.2的计算表 水平 数据(原始数据-1000)Ti Ti2 A1 73 9 60 1 2 12 9 28 194 37636 10024 A2 107 92-10 109 90 74 122 1 585 342225 60355 A3 93 29 80 21 22 32 29 48 354 125316 20984 1133 505177 91363 21mijjy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第28页 利用(8.1.19),可算得各偏差平方和为:把上述诸平方和及其自由度填入方差分析表 2211339136337876.0417,24 1 232450517711339660.0833,3 1282437876.0417 9660.083328215.9584,3(8 1)21TTAAeTAeSfSfSSSf?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第29页 表8.1.5 例8.1.2的方差分析表 来源 平方和 自由度 均方和 F比 因子 9660.0833 2 4830.0417 3.5948 误差 28215.9584 21 1343.6171 总和 37876.0417 23 若取?=0.05,则F0.95(2,21)=3.47,由于F=3.59483.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第30页 8.1.5 参数估计 在检验结果为显著时,我们可进一步求出总均值?、各主效应ai和误差方差?2的估计。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第31页 一、点估计 由模型(8.1.8)知诸yij相互独立,且yij N(?+ai,?2),因此,可使用极大似然方法求出一般平均?、各主效应ai和误差方 差?2的估计:由极大似然估计的不变性,各水平均值?i的极大似然估计 为 ,由于 不是?2的无偏估计,可修偏:.?iiy?2?M?2?eMS?.2211,1,1()iirmeMijijyayyirSyynn?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第32页 由于 ,可给出Ai的水平均值?i的1-?的置信区间为 其中 。.()()/iieeem yt fSf?二、置信区间.1/2.1/2()/,()/ieieytfmytfm?2?eMS?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第33页 例8.1.3 继续例8.1.2,此处我们给出诸水平均值的估计。因子A的三个水平均值的估计分别为 从点估计来看,水平 2(以槐树粉为主的饲料)是最优的。12319410001024.25,858510001073.125,835410001044.25,8?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第34页 误差方差的无偏估计为 利用(8.1.23)可以给出诸水平均值的置信区间。此处,若取?0.05,则t1-?/2(fe)=t0.95(21)=2.0796,于是三个水平均值的 0.95置信区间分别为 2?1343.6171eMS?1343.6171 36.6554?0.975?(21)/8 26.9509t?123:1024.2526.9509 =997.2891,1051.2109,:1073.12526.9509=1046.1741,1100.0759,:1044.2526.9509 =1017.2891,1071.2109.?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第35页 在单因子试验的数据分析中可得到如下三个结果:?因子是否显著;?试验的误差方差?2的估计;?诸水平均值?i的点估计与区间估计。在因子A显著时,通常只需对较优的水平均值作参数估计,在因子 A不显著场合,参数估计无需进行。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第36页 8.1.6 重复数不等情形 单因子方差分析并不要求每个水平下重复试验次数全相等,在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似,只在几处略有差别。?数据:设从第i个水平下的总体获得 mi个试验结果,记为yi1,yi2,yim,i=1,2,r,统计模型为:(8.1.24)2,1,2,.,1,2,.,(0,)ijiijiijyirjmN?各相互独立,且都服从第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第37页?总均值:诸?i的加权平均(所有试验结果的均值的平均)(8.1.25)称为总均值或一般平均。?效应约束条件:?各平方和的计算:SA的计算公式略有不同 222.11()rriAiiiiiTTSm yymn?10riiima?11111(.)rrriiimmmnn?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第38页 例8.1.4 某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表 8.1.6左半边,其相应的计算结果列于右侧。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第39页 表8.1.6 销售量数据及计算表 包装类型 销售量 mi Ti Ti2/mi A1 12 18 2 30 450 468 A2 14 12 13 3 39 507 509 A3 19 17 21 3 57 1083 1091 A4 24 30 2 54 1458 1476 和 n=10 T=180 21imijjy?213498riiiTm?2113544imrijijy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第40页 由此可求得各类偏差平方和如下 方差分析表如表8.1.8所示.若取?0.01,查表得F0.01(3,6)=9.78,由于 F=11.229.78,故我们可认为各水平间有显著差异。3544 3240 304,10 193498 3240258,4 13304 25846,10 46TTAAeeSfSfSf?22180324010Tn?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第41页 表8.1.7 例8.1.4的方差分析表 来源 平方和 自由度 均方和 F比 因子A 258 3 86 11.22 误差e 46 6 7.67 总和T 304 9 第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第42页 由于因子显著,我们还可以给出诸水平均值的估计。因子A的四个水平均值的估计分别为 由此可见,第四种包装方式效果最好。误差方差的无偏估计为 123430/215,39/313,57/319,54/227,?2?7.67eMS?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第43页 进一步,利用(8.1.23)也可以给出诸水平均值的置信区间,只是在这里要用不同的 mi代替那里相同的m。此处,若取?0.05,则t1-?/2(fe)=t0.95(6)=2.4469,于是效果较好的第三和第四个水平均值的 0.95置信区间分别为?7.67 2.7695?0.975?(6)6.7767t?:196.7767/3 15.0875,22.9125,3:276.7767/2 22.2081,31.7919.4?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第44页 8.2 多重比较 8.2.1 效应差的置信区间 如果方差分析的结果因子 A显著,则等于说有充分理由认为因子A各水平的效应不全相同,但这并不是说它们中一定没有相同的。就指定的一对水平Ai与Aj,我们可通过求?i-?j的区间估计来进行比较。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第45页 由于 ,故 由此给出?i-?j的置信水平为1-?的置信区间为 (8.2.1)其中 是?2的无偏估计。这里的置信区间与第六章中的两样本的 t区间基本一致,区别在于这里?2的估计使用了全部样本而不仅仅是两个水平 Ai,Aj下的观测值。2.11(,()ijijijyyNmm?.()()()11()ijijeeijeyytfSmmf?.11221111?()(),()()ijeijeijijyytfyytfmmmm?2?/eeSf?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第46页 例8.2.1 继续例8.1.2,fe=21,取?0.05,则t1-?/2(fe)=t0.975(21)=2.0796,于是可算出各个置信区间为 可见第一个区间在0的左边,所以我们可以概率95%断言认为?1 小于?2,其它二个区间包含 0点,虽然从点估计角度看水平均值估计有差别,但这种差异在0.05水平上是不显著的。0.9751 1?(21)38.11438 8t?121323:48.875038.114386.9893,10.7607:2038.114358.11433,18.1143:28.875038.11439.2393,66.9893?1343.617136.6554?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第47页 8.2.2 多重比较问题 对每一组(i,j),(8.2.1)给出的区间的置信水平都是1?,但对多个这样的区间,要求其同时成立,其联合置信水平就不再是 1?了。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第48页 譬如,设E1,Ek是k个随机事件,且有 P(Ei)=1?,i=1,k,则其同时发生的概率 这说明它们同时发生的概率可能比 1?小很多。为了使它们同时发生的概率不低于 1?,一个办法是把每个事件发生的概率提高到 1?/k.这将导致每个置信区间过长,联合置信区间的精度很差,一般人们不采用这种方法。111()1()1()1kkkiiiiiiPEPEP Ek?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第49页 在方差分析中,如果经过 F检验拒绝原假设,表明因子A是显著的,即r个水平对应的水平均值不全相等,此时,我们还需要进一步确认哪些水平均值间是确有差异的,哪些水平均值间无显著差异。同时比较任意两个水平均值间有无明显差异的问题称为多重比较,多重比较即要以显著性水平?同时检验如下r(r?1)/2个假设:(8.2.2)0:,1,ijijHijr?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第50页 直观地看,当H0ij成立时,不应过大,因此,关于假设(8.2.2)的拒绝域应有如下形式 诸临界值应在(8.2.2)成立时由P(W)=?确定。下面分重复数相等和不等分别介绍临界值的确定。.1|ijijijrWyyc?.|ijyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第51页 8.2.3 重复数相等场合的T法 在重复数相等时,由对称性自然可以要求诸 cij相等,记为c.记 ,则由给定条件不难有 2?/eeSf?.()?/iiieytt fm?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第52页 于是当(8.2.2)成立时,?1=?=?r=?,可推出 其中 ,称为t化极差统计量,其分布可由随机模拟方法得到。于是 ,其中q1?(r,fe)表示q(r,fe)的1?分位数,其值在附表 8中给出。?()(,)/eP WP q r fmc?.()()(,)maxmin/jieijyyq r fmm?1?(,)/ecqr fm?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第53页 重复数相同时多重比较可总结如下:对给定的的显著性水平?,查多重比较的分位数 q(r,fe)表,计算 ,比较诸 与c的大小,若 则认为水平Ai与水平Aj间有显著差异,反之,则认为水平Ai与水平Aj间无明显差别。这一方法最早由Turkey提出,因此称为T法。1(,)/ecqr fm?.|ijyy?.|ijyyc?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第54页 例8.2.2 继续例8.1.2,若取?=0.05,则查表知q1-0.05(3,21)=3.57,而 。所以 ,认为?1与?2有显著差别 ,认为?1与?3无显著差别 ,认为?2与?3有显著差别 这说明:?1与?3之间无显著差别,而它们与?2之间都有显著差异。36.6554?3.5736.6554/846.2659c?1.2.|48.87546.2659yy?1.3.|2046.2659yy?2.3.|46.87546.2659yy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第55页 8.2.4 重复数不等场合的S法 在重复数不等时,若假设 (8.2.2)成立,则 或 从而可以要求 ,在此要求下可推出 .()()11?ijijeijyytt fmm?2.2()(1,)11?()ijijeijyyFFfmm?11ijijccmm?21?()(max(/)ij rijP WPFc?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第56页 可以证明 ,从而 亦即 1max(1,)1ij rijeFF rfr?21(1,)?(/)1eFrfcr?2111?(1)(1,)()ijeijcrFrfmm?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第57页 例8.2.3 在例8.1.4中,我们指出包装方式对食品销量有明显的影响,此处 r=4,fe=6,,若取?=0.05,则F0.95(3,6)=4.76。注意到m1=m4=2,m2=m3=3,故 2?7.67?1213243414233 4.76(1/2 1/3)7.679.63 4.76(1/21/2)7.6710.53 4.76(1/3 1/3)7.678.5cccccc?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第58页 由于 这说明A1,A2,A3间无显著差异,A1,A2与A4有显著差异,但 A4与A3 的差异却尚未达到显著水平。综合上述,包装 A4销售量最佳。1.2.121.3.131.4.142.3.232.4.243.4.34|2,|4,|12|6,|14,|8yycyycyycyycyycyyc?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第59页 8.3 方差齐性检验 在进行方差分析时要求 r个方差相等,这称为方差齐性。理论研究表明,当正态性假定不满足时对F检验影响较小,即F检验对正态性的偏离具有一定的稳健性,而 F检验对方差齐性的偏离较为敏感。所以r个方差的齐性检验就显得十分必要。所谓方差齐性检验是对如下一对假设作出检验:(8.3.1)22220121riHvsH?:诸不全相等第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第60页 很多统计学家提出了一些很好的检验方法,这里介绍几个最常用的检验,它们是:?Hartley检验,仅适用于样本量相等的场合;?Bartlett检验,可用于样本量相等或不等 的场合,但是每个样本量不得低于 5;?修正的Bartlett检验,在样本量较小或较 大、相等或不等场合均可使用。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第61页 8.3.1 Hartley检验 当各水平下试验重复次数相等时,即m1=m2=?=mr=m,Hartley提出检验方差相等的检验统计量:(8.3.2)这个统计量的分布无明显的表达式,但在诸方差相等条件下,可通过随机模拟方法获得 H分布的分位数,该分布依赖于水平数 r 和样本方差的自由度f=m?1,因此该分布可记为 H(r,f),其分位数表列于附表10上。?2221222212max,min,rrs ssHs ss?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第62页 直观上看,当H0成立,即诸方差相等(?12=?22=?=?r2)时,H的值应接近于1,当H的值较大时,诸方差间的差异就大,H愈大,诸方差间的差异就愈大,这时应拒绝 (8.3.1)中的H0。由此可知,对给定的显著性水平?,检验H0的拒绝域为 W=H H1?(r,f)(8.3.3)其中H1?(r,f)为H分布的1?分位数。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第63页 例8.3.1 有四种不同牌号的铁锈防护剂(简称防锈剂),现要比较其防锈能力。数据见表8.3.1。这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析,为此,首先要进行方差齐性检验。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第64页 本例中,四个样本方差可由表 8.3.1中诸Qi求出,即 由此可得统计量H的值 在?=0.05时,由附表10查得H0.95(4,9)=6.31,由于H d (8.3.4)Bartlett证明了,检验的拒绝域为 W=B?1-?2(r-1)(8.3.8)考虑到这里?2分布是近似分布,在诸样本量 mi均不小于5时使用上述检验是适当的。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第67页 例8.3.2 为研究各产地的绿茶的叶酸含量是否有显著差异,特选四个产地绿茶,其中 A1制作了7个样品,A2制作了5个样品,A3与A4各制作了6个样品,共有24个样品,按随机次序测试其叶酸含量,测试结果如表 8.3.3所示。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第68页 为能进行方差分析,首先要进行方差齐性检验,从表8.3.3中数据可求得s12=2.14,s22=2.83,s32=2.41,s42=1.12,再从表8.3.4上查得MSe=2.09,由(8.3.6),可求得 再由(8.3.7),还可求得Bartlett检验统计量的值 对给定的显著性水平?=0.05,查表知?0.952(4?1)=7.815。由于B7.815,故应保留原假设H0,即可认为诸水平下的方差间无显著差异。11111111.08563(4 1)645520C?120ln2.096ln2.144ln2.835ln2.415 ln1.120.9701.0856B?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第69页 8.3.3 修正的Bartlett检验 针对样本量低于5时不能使用Bartlett检验的缺点,Box提出修正的Bartlett检验统计量 (8.3.9)其中B与C如(8.3.7)与(8.3.6)所示,且 21()f BCBfABC?2122211,(1)22/frfrfACCf?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第70页 在原假设H0:?12=?22=?=?r2成立下,Box还证明了统计量 的近似分布是F分布F(f1,f2),对给定的显著性水平?,该检验的拒绝域为 (8.3.10)其中f2的值可能不是整数,这时可通过对 F分布的分位数表施行内插法得到分位数。B?112(,)WBFff?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第71页 例8.3.3 对例8.3.2中的绿茶叶酸含量的数据,我们用修正的Bartlett检验再一次对等方差性作出检验。在例8.3.2中已求得:C=1.0856,B=0.970,还可求得:对给定的显著性水平?=0.05,在F分布的分位数表上可查得 F0.95(3,682.4)=F0.95(3,?)=2.60 由于 2.60,故保留原假设H0,即认为四个水平下的方差间无显著差异。B?12241341682.4(1.08561)682.4743.921.08562/682.4682.40.970 1.08560.3223(743.90.970 1.0856)ffCAB?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第72页 8.4 一元线性回归 8.4.1 变量间的两类关系 十九世纪,英国生物学家兼统计学家高尔顿研究发现:其中x表示父亲身高,y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。?33.730.516yx?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第73页?回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达形式 回归函数的估计。?变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。?回归分析处理的是变量与变量间的关系。变量间常见的关系有两类:确定性关系与相关关系。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第74页 8.4.2 一元线性回归模型 设y与x间有相关关系,称 x为自变量(预报变量),y为因变量(响应变量),在知道x取值后,y有一个分布p(y?x),我们关心的是y的均值E(Y?x):(8.4.1)这便是y关于x的理论回归函数 条件期望,也就是我们要寻找的相关关系的表达式。通常,相关关系可用下式表示 y=f(x)+?其中?是随机误差,一般假设?N(0,?2)。()(|)(|)f xE Yxyp y x dy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第75页 例8.4.1 合金的强度y(107Pa)与合金中碳的含量x(%)有关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,?,n。本例中,我们收集到 12组数据,列于表8.4.1中 进行回归分析首先是回归函数形式的选择。当只有一个自变量时,通常可采用画散点图 的方法进行选择。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第76页 表8.4.1 合金钢强度y与碳含量x的数据 序号 x(%)y(107Pa)序号 x(%)y(107Pa)1 0.10 42.0 7 0.16 49.0 2 0.11 43.0 8 0.17 53.0 3 0.12 45.0 9 0.18 50.0 4 0.13 45.0 10 0.20 55.0 5 0.14 45.0 11 0.21 55.0 6 0.15 47.5 12 0.23 60.0 第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第77页 为找出两个量间存在的回归函数的形式,可以画一张图:把每一对数(xi,yi)看成直角坐标系中的一个点,在图上画出n个点,称这张图为散点图,见图8.4.1 0.100.150.20405060碳含量合金钢强度图8.4.1 合金钢强度及碳含量的散点图第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第78页 从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为 y=?0+?1x+?(8.4.2)这便是y关于x的一元线性回归的数据结构式。通常假定 E(?)=0,Var(?)=?2 (8.4.3)在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即 y N(?0+?1x,?2)(8.4.4)显然,假定(8.4.4)比(8.4.3)要强。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第79页 由于?0,?1均未知,需要我们从收集到的数据(xi,yi),i=1,2,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行,即假定y1,y2,?,yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型:(8.4.5)0121,2,(0,)iiiiyxinN?,各 独立同分布,其分布为第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第80页 由数据(xi,yi),i=1,2,n,可以获得?0,?1的估计 ,称 (8.4.6)为y关于x的经验回归函数,简称为回归方程,其图形称为回归直线。给定 x=x0后,称 为回归值(在不同场合也称其为拟合值、预测值)。01?,?01?yx?0010?yx?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第81页 8.4.3 回归系数的最小二乘估计 一般采用最小二乘方法估计模型(8.4.5)中的?0,?1:令:应该满足 称这样得到的 称为?0,?1的最小二乘估计,记为LSE。01?,?01?,?201011(,)()niiiQyx?10101,?(,)min(,)QQ?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第82页 最小二乘估计可以通过求偏导数并命其为 0而得到:(8.4.7)这组方程称为正规方程组,经过整理,可得 (8.4.8)011001112()02()0niiiniiiiQyxQyx x?01201?iiinnxnynxxx y?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第83页 解(8.4.8)可得 (8.4.9)这就是参数的最小二乘估计,其中 101?/?xyxxllyx?222222222211,1()()1()1()iixyiiiiiiiixxiiiiyyiiiixxyynnlxxyyx ynx yx yxynlxxxnxxxnlyyynyyyn?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第84页 表8.4.2 例8.4.2的计算表?xi=1.90 n=12?yi=590.5?xi2=0.3194?xi yi=95.9250?yi2=29392.75 lxx=0.0186 lxy=2.4292 lyy=335.2292 由此给出回归方程为:28.5340130.6022yx?例8.4.2 使用例8.4.1种合金钢强度和碳含量 数据,我们可求得回归方程,见下表.0.1583x?49.2083y?20.3008nx?93.4958n x y?229057.5208ny?1/130.6022xyxxll?0128.5340yx?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第85页 定理8.4.1 在模型(8.4.5)下,有 (1)(2)(3)对给定的x0,22200111?,xxxxxNNnll?,?201?Covxxxl?,220001 001 0()1?xxxxyxNxnl?,关于最小二乘估计的一些性质罗列在如下定理之中 第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第86页 定理8.4.1 说明?分别是?0,?1的无偏估计;01?,?是E(y0)=?0+?1 x0的无偏估计;0?y?除 外,与 是相关的;0 x?1?0?要提高 的估计精度(即降低它们的方 差)就要求n大,lxx大(即要求x1,x2,?,xn较 分散)。01?,?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第87页 8.4.4 回归方程的显著性检验 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。如果?1=0,那么不管x如何变化,E(y)不随x的变化作线性变化,那么这时求得的一元线性回归方程就没有意义,称回归方程不显著。如果?1?0,E(y)随x的变化作线性变化,称回归方程是显著的。综上,对回归方程是否有意义作判断就是要作如下的显著性检验:H0:?1=0 vs H1:?1?0 拒绝H0表示回归方程是显著的。第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第88页 一、F 检验 采用方差分析的思想,我们从数据出发研究各yi不同的原因。数据总的波动用总偏差平方和 表示。引起各yi不同的原因主要有两个因素:其一是H0可能不真,E(y)随x的变化而变化,从而在每一个x的观测值处的回归值不同,其波动用回归平方和 表示;其二是其它一切因素,包括随机误差、x对E(y)的非线性影响等,这可用残差平方和 表示。且有如下平方和分解式:ST=SR+Se (8.4.13)在一元线性回归中有三种等价的检验方法,下面分别加以介绍。2()TiyySyyl?2?()RiSyy?2?()eiiSyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第89页 定理8.4.2 设yi=?i+?1 xi+?i,其中?i?n相互独立,且E?i=0,Var(yi)=?2,i=1,?,n,沿用上面的记号,有 (8.4.14)(8.4.15)这说明 是?2的无偏估计。关于SR 和 Se所含有的成分可由如下定理说明。221()RxxE Sl?2()(2)eE Sn?2?/(2)eSn?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第90页 进一步,有关SR 和 Se的分布,有如下定理。定理8.4.3 设 y1,y2,?,yn 相互独立,且 yiN(?i +?1 xi,?2),i=1,?,n,则在上述记号下,有 (1)Se/?2?2(n?2),(2)若H0成立,则有SR/?2?2(1)(3)SR与Se,独立(或 与Se,独立)。yy1?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第91页 如同方差分析那样,我们可以考虑采用 F比作为检验统计量:在?1=0时,FF(1,n?2),其中fR=1,fe=n?2.对于给定的显著性水平?,拒绝域为 F?F1-?(1,n?2)整个检验也可列成一张方差分析表。/(2)ReSFSn?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第92页 来源 平方和 自由度 均方和 F比 回归 SR=317.2589 fA=1 MSA=317.2589 176.55 残差 Se=17.9703 fe=10 MSe=1.79703 总和 ST=335.2292 fT=11 例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 若取?=0.01,则F0.99(1,10)=103.1698,因此,在显著性水平0.01下回归方程是显著的。130.602213.28721.7970/0.0186t?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第95页 三、相关系数检验 一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数?的检验进行。它的一对假设是 H0:?=0 vs H1:?0 (8.4.18)所用的检验统计量为样本相关系数 (8.4.19)拒绝域为W=?r?c,其中临界值c应是H0:?=0成立下?r?的分布的1?分位数,故记为c=r1-?(n?2).22()()()()xyiixx yyiilxxyyrl lxxyy?第八章 方差分析与回归分析 华东师范大学 1 Dec第八章 方差分析与回归分析 华东师范大学 1 December 2019 第96页 由样本相关系数的
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!