第8章方差分析与回归分析课件

资源描述

8.1 方差分析8.2 多重比较8.3 方差齐性分析8.4 一元线性回归8.5 一元非线性回归 8.1.1 问题的提出实际工作中我们经常碰到多个正态总体均值的比较问题，处理这类问题通常采用所谓的方差分析方法。例8.1.1 在饲料养鸡增肥的研究中，某研究所提出三种饲料配方：A1是以鱼粉为主的饲料，A2是以槐树粉为主的饲料，A3是以苜蓿粉为主的饲料。为比较三种饲料的效果，特选 24 只相似的雏鸡随机均分为三组，每组各喂一种饲料，60天后观察它们的重量。试验结果如下表所示：饲料A鸡重（克）A110731009106010011002101210091028A21107109299011091090107411221001A310931029108010211022103210291048 本例中，我们要比较的是三种饲料对鸡的增肥作用是否相同。为此，把饲料称为因子，记为A，三种不同的配方称为因子A的三个水平水平，记为A1,A2,A3，使用配方Ai下第 j 只鸡60天后的重量用yij表示，i=1,2,3,j=1,2,10。我们的目的是比较三种饲料配方下鸡的平均重量是否相等，为此，需要做一些基本假定，把所研究的问题归结为一个统计问题，然后用方差分析的方法进行解决。在例8.1.1中我们只考察了一个因子，称其为单因子试验。通常，在单因子试验中，记因子为 A,设其有r个水平，记为A1,A2,Ar，在每一水平下考察的指标可以看成一个总体，现有 r 个水平，故有 r 个总体，假定：1)每一总体均为正态总体，记为 N(i,i 2)，i1,2,r；2)各总体的方差相同:1 2=22=r2=2；3)从每一总体中抽取的样本是相互独立的，即所有的试验结果 yij 都相互独立。我们要比较各水平下的均值是否相同,即要对如下的一个假设进行检验:H0：1=2=r （8.1.1）备择假设为H1：1,2,r 不全相等在不会引起误解的情况下，H1 通常可省略不写。如果H0成立，因子A的r个水平均值相同，称因子A的r个水平间没有显著差异，简称因子A不显著；反之，当H0不成立时，因子A的r个水平均值不全相同，这时称因子A的不同水平间有显著差异，简称因子A显著。为对假设（8.1.1）进行检验，需要从每一水平下的总体抽取样本，设从第i个水平下的总体获得m个试验结果，记 yij 表示第i个总体的第j次重复试验结果。共得如下n=rm个试验结果：yij，i1,2,r，j1,2,m,其中r为水平数，m为重复数，i为水平编号，j 为重复编号。在水平Ai下的试验结果yij与该水平下的指标均值 i 一般总是有差距的，记 ij=yiji，ij 称为随机误差。于是有 yij=i+ij （8.1.2）（8.1.2）式称为试验结果 yij 的数据结构式。单因子方差分析的统计模型：（8.1.3）总均值与效应:称诸 i 的平均为总均值.称第 i 水平下的均值 i 与总均值的差:ai=i-为 Ai 的效应。2,1,2,.,1,2,.,(0,)ijiijijyir jmN诸相互独立，且都服从1111(.)rriirr 模型（8.1.3）可以改写为 (8.1.8)假设（8.1.1）可改写为 H0：a1=a2=ar=0 （8.1.9）12,1,2,.,1,2,.,0N(0,)ijiijriiijyair jma相互独立，且都服从一、试验数据通常在单因子方差分析中可将试验数据列成如下页表格形式。表8.1.2中的最后二列的和与平均的含义如下：.111,2,miiijijriiTTyyirmTTTTyr mnnr m总试验次数因子水平试验数据和平均 A1y11 y12 y1m T1A2y21 y22 y2mT2Aryr1 yr2 yrmTrT1y2yyry 数据间是有差异的。数据yij与总平均间的偏差可用yij 表示，它可分解为二个偏差之和（8.1.10）记二、组内偏差与组间偏差.()()ijijiiyyyyyy.1111111,mrrmiijiijjiijmrnyy 由于（8.1.11）所以yij-仅反映组内数据与组内平均的随机误差，称为组内偏差；而（8.1.12）除了反映随机误差外，还反映了第i个水平的效应，称为组间偏差。.()()ijiiijiiijiyyijy.()()iiiiiyya.iyy在统计学中，把k个数据y1,y2,yk分别对其均值 =(y1+yk)/k 的偏差平方和称为k个数据的偏差平方和，它常用来度量若干个数据分散的程度。三、偏差平方和及其自由度y22211()()()kkiiQyyyyyy在构成偏差平方和Q的k个偏差y1 ,yk 间有一个恒等式，这说明在Q中独立的偏差只有k1个。在统计学中把平方和中独立偏差个数称为该平方和的自由度，常记为f，如Q的自由度为fQ=k1。自由度是偏差平方和的一个重要参数。yy1()0kiiyy各yij间总的差异大小可用总偏差平方和表示，其自由度为fT=n1；四、总平方和分解公式仅由随机误差引起的数据间的差异可以用组内偏差平方和表示，也称为误差偏差平方和，其自由度为 fe=nr；211()rmTijijSyy 2.11()rmeijiijSyy由于组间差异除了随机误差外，还反映了效应间的差异，故由效应不同引起的数据差异可用组间偏差平方和表示，也称为因子A的偏差平方和，其自由度为 fA=r1；2.1()rAiiSmyy定理8.1.1 在上述符号下，总平方和ST可以分解为因子平方和SA与误差平方和Se之和，其自由度也有相应分解公式，具体为：ST=SA+Se,fT=fA+fe （8.1.16）（8.1.16）式通常称为总平方和分解式。偏差平方和Q的大小与自由度有关，为了便于在偏差平方和间进行比较，统计上引入了均方和的概念，它定义为MS=Q/fQ，其意为平均每个自由度上有多少平方和，它比较好地度量了一组数据的离散程度。如今要对因子平方和 SA 与误差平方和 Se 之间进行比较，用其均方和 MSA=SA/fA，MSe=Se/fe 进行比较更为合理，故可用作为检验H0的统计量。8.1.4 检验方法/AAAeeeMSSfFMSSf定理8.1.2 在单因子方差分析模型(8.1.8)及前述符号下，有 (1)Se/2 2(nr)，从而E(Se)(nr)2 ，进一步，若H0成立，则有SA/2 2(r1)(2)SA与Se独立。221()(1)rAiiE Srma由定理8.1.2，若H0成立，则检验统计量F服从自由度为fA和fe的F分布，因此拒绝域为W=FF1(fA,fe)，通常将上述计算过程列成一张表格，称为方差分析表。表8.1.3 单因子方差分析表来源平方和自由度均方和F比因子SAfA=r1MSA=SA/fAF MSA/MSe误差Sefe=nrMSe=Se/fe总和STfT=n1对给定的，可作如下判断：若F F1(fA,fe)，则说明因子A不显著。该检验的p值也可利用统计软件求出，若以Y记服从F(fA,fe)的随机变量，则检验的 p 值为 p=P(YF)。如果 F F1(fA,fe)，则认为因子A显著；常用的各偏差平方和的计算公式如下：（8.1.19）一般可将计算过程列表进行。22112211rmTijijrAiieTATSynTSTmnSSS例8.1.2 采用例8.1.1的数据，将原始数据减去1000，列表给出计算过程：表8.1.4 例8.1.2的计算表水平数据（原始数据-1000）TiTi2A173 96012129281943763610024A210792-101099074122158534222560355A393 298021223229483541253162098411335051779136321mijjy 利用(8.1.19)，可算得各偏差平方和为：把上述诸平方和及其自由度填入方差分析表2211339136337876.0417,24 1 2324505177 11339660.0833,3 1282437876.0417 9660.0833 28215.9584,3(8 1)21TTAAeTAeSfSfSSSf 表8.1.5 例8.1.2的方差分析表来源平方和自由度均方和F比因子9660.083324830.04173.5948 误差28215.9584211343.6171总和37876.041723若取=0.05，则F0.95(2,21)=3.47，由于F=3.59483.47，故认为因子A（饲料）是显著的，即三种饲料对鸡的增肥作用有明显的差别。在检验结果为显著时，我们可进一步求出总均值、各主效应ai和误差方差 2的估计。一、点估计由模型(8.1.8)知诸yij相互独立，且yij N(+ai,2)，因此，可使用极大似然方法求出一般平均、各主效应ai和误差方差 2的估计:由极大似然估计的不变性，各水平均值i的极大似然估计为，由于不是 2的无偏估计，可修偏：.iiy2M2eMS.2211,1,1()iirmeMijijyayyirSyynn 由于，可给出Ai的水平均值i的1-的置信区间为其中。.()()/iieeem yt fSf二、置信区间.1/2.1/2()/,()/ieieytfmytfm2eMS例8.1.3 继续例8.1.2，此处我们给出诸水平均值的估计。因子A的三个水平均值的估计分别为从点估计来看，水平2（以槐树粉为主的饲料）是最优的。12319410001024.25,858510001073.125,835410001044.25,8 误差方差的无偏估计为利用(8.1.23)可以给出诸水平均值的置信区间。此处，若取0.05，则t1-/2(fe)=t0.95(21)=2.0796，于是三个水平均值的0.95置信区间分别为21343.6171eMS1343.6171 36.65540.975(21)/8 26.9509t123:1024.25 26.9509 =997.2891,1051.2109,:1073.125 26.9509=1046.1741,1100.0759,:1044.25 26.9509 =1017.2891,1071.2109.在单因子试验的数据分析中可得到如下三个结果：因子是否显著；试验的误差方差 2的估计；诸水平均值i的点估计与区间估计。在因子A显著时，通常只需对较优的水平均值作参数估计，在因子A不显著场合，参数估计无需进行。8.1.6 重复数不等情形单因子方差分析并不要求每个水平下重复试验次数全相等，在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似，只在几处略有差别。数据：设从第i个水平下的总体获得mi个试验结果，记为yi1,yi2,yim，i=1,2,r，统计模型为：（8.1.24）2,1,2,.,1,2,.,(0,)ijiijiijyirjmN各相互独立，且都服从总均值：诸i的加权平均（所有试验结果的均值的平均）（8.1.25）称为总均值或一般平均。效应约束条件：各平方和的计算：SA的计算公式略有不同 222.11()rriAiiiiiTTSm yymn10riiima11111(.)rrriiimmmnn例8.1.4 某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎，选了10个地段繁华程度相似、规模相近的商店做试验，其中二种包装各指定两个商店销售，另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同，营业员的促销方法也基本相同，经过一段时间，记录其销售量数据，列于表8.1.6左半边，其相应的计算结果列于右侧。包装类型销售量 miTiTi2/miA112 18230450468A214 12 13339507509A319 17 2135710831091A424 3025414581476和n=10T=18021imijjy213498riiiTm2113544imrijijy由此可求得各类偏差平方和如下方差分析表如表8.1.8所示.若取0.01，查表得F0.01(3,6)=9.78，由于 F=11.229.78，故我们可认为各水平间有显著差异。3544 3240304,10 1 93498 3240258,4 1 3304 25846,10 46TTAAeeSfSfSf 22180324010Tn来源平方和自由度均方和F比因子A25838611.22 误差e4667.67总和T3049 由于因子显著，我们还可以给出诸水平均值的估计。因子A的四个水平均值的估计分别为由此可见，第四种包装方式效果最好。误差方差的无偏估计为123430/215,39/313,57/319,54/227,27.67eMS 进一步，利用(8.1.23)也可以给出诸水平均值的置信区间，只是在这里要用不同的mi代替那里相同的m。此处，若取0.05，则t1-/2(fe)=t0.95(6)=2.4469，于是效果较好的第三和第四个水平均值的0.95置信区间分别为 7.672.76950.975(6)6.7767t:196.7767/3 15.0875,22.9125,3:276.7767/2 22.2081,31.7919.48.2.1 效应差的置信区间如果方差分析的结果因子A显著，则等于说有充分理由认为因子A各水平的效应不全相同，但这并不是说它们中一定没有相同的。就指定的一对水平Ai与Aj，我们可通过求i-j的区间估计来进行比较。由于，故由此给出i-j的置信水平为1-的置信区间为 (8.2.1)其中是 2的无偏估计。这里的置信区间与第六章中的两样本的t区间基本一致，区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai,Aj下的观测值。2.11(,()ijijijyyNmm.()()()11()ijijeeijeyytfSmmf.11221111()(),()()ijeijeijijyytfyytfmmmm2/eeSf例8.2.1 继续例8.1.2，fe=21，取0.05，则t1-/2(fe)=t0.975(21)=2.0796，于是可算出各个置信区间为可见第一个区间在0的左边，所以我们可以概率95%断言认为1 小于2，其它二个区间包含0点，虽然从点估计角度看水平均值估计有差别，但这种差异在0.05水平上是不显著的。0.9751 1(21)38.11438 8t121323:48.875038.1143 86.9893,10.7607:2038.1143 58.11433,18.1143:28.875038.1143 9.2393,66.9893 1343.6171 36.65548.2.2 多重比较问题对每一组(i,j)，(8.2.1)给出的区间的置信水平都是1，但对多个这样的区间，要求其同时成立，其联合置信水平就不再是1 了。譬如，设E1,Ek是k个随机事件，且有 P(Ei)=1，i=1,k，则其同时发生的概率这说明它们同时发生的概率可能比1 小很多。为了使它们同时发生的概率不低于1，一个办法是把每个事件发生的概率提高到1/k.这将导致每个置信区间过长，联合置信区间的精度很差，一般人们不采用这种方法。111()1()1()1kkkiiiiiiPEPEP Ek 在方差分析中，如果经过F检验拒绝原假设，表明因子A是显著的，即r个水平对应的水平均值不全相等，此时，我们还需要进一步确认哪些水平均值间是确有差异的，哪些水平均值间无显著差异。同时比较任意两个水平均值间有无明显差异的问题称为多重比较，多重比较即要以显著性水平同时检验如下r(r1)/2个假设：（8.2.2）0:,1,ijijHijr 直观地看，当H0ij成立时，不应过大，因此，关于假设(8.2.2)的拒绝域应有如下形式诸临界值应在（8.2.2）成立时由P(W)=确定。下面分重复数相等和不等分别介绍临界值的确定。.1|ijijij rWyyc .|ijyy 8.2.3 重复数相等场合的T法在重复数相等时，由对称性自然可以要求诸cij相等，记为c.记，则由给定条件不难有 2/eeSf.()/iiieytt fm 于是当(8.2.2)成立时，1=r=，可推出其中，称为t化极差统计量，其分布可由随机模拟方法得到。于是 ,其中q1(r,fe)表示q(r,fe)的1 分位数，其值在附表8中给出。()(,)/eP WP q r fmc.()()(,)maxmin/jieijyyq r fmm1(,)/ecqr fm 重复数相同时多重比较可总结如下：对给定的的显著性水平，查多重比较的分位数q(r,fe)表，计算，比较诸与c的大小，若则认为水平Ai与水平Aj间有显著差异，反之，则认为水平Ai与水平Aj间无明显差别。这一方法最早由Turkey提出，因此称为T法。1(,)/ecqr fm.|ijyy.|ijyyc 例8.2.2 继续例8.1.2，若取=0.05，则查表知q1-0.05(3,21)=3.57，而。所以，认为1与2有显著差别，认为1与3无显著差别，认为2与3有显著差别这说明：1与3之间无显著差别，而它们与2之间都有显著差异。36.65543.57 36.6554/846.2659c 1.2.|48.87546.2659yy1.3.|2046.2659yy2.3.|46.87546.2659yy在重复数不等时，若假设(8.2.2)成立，则或从而可以要求，在此要求下可推出.()()11ijijeijyytt fmm2.2()(1,)11()ijijeijyyFFfmm11ijijccmm21()(max(/)ij rijP WPFc 可以证明，从而亦即1max(1,)1ij rijeFF rfr 21(1,)(/)1eFrfcr2111(1)(1,)()ijeijcrFrfmm 例8.2.3 在例8.1.4中，我们指出包装方式对食品销量有明显的影响，此处r=4,fe=6,，若取=0.05，则F0.95(3,6)=4.76。注意到m1=m4=2，m2=m3=3，故27.671213243414233 4.76(1/2 1/3)7.679.63 4.76(1/2 1/2)7.6710.53 4.76(1/3 1/3)7.678.5cccccc 由于这说明A1,A2,A3间无显著差异，A1,A2与A4有显著差异，但 A4与A3 的差异却尚未达到显著水平。综合上述，包装A4销售量最佳。1.2.121.3.131.4.142.3.232.4.243.4.34|2,|4,|12|6,|14,|8yycyycyycyycyycyyc 在进行方差分析时要求r个方差相等，这称为方差齐性。理论研究表明，当正态性假定不满足时对F检验影响较小,即F检验对正态性的偏离具有一定的稳健性，而F检验对方差齐性的偏离较为敏感。所以r个方差的齐性检验就显得十分必要。所谓方差齐性检验是对如下一对假设作出检验：（8.3.1）22220121riHvsH：诸不全相等很多统计学家提出了一些很好的检验方法，这里介绍几个最常用的检验，它们是：Hartley检验，仅适用于样本量相等的场合；Bartlett检验，可用于样本量相等或不等的场合，但是每个样本量不得低于5；修正的Bartlett检验，在样本量较小或较大、相等或不等场合均可使用。当各水平下试验重复次数相等时，即m1=m2=mr=m,Hartley提出检验方差相等的检验统计量：（8.3.2）这个统计量的分布无明显的表达式，但在诸方差相等条件下，可通过随机模拟方法获得H分布的分位数，该分布依赖于水平数r 和样本方差的自由度f=m1，因此该分布可记为H(r，f)，其分位数表列于附表10上。2221222212max,min,rrsssHsss 直观上看，当H0成立，即诸方差相等（12=22=r2）时，H的值应接近于1，当H的值较大时，诸方差间的差异就大，H愈大，诸方差间的差异就愈大，这时应拒绝(8.3.1)中的H0。由此可知，对给定的显著性水平，检验H0的拒绝域为 W=H H1(r,f)（8.3.3）其中H1(r,f)为H分布的1 分位数。例8.3.1 有四种不同牌号的铁锈防护剂（简称防锈剂），现要比较其防锈能力。数据见表8.3.1。这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析，为此，首先要进行方差齐性检验。本例中，四个样本方差可由表8.3.1中诸Qi求出，即由此可得统计量H的值在=0.05时，由附表10查得H0.95(4,9)=6.31，由于H d （8.3.4）Bartlett证明了，检验的拒绝域为 W=B 1-2(r-1)（8.3.8）考虑到这里2分布是近似分布，在诸样本量mi均不小于5时使用上述检验是适当的。例8.3.2 为研究各产地的绿茶的叶酸含量是否有显著差异，特选四个产地绿茶，其中A1制作了7个样品，A2制作了5个样品，A3与A4各制作了6个样品，共有24个样品，按随机次序测试其叶酸含量，测试结果如表8.3.3所示。为能进行方差分析，首先要进行方差齐性检验，从表8.3.3中数据可求得s12=2.14,s22=2.83,s32=2.41,s42=1.12，再从表8.3.4上查得MSe=2.09，由(8.3.6)，可求得再由(8.3.7)，还可求得Bartlett检验统计量的值对给定的显著性水平=0.05，查表知0.952(41)=7.815。由于B7.815，故应保留原假设H0，即可认为诸水平下的方差间无显著差异。11111111.08563(4 1)645520C 120 ln2.096 ln2.144 ln2.835 ln2.41 5 ln1.120.97 01.0856B 针对样本量低于5时不能使用Bartlett检验的缺点，Box提出修正的Bartlett检验统计量（8.3.9）其中B与C如（8.3.7）与（8.3.6）所示，且21()f BCBf ABC 2122211,(1)22/frfrfACCf 在原假设H0：12=22=r2成立下，Box还证明了统计量的近似分布是F分布F(f1,f2)，对给定的显著性水平，该检验的拒绝域为（8.3.10）其中f2的值可能不是整数，这时可通过对F分布的分位数表施行内插法得到分位数。B112(,)WBFff 例8.3.3 对例8.3.2中的绿茶叶酸含量的数据，我们用修正的Bartlett检验再一次对等方差性作出检验。在例8.3.2中已求得：C=1.0856，B=0.970，还可求得：对给定的显著性水平=0.05，在F分布的分位数表上可查得 F0.95(3,682.4)=F0.95(3,)=2.60 由于 2.60，故保留原假设H0，即认为四个水平下的方差间无显著差异。B1224 134 1682.4(1.08561)682.4743.92 1.08562/682.4682.4 0.970 1.08560.3223(743.90.970 1.0856)ffCAB 8.4.1 变量间的两类关系十九世纪，英国生物学家兼统计学家高尔顿研究发现：其中x表示父亲身高，y 表示成年儿子的身高（单位：英寸，1英寸=2.54厘米）。这表明子代的平均高度有向中心回归的意思，使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。33.730.516yx 回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据，去寻找隐藏在数据背后的相关关系，给出它们的表达形式回归函数的估计。变量间的相关关系不能用完全确切的函数形式表示，但在平均意义下有一定的定量关系表达式，寻找这种定量关系表达式就是回归分析的主要任务。回归分析处理的是变量与变量间的关系。变量间常见的关系有两类：确定性关系与相关关系。8.4.2 一元线性回归模型设y与x间有相关关系，称x为自变量(预报变量)，y为因变量(响应变量)，在知道x取值后，y有一个分布p(yx)，我们关心的是y的均值E(Yx)：(8.4.1)这便是y关于x的理论回归函数条件期望，也就是我们要寻找的相关关系的表达式。通常，相关关系可用下式表示 y=f(x)+其中是随机误差，一般假设 N(0,2)。()(|)(|)fxE Yxyp yx dy 例8.4.1 合金的强度y(107Pa)与合金中碳的含量x(%)有关。为研究两个变量间的关系。首先是收集数据，我们把收集到的数据记为(xi,yi),i=1,2,n。本例中，我们收集到12组数据，列于表8.4.1中进行回归分析首先是回归函数形式的选择。当只有一个自变量时，通常可采用画散点图的方法进行选择。序号x(%)y(107Pa)序号x(%)y(107Pa)10.1042.070.1649.020.1143.080.1753.030.1245.090.1850.040.1345.0100.2055.050.1445.0110.2155.060.1547.5120.2360.0 为找出两个量间存在的回归函数的形式，可以画一张图：把每一对数(xi,yi)看成直角坐标系中的一个点，在图上画出n个点，称这张图为散点图，见图8.4.1 0.1 00.1 50.2 04 05 06 0碳含量合金钢强度图8.4.1 合金钢强度及碳含量的散点图从散点图我们发现12个点基本在一条直线附近，这说明两个变量之间有一个线性相关关系，这个相关关系可以表示为 y=0+1x+(8.4.2)这便是y关于x的一元线性回归的数据结构式。通常假定 E()=0,Var()=2 (8.4.3)在对未知参数作区间估计或假设检验时，还需要假定误差服从正态分布，即 y N(0+1x,2)(8.4.4)显然，假定(8.4.4)比(8.4.3)要强。由于 0,1均未知，需要我们从收集到的数据(xi,yi)，i=1,2,n，出发进行估计。在收集数据时，我们一般要求观察独立地进行，即假定y1,y2,yn,相互独立。综合上述诸项假定，我们可以给出最简单、常用的一元线性回归的数学模型：(8.4.5)0121,2,(0,)iiiiyxinN，各独立同分布，其分布为由数据(xi,yi)，i=1,2,n，可以获得0,1的估计，称 (8.4.6)为y关于x的经验回归函数，简称为回归方程，其图形称为回归直线。给定x=x0后，称为回归值（在不同场合也称其为拟合值、预测值）。01,01 yx0010 yx 一般采用最小二乘方法估计模型(8.4.5)中的0,1：令：应该满足称这样得到的称为0,1的最小二乘估计，记为LSE。01,01,201011(,)()niiiQyx10101,(,)min(,)QQ 最小二乘估计可以通过求偏导数并命其为0而得到：(8.4.7)这组方程称为正规方程组，经过整理，可得 (8.4.8)011001112()02()0niiiniiiiQyxQyx x 01201iiinnxnynxxx y解(8.4.8)可得（8.4.9）这就是参数的最小二乘估计，其中 101/xyxxllyx222222222211,1()()1()1()iixyiiiiiiiixxiiiiyyiiiixxyynnlxxyyx ynx yx yxynlxxxnxxxnlyyynyyyn xi=1.90n=12yi=590.5xi2=0.3194xi yi=95.9250yi2=29392.75lxx=0.0186lxy=2.4292lyy=335.2292由此给出回归方程为:28.5340 130.6022yx例8.4.2 使用例8.4.1种合金钢强度和碳含量数据，我们可求得回归方程，见下表.0.1583x 49.2083y 20.3008nx 93.4958n x y229057.5208ny 1/130.6022xyxxll0128.5340yx 定理8.4.1 在模型(8.4.5)下，有（1）（2）（3）对给定的x0，22200111,xxxxxNNnll，201Covxxxl，220001 001 0()1xxxxyxNxnl，关于最小二乘估计的一些性质罗列在如下定理之中定理8.4.1 说明分别是0,1的无偏估计；01,是E(y0)=0+1 x0的无偏估计；0 y 除外，与是相关的；0 x10 要提高的估计精度（即降低它们的方差）就要求n大，lxx大（即要求x1,x2,xn较分散）。01,在使用回归方程作进一步的分析以前，首先应对回归方程是否有意义进行判断。如果1=0，那么不管x如何变化，E(y)不随x的变化作线性变化，那么这时求得的一元线性回归方程就没有意义，称回归方程不显著。如果10，E(y)随x的变化作线性变化，称回归方程是显著的。综上，对回归方程是否有意义作判断就是要作如下的显著性检验：H0：1=0 vs H1：10 拒绝H0表示回归方程是显著的。一、F 检验采用方差分析的思想，我们从数据出发研究各yi不同的原因。数据总的波动用总偏差平方和表示。引起各yi不同的原因主要有两个因素：其一是H0可能不真，E(y)随x的变化而变化，从而在每一个x的观测值处的回归值不同，其波动用回归平方和表示；其二是其它一切因素，包括随机误差、x对E(y)的非线性影响等，这可用残差平方和表示。且有如下平方和分解式：ST=SR+Se (8.4.13)在一元线性回归中有三种等价的检验方法，下面分别加以介绍。2()TiyySyyl2()RiSyy2()eiiSyy定理8.4.2 设yi=i+1 xi+i，其中i n相互独立，且Ei=0，Var(yi)=2，i=1,n，沿用上面的记号，有 (8.4.14)(8.4.15)这说明是 2的无偏估计。关于SR 和 Se所含有的成分可由如下定理说明。221()RxxE Sl2()(2)eE Sn2/(2)eSnSR 和 Se定理8.4.3 设 y1,y2,yn 相互独立，且 yiN(i +1 xi,2)，i=1,n，则在上述记号下，有（1）Se/2 2(n2)，（2）若H0成立，则有SR/2 2(1)（3）SR与Se，独立（或与Se，独立）。yy1 如同方差分析那样，我们可以考虑采用F比作为检验统计量：在1=0时，FF(1,n2)，其中fR=1,fe=n2.对于给定的显著性水平，拒绝域为 F F1-(1,n2)整个检验也可列成一张方差分析表。/(2)ReSFSn来源平方和自由度均方和F比回归 SR=317.2589fA=1MSA=317.2589176.55残差Se=17.9703fe=10MSe=1.79703总和 ST=335.2292fT=11例8.4.3 在合金钢强度的例8.4.2中，我们已求出了回归方程，这里我们考虑关于回归方程的显著性检验。经计算有若取=0.01，则F0.99(1,10)=103.1698，因此，在显著性水平0.01下回归方程是显著的。130.602213.28721.7970/0.0186t 三、相关系数检验一元线性回归方程是反映两个随机变量x与y间的线性相关关系，它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0：=0 vs H1：0 (8.4.18)所用的检验统计量为样本相关系数 (8.4.19)拒绝域为W=rc，其中临界值c应是H0:=0成立下r的分布的1 分位数，故记为c=r1-(n2).22()()()()xyiixx yyiilxxyyrl lxxyy 由样本相关系数的定义可以得到 r与F统计量之间的关系这表明，r是F的严格单调增函数，故可以从F分布的1 分位数 F1-(1,n2)得到 r 的1 分位数为2(2)FrFn111(1,2)(2)(1,2)1FncrnFn 譬如，对=0.01，n=12，F0.99(1,10)=10.04，于是。为实际使用方便，人们已对r1-(n-2)编制了专门的表，见附表9。以例8.4.2中数据为例，可以计算得到若取=0.01，查附表9知 r0.99(10)=0.708,由于0.97280.708，因此，在显著性水平0.01下回归方程是显著的。0.9910.04(10)0.70810.041r2.42920.97280.0186335.2292r 8.4.5 估计与预测当回归方程经过检验是显著的后，可用来做估计和预测。这是二个不同的问题：（1）当x=x0时，寻求均值E(y0)=0+1 x0的点估计与区间估计（注意这里E(y0)是常量）是估计问题；（2）当x=x0时，y0的观察值在什么范围内？由于y0是随机变量，为此只能求一个区间，使y0落在这一区间的概率为1-，即要求，使称区间为y0的概率为1-的预测区间，这是预测问题。00()1P yy 00,yy一、E(y0)的估计在x=x0时，其对应的因变量y0是一个随机变量，有一个分布，我们经常需要对该分布的均值给出估计。由于E(y0)=0+1 x0，一个直观的估计应为我们习惯上将上述估计记为（注意这里表示的是E(y0)的估计，而不表示y0的估计，因为y0是随机变量，它是没有估计的）。由于分别是0,1的无偏估计，因此，也是E(y0)的无偏估计。0 y0 y0 y01,0010()E yx 为得到E(y0)的区间估计，我们需要知道的分布。由定理8.4.1，又由定理8.4.3知，Se/2 2(n-2)，且与相互独立，故010()yyxx2200010010()1xxxxyxNxnl，200000202()1()/(2)()1/(2)xxexxxxyEynlyEyt nSxxnnl0 y于是E(y0)的1 的置信区间（CI）是（8.4.20）其中（8.4.21）2001/2()1(2)xxxxtnnl0000,yy 二、y0的预测区间实用中往往更关心x=x0时对应的因变量y0的取值范围。y0的最可能取值为，于是，我们可以使用以为中心的一个区间作为y0的取值范围。经推导，的表达式为 (8.4.23）上述预测区间（PI）与E(y0)的置信区间的差别就在于根号里多个1。0 y0 y00(,)yy2001/2()1()(2)1xxxxxtnnl 预测区间的长度2与样本量n、x的偏差平方和lxx、x0 到的距离有关。当时，预测精度可能变得很差，在这种情况下的预测称作外推，需要特别小心。另外，若x1,x2,xn较为集中时，那么lxx就较小，也会导致预测精度的降低。因此，在收集数据时要使x1,x2,xn尽量分散，这对提高精度有利。当n较大时（如n 30)，t分布可以用正态分布近似，进一步，若x0与相差不大时，可以近似取为。0|xxx0(1)(),nxxxx1/2u 例8.4.4 在例8.4.2中，如果x0=0.16，则得预测值为若取=0.05，则t0.975(10)=2.2281，又，应用(8.4.21)，故x0=0.16对应因变量y0的均值E(y0)的0.95置信区间为(49.4328-1.0480,49.4328+1.0480)=(48.3488,50.5168)028.5364 130.6022 0.1649.4328y 17.9703/(122)1.3405201(0.160.19)1.3405 2.22811.0840120.0186 应用(8.4.23)，从而y0的概率为0.95的预测区间为 E(y0)的0.95置信区间比y0的概率为0.95的预测区间窄很多，这是因为随机变量的均值相对于随机变量本身而言要更容易估计出来。21(0.160.19)1.3405 2.228113.1774120.0186(49.43283.1774,49.43283.1774)(46.2554,52.6102)例 8.5.1 炼钢厂出钢水时用的钢包，在使用过程中由于钢水及炉渣对耐火材料的浸蚀，其容积不断增大。现在钢包的容积用盛满钢水时的重量y(kg)表示，相应的试验次数用x表示。数据见表8.5.1，要找出y 与x的定量关系表达式。序号xy序号xy12106.42811110.5923108.20914110.6034109.581015110.9045109.501116110.7657110.001218111.0068109.931319111.20710110.49 下面我们分三步进行。8.5.1 确定可能的函数形式为对数据进行分析，首先描出数据的散点图，判断两个变量之间可能的函数关系，图8.5.1是本例的散点图。观测这13个点构成的散点图，我们可以看到它们并不接近一条直线，用曲线拟合这些点应该是更恰当的，这里就涉及如何选择曲线函数形式的问题。首先，如果可由专业知识确定回归函数形式，则应尽可能利用专业知识。当若不能有专业知识加以确定函数形式，则可将散点图与一些常见的函数关系的图形进行比较，选择几个可能的函数形式，然后使用统计方法在这些函数形式之间进行比较，最后确定合适的曲线回归方程。为此，必须了解常见的曲线函数的图形，见图8.5.2。本例中，散点图呈现呈现一个明显的向上且上凸的趋势，可能选择的函数关系有很多，比如，参照图8.5.2，我们可以给出如下四个曲线函数：1)1/y=a+b/x 2)y=a+blnx 3)4)在初步选出可能的函数关系(即方程)后，我们必须解决两个问题：如何估计所选方程中的参数？如何评价所选不同方程的优劣？yab x/100(0)x bya eb 8.5.2 参数估计对上述非线性函数，参数估计最常用的方法是“线性化”方法。以1/y=a+b/x为例，为了能采用一元线性回归分析方法，我们作如下变换u=1/x,v=1/y 则曲线函数就化为如下的直线v=bu 这是理论回归函数。对数据而言，回归方程为 vi=a+bui+i 于是可用一元线性回归的方法估计出a,b。2.05088194iu 13n 0.11826672iv 0.15776015u 0.00909744v 20.53721798iu 0.01883495iiu v 20.32354744nu 0.01865778nuv 0.21367054uul0.00017717uvl/0.00082917uvuub l l0.00896663a v ub 0.000829170.00896663xyx 用类似的方法可以得出其它三个曲线回归方程，它们分别是：106.31473.9466lnyx106.3013 1.1947yx1.1256/100 11.7506xye 8.5.3 曲线回归方程的比较我们上面得到了四个曲线回归方程，通常可采用如下二个指标进行选择。（1）决定系数R2：类似于一元线性回归方程中相关系数，决定系数定义为：(8.5.5)R2越大，说明残差越小，回归曲线拟合越好，R2从总体上给出一个拟合好坏程度的度量。222()1()iiiyyRyy（2）剩余标准差s：类似于一元线性回归中标准差的估计公式，此剩余标准差可用残差平方和来获得，即 (8.5.6)s为诸观测点yi与由曲线给出的拟合值间的平均偏离程度的度量，s越小，方程越好。2()2iiyysniy 在观测数据给定后，不同的曲线选择不会影响的取值，但会影响到残差平方和的取值。因此，对选择的曲线而言，决定系数和剩余标准差都取决于残差平方和，从而，两种选择准则是一致的，只是从两个不同侧面作出评价。21()niiyy21()niiiyy21()niiiyy表8.5.4给出第一个曲线回归方程的残差平方和的计算过程，由于n=13，故其决定系数及剩余标准差分别为：其它三个方程的决定系数及剩余标准差可同样计算，我们将它们列在表8.5.5中。1321()0.5743iiyy20.57430.574310.9729,0.2285 21.2105132Rs 模型编号 1)2)3)4)R20.97290.87730.78510.9623s0.22850.48640.64370.2696从表8.5.5中可以看出，第一个曲线方程的决定系数最大，剩余标准差最小，在这四个曲线回归方程中，不论用哪个标准，都是第一个方程拟合得最好。因此，近似得比较好的定量关系式就是0.000829170.00896663xyx

展开阅读全文

第8章方差分析与回归分析课件

最新文档