第8章方差分析与回归分析课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第八章方差分析与回归分析,8/28/2024,第,119,页,第八章方差分析与回归分析,8.1,方差分析,8.2,多重比较,8.3,方差齐性分析,8.4,一元线性回归,8.5,一元非线性回归,第八章方差分析与回归分析 8.1 方差分析,8.1,方差分析,8.1.1,问题的提出,实际工作中我们经常碰到多个正态总体均值的比较问题，处理这类问题通常采用所谓的方差分析方法。,8.1 方差分析8.1.1 问题的提出,例8.1.1,在饲料养鸡增肥的研究中，某研究所提出三种饲料配方：,A,1,是以鱼粉为主的饲料，,A,2,是以槐树粉为主的饲料，,A,3,是以苜蓿粉为主的饲料。为比较三种饲料的效果，特选 24 只相似的雏鸡随机均分为三组，每组各喂一种饲料，60天后观察它们的重量。试验结果如下表所示：,例8.1.1 在饲料养鸡增肥的研究中，某研究所提出三种饲,表,8.1.1,鸡饲料试验数据,饲料,A,鸡重（克）,A,1,1073,1009,1060,1001,1002,1012,1009,1028,A,2,1107,1092,990,1109,1090,1074,1122,1001,A,3,1093,1029,1080,1021,1022,1032,1029,1048,表8.1.1 鸡饲料试验数据饲料A鸡重（克）A110,本例中，我们要比较的是三种饲料对鸡的增肥作用是否相同。为此，把饲料称为,因子，,记为,A,，三种不同的配方称为因子,A,的三个,水平,，记为,A,1,A,2,A,3,，使用配方,A,i,下第,j,只鸡60天后的重量用,y,ij,表示，,i,=1, 2, 3,j,=1, 2,10,。我们的目的是比较三种饲料配方下鸡的平均重量是否相等，为此，需要做一些基本假定，把所研究的问题归结为一个统计问题，然后用方差分析的方法进行解决。,本例中，我们要比较的是三种饲料对鸡的增肥作用是否相同,8.1.2,单因子方差分析的统计模型,在例8.1.1中我们只考察了一个因子，称其为,单因子试验。,通常，在单因子试验中，记因子为,A, 设其有,r,个水平，记为,A,1,A,2,A,r,，在每一水平下考察的指标可以看成一个总体，现有,r,个水平，故有,r,个总体，,假定：,8.1.2 单因子方差分析的统计模型在例8.,每一总体均为正态总体，记为,N,(,i,i,2,)，,i,1, 2,r,；,各总体的方差相同:,1,2,=,2,2,=,r,2,=,2,；,从每一总体中抽取的样本是相互独立的，即所有的试验结果,y,ij,都相互独立。,每一总体均为正态总体，记为 N(i , i 2)，,我们要比较各水平下的均值是否相同,即要对如下的一个假设进行检验:,H,0,：,1,=,2,=,=,r,（8.1.1）,备择假设为,H,1,：,1,2,r,不全相等,在不会引起误解的情况下，,H,1,通常可省略不写。,如果,H,0,成立，因子,A,的,r,个水平均值相同，称因子,A,的,r,个水平间没有显著差异，简称因子,A,不显著；,反之，当,H,0,不成立时，因子,A,的,r,个水平均值不全相同，这时称因子A的不同水平间有显著差异，简称因子,A,显著。,我们要比较各水平下的均值是否相同,为对假设（8.1.1）进行检验，需要从每一水平下的总体抽取样本，设从第,i,个水平下的总体获得,m,个试验结果，记,y,ij,表示第,i,个总体的第,j,次重复试验结果。共得如下,n=r,m,个试验结果：,y,ij,，,i,1, 2,r ， j,1, 2,m,其中,r,为水平数，,m,为重复数，,i,为水平编号，,j,为重复编号。,为对假设（8.1.1）进行检验，需要从每一水平下的总,在水平,A,i,下的试验结果,y,ij,与该水平下的指标均值,i,一般总是有差距的，记,ij,=,y,ij,i,，,ij,称为随机误差。于是有,y,ij,=,i,+,ij,（8.1.2）,（8.1.2）式称为试验结果,y,ij,的,数据结构式。,在水平Ai下的试验结果yij与该水平下的指标均值 i,单因子方差分析的统计模型：,（8.1.3）,总均值与效应:,称诸,i,的平均为,总均值.,称第,i,水平下的均值,i,与总均值,的差:,a,i,=,i,-,为,A,i,的,效应。,单因子方差分析的统计模型：,模型（8.1.3）可以改写为,(8.1.8),假设（8.1.1）可改写为,H,0,：,a,1,=,a,2,=,=,a,r,=0 （8.1.9）,模型（8.1.3）可以改写为,8.1.3,平方和分解,一、试验数据,通常在单因子方差分析中可将试验数据列成如下页表格形式。,表8.1.2中的最后二列的和与平均的含义如下：,8.1.3 平方和分解一、试验数据表8.1.2中的最后,表,8.1.2,单因子方差分析试验数据,因子水平,试验数据,和,平均,A,1,y,11,y,12,y,1,m,T,1,A,2,y,21,y,22,y,2,m,T,2,A,r,y,r,1,y,r,2,y,rm,T,r,T,表8.1.2 单因子方差分析试验数据因子水平试验,数据间是有差异的。数据,y,ij,与总平均间的偏差可用,y,ij,表示，它可分解为二个偏差之和,（8.1.10）,记,二、组内偏差与组间偏差,数据间是有差异的。数据yij与总平均间的偏差,由于,（8.1.11）,所以,y,ij,- 仅反映组内数据与组内平均的随机误差，称为,组内偏差；,而,（8.1.12）,除了反映随机误差外，还反映了第,i,个水平的效应，称为,组间偏差。,由于,在统计学中，把,k,个数据,y,1, y,2, , y,k,分别对其均值 =(,y,1,+,+ y,k,)/,k,的偏差平方和,称为,k,个数据的,偏差平方和，,它常用来度量若干个数据分散的程度。,三、偏差平方和及其自由度,在统计学中，把k个数据y1 , y2 , , yk分别对其,在构成偏差平方和,Q,的,k,个偏差,y,1, , y,k,间有一个恒等式，这说明在,Q,中独立的偏差只有,k,1个。,在统计学中把平方和中独立偏差个数称为该平方和的,自由度，,常记为,f,，如,Q,的自由度为,f,Q,=,k,1。自由度是偏差平方和的一个重要参数。,在构成偏差平方和Q的k个偏差y1 , , yk,各,y,ij,间总的差异大小可用,总偏差平方和,表示，其自由度为,f,T,=,n,1；,四、总平方和分解公式,仅由随机误差引起的数据间的差异可以用,组内偏差平方和,表示，,也称为,误差偏差平方和，,其自由度为,f,e,=,n,r,；,各yij间总的差异大小可用总偏差平方和四、总平方和分解公式,由于组间差异除了随机误差外，还反映了效应间的差异，故由效应不同引起的数据差异可用,组间偏差平方和,表示，也称为,因子,A,的偏差平方和，,其自由度为,f,A,=,r,1；,由于组间差异除了随机误差外，还反映了效应间的差异，故由效应不,定理8.1.1,在上述符号下，总平方和,S,T,可以分解为因子平方和,S,A,与误差平方和,S,e,之和，其自由度也有相应分解公式，具体为：,S,T,=,S,A,+,S,e,f,T,=,f,A,+,f,e,（8.1.16）,（8.1.16）式通常称为,总平方和分解式。,定理8.1.1 在上述符号下，总平方和ST可以分解,偏差平方和,Q,的大小与自由度有关，为了便于在偏差平方和间进行比较，统计上引入了,均方和,的概念，它定义为,MS=Q,/,f,Q,，其意为平均每个自由度上有多少平方和，它比较好地度量了一组数据的离散程度。,如今要对因子平方和,S,A,与误差平方和,S,e,之间进行比较，用其均方和,MS,A,= S,A,/,f,A,，,MS,e,= S,e,/,f,e,进行比较更为合理，故可用作为检验,H,0,的统计量。,8.1.4 检验方法,偏差平方和Q的大小与自由度有关，为了便于在偏差平方和,定理8.1.2,在单因子方差分析模型 (8.1.8) 及前述符号下，有,(1),S,e,/,2,2,(,n,r,),，从而,E,(,S,e,),(,n,r,),2,，进一步，若,H,0,成,立，则有,S,A,/,2,2,(,r,1),(2),S,A,与,S,e,独立。,定理8.1.2 在单因子方差分析模型 (8.1.8) 及,由定理8.1.2，若,H,0,成立，则检验统计量,F,服从自由度为,f,A,和,f,e,的,F,分布，因此拒绝域为,W,=,F,F,1,(,f,A,f,e,),，通常将上述计算过程列成一张表格，称为方差分析表。,表8.1.3,单因子方差分析表,来源,平方和,自由度,均方和,F,比,因子,S,A,f,A,=,r,1,MS,A,= S,A,/,f,A,F,MS,A,/,MS,e,误差,S,e,f,e,=,n,r,MS,e,= S,e,/,f,e,总和,S,T,f,T,=,n,1,由定理8.1.2，若H0成立，则检验统计量F服从自由度为fA,对给定的,，可作如下判断：,若,F,F,1,(,f,A,f,e,),，则说明因子,A,不显著。,该检验的,p,值也可利用统计软件求出，若,以,Y,记服从,F,(,f,A,f,e,),的随机变量，则检验的,p,值为,p,=,P,(,Y,F,)。,如果,F,F,1,(,f,A,f,e,)，,则认为因子,A,显著；,对给定的，可作如下判断：若F F1 (fA ,fe,常用的各偏差平方和的计算公式如下：,（8.1.19）,一般可将计算过程列表进行。,常用的各偏差平方和的计算公式如下：,例8.1.2,采用例8.1.1的数据，将原始数据减去1000，,列表给出计算过程：,表8.1.4 例8.1.2的计算表,水平,数据（原始数据,-,1000）,T,i,T,i,2,A,1,73,9,60,1,2,12,9,28,194,37636,10024,A,2,107,92,-10,109,90,74,122,1,585,342225,60355,A,3,93,29,80,21,22,32,29,48,354,125316,20984,1133,505177,91363,例8.1.2 采用例8.1.1的数据，将原始数据减去10,利用(8.1.19)，可算得各偏差平方和为：,把上述诸平方和及其自由度填入方差分析表,利用(8.1.19)，可算得各偏差平方和为：,表8.1.5 例8.1.2的方差分析表,来源,平方和,自由度,均方和,F,比,因子,9660.0833,2,4830.0417,3.5948,误差,28215.9584,21,1343.6171,总和,37876.0417,23,若取,=0.05,，则,F,0.95,(,2,21,)=3.47,，由于,F,=3.59483.47，故认为因子,A,（饲料）是显著的，即三种饲料对鸡的增肥作用有明显的差别。,表8.1.5 例8.1.2的方差分析表来源平方和自由度,8.1.5,参数估计,在检验结果为显著时，,我们可进一步求出总均值,、各主效应,a,i,和误差方差,2,的估计。,8.1.5 参数估计在检验结果为显著时，我们可,一、点估计,由模型(8.1.8)知诸,y,ij,相互独立，且,y,ij,N,(,+,a,i,2,),，因此，,可使用极大似然方法求出一般平均,、各主效应,a,i,和误差方,差,2,的估计:,由极大似然估计的不变性，各水平均值,i,的极大似然估计,为，由于不是,2,的无偏估计，可修偏：,一、点估计,由于，可给出,A,i,的水平均值,i,的1,-,的置信区间为,其中。,二、置信区间,由于,例8.1.3,继续例8.1.2，此处我们给出诸水平均值的估计。因子,A,的三个水平均值的估计分别为,从点估计来看，水平2（以槐树粉为主的饲料）是最优的。,例8.1.3 继续例8.1.2，此处我们给出诸水平均值的估,误差方差的无偏估计为,利用(8.1.23)可以给出诸水平均值的置信区间。此处，，若取,0.05,，则,t,1,-,/2,(,f,e,)=,t,0.95,( 21,)=2.0796,，，于是三个水平均值的0.95置信区间分别为,误差方差的无偏估计为,在单因子试验的数据分析中可得到如下三个结果：,因子是否显著；,试验的误差方差,2,的估计；,诸水平均值,i,的点估计与区间估计。,在因子,A,显著时，通常只需对较优的水平均值作参数估计，在因子,A,不显著场合，参数估计无需进行。,在单因子试验的数据分析中可得到如下三个结果：因子,8.1.6 重复数不等情形,单因子方差分析并不要求每个水平下重复试验次数全相等，在重复数不等场合的方差分析与重复数相等情况下的方差分析极为相似，只在几处略有差别。,数据：设从第,i,个水平下的总体获得,m,i,个试验结果，记为,y,i,1, y,i,2, y,im,，,i,=1,2,r，,统计模型为：,（8.1.24）,8.1.6 重复数不等情形数据：设从第i个水平下的总体获,总均值：诸,i,的加权平均（所有试验结果的均值的平均）,（8.1.25）,称为总均值或一般平均。,效应约束条件：,各平方和的计算：,S,A,的计算公式略有不同,总均值：诸i的加权平均（所有试验结果的均值的平均）效应约,例8.1.4,某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎，选了10个地段繁华程度相似、规模相近的商店做试验，其中二种包装各指定两个商店销售，另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同，营业员的促销方法也基本相同，经过一段时间，记录其销售量数据，列于表8.1.6左半边，其相应的计算结果列于右侧。,例8.1.4 某食品公司对一种食品设计了四种新包装。,表,8.1.6,销售量数据及计算表,包装类型,销售量,m,i,T,i,T,i,2,/,m,i,A,1,12,18,2,30,450,468,A,2,14,12,13,3,39,507,509,A,3,19,17,21,3,57,1083,1091,A,4,24,30,2,54,1458,1476,和,n,=10,T,=180,表8.1.6 销售量数据及计算表包装类型销售量 miT,由此可求得各类偏差平方和如下,方差分析表如表8.1.8所示,.,若取,0.01,，查表得,F,0.01,(3,6)=9.78，由于,F,=11.229.78，故我们可认为各水平间有显著差异。,由此可求得各类偏差平方和如下若取0.01，查表得F0.,表,8.1.7,例,8.1.4,的方差分析表,来源,平方和,自由度,均方和,F,比,因子,A,258,3,86,11.22,误差,e,46,6,7.67,总和,T,304,9,表8.1.7 例8.1.4的方差分析表来源平方和自由,由于因子显著，我们还可以给出诸水平均值的估计。因子,A,的四个水平均值的估计分别为,由此可见，第四种包装方式效果最好。误差方差的无偏估计为,由于因子显著，我们还可以给出诸水平均值的估计。因子A,进一步，利用(8.1.23)也可以给出诸水平均值的置信区间，只是在这里要用不同的,m,i,代替那里相同的,m,。此处，，若取,0.05,，则,t,1,-,/2,(,f,e,)=,t,0.95,(6)=2.4469,，,，于是效果较好的第三和第四个水平均值的0.95置信区间分别为,进一步，利用(8.1.23)也可以给出诸水平均值的置,8.2,多重比较,8.2.1 效应差的置信区间,如果方差分析的结果因子,A,显著，则等于说有充分理由认为因子,A,各水平的效应不全相同，但这并不是说它们中一定没有相同的。就指定的一对水平,A,i,与,A,j,，我们可通过求,i,-,j,的区间估计来进行比较。,8.2 多重比较 8.2.1 效应差的置信区间,由于，故,由此给出,i,-,j,的置信水平为1-,的置信区间为,(8.2.1),其中是,2,的无偏估计。,这里的置信区间与第六章中的两样本的,t,区间基本一致，区别在于这里,2,的估计使用了全部样本而不仅仅是两个水平,A,i,A,j,下的观测值。,由于,例8.2.1,继续例8.1.2，，,f,e,=21，取,0.05,，,则,t,1-,/2,(,f,e,)=,t,0.975,(21)=2.0796,，,于是可算出各个置信区间为,可见第一个区间在0的左边，所以我们可以概率95%断言认为,1,小于,2,，其它二个区间包含0点，虽然从点估计角度看水平均值估计有差别，但这种差异在0.05水平上是不显著的。,例8.2.1 继续例8.1.2，,8.2.2 多重比较问题,对每一组(,i, j,)， (8.2.1) 给出的区间的置信水平都是1,，但对多个这样的区间，要求其同时成立，其联合置信水平就不再是1,了。,8.2.2 多重比较问题,譬如，设,E,1, , E,k,是,k,个随机事件，且有,P,(,E,i,)=1,，,i,=1 ,k,，则其同时发生的概率,这说明它们同时发生的概率可能比1,小很多。,为了使它们同时发生的概率不低于1,，一个办法是把每个事件发生的概率提高到1,/,k,. 这将导致每个置信区间过长，联合置信区间的精度很差，一般人们不采用这种方法。,譬如，设E1 , , Ek是k个随机事件，且有,在方差分析中，如果经过,F,检验拒绝原假设，表明因子,A,是显著的，即,r,个水平对应的水平均值不全相等，此时，我们还需要进一步确认哪些水平均值间是确有差异的，哪些水平均值间无显著差异。,同时比较任意两个水平均值间有无明显差异的问题称为多重比较，多重比较即要以显著性水平,同时检验如下,r,(,r,1)/2个假设：,（8.2.2）,在方差分析中，如果经过F检验拒绝原假设，表明因子A是,直观地看，当,H,0,ij,成立时，不应过大，因此，关于假设(8.2.2)的拒绝域应有如下形式,诸临界值应在（8.2.2）成立时由,P,(,W,)=,确定。下面分重复数相等和不等分别介绍临界值的确定。,直观地看，当H0ij成立时，,8.2.3 重复数相等场合的,T,法,在重复数相等时，由对称性自然可以要求诸,c,ij,相等，记为,c,. 记，则由给定条件不难有,8.2.3 重复数相等场合的T法,于是当 (8.2.2) 成立时，,1,=,r,=,，可推出,其中，称为,t,化极差统计量，其分布可由随机模拟方法得到。,于是 , 其中,q,1,(,r,f,e,),表示,q,(,r,f,e,),的1,分位数，其值在附表8中给出。,于是当 (8.2.2) 成立时，1= r =,重复数相同时多重比较可总结如下：对给定的的显著性水平,，查多重比较的分位数,q,(,r,f,e,),表，计算，比较诸与,c,的大小，若,则认为水平,A,i,与水平,A,j,间有显著差异，反之，则认为水平,A,i,与水平,A,j,间无明显差别。这一方法最早由Turkey提出，因此称为,T,法。,重复数相同时多重比较可总结如下：对给定的的显著性水平,例8.2.2,继续例8.1.2，若取,=0.05，则查表知,q,1-,0.05,(3, 21),=3.57，而。所以,，认为,1,与,2,有显著差别,，认为,1,与,3,无显著差别,，认为,2,与,3,有显著差别,这说明：,1,与,3,之间无显著差别，而它们与,2,之间都有显著差异。,例8.2.2 继续例8.1.2，若取 =0.05，,8.2.4,重复数不等场合的,S,法,在重复数不等时，若假设 (8.2.2) 成立，则,或,从而可以要求，在此要求下可推出,8.2.4 重复数不等场合的S法在重复数不等时，若假设,可以证明，,从而,亦即,可以证明,例8.2.3,在例8.1.4中，我们指出包装方式对食品销量有明显的影响，此处,r,=4,f,e,=6,，若取,=0.05 ，则,F,0.95,(3,6)=4.76。注意到,m,1,=,m,4,=2，,m,2,=,m,3,=3，故,例8.2.3 在例8.1.4中，我们指出包装方式对食品销,由于,这说明,A,1,A,2,A,3,间无显著差异，,A,1,A,2,与,A,4,有显著差异，但,A,4,与,A,3,的差异却尚未达到显著水平。综合上述，包装,A,4,销售量最佳。,由于,8.3,方差齐性检验,在进行方差分析时要求,r,个方差相等，这称为方差齐性。理论研究表明，当正态性假定不满足时对,F,检验影响较小,即,F,检验对正态性的偏离具有一定的稳健性，而,F,检验对方差齐性的偏离较为敏感。所以,r,个方差的齐性检验就显得十分必要。,所谓方差齐性检验是对如下一对假设作出检验：,（8.3.1）,8.3 方差齐性检验在进行方差分析时要求r个方,很多统计学家提出了一些很好的检验方法，这里介绍几个最常用的检验，它们是：,Hartley检验，仅适用于样本量相等的场合；,Bartlett检验，可用于样本量相等或不等,的场合，但是每个样本量不得低于5；,修正的Bartlett检验，在样本量较小或较,大、相等或不等场合均可使用。,很多统计学家提出了一些很好的检验方法，这里介绍几个最,8.3.1 Hartley检验,当各水平下试验重复次数相等时，即,m,1,=,m,2,=,=,m,r,=,m,Hartley提出检验方差相等的检验统计量：,（8.3.2）,这个统计量的分布无明显的表达式，但在诸方差相等条件下，可通过随机模拟方法获得,H,分布的分位数，该分布依赖于水平数,r,和样本方差的自由度,f,=,m,1，因此该分布可记为,H,(,r,，,f,)，其分位数表列于附表10上。,8.3.1 Hartley检验当各水平下试验重复,直观上看，当,H,0,成立，即诸方差相等（,1,2,=,2,2,=,=,r,2,）时，,H,的值应接近于1，当,H,的值较大时，诸方差间的差异就大，,H,愈大，诸方差间的差异就愈大，这时应拒绝 (8.3.1)中的,H,0,。由此可知，对给定的显著性水平,，检验,H,0,的拒绝域为,W,=,H,H,1,(,r,f,),（8.3.3）,其中,H,1,(,r,f,),为,H,分布的1,分位数。,直观上看，当H0成立，即诸方差相等（12 =22,例8.3.1,有四种不同牌号的铁锈防护剂（简称防锈剂），现要比较其防锈能力。数据见表8.3.1。,这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析，为此，首先要进行方差齐性检验。,例8.3.1 有四种不同牌号的铁锈防护剂（简称防锈剂），,本例中，四个样本方差可由表8.3.1中诸,Q,i,求出，即,由此可得统计量,H,的值,在,=0.05时，由附表10查得,H,0.95,(4,9),=6.31，由于,H,d, （8.3.4）,Bartlett证明了，检验的拒绝域为,W,=,B,1-,2,(,r,-1) （8.3.8）,考虑到这里,2,分布是近似分布，在诸样本量,m,i,均不小于5时使用上述检验是适当的。,由此可见，在比值GMSe/MSe较大时，就意味着诸样,例8.3.2,为研究各产地的绿茶的叶酸含量是否有显著差异，特选四个产地绿茶，其中,A,1,制作了7个样品，,A,2,制作了5个样品，,A,3,与,A,4,各制作了6个样品，共有24个样品，按随机次序测试其叶酸含量，测试结果如表8.3.3所示。,例8.3.2 为研究各产地的绿茶的叶酸含量是否有显著差异,为能进行方差分析，首先要进行方差齐性检验，从表8.3.3中数据可求得,s,1,2,=2.14,s,2,2,=2.83,s,3,2,=2.41,s,4,2,=1.12，再从表8.3.4上查得,MS,e,=2.09，由(8.3.6)，可求得,再由(8.3.7)，还可求得Bartlett检验统计量的值,对给定的显著性水平,=0.05，查表知,0.95,2,(4,1) =7.815。由于,B,7.815，故应保留原假设,H,0,，即可认为诸水平下的方差间无显著差异。,为能进行方差分析，首先要进行方差齐性检验，从表8.3,8.3.3,修正的,Bartlett,检验,针对样本量低于5时不能使用Bartlett检验的缺点，Box提出修正的Bartlett检验统计量,（8.3.9）,其中B与C如（8.3.7）与（8.3.6）所示，且,8.3.3 修正的Bartlett检验针对样本量,在原假设H,0,：,1,2,=,2,2,=,=,r,2,成立下，Box还证明了统计量的近似分布是,F,分布,F,(,f,1,f,2,)，对给定的显著性水平,，该检验的拒绝域为,（8.3.10）,其中,f,2,的值可能不是整数，这时可通过对,F,分布的分位数表施行内插法得到分位数。,在原假设H0：12 =22=r2成立下，B,例8.3.3,对例8.3.2中的绿茶叶酸含量的数据，我们用修正的Bartlett检验再一次对等方差性作出检验。,在例8.3.2中已求得：,C,=1.0856，,B,=0.970，还可求得：,对给定的显著性水平,=0.05，在,F,分布的分位数表上可查得,F,0.95,(3,682.4)=,F,0.95,(3,)=2.60,由于 2.60，故保留原假设,H,0,，即认为四个水平下的方差间无显著差异。,例8.3.3 对例8.3.2中的绿茶叶酸含量的数据，我们,8.4,一元线性回归,8.4.1 变量间的两类关系,十九世纪，英国生物学家兼统计学家高尔顿研究发现：,其中,x,表示父亲身高，,y,表示成年儿子的身高（单位：英寸，1英寸=2.54厘米）。这表明子代的平均高度有向中心回归的意思，使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。,8.4 一元线性回归 8.4.1 变量间的两类关系,回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据，去寻找隐藏在数据背后的相关关系，给出它们的表达形式回归函数的估计。,变量间的相关关系不能用完全确切的函数形式表示，但在平均意义下有一定的定量关系表达式，寻找这种定量关系表达式就是回归分析的主要任务。,回归分析处理的是变量与变量间的关系。变量间常见的关系有两类：,确定性关系,与,相关关系。,回归分析便是研究变量间相关关系的一门学科。它通过对客观事物,8.4.2 一元线性回归模型,设,y,与,x,间有相关关系，称,x,为,自变量,(预报变量)，,y,为,因变量,(响应变量)，在知道,x,取值后，,y,有一个分布,p,(,y,x,)，我们关心的是,y,的均值,E,(,Y,x,)：,(8.4.1),这便是,y,关于,x,的理论回归函数条件期望，也就是我们要寻找的相关关系的表达式。,通常，相关关系可用下式表示,y,=,f,(,x,)+,其中,是随机误差，一般假设,N,(0,2,)。,8.4.2 一元线性回归模型,例8.4.1,合金的强度,y,(10,7,Pa) 与合金中碳的含量,x,(%) 有关。为研究两个变量间的关系。首先是收集数据，我们把收集到的数据记为(,x,i,y,i,),i,=1,2,n,。本例中，我们收集到12组数据，列于表8.4.1中,进行回归分析首先是回归函数形式的选择。,当只有一个自变量时，通常可采用画散点图的方法进行选择。,例8.4.1 合金的强度y (107Pa) 与合金,表,8.4.1,合金钢强度,y,与碳含量,x,的数据,序号,x,(%),y,(10,7,Pa),序号,x,(%),y,(10,7,Pa),1,0.10,42.0,7,0.16,49.0,2,0.11,43.0,8,0.17,53.0,3,0.12,45.0,9,0.18,50.0,4,0.13,45.0,10,0.20,55.0,5,0.14,45.0,11,0.21,55.0,6,0.15,47.5,12,0.23,60.0,表8.4.1 合金钢强度y与碳含量x的数据序号x(%)y,为找出两个量间存在的回归函数的形式，可以画一张图：把每一对数(,x,i,y,i,)看成直角坐标系中的一个点，在图上画出,n,个点，称这张图为散点图，见图8.4.1,为找出两个量间存在的回归函数的形式，可以画一张图：,从散点图我们发现12个点基本在一条直线附近，这说明两个变量之间有一个线性相关关系，这个相关关系可以表示为,y,=,0,+,1,x,+,(8.4.2),这便是,y,关于,x,的一元线性回归的数据结构式。通常假定,E,(,) =0,Var,(,) =,2,(8.4.3),在对未知参数作区间估计或假设检验时，还需要假定误差服从正态分布，即,y,N,(,0,+,1,x,2,) (8.4.4),显然，假定(8.4.4) 比 (8.4.3) 要强。,从散点图我们发现12个点基本在一条直线附近，这说明,由于,0,1,均未知，需要我们从收集到的数据(,x,i,y,i,)，,i=,1,2,n,，出发进行估计。在收集数据时，我们一般要求观察独立地进行，,即假定,y,1,y,2,y,n,相互独立。综合上述诸项假定，我们可以给出最简单、常用的一元线性回归的数学模型：,(8.4.5),由于 0, 1均未知，需要我们从收集到的数据(x,由数据(,x,i,y,i,)，,i=,1,2,n,，可以获得,0,1,的估计，称,(8.4.6),为,y,关于,x,的,经验回归函数，,简称为,回归方程，,其图形称为回归直线。给定,x=x,0,后，,称为,回归值,（在不同场合也称其为拟合值、预测值）。,由数据(xi,yi)，i=1,2,n，可以获得,8.4.3 回归系数的最小二乘估计,一般采用最小二乘方法估计模型(8.4.5)中的,0,1,：令：,应该满足,称这样得到的称为,0,1,的,最小二乘估计，,记为LSE。,8.4.3 回归系数的最小二乘估计一般采用最小,最小二乘估计可以通过求偏导数并命其为0而得到：,(8.4.7),这组方程称为,正规方程组，,经过整理，可得,(8.4.8),最小二乘估计可以通过求偏导数并命其为0而得到：,解(8.4.8)可得,（8.4.9）,这就是参数的最小二乘估计，其中,解(8.4.8)可得,表8.4.2 例8.4.2的计算表,x,i,=1.90,n,=12,y,i,=590.5,x,i,2,=0.3194,x,i,y,i,=95.9250,y,i,2,=29392.75,l,xx,=0.0186,l,xy,=2.4292,l,yy,=335.2292,由此给出回归方程为:,例8.4.2,使用例8.4.1种合金钢强度和碳含量,数据，我们可求得回归方程，见下表.,表8.4.2 例8.4.2的计算表 xi=1.90n,定理8.4.1,在模型(8.4.5)下，有,（1）,（2）,（3）对给定的,x,0,，,关于最小二乘估计的一些性质罗列在如下定理之中,定理8.4.1 在模型(8.4.5)下，有关于最小二,定理8.4.1 说明,分别是,0,1,的无偏估计,；,是,E,(,y,0,)=,0,+,1,x,0,的无偏估计；,除外，与是相关的；,要提高的估计精度（即降低它们的方,差）就要求,n,大，,l,xx,大（即要求,x,1,x,2,x,n,较,分散）。,定理8.4.1 说明分别是0, 1,8.4.4,回归方程的显著性检验,在使用回归方程作进一步的分析以前，首先应对回归方程是否有意义进行判断。,如果,1,=0，那么不管,x,如何变化，,E,(,y,)不随,x,的变化作线性变化，那么这时求得的一元线性回归方程就没有意义，称回归方程,不显著。,如果,1,0,，,E,(,y,)随,x,的变化作线性变化，称回归方程是,显著,的。,综上，对回归方程是否有意义作判断就是要作如下的显著性检验：H,0,：,1,=0,vs,H,1,：,1,0,拒绝H,0,表示回归方程是显著的。,8.4.4 回归方程的显著性检验在使用回归方程,一、,F,检验,采用方差分析的思想，我们从数据出发研究各,y,i,不同的原因。,数据总的波动用总偏差平方和表示。引起各,y,i,不同的原因主要有两个因素：其一是H,0,可能不真，E(,y,)随,x,的变化而变化，从而在每一个,x,的观测值处的回归值不同，其波动用回归平方和表示；其二是其它一切因素，包括随机误差、,x,对E(,y,)的非线性影响等，这可用残差平方和表示。,且有如下,平方和分解式：,S,T,=,S,R,+,S,e,(8.4.13),在一元线性回归中有三种等价的检验方法，下面分别加以介绍。,一、F 检验在一元线性回归中有三种等价的检验方法，下面分别加,定理8.4.2,设,y,i,=,i,+,1,x,i,+,i,，其中,i,n,相互独立，,且,E,i,=0，,Var,(,y,i,)=,2,，,i,=1,n,，沿用上面的记号，有,(8.4.14),(8.4.15),这说明是,2,的无偏估计。,关于,S,R,和,S,e,所含有的成分可由如下定理说明。,定理8.4.2 设yi=i+ 1 xi + i，其中,进一步，有关,S,R,和,S,e,的分布，有如下定理。,定理8.4.3,设,y,1,y,2,y,n,相互独立，且,y,i,N,(,i,+,1,x,i,2,)，,i,=1,n,，,则在上述记号下，有,（1）,S,e,/,2,2,(,n,2),，,（2）若,H,0,成立，则有,S,R,/,2,2,(1),（3）,S,R,与,S,e,，独立（或与,S,e,，独立）。,进一步，有关SR 和 Se的分布，有如下定理。定理8.4.,如同方差分析那样，我们可以考虑采用,F,比作为检验统计量：,在,1,=0时，,F,F,(1,n,2)，其中,f,R,=1,f,e,=,n,2.,对于给定的显著性水平,，拒绝域为,F,F,1,-,(1,n,2),整个检验也可列成一张方差分析表。,如同方差分析那样，我们可以考虑采用F比作为检验统计量,来源,平方和,自由度,均方和,F,比,回归,S,R,=317.2589,f,A,=1,MS,A,=,317.2589,176.55,残差,S,e,=17.9703,f,e,=,10,MS,e,=,1.79703,总和,S,T,=335.2292,f,T,=11,例8.4.3,在合金钢强度的例8.4.2中，我们已求出了回归方程，这里我们考虑关于回归方程的显著性检验。经计算有,若取,=,0.01，则,F,0.99,(1,10),=103.1698，因此，在显著性水平0.01下回归方程是显著的。,注意到t2=F，因此，t检验与F检验是等同的。,三、相关系数检验,一元线性回归方程是反映两个随机变量,x,与y间的线性相关关系，它的显著性检验还可通过对二维总体相关系数,的检验进行。它的一对假设是 H,0,：,=0,vs,H,1,：,0,(8.4.18),所用的检验统计量为样本相关系数,(8.4.19),拒绝域为,W,=,r,c,，其中临界值,c,应是H,0,:,=0成立下,r,的分布的1,分位数，故记为,c,=,r,1-,(,n,2).,三、相关系数检验,由样本相关系数的定义可以得到,r,与,F,统计量之间的关系,这表明，,r,是,F,的严格单调增函数，故可以从,F,分布的1,分位数,F,1,-,(1,n,2) 得到,r,的1,分位数为,由样本相关系数的定义可以得到 r与F统计量之间的关系,譬如，对,=0.01，,n,=12，,F,0.99,(1,10)=10.04 ，于是。,为实际使用方便，人们已对,r,1-,(,n,-2)编制了专门的表，见附表9。,以例8.4.2中数据为例，可以计算得到,若取,=0.01，查附表9知,r,0.99,(10)=0.708, 由于0.97280.708，因此，在显著性水平0.01下回归方程是显著的。,譬如，对 =0.01，n=12， F0.99(1,在一元线性回归场合，三种检验方法是等价的：在相同的显著性水平下，要么都拒绝原假设，要么都接受原假设，不会产生矛盾。,F,检验可以很容易推广到多元回归分析场合，而其他二个则否，所以，F检验是最常用的关于回归方程显著性检验的检验方法。,在一元线性回归场合，三种检验方法是等价的：在相同的显,8.4.5 估计与预测,当回归方程经过检验是显著的后，可用来做估计和预测。这是二个不同的问题：,（1）当,x=x,0,时，寻求均值,E,(,y,0,)=,0,+,1,x,0,的点估计与区间,估计（注意这里,E,(,y,0,)是常量）是估计问题；,（2）当,x=x,0,时，,y,0,的观察值在什么范围内？由于,y,0,是随机,变量，为此只能求一个区间，使,y,0,落在这一区间的概,率为1,-,，即要求,，使,称区间为,y,0,的概率为1-,的预测区间，,这是预测问题。,8.4.5 估计与预测,一、,E,(,y,0,)的估计,在,x=x,0,时，其对应的因变量,y,0,是一个随机变量，有一个分布，我们经常需要对该分布的均值给出估计。由于,E,(,y,0,)=,0,+,1,x,0,，一个直观的估计应为,我们习惯上将上述估计记为（注意这里表示的是,E,(,y,0,)的估计，而不表示,y,0,的估计，因为,y,0,是随机变量，它是没有估计的）。由于分别是,0,1,的无偏估计，因此，也是,E,(,y,0,)的无偏估计。,一、 E(y0)的估计,为得到,E,(,y,0,)的区间估计，我们需要知道的分布。由定理8.4.1，,又由定理8.4.3知，,S,e,/,2,2,(,n,-2)，,且与,相互独立，故,为得到E(y0)的区间估计，我们需要知道,于是,E,(,y,0,)的1,的置信区间（CI）是,（8.4.20）,其中,（8.4.21）,于是E(y0)的1 的置信区间（CI）是,二、,y,0,的预测区间,实用中往往更关心,x=x,0,时对应的因变量,y,0,的取值范围。,y,0,的最可能取值为，于是，我们可以使用以为中心的一个区间作为,y,0,的取值范围。经推导，,的表达式为,(8.4.23）,上述预测区间（PI）与,E,(,y,0,)的置信区间的差别就在于根号里多个1。,二、 y0的预测区间,预测区间的长度2,与样本量,n,、,x,的偏差平方和,l,xx,、,x,0,到的距离有关。,当时，预测精度可能变得很差，在这种情况下的预测称作外推，需要特别小心。另外，若,x,1,x,2,x,n,较为集中时，那么,l,xx,就较小，也会导致预测精度的降低。因此，在收集数据时要使,x,1,x,2,x,n,尽量分散，这对提高精度有利。,当,n,较大时（如,n,30)，,t,分布可以用正态分布近似，进一步，若,x,0,与相差不大时，,可以近似取为。,预测区间的长度2与样本量n、x的偏差平方和lxx、,例8.4.4,在例8.4.2中，如果,x,0,=0.16，则得预测值为,若取,=0.05，则,t,0.975,(10)=2.2281，,又，应用(8.4.21)，,故,x,0,=0.16对应因变量,y,0,的均值,E,(,y,0,)的0.95置信区间为(49.4328,-,1.0480, 49.4328+1.0480),=(48.3488, 50.5168),例8.4.4 在例8.4.2中，如果x0=0.16，,应用(8.4.23)，,从而,y,0,的概率为0.95的预测区间为,E,(,y,0,),的0.95置信区间比,y,0,的概率为0.95的预测区间窄很多，这是因为随机变量的均值相对于随机变量本身而言要更容易估计出来。,应用(8.4.23)，,8.5,一元非线性回归,例 8.5.1,炼钢厂出钢水时用的钢包，在使用过程中由于钢水及炉渣对耐火材料的浸蚀，其容积不断增大。现在钢包的容积用盛满钢水时的重量,y,(,kg,)表示，相应的试验次数用,x,表示。数据见表8.5.1，要找出,y,与,x,的定量关系表达式。,8.5 一元非线性回归例 8.5.1 炼钢厂出,表,8.5.1,钢包的重量,y,与试验次数,x,数据,序号,x,y,序号,x,y,1,2,106.42,8,11,110.59,2,3,108.20,9,14,110.60,3,4,109.58,10,15,110.90,4,5,109.50,11,16,110.76,5,7,110.00,12,18,111.00,6,8,109.93,13,19,111.20,7,10,110.49,下面我们分三步进行。,表8.5.1 钢包的重量y与试验次数x数据序号xy序号,8.5.1 确定可能的函数形式,为对数据进行分析，首先描出数据的散点图，判断两个变量之间可能的函数关系，图8.5.1是本例的散点图。,观测这13个点构成的散点图，我们可以看到它们并不接近一条直线，用曲线拟合这些点应该是更恰当的，这里就涉及如何选择曲线函数形式的问题。,8.5.1 确定可能的函数形式,首先，如果可由专业知识确定回归函数形式，

展开阅读全文

第8章方差分析与回归分析课件

最新文档