资源描述
1 第八章 方差分析与回归分析 本章前三节研究方差分析,讨论多个正态总体的比较,后两节研究回归分析讨论两个变量之间的相 关关系 8.1 方差分析 8.1.1 问题的提出 上一章讨论了单个或两个正态总体的假设检验,这里讨论多个正态总体的均值比较问题 通常为了研究某一因素对某项指标的影响情况,将该因素在多种情形下进行抽样检验,作出比较一 般将该因素称为一个因子,所检验的每种情形称为水平在每个水平下需要考察的指标都分别构成一个总 体,比较它们的总体均值是否相等对每一个总体都分别抽取一个样本,样本容量称为重复数 如果只对一个因子中的多个水平进行比较,称为单因子方差分析,对多个因子的水平进行比较,称为 多因子方差分析本章只进行单因子方差分析 例 在饲料养鸡增肥的研究中,现有三种饲料配方:A 1 , A 2 , A 3 ,为比较三种饲料的效果,特选 24 只相似 的雏鸡随机均分为三组,每组各喂一种饲料,60 天后观察它们的重量实验结果如下表所示: 饲料 鸡重/g A 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在此例中,就是要考察饲料对鸡增重的影响,需要比较三种饲料对鸡增肥的作用是否相同这里,饲 料就是一个因子,三种饲料配方就是该因子的三个水平,每种饲料喂养的雏鸡 60 天后的重量分别构成一 个总体,这里共有 3 个总体,每一个总体抽取样本的重复数都是 8,比较这 3 个总体的均值是否相等 8.1.2 单因子方差分析的统计模型 设因子 A 有 r 个水平 A 1 , A 2 , , A r ,在每个水平下需要考察的指标都构成一个总体,即有 r 个总体, 分别记为 Y 1 , Y 2 , , Y r ,对每一个总体都分别抽取一个样本,首先考虑重复数相等的情形,设重复数都是 m,总体 Y i 的样本 Y i1 , Y i2 , , Y im ,i = 1, 2, , r作出以下假定: (1)每一个总体都服从正态分布,即 r i N Y i i i , , 2 , 1 ), , ( 2 L = ; (2)各个总体的方差都相等,即 2 2 2 2 1 r = = = L ,都记为 2 ; (3)各个总体及抽取的样本相互独立,即 Y ij 相互独立,i = 1, 2, , r,j = 1, 2, , m 需要比较它们的总体均值是否相等,即检验的原假设与备择假设为 H 0 : 1 = 2 = = r vs H 1 : 1 , 2 , , r 不全相等, 如果 H 0 成立,就可以认为这 r 个水平下的总体均值相同,称为因子 A不显著;反之,如果 H 0 不成立,就 称为因子 A显著 在水平 A i 下的样品 Y ij 与该水平下的总体均值 i 之差 ij = Y ij i 为随机误差由于 Y ij N ( i , 2 ), 因此随机误差 ij N (0 , 2 )对所有 r 个水平下的总体均值求平均,即 = = + + + = r i i r r r 1 2 1 1 ) ( 1 L 称为总均值每个水平 A i 下的总体均值 i 与总均值 之差 a i = i 称为该水平 A i 下主效应显然所有 主效应 a i 之和等于 0,即 0 1 = = r i i a , 2 检验所有水平下的总体均值是否相等,也就是检验所有主效应 a i 是否全等于 0这样单因子方差分析在重 复数相等的情形下,统计模型为 = = = + + = = ). , 0 ( ; 0 ; , , 2 , 1 , , , 2 , 1 , 2 1 N a m j r i a Y ij r i i ij i ij 相互独立,且都服从 L L 检验的原假设与备择假设为 H 0 :a 1 = a 2 = = a r = 0 vs H 1 :a 1 , a 2 , , a r 不全等于 0 8.1.3 平方和分解 一试验数据 对于 r 个总体下的试验数据 Y ij , i = 1, 2, , r,j = 1, 2, , m ,记 T i 表示第 i 个总体下试验数据总和, i Y 表示第 i 个总体下样本均值,n = rm表示总的样本容量,T表示总的试验数据总和,Y 表示总的样本均 值,即 = = m j ij i Y T 1 , = = = m j ij i i Y m m T Y 1 1 , i = 1, 2, , r, = = = = r i m j ij r i i Y T T 11 1 , = = = = = r i i r i m j ij Y r Y rm T n Y 1 11 1 1 1 , 用 i Y 作为 i 的点估计,Y 作为 的点估计又记 i 表示第 i 个总体下随机误差平均值, 表示总的随机误 差平均值,即 = = m j ij i m 1 1 , i = 1, 2, , r, = = = = r i i r i m j ij r n 1 11 1 1 显然有 + = i i i Y , + = Y 在单因子方差分析中通常将试验数据及基本计算结果写成表格形式 因子水平 试验数据 和 和的平方 平方和 A 1 Y 11 Y 12 Y 1m T 1 2 1 T 2 1 j Y A 2 Y 21 Y 22 Y 2m T 2 2 2 T 2 2 j Y A r Y r1 Y r2 Y rm T r 2 r T 2 rj Y T = r i i T 1 2 = r i m j ij Y 11 2 3 二组内偏差与组间偏差 数据 Y ij 与样本总均值Y 之差 Y Y ij 称为样本总偏差,可以分成两部分之和: ) ( ) ( Y Y Y Y Y Y i i ij ij + = , 其中 = + + = i ij i i ij i i ij Y Y ) ( ) ( 是第 i 个总体内数据与该总体内样本均值的偏差,称为组内偏差,反映第 i 个总体内的随机误差; + = + + = i i i i i a Y Y ) ( ) ( 是第 i 个总体内样本均值与总样本均值的偏差,称为组间偏差,反映第 i个总体的主效应 三偏差平方和及其自由度 在统计学中,对于 k 个独立数据 Y 1 , Y 2 , , Y k ,平均值 = = k i i Y k Y 1 1 ,称 Y i 与Y 之差为偏差,所有偏差 的平方和 = = k i i Y Y Q 1 2 ) ( 称为这 k 个数据的偏差平方和,反映这 k 个数据的分散程度由于所有偏差之和 0 ) ( 1 1 = = = = Y k Y Y Y k i i k i i , 即这 k 个偏差由 k 个独立数据受到一个约束条件形成,可以证明它们与 k 1 个独立(随机)变量可以相互 线性表示,称之为等价于 k 1 个独立(随机)变量一般地,若 k 个独立数据受到 r 个不相关的约束条件, 则它们等价于 k r 个独立(随机)变量在统计学中,把形成平方和的变量所等价的独立变量个数,称为 该平方和的自由度,通常记为 f如上述偏差平方和 Q的自由度为 k 1,即 f Q = k 1 由于平方和的大小与变量个数(或自由度)有关,为了对偏差进行比较,通常考虑偏差平方和与其自 由度之商,称为均方和,记为 MS,反映一组数据的平均分散程度,如样本方差 = = n i i X X n S 1 2 2 ) ( 1 1 就 是样本数据偏差的均方和 四总平方和分解公式 总偏差平方和记为 S T 或 SST,其自由度记为 f T ,有 = = r i m j ij T Y Y S 11 2 ) ( ,f T = rm 1 = n 1; 组内偏差平方和记为 S e 或 SSE,其自由度记为 f e ,有 = = r i m j i ij e Y Y S 11 2 ) ( ,f e = r (m 1) = n r; 组间偏差平方和记为 S A 或 SSA,其自由度记为 f A ,有 = = = = r i i r i m j i A Y Y m Y Y S 1 2 11 2 ) ( ) ( ,f A = r 1 4 组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应 定理 总偏差平方和 S T 可以分解为组内偏差平方和 S e 与组间偏差平方和 S A 之和,其自由度也可作相应的 分解,即 S T = S e + S A ,f T = f e + f A ,称之为平方和分解公式 证: = = + = = r i m j i i ij r i m j ij T Y Y Y Y Y Y S 11 2 11 2 ) ( ) ( ) ( = = = + + = r i m j i i ij r i m j i r i m j i ij Y Y Y Y Y Y Y Y 11 11 2 11 2 ) )( ( 2 ) ( ) ( A e A e r i i A e r i m j i ij i A e S S S S Y Y S S Y Y Y Y S S + = + + = + + = + + = = = 0 0 ) ( 2 ) ( ) ( 2 1 11 , 且显然有 f T = n 1 = (n r) + (r 1) = f e + f A 8.1.4 检验方法 由于组内偏差平方和反映所有总体内的随机误差,组间偏差平方和反映所有总体的主效应,通过比较 组内偏差平方和与组间偏差平方和检验因子的显著性下面将证明在假设所有主效应都等于 0 成立的条件 下,它们的均方和之商服从 F 分布 定理 在单因子方差分析模型中,组内偏差平方和 S e 与组间偏差平方和 S A 满足 (1)E(S e ) = (n r) 2 ,且 ) ( 2 2 r n S e ; (2) = + = r i i A a m r S 1 2 2 ) 1 ( ) E( ,且当 H 0 :a 1 = a 2 = = a r = 0成立时, ) 1 ( 2 2 r S A ; (3)S e 与 S A 相互独立 证:根据第五章的定理结论知: 设 X 1 , X 2 , , X n 相互独立且都服从正态分布 N ( , 2 ),记 = = n i i X n X 1 1 , = = n i i X X S 1 2 0 ) ( , 则 X 与 S 0 相互独立,且 ) 1 ( 2 2 0 n S (1) = = r i m j i ij e Y Y S 11 2 ) ( ,Y i1 , Y i2 , , Y im 相互独立且都服从正态分布 N ( i , 2 ), = = m i ij i Y m Y 1 1 , 则 = m j i ij Y Y 1 2 ) ( 与 i Y 相互独立,且 ) 1 ( ) ( 1 2 1 2 2 = m Y Y m j i ij , 因在不同水平下的样本都相互独立, 则 = r i m j i ij Y Y 11 2 ) ( 与 r Y Y Y , , , 2 1 L 也相互独立,且根据独立 2 变量的可加性知 ) ( ) ( 1 2 11 2 2 r rm Y Y r i m j i ij = , 故 ) ( ) ( 1 2 11 2 2 2 r n Y Y S r i m j i ij e = = ,即得 E(S e ) = (n r) 2 ; 5 (2) = = = = = + + = + = = r i i i r i i r i i r i i i r i i A a m m a m a m Y Y m S 1 1 2 1 2 1 2 1 2 ) ( 2 ) ( ) ( ) ( , 因 ij ( i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服从正态分布 N (0, 2 ), 有 = = m j ij i m 1 1 ( i = 1, 2, , r) 相互独立且都服从正态分布 ) , 0 ( 2 m N , = = r i i r 1 1 , 则 0 ) E( ) E( ) E( = = i i 且 ) 1 ( ) ( 2 2 1 2 = r m r i i ,即 m r r i i 2 1 2 ) 1 ( ) ( E = = , 故 2 1 2 1 1 2 1 2 ) 1 ( ) E( 2 ) ( E ) E( + = + + = = = = = r a m a m m a m S r i i r i i i r i i r i i A , 当 H 0 :a 1 = a 2 = = a r = 0 成立时, = = = = r i i r i i A m Y Y m S 1 2 1 2 ) ( ) ( , 故 ) 1 ( ) ( 2 2 1 2 2 = = r m S r i i A ; (3)因 = = r i m j i ij e Y Y S 11 2 ) ( 与 r Y Y Y , , , 2 1 L 相互独立,有 S e 与 = = r i i Y r Y 1 1 相互独立, 且 = = r i i A Y Y m S 1 2 ) ( , 故 S e 与 S A 相互独立 由于 ) ( 2 2 r n S e ,当 H 0 :a 1 = a 2 = = a r = 0 成立时, ) 1 ( 2 2 r S A ,且 S e 与 S A 相互独立,则 根据 F 分布的定义可知:当 H 0 成立时,有 ) , 1 ( ) ( ) 1 ( 2 2 r n r F MS MS f S f S r n S r S F e A e e A A e A = = = 由于 = + = r i i A a m r S 1 2 2 ) 1 ( ) E( ,则 F越大,即 S A 越大时,越有可能发生 a i 0,则检验的拒绝域为 右侧 步骤:假设 H 0 :a 1 = a 2 = = a r = 0 vs H 1 :a 1 , a 2 , , a r 不全等于 0, 统计量 ) , 1 ( r n r F MS MS f S f S F e A e e A A = = , 显著水平 ,右侧拒绝域 W = f f 1 (r 1, n r), 计算 f,并作出判断 这是 F 检验法 6 通常列成方差分析表: 来源 平方和 自由度 均方和 F 比 因子 S A f A = r 1 MS A = S A / f A F = MS A / MS e 误差 S e f e = n r MS e = S e / f A 总和 S T f T = n 1 为了计算方便,可给出三个偏差平方和的计算公式对于一组数据 X 1 , X 2 , , X n ,记 = = n i i X n X 1 1 , 则有 2 1 1 2 2 1 2 1 2 1 ) ( = = = = = = n i i n i i n i i n i i X n X X n X X X , 记 = = m j ij i Y T 1 , = = = = r i m j ij r i i Y T T 11 1 , 可得 2 11 2 2 11 11 2 2 11 2 11 2 1 1 ) ( T n Y Y n Y Y n Y Y Y S r i m j ij r i m j ij r i m j ij r i m j ij r i m j ij T = = = = = = = = = , 2 1 2 2 11 1 2 1 2 1 2 1 2 1 1 1 1 ) ( T n T m Y n mr Y m m Y r Y m Y Y m S r i i r i m j ij r i m j ij r i i r i i A = = = = = = = = = , = = = = r i i r i m j ij A T e T m Y S S S 1 2 11 2 1 例 在饲料养鸡增肥的研究中,现有三种饲料配方:A 1 , A 2 , A 3 ,为比较三种饲料的效果,特选 24 只相似 的雏鸡随机均分为三组,每组各喂一种饲料,60 天后观察它们的重量实验结果如下表所示: 饲料 鸡重/g A 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在显著水平 = 0.05 下检验这三种饲料对雏鸡增重是否有显著差别 解:假设 H 0 :a 1 = a 2 = a 3 = 0 vs H 1 :a 1 , a 2 , a 3 不全等于 0, 统计量 ) , 1 ( r n r F MS MS f S f S F e A e e A A = = ,平方和 显著水平 = 0.05,n = 24,r = 3,m = 8,右侧拒绝域 W = f f 0.95 (2, 21) = f 3.47, 试验数据计算表 因子水平 试验数据 Y ij T i 2 i T = m j ij Y 1 2 A 1 1073 1009 1060 1001 1002 1012 1009 1028 8194 67141636 8398024 A 2 1107 1092 990 1109 1090 1074 1122 1001 8585 73702225 9230355 A 3 1093 1029 1080 1021 1022 1032 1029 1048 8354 69789316 8728984 总和 25133 210633177 26357363 7 计算可得 0833 . 9660 25133 24 1 210633177 8 1 1 1 2 2 1 2 = = = = T n T m S r i i A , 875 . 28215 210633177 8 1 26357363 1 1 2 11 2 = = = = = r i i r i m j ij e T m Y S , 方差分析表 来源 平方和 自由度 均方和 F 比 因子 9660.0833 2 4830.0417 3.5948 误差 28215.875 21 1343.6131 总和 37875.9583 23 有 F 比 f = 3.5948 W, 故拒绝 H 0 ,接受 H 1 ,可以认为这三种饲料对雏鸡增重有显著差别, 并且检验的 p 值 p = PF 3.5948 = 1 0.9546 = 0.0454 = 0.05 8.1.5 参数估计 在方差分析问题中,可对总均值 ,误差的方差 2 作参数估计 当检验结果为因子不显著时,各水平下指标的总体均值与总体方差都相同,可将所有水平的指标看作 一个统一的总体,全部试验数据是来自正态总体 Y N ( , 2 ) 的一个容量为 n = rm 的样本,因此样本均 值 n T Y n Y r i m j ij = = = 11 1 ,样本方差 1 ) ( 1 1 11 2 2 = = = n S Y Y n S T r i m j ij 这样总均值 和误差的方差 2 的点估 计分别为 Y = , 2 2 S = ,置信度为 1 的置信区间分别是 ) 1 ( 2 / 1 n S n t Y , ) 1 ( ) 1 ( , ) 1 ( ) 1 ( 2 2 / 2 2 2 / 1 2 2 n S n n S n 当检验结果为因子显著时,还可进一步对主效应 a i 作参数估计 一点估计 由于试验数据 Y ij , (i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服从正态分布 N ( + a i , 2 ),根 据 最 大似然估计法,得到总均值 ,误差的方差 2 及主效应 a i 的点估计似然函数 = = = = r i m j i ij r i m j ij r a y y p a a a L 11 2 2 2 11 2 2 1 2 ) ( exp 2 1 ) ( ) , , , , , ( L = = r i m j i ij n a y 11 2 2 2 2 ) ( 2 1 exp ) 2 ( 1 , 取对数,得 = = r i m j i ij a y n n L 11 2 2 2 ) ( 2 1 ) ln( 2 ) 2 ln( 2 ln 令关于 的偏导数等于 0,有 = = = = = r i i r i m j ij r i m j i ij a m n y a y L 1 11 2 11 2 1 ) 1 ( ) ( 2 2 1 ln 8 0 1 0 1 11 2 11 2 = = = = = n y n y r i m j ij r i m j ij , 得 y y n r i m j ij = = = 11 1 ,故总均值 的最大似然估计为 Y = 令关于 a k 的偏导数等于 0,有 0 1 ) 1 ( ) ( 2 2 1 ln 1 2 1 2 = = = = = k m j kj m j k kj k ma m y a y a L , k = 1, 2, , r, 得 = = = k m j kj k y y m a 1 1 ,故主效应 a i 的最大似然估计为 Y Y Y a i i i = = , i = 1, 2, , r ,相应, 第 i 个水平下的总体均值 i 的最大似然估计为 = + = i i i Y a 令关于 2 的偏导数等于 0,有 0 ) ( 2 1 1 2 ) ( ln 11 2 4 2 2 = + = = r i m j i ij a y n L , 得 = = r i m j i ij a y n 11 2 2 ) ( 1 ,故误差的方差 2 的最大似然估计为 n S Y Y n e r i m j i ij M = = = 11 2 2 ) ( 1 由于 E(S e ) = (n r) 2 ,可知 2 M 不是 2 的无偏估计,修偏得 2 的无偏估计 e e MS r n S = = 2 二置信区间 对总均值 ,误差的方差 2 及第 i个水平下的总体均值 i 给出置信区间 第 i个水平下总体均值 i 的点估计为 = = = m j ij i i Y m Y 1 1 , 因试验数据 Y ij , (i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服从正态分布 N ( i , 2 ),则有 ) , ( 2 m N Y i i ,即 ) 1 , 0 ( N m Y i i , 但 未知,用 r n S e = 替换由于 ) ( 2 2 r n S e 且 S e 与 i Y 相互独立,则根据 2 分布的定义可得 ) ( ) ( 2 r n t m Y r n S m Y i i e i i = , 故第 i 个水平下总体均值 i 的置信度为 1 的置信区间是 ) ( 2 / 1 m r n t Y i i 9 总均值 的点估计为 = = = r i m j ij Y n Y 11 1 ,因数据 Y ij , (i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服 从正态分布 N ( i , 2 ),有Y 服从正态分布,且 = = = = = = = r i i r i m j i r i m j ij n m n Y n Y 1 11 11 1 ) E( 1 ) E( , n n n n Y n Y r i m j r i m j ij 2 2 2 11 2 2 11 2 1 1 ) Var( 1 ) Var( = = = = = = , 得 ) , ( 2 n N Y ,即 ) 1 , 0 ( N n Y , 但 未知,用 r n S e = 替换由于 ) ( 2 2 r n S e 且 S e 与Y 相互独立,则根据 t 分布的定义可得 ) ( ) ( 2 r n t n Y r n S n Y e = , 故总均值 的置信度为 1 的置信区间是 ) ( 2 / 1 n r n t Y 误差的方差 2 的点估计为 r n S e = 2 ,且 ) ( 2 2 r n S e ,故误差的方差 2 的置信度为 1 的置信 区间是 = ) ( ) ( , ) ( ) ( ) ( , ) ( 2 2 / 2 2 2 / 1 2 2 2 / 2 2 / 1 2 r n r n r n r n r n S r n S e e 例 由前面的鸡饲料对鸡增重问题的数据给出总均值 ,误差的方差 2 及三个水平下总体均值 1 , 2 , 3 的点估计和置信区间( = 0.05) 解:前面已检验知因子显著,则三个水平下总体均值 1 , 2 , 3 的点估计为 25 . 1024 8 8194 1 1 1 = = = = m T Y , 125 . 1073 8 8585 2 2 2 = = = = m T Y , 25 . 1044 8 8354 3 3 3 = = = = m T Y , 总均值 的点估计为 2083 . 1047 24 25133 = = = = n T Y , 10 误差的方差 2 的点估计为 6131 . 1343 2 = = = e e MS r n S , 置信度为 0.95 的置信区间是 2008 . 1051 , 2992 . 997 8 6131 . 1343 0796 . 2 25 . 1024 ) 21 ( 975 . 0 1 1 = = m t Y , 0758 . 1100 , 1742 . 1046 8 6131 . 1343 0796 . 2 125 . 1073 ) 21 ( 975 . 0 2 2 = = m t Y , 2008 . 1071 , 2992 . 1017 8 6131 . 1343 0796 . 2 25 . 1044 ) 21 ( 975 . 0 3 3 = = m t Y , 7684 . 1062 , 6482 . 1031 24 6131 . 1343 0796 . 2 2083 . 1047 ) 21 ( 975 . 0 = = n t Y , 9608 . 2743 , 2861 . 795 2829 . 10 875 . 28215 , 4789 . 35 875 . 28215 ) 21 ( , ) 21 ( 2 025 . 0 2 975 . 0 2 = = e e S S 8.1.6 重复数不等的情形 如果每个水平下试验次数不全相等,称为重复数不等的情形,其检验方法与在重复数相等的情形下类 似,只是在对数据的表述和处理上有几点区别 一数据 设第 i 个水平 A i 下的重复数为 m i ,所取得的样本为 i im i i Y Y Y , , , 2 1 L ,i = 1, 2, , r显然重复数总数 为 n,即 m 1 + m 2 + + m r = n 二总均值 总均值 是各水平下总体均值 i 的以频率 n m i 为权数的加权平均,即 = = + + + = r i i i r r m n n m n m n m 1 2 2 1 1 1 L 三主效应约束条件 第 i 个水平下主效应 a i = i ,则满足 0 1 1 = = = = n m a m r i i i r i i i 四模型 单因子方差分析在重复数不等的情形下,统计模型为 = = = + + = = ). , 0 ( ; 0 ; , , 2 , 1 , , , 2 , 1 , 2 1 N a m m j r i a Y ij r i i i i ij i ij 相互独立,且都服从 L L 检验 H 0 :a 1 = a 2 = = a r = 0 vs H 1 :a 1 , a 2 , , a r 不全等于 0 11 五平方和的计算 记 = = i m j ij i Y T 1 , = = = i m j ij i i i i Y m m T Y 1 1 , = = = = r i i r i m j ij T Y T i 1 11 , = = = = = r i i i r i m j ij Y m n Y n n T Y i 1 11 1 1 , 则各平方和的计算公式为 n T Y Y n Y Y Y S r i m j ij r i m j ij r i m j ij T i i i 2 11 2 2 11 2 11 2 ) ( = = = = = = , n T m T Y n Y m Y Y m Y Y S r i i i r i i i r i i i r i m j i A i 2 1 2 2 1 2 1 2 11 2 ) ( ) ( = = = = = = = = , = = = = r i i i r i m j ij A T e m T Y S S S i 1 2 11 2 例 某食品公司对一种食品设计了四种新包装,为了考察哪种包装最受顾客欢迎,选了 10 个地段繁华程 度相似、 规模相近的商店做试验, 其中两种包装各指定两个商店销售, 另两种包装各指定三个商店销售 在 试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售 量数据,见下表 包装类型 销售量数据 A 1 12 18 A 2 14 12 13 A 3 19 17 21 A 4 24 30 在显著水平 = 0.01 下检验这四种包装对销售量是否有显著影响 解:假设 H 0 :a 1 = a 2 = a 3 = a 4 = 0 vs H 1 :a 1 , a 2 , a 3 , a 4 不全等于 0, 统计量 ) , 1 ( r n r F MS MS f S f S F e A e e A A = = , 显著水平 = 0.01,n = 10,r = 4,右侧拒绝域 W = f f 0.99 (3, 6) = f 9.78, 销售量数据计算表 因子水平 销售量数据 Y ij m i T i i i m T 2 = m j ij Y 1 2 A 1 12 18 2 30 450 468 A 2 14 12 13 3 39 507 509 A 3 19 17 21 3 57 1083 1091 A 4 24 30 2 54 1458 1476 总和 10 180 3498 3544 计算可得 258 180 10 1 3498 1 2 2 1 2 = = = = T n m T S r i i i A , 46 3498 3544 1 2 11 2 = = = = = r i i i r i m j ij e m T Y S , 12 方差分析表 来源 平方和 自由度 均方和 F 比 因子 258 3 86 11.2174 误差 46 6 7.6667 总和 304 9 有 F 比 f = 11.2174 W, 故拒绝 H 0 ,接受 H 1 ,可以认为这四种包装对销售量有显著影响, 并且检验的 p 值 p = PF 11.2174 = 1 0.9929 = 0.0071 = 0.01 由于因子显著,则四个水平下总体均值 1 , 2 , 3 , 4 的点估计为 15 2 30 1 1 1 1 = = = = m T Y , 13 3 39 2 2 2 2 = = = = m T Y , 19 3 57 3 3 3 3 = = = = m T Y , 27 2 54 4 4 4 4 = = = = m T Y , 总均值 的点估计为 18 10 180 = = = = n T Y , 误差的方差 2 的点估计为 6667 . 7 2 = = = e e MS r n S , 置信度为 0.99 的置信区间是 2587 . 22 , 7413 . 7 2 6667 . 7 7074 . 3 15 ) 6 ( 1 995 . 0 1 1 = = m t Y , 9267 . 18 , 0733 . 7 3 6667 . 7 7074 . 3 13 ) 6 ( 2 995 . 0 2 2 = = m t Y , 9267 . 24 , 0733 . 13 3 6667 . 7 7074 . 3 19 ) 6 ( 3 995 . 0 3 3 = = m t Y , 2587 . 34 , 7413 . 19 2 6667 . 7 7074 . 3 27 ) 6 ( 4 995 . 0 4 4 = = m t Y , 2462 . 21 , 7538 . 14 10 6667 . 7 7074 . 3 18 ) 6 ( 995 . 0 = = n t Y , 0775 . 68 , 4801 . 2 6757 . 0 46 , 5476 . 18 46 ) 6 ( , ) 6 ( 2 005 . 0 2 995 . 0 2 = = e e S S 13 8.2 多重比较 上一节是将多个总体作为一个整体进行检验如果检验结果是因子 A显著,则可以认为各水平下的均 值 i 不全相等,但却不能直接说明 i 中哪些可以认为相等,哪些可以认为不等这一节是对各个 i 两两之 间进行比较,对 i j ,也就是效应差 a i a j 作出估计、检验 8.2.1 效应差的置信区间 效应差 a i a j = i j 的点估计为 j i Y Y 因 Y ik N ( i , 2 ), (i = 1, 2, , r, k = 1, 2, , m i ),则 ) , ( 1 2 1 i i m k ik i i m N Y m Y i = = , ) , ( 1 2 1 j j m k jk j j m N Y m Y j = = , 且当 i j 时, i Y 与 j Y 相互独立,可得 ) ) 1 1 ( , ( 2 j i j i j i m m N Y Y + , 即 ) 1 , 0 ( 1 1 ) ( ) ( N m m Y Y j i j i j i + , 但 未知,用 r n S e = 替换由于 ) ( 2 2 r n S e 且 S e 与 j i Y Y , 相互独立,则根据 t 分布的定义可得 ) ( 1 1 ) ( ) ( ) ( 1 1 ) ( ) ( 2 r n t m m Y Y r n S m m Y Y j i j i j i e j i j i j i + = + , 故效应差 a i a j = i j 的置信度为 1 的置信区间是 1 1 ) ( 2 / 1 j i j i j i m m r n t Y Y + 例 由前面的鸡饲料对鸡增重问题的数据给出各效应差 i j 的点估计和置信区间( = 0.05) 解:因 m 1 = m 2 = m 3 = 8,n = 24,r = 3,有 25 . 1024 8 8194 1 1 1 = = = m T Y , 125 . 1073 8 8585 2 2 2 = = = m T Y , 25 . 1044 8 8354 3 3 3 = = = m T Y , 则各效应差 i j 的点估计分别为 875 . 48 125 . 1073 25 . 1024 2 1 2 1 = = = Y Y , 20 25 . 1044 25 . 1024 3 1 3 1 = = = Y Y , 875 . 28 25 . 1044 125 . 1073 3 2 3 2 = = = Y Y ; 14 因 6553 . 36 21 875 . 28215 = = = r n S e , 有 1142 . 38 5 . 0 6553 . 36 0796 . 2 1 1 ) 21 ( 975 . 0 = = + j i m m t , 则各效应差 i j 的置信度为 0.95 的置信区间分别是 7608 . 10 , 9892 . 86 1142 . 38 875 . 48 8 1 8 1 ) 21 ( 975 . 0 2 1 2 1 = = + t Y Y , 1142 . 18 , 1142 . 58 1142 . 38 20 8 1 8 1 ) 21 ( 975 . 0 3 1 3 1 = = + t Y Y , 9892 . 66 , 2392 . 9 1142 . 38 875 . 28 8 1 8 1 ) 21 ( 975 . 0 3 2 3 2 = = + t Y Y 例 由前面的食品包装对销售量影响问题的数据给出各效应差 i j 的点估计和置信区间( = 0.01) 解:因 m 1 = 2,m 2 = 3,m 3 = 3,m 4 = 2,n = 10,r = 4,有 15 2 30 1 1 1 = = = m T Y , 13 3 39 2 2 2 = = = m T Y , 19 3 57 3 3 3 = = = m T Y , 27 2 54 4 4 4 = = = m T Y , 则各效应差 i j 的点估计分别为 2 13 15 2 1 2 1 = = = Y Y , 4 19 15 3 1 3 1 = = = Y Y , 12 27 15 4 1 4 1 = = = Y Y , 6 19 13 3 2 3 2 = = = Y Y , 14 27 13 4 2 4 2 = = = Y Y , 8 27 19 4 3 4 3 = = = Y Y ; 因 7689 . 2 6 46 = = = r n S e ,有 2653 . 10 7689 . 2 7074 . 3 ) 6 ( 995 . 0 = = t ,则各效应差 i j 的置信 度为 0.99 的置信区间分别是 3709 . 11 , 3709 . 7 9129 . 0 2653 . 10 2 3 1 2 1 ) 6 ( 995 . 0 2 1 2 1 = = + t Y Y , 3709 . 5 , 3709 . 13 9129 . 0 2653 . 10 4 3 1 2 1 ) 6 ( 995 . 0 3 1 3 1 = = + t Y Y , 7347 . 1 , 2653 . 22 1 2653 . 10 12 2 1 2 1 ) 6 ( 995 . 0 4 1 4 1 = = + t Y Y , 3816 . 2 , 3816 . 14 8165 . 0 2653 . 10 6 3 1 3 1 ) 6 ( 995 . 0 3 2 3 2 = = + t Y Y , 6291 . 4 , 3709 . 23 9129 . 0 2653 . 10 14 2 1 3 1 ) 6 ( 995 . 0 4 2 4 2 = = + t Y Y , 3709 . 1 , 3709 . 17 9129 . 0 2653 . 10 8 2 1 3 1 ) 6 ( 995 . 0 4 3 4 3 = = + t Y Y 15 8.2.2 多重比较问题 对各个 i 两两之间进行比较,也就是检验任意两个水平 A i 与 A j 下的总体均值是否相等,即检验假设 j i ij H = : 0 vs j i ij H : 1 , i, j = 1, 2, , r 对于每一个假设 ij H 0 可以采取上一章两个正态总体的均值比较方法进行检验,但这里需要同时检验 2 ) 1 ( 2 = r r C r 个这种假设 设需要同时检验 k 个假设 k i H i , , 2 , 1 , 0 L = ,每一个假设的显著水平是 ,即在 i H 0 成立的条件下,接 受 i H 0 的概率为 1 ,但在所有 k 个假设 i H 0 都成立的条件下,
展开阅读全文