概率论与数理统计茆诗松第二版课后第八章习题参考答案.pdf

资源描述

1 第八章方差分析与回归分析本章前三节研究方差分析，讨论多个正态总体的比较，后两节研究回归分析讨论两个变量之间的相关关系 8.1 方差分析 8.1.1 问题的提出上一章讨论了单个或两个正态总体的假设检验，这里讨论多个正态总体的均值比较问题通常为了研究某一因素对某项指标的影响情况，将该因素在多种情形下进行抽样检验，作出比较一般将该因素称为一个因子，所检验的每种情形称为水平在每个水平下需要考察的指标都分别构成一个总体，比较它们的总体均值是否相等对每一个总体都分别抽取一个样本，样本容量称为重复数如果只对一个因子中的多个水平进行比较，称为单因子方差分析，对多个因子的水平进行比较，称为多因子方差分析本章只进行单因子方差分析例在饲料养鸡增肥的研究中，现有三种饲料配方：A 1 , A 2 , A 3 ，为比较三种饲料的效果，特选 24 只相似的雏鸡随机均分为三组，每组各喂一种饲料，60 天后观察它们的重量实验结果如下表所示：饲料鸡重/g A 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在此例中，就是要考察饲料对鸡增重的影响，需要比较三种饲料对鸡增肥的作用是否相同这里，饲料就是一个因子，三种饲料配方就是该因子的三个水平，每种饲料喂养的雏鸡 60 天后的重量分别构成一个总体，这里共有 3 个总体，每一个总体抽取样本的重复数都是 8，比较这 3 个总体的均值是否相等 8.1.2 单因子方差分析的统计模型设因子 A 有 r 个水平 A 1 , A 2 , , A r ，在每个水平下需要考察的指标都构成一个总体，即有 r 个总体，分别记为 Y 1 , Y 2 , , Y r ，对每一个总体都分别抽取一个样本，首先考虑重复数相等的情形，设重复数都是 m，总体 Y i 的样本 Y i1 , Y i2 , , Y im ，i = 1, 2, , r作出以下假定：（1）每一个总体都服从正态分布，即 r i N Y i i i , , 2 , 1 ), , ( 2 L = ；（2）各个总体的方差都相等，即 2 2 2 2 1 r = = = L ，都记为 2 ；（3）各个总体及抽取的样本相互独立，即 Y ij 相互独立，i = 1, 2, , r，j = 1, 2, , m 需要比较它们的总体均值是否相等，即检验的原假设与备择假设为 H 0 ： 1 = 2 = = r vs H 1 ： 1 , 2 , , r 不全相等，如果 H 0 成立，就可以认为这 r 个水平下的总体均值相同，称为因子 A不显著；反之，如果 H 0 不成立，就称为因子 A显著在水平 A i 下的样品 Y ij 与该水平下的总体均值 i 之差 ij = Y ij i 为随机误差由于 Y ij N ( i , 2 )，因此随机误差 ij N (0 , 2 )对所有 r 个水平下的总体均值求平均，即 = = + + + = r i i r r r 1 2 1 1 ) ( 1 L 称为总均值每个水平 A i 下的总体均值 i 与总均值之差 a i = i 称为该水平 A i 下主效应显然所有主效应 a i 之和等于 0，即 0 1 = = r i i a ， 2 检验所有水平下的总体均值是否相等，也就是检验所有主效应 a i 是否全等于 0这样单因子方差分析在重复数相等的情形下，统计模型为 = = = + + = = ). , 0 ( ; 0 ; , , 2 , 1 , , , 2 , 1 , 2 1 N a m j r i a Y ij r i i ij i ij 相互独立，且都服从 L L 检验的原假设与备择假设为 H 0 ：a 1 = a 2 = = a r = 0 vs H 1 ：a 1 , a 2 , , a r 不全等于 0 8.1.3 平方和分解一试验数据对于 r 个总体下的试验数据 Y ij , i = 1, 2, , r，j = 1, 2, , m ，记 T i 表示第 i 个总体下试验数据总和， i Y 表示第 i 个总体下样本均值，n = rm表示总的样本容量，T表示总的试验数据总和，Y 表示总的样本均值，即 = = m j ij i Y T 1 ， = = = m j ij i i Y m m T Y 1 1 ， i = 1, 2, , r， = = = = r i m j ij r i i Y T T 11 1 ， = = = = = r i i r i m j ij Y r Y rm T n Y 1 11 1 1 1 ，用 i Y 作为 i 的点估计，Y 作为的点估计又记 i 表示第 i 个总体下随机误差平均值，表示总的随机误差平均值，即 = = m j ij i m 1 1 ， i = 1, 2, , r， = = = = r i i r i m j ij r n 1 11 1 1 显然有 + = i i i Y ， + = Y 在单因子方差分析中通常将试验数据及基本计算结果写成表格形式因子水平试验数据和和的平方平方和 A 1 Y 11 Y 12 Y 1m T 1 2 1 T 2 1 j Y A 2 Y 21 Y 22 Y 2m T 2 2 2 T 2 2 j Y A r Y r1 Y r2 Y rm T r 2 r T 2 rj Y T = r i i T 1 2 = r i m j ij Y 11 2 3 二组内偏差与组间偏差数据 Y ij 与样本总均值Y 之差 Y Y ij 称为样本总偏差，可以分成两部分之和： ) ( ) ( Y Y Y Y Y Y i i ij ij + = ，其中 = + + = i ij i i ij i i ij Y Y ) ( ) ( 是第 i 个总体内数据与该总体内样本均值的偏差，称为组内偏差，反映第 i 个总体内的随机误差； + = + + = i i i i i a Y Y ) ( ) ( 是第 i 个总体内样本均值与总样本均值的偏差，称为组间偏差，反映第 i个总体的主效应三偏差平方和及其自由度在统计学中，对于 k 个独立数据 Y 1 , Y 2 , , Y k ，平均值 = = k i i Y k Y 1 1 ，称 Y i 与Y 之差为偏差，所有偏差的平方和 = = k i i Y Y Q 1 2 ) ( 称为这 k 个数据的偏差平方和，反映这 k 个数据的分散程度由于所有偏差之和 0 ) ( 1 1 = = = = Y k Y Y Y k i i k i i ，即这 k 个偏差由 k 个独立数据受到一个约束条件形成，可以证明它们与 k 1 个独立（随机）变量可以相互线性表示，称之为等价于 k 1 个独立（随机）变量一般地，若 k 个独立数据受到 r 个不相关的约束条件，则它们等价于 k r 个独立（随机）变量在统计学中，把形成平方和的变量所等价的独立变量个数，称为该平方和的自由度，通常记为 f如上述偏差平方和 Q的自由度为 k 1，即 f Q = k 1 由于平方和的大小与变量个数（或自由度）有关，为了对偏差进行比较，通常考虑偏差平方和与其自由度之商，称为均方和，记为 MS，反映一组数据的平均分散程度，如样本方差 = = n i i X X n S 1 2 2 ) ( 1 1 就是样本数据偏差的均方和四总平方和分解公式总偏差平方和记为 S T 或 SST，其自由度记为 f T ，有 = = r i m j ij T Y Y S 11 2 ) ( ，f T = rm 1 = n 1；组内偏差平方和记为 S e 或 SSE，其自由度记为 f e ，有 = = r i m j i ij e Y Y S 11 2 ) ( ，f e = r (m 1) = n r；组间偏差平方和记为 S A 或 SSA，其自由度记为 f A ，有 = = = = r i i r i m j i A Y Y m Y Y S 1 2 11 2 ) ( ) ( ，f A = r 1 4 组内偏差平方和反映所有总体内的随机误差，组间偏差平方和反映所有总体的主效应定理总偏差平方和 S T 可以分解为组内偏差平方和 S e 与组间偏差平方和 S A 之和，其自由度也可作相应的分解，即 S T = S e + S A ，f T = f e + f A ，称之为平方和分解公式证： = = + = = r i m j i i ij r i m j ij T Y Y Y Y Y Y S 11 2 11 2 ) ( ) ( ) ( = = = + + = r i m j i i ij r i m j i r i m j i ij Y Y Y Y Y Y Y Y 11 11 2 11 2 ) )( ( 2 ) ( ) ( A e A e r i i A e r i m j i ij i A e S S S S Y Y S S Y Y Y Y S S + = + + = + + = + + = = = 0 0 ) ( 2 ) ( ) ( 2 1 11 ，且显然有 f T = n 1 = (n r) + (r 1) = f e + f A 8.1.4 检验方法由于组内偏差平方和反映所有总体内的随机误差，组间偏差平方和反映所有总体的主效应，通过比较组内偏差平方和与组间偏差平方和检验因子的显著性下面将证明在假设所有主效应都等于 0 成立的条件下，它们的均方和之商服从 F 分布定理在单因子方差分析模型中，组内偏差平方和 S e 与组间偏差平方和 S A 满足（1）E(S e ) = (n r) 2 ，且 ) ( 2 2 r n S e ；（2） = + = r i i A a m r S 1 2 2 ) 1 ( ) E( ，且当 H 0 ：a 1 = a 2 = = a r = 0成立时， ) 1 ( 2 2 r S A ；（3）S e 与 S A 相互独立证：根据第五章的定理结论知：设 X 1 , X 2 , , X n 相互独立且都服从正态分布 N ( , 2 )，记 = = n i i X n X 1 1 ， = = n i i X X S 1 2 0 ) ( ，则 X 与 S 0 相互独立，且 ) 1 ( 2 2 0 n S （1） = = r i m j i ij e Y Y S 11 2 ) ( ，Y i1 , Y i2 , , Y im 相互独立且都服从正态分布 N ( i , 2 )， = = m i ij i Y m Y 1 1 ，则 = m j i ij Y Y 1 2 ) ( 与 i Y 相互独立，且 ) 1 ( ) ( 1 2 1 2 2 = m Y Y m j i ij ，因在不同水平下的样本都相互独立，则 = r i m j i ij Y Y 11 2 ) ( 与 r Y Y Y , , , 2 1 L 也相互独立，且根据独立 2 变量的可加性知 ) ( ) ( 1 2 11 2 2 r rm Y Y r i m j i ij = ，故 ) ( ) ( 1 2 11 2 2 2 r n Y Y S r i m j i ij e = = ，即得 E(S e ) = (n r) 2 ； 5 （2） = = = = = + + = + = = r i i i r i i r i i r i i i r i i A a m m a m a m Y Y m S 1 1 2 1 2 1 2 1 2 ) ( 2 ) ( ) ( ) ( ，因 ij ( i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服从正态分布 N (0, 2 )，有 = = m j ij i m 1 1 ( i = 1, 2, , r) 相互独立且都服从正态分布 ) , 0 ( 2 m N ， = = r i i r 1 1 ，则 0 ) E( ) E( ) E( = = i i 且 ) 1 ( ) ( 2 2 1 2 = r m r i i ，即 m r r i i 2 1 2 ) 1 ( ) ( E = = ，故 2 1 2 1 1 2 1 2 ) 1 ( ) E( 2 ) ( E ) E( + = + + = = = = = r a m a m m a m S r i i r i i i r i i r i i A ，当 H 0 ：a 1 = a 2 = = a r = 0 成立时， = = = = r i i r i i A m Y Y m S 1 2 1 2 ) ( ) ( ，故 ) 1 ( ) ( 2 2 1 2 2 = = r m S r i i A ；（3）因 = = r i m j i ij e Y Y S 11 2 ) ( 与 r Y Y Y , , , 2 1 L 相互独立，有 S e 与 = = r i i Y r Y 1 1 相互独立，且 = = r i i A Y Y m S 1 2 ) ( ，故 S e 与 S A 相互独立由于 ) ( 2 2 r n S e ，当 H 0 ：a 1 = a 2 = = a r = 0 成立时， ) 1 ( 2 2 r S A ，且 S e 与 S A 相互独立，则根据 F 分布的定义可知：当 H 0 成立时，有 ) , 1 ( ) ( ) 1 ( 2 2 r n r F MS MS f S f S r n S r S F e A e e A A e A = = = 由于 = + = r i i A a m r S 1 2 2 ) 1 ( ) E( ，则 F越大，即 S A 越大时，越有可能发生 a i 0，则检验的拒绝域为右侧步骤：假设 H 0 ：a 1 = a 2 = = a r = 0 vs H 1 ：a 1 , a 2 , , a r 不全等于 0，统计量 ) , 1 ( r n r F MS MS f S f S F e A e e A A = = ，显著水平，右侧拒绝域 W = f f 1 (r 1, n r)，计算 f，并作出判断这是 F 检验法 6 通常列成方差分析表：来源平方和自由度均方和 F 比因子 S A f A = r 1 MS A = S A / f A F = MS A / MS e 误差 S e f e = n r MS e = S e / f A 总和 S T f T = n 1 为了计算方便，可给出三个偏差平方和的计算公式对于一组数据 X 1 , X 2 , , X n ，记 = = n i i X n X 1 1 ，则有 2 1 1 2 2 1 2 1 2 1 ) ( = = = = = = n i i n i i n i i n i i X n X X n X X X ，记 = = m j ij i Y T 1 ， = = = = r i m j ij r i i Y T T 11 1 ，可得 2 11 2 2 11 11 2 2 11 2 11 2 1 1 ) ( T n Y Y n Y Y n Y Y Y S r i m j ij r i m j ij r i m j ij r i m j ij r i m j ij T = = = = = = = = = ， 2 1 2 2 11 1 2 1 2 1 2 1 2 1 1 1 1 ) ( T n T m Y n mr Y m m Y r Y m Y Y m S r i i r i m j ij r i m j ij r i i r i i A = = = = = = = = = ， = = = = r i i r i m j ij A T e T m Y S S S 1 2 11 2 1 例在饲料养鸡增肥的研究中，现有三种饲料配方：A 1 , A 2 , A 3 ，为比较三种饲料的效果，特选 24 只相似的雏鸡随机均分为三组，每组各喂一种饲料，60 天后观察它们的重量实验结果如下表所示：饲料鸡重/g A 1 1073 1009 1060 1001 1002 1012 1009 1028 A 2 1107 1092 990 1109 1090 1074 1122 1001 A 3 1093 1029 1080 1021 1022 1032 1029 1048 在显著水平 = 0.05 下检验这三种饲料对雏鸡增重是否有显著差别解：假设 H 0 ：a 1 = a 2 = a 3 = 0 vs H 1 ：a 1 , a 2 , a 3 不全等于 0，统计量 ) , 1 ( r n r F MS MS f S f S F e A e e A A = = ，平方和显著水平 = 0.05，n = 24，r = 3，m = 8，右侧拒绝域 W = f f 0.95 (2, 21) = f 3.47，试验数据计算表因子水平试验数据 Y ij T i 2 i T = m j ij Y 1 2 A 1 1073 1009 1060 1001 1002 1012 1009 1028 8194 67141636 8398024 A 2 1107 1092 990 1109 1090 1074 1122 1001 8585 73702225 9230355 A 3 1093 1029 1080 1021 1022 1032 1029 1048 8354 69789316 8728984 总和 25133 210633177 26357363 7 计算可得 0833 . 9660 25133 24 1 210633177 8 1 1 1 2 2 1 2 = = = = T n T m S r i i A ， 875 . 28215 210633177 8 1 26357363 1 1 2 11 2 = = = = = r i i r i m j ij e T m Y S ，方差分析表来源平方和自由度均方和 F 比因子 9660.0833 2 4830.0417 3.5948 误差 28215.875 21 1343.6131 总和 37875.9583 23 有 F 比 f = 3.5948 W，故拒绝 H 0 ，接受 H 1 ，可以认为这三种饲料对雏鸡增重有显著差别，并且检验的 p 值 p = PF 3.5948 = 1 0.9546 = 0.0454 = 0.05 8.1.5 参数估计在方差分析问题中，可对总均值，误差的方差 2 作参数估计当检验结果为因子不显著时，各水平下指标的总体均值与总体方差都相同，可将所有水平的指标看作一个统一的总体，全部试验数据是来自正态总体 Y N ( , 2 ) 的一个容量为 n = rm 的样本，因此样本均值 n T Y n Y r i m j ij = = = 11 1 ，样本方差 1 ) ( 1 1 11 2 2 = = = n S Y Y n S T r i m j ij 这样总均值和误差的方差 2 的点估计分别为 Y = ， 2 2 S = ，置信度为 1 的置信区间分别是 ) 1 ( 2 / 1 n S n t Y ， ) 1 ( ) 1 ( , ) 1 ( ) 1 ( 2 2 / 2 2 2 / 1 2 2 n S n n S n 当检验结果为因子显著时，还可进一步对主效应 a i 作参数估计一点估计由于试验数据 Y ij , (i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服从正态分布 N ( + a i , 2 )，根据最大似然估计法，得到总均值，误差的方差 2 及主效应 a i 的点估计似然函数 = = = = r i m j i ij r i m j ij r a y y p a a a L 11 2 2 2 11 2 2 1 2 ) ( exp 2 1 ) ( ) , , , , , ( L = = r i m j i ij n a y 11 2 2 2 2 ) ( 2 1 exp ) 2 ( 1 ，取对数，得 = = r i m j i ij a y n n L 11 2 2 2 ) ( 2 1 ) ln( 2 ) 2 ln( 2 ln 令关于的偏导数等于 0，有 = = = = = r i i r i m j ij r i m j i ij a m n y a y L 1 11 2 11 2 1 ) 1 ( ) ( 2 2 1 ln 8 0 1 0 1 11 2 11 2 = = = = = n y n y r i m j ij r i m j ij ，得 y y n r i m j ij = = = 11 1 ，故总均值的最大似然估计为 Y = 令关于 a k 的偏导数等于 0，有 0 1 ) 1 ( ) ( 2 2 1 ln 1 2 1 2 = = = = = k m j kj m j k kj k ma m y a y a L ， k = 1, 2, , r，得 = = = k m j kj k y y m a 1 1 ，故主效应 a i 的最大似然估计为 Y Y Y a i i i = = ， i = 1, 2, , r ，相应，第 i 个水平下的总体均值 i 的最大似然估计为 = + = i i i Y a 令关于 2 的偏导数等于 0，有 0 ) ( 2 1 1 2 ) ( ln 11 2 4 2 2 = + = = r i m j i ij a y n L ，得 = = r i m j i ij a y n 11 2 2 ) ( 1 ，故误差的方差 2 的最大似然估计为 n S Y Y n e r i m j i ij M = = = 11 2 2 ) ( 1 由于 E(S e ) = (n r) 2 ，可知 2 M 不是 2 的无偏估计，修偏得 2 的无偏估计 e e MS r n S = = 2 二置信区间对总均值，误差的方差 2 及第 i个水平下的总体均值 i 给出置信区间第 i个水平下总体均值 i 的点估计为 = = = m j ij i i Y m Y 1 1 ，因试验数据 Y ij , (i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服从正态分布 N ( i , 2 )，则有 ) , ( 2 m N Y i i ，即 ) 1 , 0 ( N m Y i i ，但未知，用 r n S e = 替换由于 ) ( 2 2 r n S e 且 S e 与 i Y 相互独立，则根据 2 分布的定义可得 ) ( ) ( 2 r n t m Y r n S m Y i i e i i = ，故第 i 个水平下总体均值 i 的置信度为 1 的置信区间是 ) ( 2 / 1 m r n t Y i i 9 总均值的点估计为 = = = r i m j ij Y n Y 11 1 ，因数据 Y ij , (i = 1, 2, , r, j = 1, 2, , m) 相互独立且都服从正态分布 N ( i , 2 )，有Y 服从正态分布，且 = = = = = = = r i i r i m j i r i m j ij n m n Y n Y 1 11 11 1 ) E( 1 ) E( ， n n n n Y n Y r i m j r i m j ij 2 2 2 11 2 2 11 2 1 1 ) Var( 1 ) Var( = = = = = = ，得 ) , ( 2 n N Y ，即 ) 1 , 0 ( N n Y ，但未知，用 r n S e = 替换由于 ) ( 2 2 r n S e 且 S e 与Y 相互独立，则根据 t 分布的定义可得 ) ( ) ( 2 r n t n Y r n S n Y e = ，故总均值的置信度为 1 的置信区间是 ) ( 2 / 1 n r n t Y 误差的方差 2 的点估计为 r n S e = 2 ，且 ) ( 2 2 r n S e ，故误差的方差 2 的置信度为 1 的置信区间是 = ) ( ) ( , ) ( ) ( ) ( , ) ( 2 2 / 2 2 2 / 1 2 2 2 / 2 2 / 1 2 r n r n r n r n r n S r n S e e 例由前面的鸡饲料对鸡增重问题的数据给出总均值，误差的方差 2 及三个水平下总体均值 1 , 2 , 3 的点估计和置信区间（ = 0.05）解：前面已检验知因子显著，则三个水平下总体均值 1 , 2 , 3 的点估计为 25 . 1024 8 8194 1 1 1 = = = = m T Y ， 125 . 1073 8 8585 2 2 2 = = = = m T Y ， 25 . 1044 8 8354 3 3 3 = = = = m T Y ，总均值的点估计为 2083 . 1047 24 25133 = = = = n T Y ， 10 误差的方差 2 的点估计为 6131 . 1343 2 = = = e e MS r n S ，置信度为 0.95 的置信区间是 2008 . 1051 , 2992 . 997 8 6131 . 1343 0796 . 2 25 . 1024 ) 21 ( 975 . 0 1 1 = = m t Y ， 0758 . 1100 , 1742 . 1046 8 6131 . 1343 0796 . 2 125 . 1073 ) 21 ( 975 . 0 2 2 = = m t Y ， 2008 . 1071 , 2992 . 1017 8 6131 . 1343 0796 . 2 25 . 1044 ) 21 ( 975 . 0 3 3 = = m t Y ， 7684 . 1062 , 6482 . 1031 24 6131 . 1343 0796 . 2 2083 . 1047 ) 21 ( 975 . 0 = = n t Y ， 9608 . 2743 , 2861 . 795 2829 . 10 875 . 28215 , 4789 . 35 875 . 28215 ) 21 ( , ) 21 ( 2 025 . 0 2 975 . 0 2 = = e e S S 8.1.6 重复数不等的情形如果每个水平下试验次数不全相等，称为重复数不等的情形，其检验方法与在重复数相等的情形下类似，只是在对数据的表述和处理上有几点区别一数据设第 i 个水平 A i 下的重复数为 m i ，所取得的样本为 i im i i Y Y Y , , , 2 1 L ，i = 1, 2, , r显然重复数总数为 n，即 m 1 + m 2 + + m r = n 二总均值总均值是各水平下总体均值 i 的以频率 n m i 为权数的加权平均，即 = = + + + = r i i i r r m n n m n m n m 1 2 2 1 1 1 L 三主效应约束条件第 i 个水平下主效应 a i = i ，则满足 0 1 1 = = = = n m a m r i i i r i i i 四模型单因子方差分析在重复数不等的情形下，统计模型为 = = = + + = = ). , 0 ( ; 0 ; , , 2 , 1 , , , 2 , 1 , 2 1 N a m m j r i a Y ij r i i i i ij i ij 相互独立，且都服从 L L 检验 H 0 ：a 1 = a 2 = = a r = 0 vs H 1 ：a 1 , a 2 , , a r 不全等于 0 11 五平方和的计算记 = = i m j ij i Y T 1 ， = = = i m j ij i i i i Y m m T Y 1 1 ， = = = = r i i r i m j ij T Y T i 1 11 ， = = = = = r i i i r i m j ij Y m n Y n n T Y i 1 11 1 1 ，则各平方和的计算公式为 n T Y Y n Y Y Y S r i m j ij r i m j ij r i m j ij T i i i 2 11 2 2 11 2 11 2 ) ( = = = = = = ， n T m T Y n Y m Y Y m Y Y S r i i i r i i i r i i i r i m j i A i 2 1 2 2 1 2 1 2 11 2 ) ( ) ( = = = = = = = = ， = = = = r i i i r i m j ij A T e m T Y S S S i 1 2 11 2 例某食品公司对一种食品设计了四种新包装，为了考察哪种包装最受顾客欢迎，选了 10 个地段繁华程度相似、规模相近的商店做试验，其中两种包装各指定两个商店销售，另两种包装各指定三个商店销售在试验期内各店货架排放的位置、空间都相同，营业员的促销方法也基本相同，经过一段时间，记录其销售量数据，见下表包装类型销售量数据 A 1 12 18 A 2 14 12 13 A 3 19 17 21 A 4 24 30 在显著水平 = 0.01 下检验这四种包装对销售量是否有显著影响解：假设 H 0 ：a 1 = a 2 = a 3 = a 4 = 0 vs H 1 ：a 1 , a 2 , a 3 , a 4 不全等于 0，统计量 ) , 1 ( r n r F MS MS f S f S F e A e e A A = = ，显著水平 = 0.01，n = 10，r = 4，右侧拒绝域 W = f f 0.99 (3, 6) = f 9.78，销售量数据计算表因子水平销售量数据 Y ij m i T i i i m T 2 = m j ij Y 1 2 A 1 12 18 2 30 450 468 A 2 14 12 13 3 39 507 509 A 3 19 17 21 3 57 1083 1091 A 4 24 30 2 54 1458 1476 总和 10 180 3498 3544 计算可得 258 180 10 1 3498 1 2 2 1 2 = = = = T n m T S r i i i A ， 46 3498 3544 1 2 11 2 = = = = = r i i i r i m j ij e m T Y S ， 12 方差分析表来源平方和自由度均方和 F 比因子 258 3 86 11.2174 误差 46 6 7.6667 总和 304 9 有 F 比 f = 11.2174 W，故拒绝 H 0 ，接受 H 1 ，可以认为这四种包装对销售量有显著影响，并且检验的 p 值 p = PF 11.2174 = 1 0.9929 = 0.0071 = 0.01 由于因子显著，则四个水平下总体均值 1 , 2 , 3 , 4 的点估计为 15 2 30 1 1 1 1 = = = = m T Y ， 13 3 39 2 2 2 2 = = = = m T Y ， 19 3 57 3 3 3 3 = = = = m T Y ， 27 2 54 4 4 4 4 = = = = m T Y ，总均值的点估计为 18 10 180 = = = = n T Y ，误差的方差 2 的点估计为 6667 . 7 2 = = = e e MS r n S ，置信度为 0.99 的置信区间是 2587 . 22 , 7413 . 7 2 6667 . 7 7074 . 3 15 ) 6 ( 1 995 . 0 1 1 = = m t Y ， 9267 . 18 , 0733 . 7 3 6667 . 7 7074 . 3 13 ) 6 ( 2 995 . 0 2 2 = = m t Y ， 9267 . 24 , 0733 . 13 3 6667 . 7 7074 . 3 19 ) 6 ( 3 995 . 0 3 3 = = m t Y ， 2587 . 34 , 7413 . 19 2 6667 . 7 7074 . 3 27 ) 6 ( 4 995 . 0 4 4 = = m t Y ， 2462 . 21 , 7538 . 14 10 6667 . 7 7074 . 3 18 ) 6 ( 995 . 0 = = n t Y ， 0775 . 68 , 4801 . 2 6757 . 0 46 , 5476 . 18 46 ) 6 ( , ) 6 ( 2 005 . 0 2 995 . 0 2 = = e e S S 13 8.2 多重比较上一节是将多个总体作为一个整体进行检验如果检验结果是因子 A显著，则可以认为各水平下的均值 i 不全相等，但却不能直接说明 i 中哪些可以认为相等，哪些可以认为不等这一节是对各个 i 两两之间进行比较，对 i j ，也就是效应差 a i a j 作出估计、检验 8.2.1 效应差的置信区间效应差 a i a j = i j 的点估计为 j i Y Y 因 Y ik N ( i , 2 ), (i = 1, 2, , r, k = 1, 2, , m i )，则 ) , ( 1 2 1 i i m k ik i i m N Y m Y i = = ， ) , ( 1 2 1 j j m k jk j j m N Y m Y j = = ，且当 i j 时， i Y 与 j Y 相互独立，可得 ) ) 1 1 ( , ( 2 j i j i j i m m N Y Y + ，即 ) 1 , 0 ( 1 1 ) ( ) ( N m m Y Y j i j i j i + ，但未知，用 r n S e = 替换由于 ) ( 2 2 r n S e 且 S e 与 j i Y Y , 相互独立，则根据 t 分布的定义可得 ) ( 1 1 ) ( ) ( ) ( 1 1 ) ( ) ( 2 r n t m m Y Y r n S m m Y Y j i j i j i e j i j i j i + = + ，故效应差 a i a j = i j 的置信度为 1 的置信区间是 1 1 ) ( 2 / 1 j i j i j i m m r n t Y Y + 例由前面的鸡饲料对鸡增重问题的数据给出各效应差 i j 的点估计和置信区间（ = 0.05）解：因 m 1 = m 2 = m 3 = 8，n = 24，r = 3，有 25 . 1024 8 8194 1 1 1 = = = m T Y ， 125 . 1073 8 8585 2 2 2 = = = m T Y ， 25 . 1044 8 8354 3 3 3 = = = m T Y ，则各效应差 i j 的点估计分别为 875 . 48 125 . 1073 25 . 1024 2 1 2 1 = = = Y Y ， 20 25 . 1044 25 . 1024 3 1 3 1 = = = Y Y ， 875 . 28 25 . 1044 125 . 1073 3 2 3 2 = = = Y Y ； 14 因 6553 . 36 21 875 . 28215 = = = r n S e ，有 1142 . 38 5 . 0 6553 . 36 0796 . 2 1 1 ) 21 ( 975 . 0 = = + j i m m t ，则各效应差 i j 的置信度为 0.95 的置信区间分别是 7608 . 10 , 9892 . 86 1142 . 38 875 . 48 8 1 8 1 ) 21 ( 975 . 0 2 1 2 1 = = + t Y Y ， 1142 . 18 , 1142 . 58 1142 . 38 20 8 1 8 1 ) 21 ( 975 . 0 3 1 3 1 = = + t Y Y ， 9892 . 66 , 2392 . 9 1142 . 38 875 . 28 8 1 8 1 ) 21 ( 975 . 0 3 2 3 2 = = + t Y Y 例由前面的食品包装对销售量影响问题的数据给出各效应差 i j 的点估计和置信区间（ = 0.01）解：因 m 1 = 2，m 2 = 3，m 3 = 3，m 4 = 2，n = 10，r = 4，有 15 2 30 1 1 1 = = = m T Y ， 13 3 39 2 2 2 = = = m T Y ， 19 3 57 3 3 3 = = = m T Y ， 27 2 54 4 4 4 = = = m T Y ，则各效应差 i j 的点估计分别为 2 13 15 2 1 2 1 = = = Y Y ， 4 19 15 3 1 3 1 = = = Y Y ， 12 27 15 4 1 4 1 = = = Y Y ， 6 19 13 3 2 3 2 = = = Y Y ， 14 27 13 4 2 4 2 = = = Y Y ， 8 27 19 4 3 4 3 = = = Y Y ；因 7689 . 2 6 46 = = = r n S e ，有 2653 . 10 7689 . 2 7074 . 3 ) 6 ( 995 . 0 = = t ，则各效应差 i j 的置信度为 0.99 的置信区间分别是 3709 . 11 , 3709 . 7 9129 . 0 2653 . 10 2 3 1 2 1 ) 6 ( 995 . 0 2 1 2 1 = = + t Y Y ， 3709 . 5 , 3709 . 13 9129 . 0 2653 . 10 4 3 1 2 1 ) 6 ( 995 . 0 3 1 3 1 = = + t Y Y ， 7347 . 1 , 2653 . 22 1 2653 . 10 12 2 1 2 1 ) 6 ( 995 . 0 4 1 4 1 = = + t Y Y ， 3816 . 2 , 3816 . 14 8165 . 0 2653 . 10 6 3 1 3 1 ) 6 ( 995 . 0 3 2 3 2 = = + t Y Y ， 6291 . 4 , 3709 . 23 9129 . 0 2653 . 10 14 2 1 3 1 ) 6 ( 995 . 0 4 2 4 2 = = + t Y Y ， 3709 . 1 , 3709 . 17 9129 . 0 2653 . 10 8 2 1 3 1 ) 6 ( 995 . 0 4 3 4 3 = = + t Y Y 15 8.2.2 多重比较问题对各个 i 两两之间进行比较，也就是检验任意两个水平 A i 与 A j 下的总体均值是否相等，即检验假设 j i ij H = : 0 vs j i ij H : 1 ， i, j = 1, 2, , r 对于每一个假设 ij H 0 可以采取上一章两个正态总体的均值比较方法进行检验，但这里需要同时检验 2 ) 1 ( 2 = r r C r 个这种假设设需要同时检验 k 个假设 k i H i , , 2 , 1 , 0 L = ，每一个假设的显著水平是，即在 i H 0 成立的条件下，接受 i H 0 的概率为 1 ，但在所有 k 个假设 i H 0 都成立的条件下，

展开阅读全文

概率论与数理统计茆诗松第二版课后第八章习题参考答案.pdf

最新文档