方差分析与试验设计

上传人:san****019 文档编号:20665561 上传时间:2021-04-11 格式:PPT 页数:81 大小:1.11MB
返回 下载 相关 举报
方差分析与试验设计_第1页
第1页 / 共81页
方差分析与试验设计_第2页
第2页 / 共81页
方差分析与试验设计_第3页
第3页 / 共81页
点击查看更多>>
资源描述
第 6 章 方差分析与试验设计 6.1 方差分析引论 6.2 单因素方差分析 6.3 双因素方差分析 6.4 试验设计初步 6.1 方差分析引论 一、方差分析及其有关术语 二、方差分析的基本思想和原理 三、方差分析的基本假定 四、问题的一般提法 什么是方差分析 ? (例题分析 ) 消费者对四个行业的投诉次数 行业 观测值 零售业 旅游业 航空公司 家电制造业 1 2 3 4 5 6 7 57 66 49 40 34 53 44 68 39 29 45 56 51 31 49 21 34 40 44 51 65 77 58 【 例 】 为了对几个行业的服务质量进行评价,消费者协会 在四个行业分别抽取了不同的企业作为样本。最近一年中消 费者对总共 23家企业投诉的次数如下表 什么是方差分析 ? (例题分析 ) 1. 分析四个行业之间的服务质量是否有显著差 异 , 也就是要判断 “ 行业 ” 对 “ 投诉次数 ” 是否有显著影响 2. 作出这种判断最终被归结为检验这四个行业 被投诉次数的均值是否相等 3. 若它们的均值相等 , 则意味着 “ 行业 ” 对投 诉次数是没有影响的 , 即它们之间的服务质 量没有显著差异;若均值不全相等 , 则意味 着 “ 行业 ” 对投诉次数是有影响的 , 它们之 间的服务质量有显著差异 6.1 方差分析引论 一 、 方差分析及其有关术语 ( 一 ) 方差分析概述 (ANOVA)(analysis of variance) 1. 检验多个总体均值是否相等 通过分析数据的误差判断各总体均值是否相等 2. 研究分类型自变量对数值型因变量的影响 一个或多个分类型自变量 两个或多个处理水平或分类 一个数值型因变量 3. 有单因素方差分析和双因素方差分析 单因素方差分析:涉及一个分类的自变量 双因素方差分析:涉及两个分类的自变量 6.1 方差分析引论 ( 二 ) 方差分析的有关术语 1. 因素或因子 (factor) 所要检验的对象 如:要分析行业对投诉次数是否有影响 , 行业 是要检验的因素 或因子 2. 水平或处理 (treatment) 因子的不同表现 如:零售业 、 旅游业 、 航空公司 、 家电制造业就是因子的水平 3. 观察值 在每个因素水平下得到的样本数据 如:每个行业被投诉的次数就是观察值 6.1 方差分析引论 4. 试验 这里只涉及一个因素 , 因此称为单因素四水平的 试验 5. 总体 因素的每一个水平可以看作是一个总体 比如零售业 、 旅游业 、 航空公司 、 家电制造业可 以看作是四个总体 6. 样本数据 如:被投诉次数可以看作是从这四个总体中抽取 的样本数据 方差分析的基本思想和原理 (图形分析 ) 不同行业被投诉次数的散点图 0 20 40 60 80 0 1 2 3 4 5 行业 被投诉次数 零售业 旅游业 航空公司 家电制造 1. 从 散点图上可以看出 不同行业被投诉的次数是有明显差异的 同一个行业 , 不同企业被投诉的次数也明显不同 家电制造被投诉的次数较高 , 航空公司被投诉的次数 较低 2. 行 业与被投诉次数之间有一定的关系 如果行业与被投诉次数之间没有关系 , 那么它们 被投诉的次数应该差不多相同 , 在散点图上所呈 现的模式也就应该很接近 方差分析的基本思想和原理 (图形分析 ) 二 、 方差分析的基本思想和原理 ( 一 ) 方差分析的重要性 1. 仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异 这种差异也可能是由于抽样的随机性所造成的 2. 需要有更准确的方法来检验这种差异是否显著 ,也就是进行方差分析 所以叫方差分析 , 因为虽然我们感兴趣的是均值 ,但在判断均值之间是否有差异时则需要借助于方差 这个名字也表示:它是通过对数据误差来源的分析 判断不同总体的均值是否相等 。 因此 , 进行方差分析时 , 需要考察数据误差的来源 6.1 方差分析引论 (二)方差分析的基本思想和原理 比较两类误差,以检验均值是否相等 比较的基础是方差比 如果不同水平(不同行业 )对结果(被投诉量) 没有影响,那么水平间(行业间)的方差中就仅 仅有随机性误差,而没有系统性误差,它与水平 内部的方差就应该接近,其比值接近于 1,则可 认为均值是相等的;反之,均值就是相等的 误差是由各部分的误差占总误差的比例来测度的 6.1 方差分析引论 6.1 方差分析引论 ( 三 ) 方差分析的两类误差 1. 随机误差 因素的同一水平 (总体 )下 , 样本各观察值之间的差异 比如 , 同一行业下不同企业被投诉次数是不同的 这种差异可以看成是随机因素的影响 , 称为 随机误差 2. 系统误差 因素的不同水平 (不同总体 )下 , 各观察值之间的差异 比如 , 不同行业之间的被投诉次数之间的差异 这种差异 可能 是由于抽样的随机性所造成的 , 也可能 是由于行业本身所造成的 , 后者所形成的误差是由系 统性因素造成的 , 称为 系统误差 6.1 方差分析引论 ( 四 ) 误差的表示 1. 组内方差 (within groups) 因素的同一水平 (同一个总体 )下样本数据的方差 比如 , 零售业被投诉次数的方差 组内方差只包含 随机误差 2. 组间方差 (between groups) 因素的不同水平 (不同总体 )下各样本之间的方差 比如 , 四个行业被投诉次数之间的方差 组间方差既包括 随机误差 , 也包括 系统误差 6.1 方差分析引论 ( 五 ) 方差的比较 1. 若不同行业对投诉次数没有影响 , 则组间误差中只包含随 机误差 , 没有系统误差 。 这时 , 组间误差与组内误差经过 平均后的数值就应该很接近 , 它们的比值就会接近 1 2. 若不同行业对投诉次数有影响 , 在组间误差中除了包含随 机误差外 , 还会包含有系统误差 , 这时组间误差平均后的 数值就会大于组内误差平均后的数值 , 它们之间的比值就 会大于 1 3. 当这个比值大到某种程度时 , 就可以说不同水平之间存在 着显著差异 , 也就是自变量对因变量有影响 判断行业对投诉次数是否有显著影响 , 实际上也就是检验被投 诉次数的差异主要是由于什么原因所引起的 。 如果这种差异主 要是系统误差 , 说明不同行业对投诉次数有显著影响 6.1 方差分析引论 三 、 方差分析的基本假定 1. 每个 总体都应服从正态分布 对于因素的每一个水平 , 其观察值是来自服从正态分布总 体的简单随机样本 比如 , 每个行业被投诉的次数必需服从正态分布 2. 各个 总体的方差必须相同 各组观察数据是从具有相同方差的总体中抽取的 比如 , 四个行业被投诉次数的方差都相等 3. 观 察值是独立的 比如 , 每个行业被投诉的次数与其他行业被投诉的次数独 立 四行业服务质量的方差分析 1. 在上述假定条件下 , 判断行业对投诉次数是否 有显著影响 , 实际上也就是检验具有同方差的 四个正态总体的均值是否相等 2. 如果四个总体的均值相等 , 可以期望四个样本 的均值也会很接近 四个样本的均值越接近 , 推断四个总体均值相等 的证据也就越充分 样本均值越不同 , 推断总体均值不同的证据就越 充分 四行业服务质量的方差分析 如果原假设成立,即 H0 : m1 = m2 = m3 = m4 四个行业被投诉次数的均值都相等 意味着 每个样本都来自均值为 m、方差为 2的同一 正态总体 X f(X) m1 m2 m3 m4 四行业服务质量的方差分析 若备择假设成立,即 H1 : mi (i=1,2,3,4)不全相等 至少有一个总体的均值是不同的 四个样本分别来自均值不同的四个正态总体 X f(X) m3 m1 m2 m4 6.1 方差分析引论 四 、 问题的一般提法 1. 设因素有 k个水平 , 每个水平的均值分别用 m1 , m2, , mk 表示 2. 要检验 k个水平 (总体 )的均值是否相等 , 需要提出如 下假设: H0 : m1 m2 mk H1 : m1 , m2 , , mk 不全相等 3. 设 m1为零售业被投诉次数的均值 , m2为旅游业被投诉 次数的均值 , m3为航空公司被投诉次数的均值 , m4为 家电制造业 被投诉次数的均值 , 提出的假设为 H0 : m1 m2 m3 m4 H1 : m1 , m2 , m3 , m4 不全相等 6.2 单因素方差分析 一、数据结构 二、分析步骤 三、关系强度的测量 四、用 Excel进行方差分析 6.2 单因素方差分析 (one-way analysis of variance) 观察值 ( j ) 因素 (A) i 水平 A1 水平 A2 水平 Ak 1 2 : : ni x11 x21 xk1 x12 x22 xk2 : : : : : : : : x1n1x2n2 xknk 一、数据的结构 6.2 单因素方差分析 二 、 分析步骤 ( 一 ) 提出假设 1. 一 般提法 H0 : m1 = m2 = = mk 自变量对因变量没有显著影响 H1 : m1 , m2 , , mk不全相等 自变量对因变量有显著影响 2. 注意:拒绝原假设 , 只表明至少有两个总体的 均值不相等 , 并不意味着所有的均值都不相等 6.2 单因素方差分析 ( 二 ) 构造检验的统计量 1. 计算各水平的均值 ( 1) 假定从 第 i个总体中抽取一个容量为 ni的简单随机样本 , 第 i个总体的样本均值为该样本的全部观察值总和除以观 察值的个数 ( 2) 计算公式为 ),2,1( 1 ki n x x i n j ij i i 式中: ni为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值 6.2 单因素方差分析 2. 计算全部观察值的总均值 ( 1) 全部观察值的总和除以观察值的总个数 ( 2) 计算公式为 k k i ii k i n j ij nnnn n xn n x x i 21 11 1 式中: 构造检验的统计量 (例题分析 ) 6.2 单因素方差分析 3. 计算误差平方和 ( 1) 总误差平方和 ( SST) 全 部观察值 与总平均值 的离差平方和 反映全部观察值的离散状况 其计算公式为 ijx x k i n j ij i xxSST 1 1 2 前例的计算结果: SST = (57-47.869565)2+ (58-47.869565)2 =115.9295 6.2 单因素方差分析 ( 2) 水平项误差平方和 ( SSA) 各组平均值 与总平均值 的离 差平方和 反映各总体的样本均值之间的差异程度 , 又称 组间平方和 该平方和既包括随机误差 , 也包括系统误差 计算公式为 k i ii k i n j i xxnxxS S A i 1 2 1 1 2 前例的计算结果: SSA = 1456.608696 ),2,1( kix i x 6.2 单因素方差分析 ( 3) 误差平方和 ( SSE) 每个水平或组的各样本数据与其组平均值的离差 平方和 反映每个样本各观察值的离散状况 , 又称 组内平 方和 该平方和反映的是随机误差的大小 计算公式为 k i n j iij i xxS S E 1 1 2 前例的计算结果: SSE = 2708 6.2 单因素方差分析 ( 4) 三个平方和的关系 总离差平方和 (SST)、 误差项离差平方和 (SSE)、 水平项离差平方和 (SSA) 之间的关系 k i n j ij k i ii k i n j ij ii xxxxnxx 1 1 2 1 2 1 1 2 SST = SSA + SSE 前例的计算结果: 4164.608696=1456.608696+2708 6.2 单因素方差分析 ( 5) 三个平方和的作用 SST反映全部数据总的误差程度; SSE反映随机误差 的大小; SSA反映随机误差和系统误差的大小 如果原假设成立 , 则表明没有系统误差 , 组间平方 和 SSA除以自由度后的均方与组内平方和 SSE和除 以自由度后的均方差异就不会太大;如果组间均方 显著地大于组内均方 , 说明各水平 (总体 )之间的差 异不仅有随机误差 , 还有系统误差 判断因素的水平是否对其观察值有影响 , 实际上就 是比较组间方差与组内方差之间差异的大小 6.2 单因素方差分析 4. 计算统计量 ( 1) 计算均方差 ( MS) 各误差平方和的大小与观察值的多少有关 , 为 消除观察值多少对误差平方和大小的影响 , 需 要将其平均 , 这就是 均方 , 也称为方差 计算方法是用误差平方和除以相应的自由度 三个平方和对应的自由度分别是 SST 的 自由度为 n-1, 其中 n为全部观察值的个数 SSA的 自由度为 k-1, 其中 k为因素 水平的 个数 SSE 的 自由度为 n-k 统计学上的自由度是指当以样本的统计量来估计总体的 参数时, 样本中独立或能自由变化的资料的个数,称为 该统计量的自由度。 统计学上的自由度包括两方面的内 容: 首先,在估计总体的平均数时,由于样本中的 n 个数都 是相互独立的,从其中抽出任何一个数都不影响其他数 据,所以其自由度为 n。 在估计总体的方差时,使用的是离差平方和。只要 n-1个 数的离差平方和确定了,方差也就确定了;因为在均值 确定后,如果知道了其中 n-1个数的值,第 n个数的值也 就确定了。这里,均值就相当于一个限制条件,由于加 了这个限制条件,估计总体方差的自由度为 n-1。 例如,有一个有 4个数据 (n=4)的样本 , 其平均值 m等于 5, 即受到 m=5的条件限制 , 在自由确定 4、 2、 5三个数据后 , 第四个数据只能是 9, 否则 m5。因而这里的自由度 =n- 1=4-1=3。推而广之 ,任何统计量的自由度 =n-限制条件 的个数。 SSE 的 自由度为 n-k 对每一种水平 而言 , 其观测值的个数为 nj 在计算过程中必须满足 kj j xx1 0)( k j j xx 1 0)( 故在 j水平下的自由度为 nj-1,总共有 k个水平 故 SSE 的 自由度 为 n-k 6.2 单因素方差分析 组间均方差 : SSA的均方差 , 记为 MSA, 计算 公式为 1 k SSAM SA 组内均方差 : SSE的均方差 , 记为 MSE, 计 算公式为 kn SSEM SE 5 3 6 2 3 2.48514 6 0 8 6 9 6.1 4 5 6 M S A前例计算结果: 5 2 6 3 1 6.1424232 7 0 8 M S E前例计算结果: 6.2 单因素方差分析 ( 2) 计算检验统计量 F 将 MSA和 MSE进行对比 , 即得到所需要的检验统计 量 F 当 H0为真时 , 二者的比值服从分子自由度为 k-1、 分 母自由度为 n-k 的 F 分布 , 即 ),1( knkF M S E M S AF 406643.3526316.142 536232.485 F前例计算结果: 构造检验的统计量 (F分布与拒绝域 ) 如果均值相等, F=MSA/MSE1 a F 分布 Fa(k-1,n-k) 0 拒绝 H0 不能拒绝 H0 F 6.2 单因素方差分析 ( 三 ) 统计决策 将统计量的值 F与给定的显著性水平 a的临界 值 Fa进行比较 , 作出对原假设 H0的决策 根据给定的显著性水平 a, 在 F分布表中查找与第 一自由度 df1 k-1、 第二自由度 df2=n-k 相应的临界 值 Fa 若 FFa , 则拒绝原假设 H0 , 表明均值之间的差异 是显著的 , 所检验的因素对观察值有显著影响 若 FFa , 则 拒绝 原假设 H0 , 表明均值之间的 差异是显著的 , 即所检验的行因素对观察值有 显著影响 若 FC Fa , 则 拒绝 原假设 H0 , 表明均值之间 有显著差异 , 即所检验的列因素对观察值有显 著影响 无交互作用的双因素方差分析表 (基本结构 ) 无交互作用的双因素方差分析 (例题分析 ) 提出假设 对品牌因素提出的假设为 H0: m1=m2=m3=m4 (品牌对销售量没有影响 ) H1: mi (i =1,2, , 4) 不全相等 (品牌对销售量有影响 ) 对地区因素提出的假设为 H0: m1=m2=m3=m4=m5 (地区 对销售量没有影响 ) H1: mj (j =1,2, ,5) 不全相等 (地区对销售量有影响 ) 用 Excel进行无交互作用的双因素分析 无交互作用的双因素方差分析 (例题分析 ) 结论: FR 18.10777Fa 3.4903, 拒绝原假设 H0,说明彩 电的品牌对销售量有显著影响 FC 2.100846 Fa 3.2592,不能拒绝原假设 H0,说 明销售地区对彩电的销售量没有显著影响 差异源 SS df MS F P - v a l u e F c r i t 行 ( 品牌 ) 1 3 0 0 4 . 6 3 4 3 3 4 . 8 5 1 8 . 1 0 7 8 9 . 4 6 E - 0 5 3 . 4 9 0 3 列 ( 地区 ) 2 0 1 1 . 7 4 5 0 2 . 9 2 5 2 . 1 0 0 8 5 0 . 1 4 3 6 7 3 . 2 5 9 2 误差 2 8 7 2 . 7 12 2 3 9 . 3 9 2 总和 17889 19 有交互作用的双因素分析 (例题 ) 【 例 】 城市道路交通管理部门为研究不同的路段和不同的 时间段对行车时间的影响 , 让一名交通警察分别在两个路 段和高峰期与非高峰期亲自驾车进行试验 , 通过试验取得 共获得 20个行车时间 (分钟 )的数据 , 如下表 。 试分析路段 、 时段以及路段和时段的交互作用对行车时间的影响 交互作用的图示 路段与时段对行车时间的影响 交互作用 无交互作用 行车时间 路段 1 路段 2 高峰期 非高峰期 行车时间 路段 1 路段 2 高峰期 非高峰期 6.3 双因素方差分析 为对应于行因素的第 i个水平和列因素的第 j个水 平的第 l行的观察值 :ijlx :.ix :.jx :ijx :x 四、有交互作用的双因素分析 为行因素的第 i个水平的样本均值 为列因素的第 j个水平的样本均值 对应于行因素的第 i个水平和列因素的第 j 个水平组合的样本均值 为全部 n个观察值的总均值 6.3 双因素方差分析 1. 总平方和: k i r j m l ijl xxS S T 1 1 1 2)( k i i xxrmS S R 1 2 . )( r j j xxkmS S C 1 2 . )( k i r j jiij xxxxmS S R C 1 1 2 . )( S S R CS S CS S RS S TS S E 3. 列变量平方和: 2. 行变量平方和: 4. 交互作用平方和: 5. 误差项平方和: 有交互作用的双因素分析 (方差分析表的结构 ) m为样本的行数 有交互作用的双因素分析 (Excel检验步骤 ) 第 1步: 选择 “ 工具 ” 下拉菜单 , 并选择 “ 数据分析 ” 选 项 第 2步: 在分析工具中选择 “ 素方差分析:可重复双因素 分析 ” , 然后选择 “ 确定 ” 第 3步: 当对话框出现时 ,在 “ 输入区域 ” 方框内键入 A1: C11,在方框内键入 0.05(可根据需要确定 ),在 “ 每一样本的 行数 ” 方框内键入 5,在 “ 输出选项 ” 中选择输出区域 用 Excel进行可重复双因素分析 有交互作用的双因素方差分析结果 差异源 SS df MS F P - va l u e F cr i t 行 ( 时段 ) 17 4. 05 1 17 4. 05 44 . 06 33 0. 00 E + 00 4. 49 4 列 ( 地段 ) 92 . 45 1 92 . 45 23 . 40 51 0. 00 02 4. 49 4 交互作用 0. 05 1 0. 05 0. 01 27 0. 91 18 4. 49 4 残差 62 . 2 16 3. 95 结论:( 1)对于时段因素的检验: P=00.05,拒绝原假设, 表明时段对行车时间有显著影响。 ( 2)对于路段的检验: P=0.00020.05,不 能拒绝原假设,无证据表明时段和路段的交互作用对行车 时间有显著影响。 6.4 试验设计初步 一、完全随机化设计 二、随机化区组设计 三、因子设计 试验设计与方差分析 完全随机化 设计 因子 设计 试验设计 随机化 区组设计 有交互作用的双 因素方差分析 单因素 方差分析 无交互作用的双 因素方差分析 6.4 试验设计初步 一 、 完全随机化设计 1. “ 处理 ” 被随机地指派给试验单元的一种设计 “ 处理 ” 是指可控制的因素的各个水平 “ 试验单元 (experiment unit)”是接受 “ 处理 ” 的对 象或实体 2. 在试验性研究中 , 感兴趣的变量是明确规定的 , 因此 , 研究中的一个或多个因素可以被控制 , 使 得数据可以按照因素如何影响变量来获取 3. 对完全随机化设计的数据采用 单因素方差分析 完全随机化设计 (例题分析 ) 【 例 】 一家种业开发股份公司研究出 3个新的小麦 品种:品种 1、 品种 2、 品种 3。 为研究不同品种对 产量的影响 , 需要选择一些地块 , 在每个地块种 上不同品种的小麦 , 然后获得产量数据进行分析 。 这一过程就是试验设计的过程 这里的 “ 小麦品种 ” 就是试验因子或因素 , 品种 1、 品种 2、 品种 3就是因子的 3个不同水平 , 称为 处理 假定选取 3个面积相同的地块 , 这里的 “ 地块 ” 就是 接受处理的对象或实体 , 称为 试验单元 将每个品种随机地指派给其中的一个地块 , 这一过程 就是随机化设计过程 完全随机化设计 (例题分析 ) 试验数据: 单因素方差分析 完全随机化设计 (例题分析 ) 方差分析: 6.4 试验设计初步 二 、 随机化区组设计 1. 先按一定规则将试验单元划分为若干同质组 , 称为 “ 区组 ” 2. 再将各种处理随机地指派给各个区组 比如在上面的例子中 , 首先根据土壤的好坏分成几个区组 , 假 定分成 4个区组:区组 1、 区组 2、 区组 3、 区组 4, 每个区组中有 三个地块 在每个区组内的 3个地块以抽签的方式决定所种的小麦品种 3. 分组后再将每个品种 ( 处理 ) 随机地指派给每一个区组的 设计就是随机化区组设计 4. 试验数据采用 无交互作用的双因素方差分析 随机化区组设计 (例题分析 ) 试验数据: 无交互作用的双因素方差分析 随机化区组设计 (例题分析 ) 方差分析: 6.4 试验设计初步 三 、 因子设计 1. 感兴趣的因素有两个 如:小麦品种和施肥方式 假定有甲 、 乙两种施肥方式 , 这样 3个小麦品种和两种施肥 方式的搭配共有 3 2=6种 。 如果我们选择 30个地块进行实验 , 每一种搭配可以做 5次试验 , 也就是每个品种 (处理 )的样本容 量为 5, 即相当于每个品种 (处理 )重复做了 5次试验 2. 考虑两个因素 (可推广到多个因素 )的搭配试验设计称 为因子设计 3. 该设计主要用于分析两个因素及其交互作用对试验结 果的影响 4. 试验数据采用 可重复双因素方差分析 因子设计 (例题分析 ) 试验数据: 有交互作用的 双因素方差分析 因子设计 (例题分析 ) 方差分析:
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!