方差分析与回归分析

上传人:san****019 文档编号:20664018 上传时间:2021-04-11 格式:PPT 页数:25 大小:461KB
返回 下载 相关 举报
方差分析与回归分析_第1页
第1页 / 共25页
方差分析与回归分析_第2页
第2页 / 共25页
方差分析与回归分析_第3页
第3页 / 共25页
点击查看更多>>
资源描述
2021/4/11 概率论与数理统计 1 第 9章 方差分析及回归分析 9.1 一元方差分析 9.2 一元线性回归 9.3 一元线性回归中的假设检验和预测 2021/4/11 概率论与数理统计 2 第 9章 方差分析及回归分析 在科学实验和生产实践中,影响一些事物的因素往往 很多 。在众多影响因素中,有的影响较大,有的影响 较小。为了解决这类问题,一般需要做两步工作。第 一步是设计一个实验,使得这个实验一方面能很好地 反映我们所感兴趣的因素的作用,另一方面实验的次 数要尽可能地少,尽可能地节约人力、物力和时间。 其次是如何充分地利用实验结果的信息,对我们所关 心的事物 (因素的影响 )作出合理的推断。方差分析和 回归分析都是数理统计中具有广泛应用的内容,本章 介绍的是最基本的内容。 2021/4/11 概率论与数理统计 3 9.1 一元方差分析 一项试验中 , 若只有一个因素在改变 , 称为单因素试 验;多于一个因素在改变的试验称为多因素试验 。 因素 (即影响试验指标的条件 )可分为两类:一类是可 控因素 , 如温度 、 比例 、 浓度等;一类是不可控因素 , 如测量误差 、 气象条件等 。 这里所说的因素是可控因 素 , 且称因素所处的不同状态为该因素的不同水平 。 2021/4/11 概率论与数理统计 4 9.1 一元方差分析 例 为了比较四种不同肥料对某农作物产量的影响, 选用一块肥沃程度和水利灌溉比较均匀的土地,将其 分成 16小块,如下表所示 (按下表划分土地是为了尽可 能减少土地原有肥沃程度及灌溉条件差异的影响,只 分析肥料这个因素对产量的影响 ) 。 表 9.1 A1 A2 A3 A4 A 2 A3 A4 A1 A 3 A4 A1 A2 A 4 A1 A2 A3 2021/4/11 概率论与数理统计 5 9.1 一元方差分析 在表 9.1中, 表示在一小块土地上施第 i种肥料。显 然施每种肥料的各有四小块土地,所得产量由表 9.2给 出。问施肥对该作物的产量有无显著影响,若影响显 著,施哪种肥料为好? 表 9.2 iA x 肥料种类 (Ai) 收获量 (xi) 平均收获 量 ( ) A1 98 96 91 96 95.25 A2 60 69 50 35 53.50 A3 79 64 81 70 73.50 A4 90 70 79 88 81.75 x 2021/4/11 概率论与数理统计 6 9.1 一元方差分析 例 1是一个单因素试验,这个因素就是肥料,不同的肥 料 A1, A2, A3, A4就是这个因素的 4个水平。在因素的 每一水平下进行独立试验,所得数据如表 9.2所示。可 以看出,虽然所施肥料相同,其他生产条件也一样, 但相同面积土地的收获量是不相等的。这说明产量也 是一个随机变量。从表 9.2右边所示的平均收获量又可 以看出,施不同的肥料对收获量是有影响的。现在判 断肥料对作物产量的影响问题,就是要辨别收获量之 间的差异主要是由抽样误差造成的还是由肥料的影响 造成的。 2021/4/11 概率论与数理统计 7 9.1 一元方差分析 表 9.2中的数据可看成来自 4个不同的总体 (每一个水平 对应一个总体 )的容量为 4的样本值。我们假设各总体 均为正态变量,即 分别服从 , 。 是从总体 中抽得的简单随机样本 按题意 , 即要检验假设 。 故这是一个检验方差相等的多个正态总体均值是否相 等的问题 。 方差分析法就是解决这类问题的一种统计 方法 。 4321 , XXXX ),( 2iN )4,3,2,1( jX ij iX 43210 : H ( 1, 2,3, 4)i 2021/4/11 概率论与数理统计 8 9.1 一元方差分析 下面来推导更一般的问题 。 设有 r个正态总体 , 这里假定 r个 总体的方差相等,都为 ,做假设 现独立地从各总体上取出一个样本, 用 r个样本检验上 述假设是否成立。 采用直观的离差分解的方法来处理上述问题 。 将每个样 本看成一组 , 则 组内平均 ),( 2 ii NX ),1( ri 2 rH 210 : in j ij i i XnX 1 1 2021/4/11 概率论与数理统计 9 9.1 一元方差分析 总平均 总离差平方和为 称为离差分解 。 下面通过比较 和 的数值来检验假设 。 i r i i r i n j ij XnnXnX i 11 1 11 r i i nn 1 r i n j iiij r i n j ij ii XXXXXX 1 1 2 1 1 2 )()()( r i n j iij i XX 1 1 2)( 2 1 )( XXn ir i i 21 21 1 2 0H 2021/4/11 概率论与数理统计 10 9.1 一元方差分析 可以证明 , 在假设 成立时 , 和 相互独立且服从 分布 和 。 由 F分布定义知 所以 0H 21 22 )(2 rn )1(2 r ),1( )1( )( )( )1( 1 2 2 1 2 2 rnrF r rn rn rF ),1()1( )( 1 2 2* 1 2* 2 rnrF r rn S SF 2021/4/11 概率论与数理统计 11 9.1 一元方差分析 为方便计算 F的数值,常用下面的方差分析表来计 算,见表 9.3。 2 1 2 )( XXn r i ii 1r 22*2 11 rS 2* 1 2*2 S SF 2 1 1 1 )( i r i n j ij XX i rn 12*1 1 rnS 2 1 1 )( XXr i n j ij i 1n 方差来源 平 方 和 自由度 均 方 F值 因素的影 响 (组间 ) 误 差 (组内 ) 总和 2021/4/11 概率论与数理统计 12 9.2 一元线性回归 一般来讲,客观世界中存在的变量之间的关系可分为 两大类,一类是变量之间为确定关系,另一类是非确 定关系。确定关系指变量之间的关系可用函数关系表 示。自变量取确定值时,因变量也随之确定。如 ,这是在高等数学中所研究的函数关系。而 另一类非确定关系即所谓的相关关系,具有统计规律 性。下面举一些例子来说明。 2)( 2 xxf 2021/4/11 概率论与数理统计 13 9.2 一元线性回归 (1) 人的身高 X与 Y体重之间存在一定的变量关系 。 一般来说人高 一些 , 体重也重一些 。 但同样高度的人 , 体重往往不一定相同 。 (2) 人们的收入水平 X与消费水平 Y之间也有一定的关系 。 人们的 收入水平 X越高 , 相应的消费水平 Y也越高 , 但收入水平相同的人 消费水平却不一定相同 。 (3) 人的血压 X与年龄 Y之间也存在着这种关系 , 一般年龄大的人 血压也高 , 然而相同年龄的人血压往往各不相同 。 (4) 化工产品的产量 Y与温度 、压力 及催化剂 有关,但 即使上述 、 、 相同,产量 Y也不一定相同。 1x 2x 3x 1x 2x 3x 2021/4/11 概率论与数理统计 14 9.2 一元线性回归 上面这些例子中,当自变量 X取确定值时,因变量 Y的 值是不确定的。我们称变量间的这种非确定关系为相 关关系。回归分析是研究相关关系的一种数学工具, 它能帮助我们从一个变量取得的值去估计另一个变量 所取得的值。把只有一个自变量的回归分析称为一元 回归,多于一个自变量的回归分析称为多元回归。本 节只介绍一元回归。 2021/4/11 概率论与数理统计 15 9.2.1 一元线性回归方程的概念 设随机变量 Y与普通变量 X之间存在某种相关关系:对 X 的每一确定值, Y都有自己的分布。 设 其中, a,b及 都是不依赖于 X的未知参数,称上式为 一元线性回归模型。 bxay ),0( 2 N 2 2021/4/11 概率论与数理统计 16 9.2.1 一元线性回归方程的概念 在直角坐标系中,画出坐标为 ( )的 n个点,这种图称为散点 图。若 n很大时,散点图中的 n个点大致在一条直线附近,其形式 为 若由上面样本得到 a,b的估计 则对给定的 x, 用 作为 的估计 , 方程 称为 y对 x的线性回归方程或回归方程 。 ii yx, iii bxay ),0( 2 Ni ba, xbay bxax )( xbay 2021/4/11 概率论与数理统计 17 9.2.2 对 a,b的估计 对 x的 n个不同的取值 做独立试验做独立试验, 得样本 。下面用最小二乘法求 a,b 的估计值。 选择 a,b使 Q达到最小 , 故 Q需对分别 a,b求偏导 , 并令 偏导等于零 。 即 nxxx , 21 ),(,),(),( 2211 nn yxyxyx n i ii n i ii bxayxyQ 1 2 1 2 )()( n i iii n i ii xbxay b Q bxay a Q 1 1 0)(2 0)(2 2021/4/11 概率论与数理统计 18 9.2.2 对 a,b的估计 解此以 a,b为未知数的方程组 , 即得 a,b的估计值分别 为 于是所求线性回归方程为 n i i n i i n i n i i n i iii xxn yxyxn b 1 2 1 2 1 11 )( )( xbyx n by n a n i i n i i 11 1 xbay 2021/4/11 概率论与数理统计 19 9.2.3 的估计 由于 ,而 可用 做估计, 又因为 其中 a,b可用 代替,故 有 的估计量如下 将 代入得 2 )()( 22 ED )( 2E n i in 1 21 iii bxay ba, 22 2 1 2 )(1 i n i i xbayn xbya )1()1( 2 1 2 22 1 22 n i i n i i xxnbyyn 2021/4/11 概率论与数理统计 20 9.3 一元线性回归中的假设检 验和预测 9.3.1 线性假设的显著性检验 在第九章第二节中假定一元线性回归模型具有以下的 形式 其中 a,b是未知参数 , 。 一般来说 , 求得的线 性回归方程是否具有实用价值 , 需经过假设检 。 即 b不 应为零 , 因为若 b=0, 则 y就不依赖 x了 。 因此我们需要 检验假设 bxay ),0( 2N 0:0 bH 0:1 bH 2021/4/11 概率论与数理统计 21 9.3.1 线性假设的显著性检验 可以证明 当 为真时 b=0 , 故 给定显著水平 , 查表确定 , 抽样后计算 T值 若 , 则拒绝 , 认为回归效果显著; 若 , 则接受 , 认为回归效果不显著 。 )2()( 1 2 ntxxbbT n i i 0H )2()( 1 2 ntxxbT n i i )2( 2/ nt T )2(2/ nt )2(2/ ntT 0H 0H 2021/4/11 概率论与数理统计 22 9.3.2 预测 回归方程的一个重要应用是,对于给定的点 可以用一定的置信度预测对应的 Y 的观察值的取值范围, 即预测区间。 设 是 处随机变量 Y的观察值 , 则有 取 处的回归值 作为 的预测值 , 还可以证明 0 xx 0y 0 xx 000 bxay ),0( 20 N 0 x 00 xbay 000 bxay ) )( )(11,0( 2 1 2 2 0 00 n i i xx xx n Nyy 2021/4/11 概率论与数理统计 23 9.3.2 预测 且 由 T分布定义知 对给定的置信度 , 有 )2()2( 22 2 nn )2( )( )(1 1 1 2 2 0 00 nt xx xx n yy n i i 1 1)2( )( )(1 1 2/ 1 2 2 0 00 nt xx xx n yy P n i i 2021/4/11 概率论与数理统计 24 9.3.2 预测 故得的 置信度为 预测区间 (置信区间 )为 其中, 于是在处,置信下限为 0y 1 ),( 00 xy )( 00 xy n i i xx xx n ntx 1 2 2 0 2/0 )( )(11)2()( )()()(1 xxyxy 2021/4/11 概率论与数理统计 25 9.3.2 预测 置信上限为 当 x变化时这两条曲线形成包含回归直线 的带域 。 当 时 , 带域最窄 , 估计最精确 。 x离 其均值越远 , 带域越宽 , 估计精确性越差 。 )()()(2 xxyxy y a b x xx
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!