《回归与相关分析》PPT课件.ppt

上传人:w****2 文档编号:6691435 上传时间:2020-03-02 格式:PPT 页数:33 大小:489.50KB
返回 下载 相关 举报
《回归与相关分析》PPT课件.ppt_第1页
第1页 / 共33页
《回归与相关分析》PPT课件.ppt_第2页
第2页 / 共33页
《回归与相关分析》PPT课件.ppt_第3页
第3页 / 共33页
点击查看更多>>
资源描述
第七章回归与相关分析 针对两个变量的相互关系进行分析 第一节直线回归第二节直线相关第三节多项式回归第四节协方差分析 第七章要点提示 本章对两个变量的相互关系进行分析 是多元统计分析的基石 学习时 首先要求区分 回归 术语古今含义的不同之处 充分认识一元线性回归与相关分析的基础地位 熟悉回归关系与相关关系的本质区别及两者在统计表述方法上的联系 如r与b在数学意义上的统一性 和各自的侧重点 重点掌握直线回归与相关分析的显著性检验方法和双变量回归模型的协方差分析技术 以便将统计控制手段与试验控制手段一起综合运用到试验设计和统计分析中去 涉及教材内容 第九章全五节 第十章 第十一章各一节 作业布置 教材第十 十一章所余三节内容自习 教材P191T5 T6 T9 P224T7 第一节直线回归 一 回归的含义 回归 原文为regression 该术语最先由英国的F Galton于1886年左右研究人类身高遗传的规律时所作的 高尔顿解释 中使用 详情如右图所示 高尔顿对此所作的解释是 大自然有一种约束机制 使人类身高分布保持某种稳定形态而不作两极分化 也就是有回归于中心的作用 这个中心值 即该种族身高在一定历史时期的平均值 现在就 回归 所作的定义是 如果两个变量X和Y 总是Y随着X的变化而变化 且这种变化关系不可逆 则称X和Y为回归关系 其中 X叫自变量dependentvariable Y叫因变量或依变量independentvariable 高 xg7172 g 69 64 a矮 xa67调查n 1074个家庭 统计结果 X 68英寸 69英寸得 X 1 1英寸 2 54cm 但分组统计的结果却并非如此父母为高个子组时 g 72 1父母为矮个子组时 a 64 1走向指回归的本意走向指回归的今义 第一节直线回归 二 建立直线回归方程例7 1一些夏季害虫的盛发期迟早与春季温度高低有关 江苏武进县观察1956 1964年3月下旬至4月中旬的3段旬均温累积值X和一代三化螟盛发期Y 5月10日起算 所得结果如下 试予分析 解 描散点图本例已知害虫盛发期迟早随春季气温的变化而变化 且不可逆 又据散点图反映的趋势来看 在30 45 的温度范围 盛发期天数随值呈下降的线性变化关系 故可假定直线回归方程为 y a bx读作 Y依x直线回归 30354045 y a bx 第一节直线回归 数据整理由原始数据算出一级数据6个 X 333 7 Y 70 XY 2436 4 X2 12517 49 Y2 794n 9再由一级数据算出二级数据5个 SSX X2 X 2 n 144 64SSY Y2 Y 2 n 249 56SP XY X Y n 159 04X X n 37 08 Y n 7 78 计算三级数据b SP SSX 1 10 159 04 144 64a bX 48 55 7 78 1 10 37 08得所求直线回归方程为 y 48 55 1 10 x y 48 55 1 10 x 30354045 31 7 44 2 第一节直线回归 三 直线回归关系的显著性检验将a bx代入Y a bx得 y b x x 及y b x x 于是由因变量离均差的两个线性分量 Y 2 Y y y 2可推导出因变量总SS的如下分解公式 Y 2 Y y 2 y 2简写成 SSY SSQ SSU Q U分别叫 离回归平方和 与 回归平方和 其计算公式及本例分解结果 SSU SP2 SSX 159 042 144 64 174 89SSQ SSY SSU 249 56 174 89 74 67故F MSU MSQ 16 4 F0 01 1 7 12 25 174 89 1 74 67 7 表明双变量直线回归关系极显著 所得方程y 48 55 1 10 x可用于预测 也可对回归系数进行t test来证实 只是要利用df 分子 1时 F t2的关系推导出回归系数的标准误Sb Se SSX其中 Se2 SSQ dfQ 74 67 7 10 67于是t test的步骤如下 H0 0 为回归系数b的真值 Sb Se2 SSX 0 2715 10 67 144 64t b Sb 1 1 0 2715 4 05 3 按自由度 7查得两尾t0 01 3 50 4 推断 t t0 01H0不成立 可见t test与F test的效果完全一致 若显著性检验结果不显著 则三选一 Y与X没有回归关系 Y与X有回归关系 但不是直线回归 Y与X有回归关系 但不是简单回归 而是多元回归 第二节直线相关 一 相关的含义如果两个变量X和Y 总是X和Y相互制约 平行变化 则称X和Y为相关关系 此时 X和Y没有严格意义上的自变量和因变量之分 既可以说Y随着X的变化而变化 也可以讲X随着Y的变化而变化 即不存在谁决定谁或谁依赖谁的问题 如人或动物的胸围和体重 作物的生物产量和经济产量 树干的胸径与材积等 可见 相关关系以双向 平行为特征 但相关关系如果仅从数学角度看 和回归关系是统一的 因为其双变量变化规律如果是线性关系的话 也可以由根据 最小二乘法 原理得出的直线方程来表述 所以有些文献不区分回归关系和相关关系 将二者笼统地称之 回归 或者 相关 从统计上讲 相关分析的侧重点和回归分析不完全一样 二 相关系数前已述及 具有线性回归关系的双变量中 Y变量的总变异量分解为 SSY SSQ SSU Q U对于具有线性相关关系的双变量 Y变量的总平方和也可以分解成同样的两个分量 只是分别改称为 非相关平方和 与 相关平方和 于是有 r SSU SSY SP SSXSSY r 叫相关系数 其绝对值越大 SSU所占的比重就越大 在散点图上就表现为各散点越靠近直线 反之 即SSQ所占的比重越大 各散点越远离直线 并且有以下性质 r的正负和b一样取决于SP的正负 r 0 正相关 r 0 负相关 r 1 1 或r 1 1 决定系数r2 b b 或r b b 第二节直线相关 三 相关分析举例例7 2为研究绵羊胸围 cm 和体重 kg 的相互关系 调查了10只绵羊胸围和体重的对应观察值X和Y 所得结果如下表 试予分析 解 描散点图本例已知绵羊胸围 X 和体重 Y 为相关关系 散点图也显示两者的变化规律呈线性正相关 SP 0 故可假定直线相关方程为 y a bx或x a b y后一个方程也可写成 y a b x y a bx 807468625650 第二节直线相关 数据整理由原始数据算出一级数据6个 X 720 Y 680 XY 49123 X2 51904 Y2 46818n 10再由一级数据算出二级数据5个 SSX X2 X 2 n 64SSY Y2 Y 2 n 578SP XY X Y n 163X X n 72 Y n 68 计算三级数据b SP SSX 163 64 2 547a 72 2 547 68 115 4b SP SSY 163 578 0 282a 68 0 282 72 52 82即所求相关方程可以有两个 如右图 r SP SSXSSY 0 8475r2 b b 2 547 0 282 0 7192 y 52 82 0 282x 767268 4050607080 80706050 y 2 547x 115 4 第二节直线相关 直线相关关系的显著性检验和直线回归关系的显著性检验原理一样 直线相关关系的双变量也可导出Y变量总SS的如下分解公式 Y 2 Y y 2 y 2简写成 SSY SSQ SSU Q U分别叫 非相关平方和 与 相关平方和 其计算公式引用三级数据后简化为 SSY 1 r2 SSY r2SSY或者SSX 1 r2 SSX r2SSXSSU r2SSY 0 7182 578 415SSQ 1 r2 SSY 0 2818 578 163故F MSU MSQ 20 4 F0 01 1 8 11 26 n 2 r2 1 r2 表明双变量直线相关关系极其显著 所得两个直线相关方程都可用于预测 也可对回归系数进行t test来证实 只是要利用df 分子 1时 F t2的关系推导出相关系数的标准误 Sr 1 r2 n 2 并且Se2 SSQ dfQ 163 8 20 4于是t test的步骤如下 H0 0 为相关系数r的真值 Sr 0 2818 8 0 1877t r Sr 0 8475 0 1877 4 516 3 按自由度 8查得两尾t0 01 3 355 4 推断 t t0 01H0不成立 可见t test与F test的效果完全一致 若显著性检验结果不显著 则三选一 Y与X没有相关关系 Y与X有相关关系 但不是直线相关 Y与X有相关关系 但不是简单相关 而是复相关 第二节直线相关 四 回归与相关关系的统一性既然相关关系和回归关系的显著性检验原理一样 那么 不论回归还是相关关系 其检验都可用 相关系数 r进一步简化如下 即由t2 F n 2 r2 1 r2 解得 r t2 n 2 t2 于是利用这一关系将各个自由度下的t临界值t0 05和t0 01换算出相关系数r的临界值r0 05和r0 01 从而得到直接用于检验回归或者是相关关系显著性的临界值表 附表10 如从教材P376查得M 2 dfQ 8时r0 05 0 632 r0 01 0 765今得r 0 8475 r0 01再由例7 1从P376查得M 2 dfQ 7时r0 05 0 666 r0 01 0 798算得 r 0 8371 r0 01检验效果与F test或者是t test完全一样 例7 2关于体重 Y 的ANOVA表 SOVDFSSYMSFF0 01相关141541520 4 11 26非相关816320 4总9578也可针对胸围 X 做ANOVA表 SOVDFSSXMSFF0 01相关1464620 4 11 26非相关8182 25总964例7 1只对盛发期 Y 做ANOVA表 SOVDFSSYMSFF0 01回归117517516 4 12 25离回归77510 7总8250 第三节多项式回归 例7 3观测n 7块小麦田孕穗期的叶面积指数 x 和每667m2的籽粒产量 y 的关系 得结果如下 试就其数量变化特点建立多项式回归方程并予以分析 解先描散点图 初步判断为二次多项式通常称之为抛物线 这种变化关系在农业和生物学领域普遍存在 完成这类实例分析的方法是将曲线单回归的问题通过变量代换转化为二元线性回归的问题来解决 这也是完成更高次多项式回归分析的基本点 y2 a b1x b2x2的图象 一 确定多项式方程次数的方法 b2 0 b2 0 当两个变数间的曲线关系很难确定时 可以使用多项式去逼近 称为多项式回归 polynomialregression 最简单的多项式是二次多项式 其方程为 y2 a b1x b2x2它的图象是抛物线 当b2 0时 曲线凹向上 有一个极小值 b2 0时 曲线凸向上 有一个极大值 见右图 本例 x y 的散点图呈单锋趋势 没有明显的其它凹凸变化 故预期可用二次式配合 但多项式回归方程通常只能用于描述试验范围内Y依X的变化关系 外推一般不可靠 这一点首先必须明确 三次多项式的方程为 y3 a b1x b2x b3x3它的图形是具有两个弯曲 一个极大值和一个极小值 和一个拐点的曲线 当b3 0时 这类曲线由凸向上转为凹向上 当b3 0时 这类曲线由凹向上转为凸向上 见右图 多项式方程的一般形式 y a b1x b2x2 bkxk这是k 1个具有个弯曲 k 1个极值 和k 2个拐点的曲线 两个变数的n对观察值最多可配到k n 1次多项式 k越大 包含的统计数越多 计算和解释越复杂 一个多项式回归方程应取多少次为宜 可根据资料的散点图作出初步选择 散点图趋势所表现的曲线的峰数 谷数 1 即为多项式回归方程次数 散点波动较大或峰谷两侧不对称 可再高一次 一 确定多项式方程次数的方法 b3 0 b3 0 y3 a b1x b2x2 b3x3的图象 二 建立多项式回归方程 变量代换 代换得到的变量个数以m表示 设例7 3的二次多项式方程为 y2 a b1x b2x2令x1 x x2 x2 则方程线性化为 y2 a b1x1 b2x2 数据整理由原始数据算出一级数据9个 X1 X 39 34 Y 2688 X1Y XY 15229 56 X2 X2 236 8408 Y2 1034112 00 X1X2 X3 1508 0760n 7 X22 X4 10029 7617 X2Y X2Y 92170 76再由一级数据算出二级数据9个 SS1 X2 X 2 n 15 75SS2 X22 X2 2 n 2016 39556SP10 X1Y X1 Y n 123SP20 X2Y X2 Y n 1223 8928SP12 SP21 X1X2 X1 X2 n 177 030704SSY 1920 Y n 384x1 X1 n 5 62x2 X2 n 33 8344 仍按 最小二乘方 原理计算三级数据bi例7 1已知a bx 则二次多项式可类推 即 a b1x1 b2x2也就是列方程组求算各回归系数时 不必把常数项列为未知数求解 这样一来 就可用阶数更少的矩阵运算来减少解方程的工作量 二 建立多项式回归方程 1 只将bi列为未知数求解的方法 对于任意次多项式 y a b1x b2x2 bkxk若令x1 x x2 x2 xk xk 则该式可化为 yk a b1x1 b2x2 bkxk这时多元线性方程采用矩阵方法只需求m k元方程组的解 SS11SP12 SP1kb1SP10SP21SS22 SP1kb2SP20A b Z SPm1SPm2 SSmkbkSPm0也就是说 以二级数据为元素构建的矩阵Ab Z阶数只有m m 求得A 1 并由b A 1Z可获得相应的多项式回归方程中k个回归系数bi的解 本例m k 2 求解过程如下 A SS11SP12 15 750000177 030704 Z SP10 123 0000SP21SS22177 0307042016 395336SP201223 8926 二 建立多项式回归方程 1 只将bi列为未知数求解的方法 采用矩阵方法求解的关键在于求逆矩阵 这属于线性代数范围的知识 教材分别在P171和P195提示了逆矩阵求算方法 本例用二级数据构建两个矩阵后简化了计算 只需对二阶矩阵求逆 Cij叫高斯乘数 结果如下 A 1 SS11SP12 1 4 819803 0 42315765 C11C12SP21SS22 0 423157650 03764733C21C22b A 1Z 4 819803 0 42315765123 0000 74 936168 0 423157650 037647331223 8926 5 972095于是获得本例多项式回归方程中两个回归系数 b1 74 9 b2 5 97a b1x1 b2x2 384 74 9 5 62 5 97 33 8344 165 05I A 1A 1 0000005680 000000346 10 单位矩阵 0 0000063801 00000394201 二 建立多项式回归方程 2 把常数项a列为未知数求解的方法 对于任意次多项式 y a b1x b2x2 bkxk若令x1 x x2 x2 xk xk 则该式可化为 yk a b1x1 b2x2 bkxk一般的多元线性方程 采用矩阵方法需求m 1元方程组的解 1x12x22 xk21x12x122 x12ky11x11x21 xk11x11x112 x11ky2X Y 1x1nx2n xkn1x1nx1n2 x1nyn求得X X X Y和 X X 1 并由b X X 1 X Y 获得相应的多项式回归方程中k个回归系数bi和一个常数项a的解 教材从直线回归的内容开始就介绍了利用矩阵计算三级数据a和b并进行显著性检验的方法 以此作为用矩阵进行多元回归与相关分析的铺垫 这在当今电脑普及的时代意义非同小可 因为用矩阵进行回归与相关分析可一石三鸟 更容易理解计算机解方程的程序 其中的m 1阶 或m k阶 逆矩阵可验证所得方程组的解是否正确包括其精度是否足够 该逆矩阵的对角线上的元素用于检验回归与相关关系的显著性非常方便 13 3711 356934914 1216 9744374X Y 17 8761 9369384739 34236 8408X X 39 34236 84081508 0760236 84081508 076010029 76172688X Y 15229 5692170 76E matlabR12 bin win32 matlab exe165 03532698b 74 89269841 5 96825397 图11 13小麦孕穗期叶面积指数与产量的关系 至此即获得了二元线性回归方程y2 165 03532698 74 89269841x1 5 96825397x2y2 165 04 74 89x 5 97x2 二 建立多项式回归方程 本例互逆矩阵验算结果 m 1 m 1 34 52472939 12 762465601 10370464 X X 1 12 762465604 81693498 0 422904171 10370464 0 422904170 037624930 99926016 0 00000296 0 00001274 X X X X 1 0 023255000 99990676 0 00040240 0 04719600 0 000188300 99919211100 I 010001 739 34236 8408X X 39 34236 84081508 0760236 84081508 076010029 7617 多项式回归分析中 Y变量的总平方和SSY亦可分解为回归和离回归两部分 即 SSY SSU SSQ上式中 SSU为k次多项式的总回归效应平方和 即Y变量总变异中能被X的k次多项式所说明的部分 计算过程用矩阵表述为 SSY Y Y 1 Y 2 n 1034112 00 26882 7 1920 00SSQ为k次多项式的离回归平方和 其中 SSQ Y Y b X Y 12 7143 1034112 00 165 0353269874 89269841 5 96825397 X Y SSU SSY SSQ 1920 00 12 7143 1907 2857也可利用二 三级数据直接计算总回归效应平方和SSU SSU b1SP10 b2SP20 1907 9436 74 9362 123 0000 5 9721 1223 8928SSQ SSY SSU 1920 00 1907 9436 12 0564 三 多项式回归的假设测验 总回归关系的F test 总回归关系的R test 各次分量项偏回归关系的F test 本例总回归效应极显著既然不能排除多项式方程中个别乃至若干个分量项不显著的可能性 就有必要分别对各次分量项进行偏回归关系的F test 这与多元线性回归中偏回归关系的假设测验相类似 亦需先计算各次分量项的偏回归平方和SSbi 即 SSbi bi2 C i 1 i 1 此时SSbi具有自由度df 1 故由 F SSbi SSQ n k 1 可测验第i次分量是否显著 本例由逆矩阵对角线上的元素算得Y对各次分量项的偏回归平方和为 SSb1 74 892698412 4 81693498 1164 4160SSb2 5 96825397 2 0 03762493 946 7142变异来源DFSSMSFF0 01一次分量11164 41601164 4160366 33 21 20二次分量1946 7142946 7142297 84 离回归412 71433 1786总61920 00结果表明 在用二次多项式描述叶面积指数与亩产量时 二次分量和一次分量均应保留 但SSU SSb1 SSb2 各次分量项的F测验表变异来源DFSSMSFF0 01一次分量11164 41601164 4160366 33 21 20二次分量1946 7142946 7142297 84 离回归412 71433 1786结果表明 在用二次多项式描述教材表11 4资料时 二次分量和一次分量均应保留 各次分量项偏回归关系的F test 课后习题 以光呼吸抑制剂亚硫酸氢钠的不同浓度溶液 x 100mg L 喷射沪选19水稻 2小时后测定剑叶的光合强度 y co2mg dm h 得结果于下表 试计算 1 光合强度依亚硫酸氢钠浓度的多项式回归方程及离回归标准差 2 光合强度最高时的亚硫酸氢钠浓度 X012345Y19 1023 0523 3321 3320 0519 35 第四节协方差分析 例7 4有一大豆浸种试验研究结果 k 10 随机区组设计 n 3 每个试验小区 1 5m2 点播的种子粒数均等 以各小区大豆收获时的籽粒干重 10g 为试验指标进行观察记载 考虑到每个小区结荚株数只占小区总株数的一部分 并且与该小区试验指标之间可能存在着回归关系 故在称量小区干重y的同时 对其结荚株数x一并予以记载 见下图 试进行协方差分析 N 肥力梯度 一 数据整理 Cx X 2 nk 16380SSx X2 Cx 816 97Cy Y 2 nk 5868 8SSy Y2 Cy 628 69Cxy X Y nk 9804 7SPT XY Cxy 574 16 二 dfT SPT SSx SSy的分解dfT dft dfr dfe29 9 2 18SPT SPt SPr SPeSPt Txt Tyt n Cxy 52 68 71 40 7 67 37 4 69 35 2SPr Txr Tyr k Cxy 463 57 183 84 2 232 160 2 286 175 2SPe SPT SPt SPr 57 91SSxt Txt2 n Cx 71 64 712 672 692 3 16380SSxr Txr2 k Cx 530 87 1832 2322 2862 10 16380SSxe SSx SSxt SSxr 214 46SSyt Tyt2 n Cy 106 41 40 72 37 42 35 22 3 5868 8SSyr Tyr2 k Cy 476 07 84 22 160 22 175 22 10 5868 8SSye SSy SSyt SSyr 46 21 三 SSye dfye的再分解与F testSSue SPe2 SSxe 15 64 57 912 214 46SSQe SSye SSue 30 57 46 21 15 64dfye dfue dfQe18 1 17得检验回归关系的ANOVA表如下 SOVDFSSMSFF0 01回归115 6415 648 69 8 41离回归1730 571 80总1846 21本例因为结荚株数与籽粒干重的直线回归关系极其显著 必须将试验指标的方差分析过程与回归分析结合起来 也就是要做协方差分析 否则 即回归关系的F test不显著 就可不必理睬协变量而直接对干重指标进行方差分析 四 列协方差分析表 修正部分数据后再进行F testSOVDFSSxSPSSySSy DF MS FF0 01处理t971 6452 68106 4179 3098 894 89 3 68误差e18214 4657 9146 2130 57171 80t e27286 10110 59152 62109 8726区组2530 87463 57476 07总29816 97574 16628 69既然协变量x与试验结果y之间的回归关系极其显著 各误差项或包含有误差项的数据 平方和 就必须再分解为回归效应和离回归效应两部分 而清除回归效应就是修正过程 SSye SSQe SSye SSue 30 57dfye dfQe dfye dfue 17但SSyt SSyt SSut 因为SSyt中不包含误差项SS 无法进行再分解 只有先修正SSy t e 得SSy t e 再按SSy t e SSyt SSye 算出 SSy t e SSu t e SSQ t e 且SSu t e SP t e 2 SSx t e 110 592 286 1 42 75 SSy t e SSy t e SSu t e 152 62 42 75 109 87故SSyt SSy t e SSye 109 87 30 57 79 30于是利用修正后的有关数据算得F 4 89 若遇此时F值不显著 则协方差分析到此结束 五 修正各处理平均数 t并进行多重比较修正 t即求算清除回归效应后的平均数 t 本例回归系数 b SPe SSxe 57 9 214 46 0 27 t t yt t b xt x t 0 27 xt 23 37 如 A 13 57 0 27 23 67 23 37 13 49 B 12 47 0 27 22 33 23 37 12 75依次类推得 C D J 11 73 0 27 23 00 23 37 11 83又由于本例满足应用Finney公式的两个条件 即 F SSxt dfxt SSxe dfxe 71 64 9 214 46 18 0 6681 F0 05 修正后的误差项自由度dfxe 17 20故用于多重比较的标准误SE可用Finney公式计算如下 Se2 SSye dfxe 1 SSxt dfxt SSxe Sye 2 1 Sxt2 SSxe 1 80 1 71 64 9 214 46 1 87 SE Se2 n 1 87 3 0 789若实例中不满足上述应用Finney公式的两个条件 则只能应用Wishart公式 该公式必须就每一个两两差数分别计算一一对应的SE值 教材P185 如果本例这样做 就需要计算45个两两差数的SE值 繁琐得不得了 并且因为只能采用t test 犯 类错误的概率几乎无法避免 1 0 9545 0 9 由此可见 试验设计时如能保证误差项自由度尽可能达到20左右 对提高协方差分析中多重比较方法本身的可靠性是多么重要 本例 协 方差分析的多重比较结果对照如下
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!