方差分析及回归分析

上传人:san****019 文档编号:15796651 上传时间:2020-09-06 格式:PPT 页数:97 大小:1.58MB
返回 下载 相关 举报
方差分析及回归分析_第1页
第1页 / 共97页
方差分析及回归分析_第2页
第2页 / 共97页
方差分析及回归分析_第3页
第3页 / 共97页
点击查看更多>>
资源描述
1,第九章 方差分析及回归分析,关键词: 单因素试验 一元线性回归 多元线性回归,2,方差分析的提出,3,方差分析的概念,试验指标:在试验中要考察的指标,因素:影响试验指标的条件。包括可控因素和不可控因素,单因素试验:在一项试验中只有一个因素在改变的试验,多因素试验:在一项试验中多于一个因素在改变的试验,水平:因素所处的状态,4,5,6,7,8,9,10,1单因素试验的方差分析,在一项试验中只有一个因素在改变的试验。如只考虑氮肥的不同施用量对水稻产量的影响,而不考虑其他原因对产量的影响。得到如下数据:,(一)单因素试验,11,一般地,对一个单因素试验,假设因素有s(s2)个水平,n个对象参与了试验。假定对应于因素第j个水平的组中有 个试验对象,相应变量数据为,通常假定,12,方差分析的三个基本条件,独立性. 数据是来自s个独立总体的简单随机样本 正态性. s个独立总体均为正态总体 方差齐性. s个独立总体的方差都相同,13,14,检验假设,假设等价于,15,(二)平方和分解,16,证明:,17,18,19,20,单因素试验方差分析表,21,22,例1: 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05),23,这里药物是因素,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。,24,未知参数的估计,25,26,27,28,29,例4:某高校随机抽取了四个年级共61名学生,对他们的月生活费作问卷调查,考察不同年级同学月生活费间是否有显著差异。设数据符合单因素方差分析模型所要求的条件。(1)完成下列方差分析表(2)在显著性水平0.01下,检验各年级同学月生活费是否有显著差异?(说明理由),30,31,32,3 一元线性回归分析,一、确定性关系: 当自变量给定一个值时,就确定应变量的值与之对应。即有 y=f(x) 如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:,变量与变量之间的关系,33,二、相关性关系: 变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。,如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。 再如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。,回归分析研究相关性关系的最基本、应用最广泛的方法。,34,(一)一元线性回归,35,36,在实际问题中,回归函数(x)一般是未知的, 需要根据试验数据去估计, 而Y是可以观察的。,37,38,39,一元线性回归要解决的问题:,40,(二)a,b的估计最小二乘估计,41,正规方程系数行列式不为0,方程有唯一解,42,在误差为正态分布假定下,最小二乘估计等价于极大似然估计。,事实上,似然函数,43,44,关于计算,45,例1 K.Pearson收集了大量父亲身高与儿子 身高的资料。其中十对如下:,求Y关于x的线性回归方程。,注:1英寸=2.54厘米,46,47,(三)误差方差的估计,误差方差估计的意义: 误差方差的大小对模型好坏有很大的影响。 自变量对因变量影响的大小是同误差对因变量的影响相比较的。如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。,48,49,50,例2: 求例1中误差方差的无偏估计。,51,(1)影响Y取值的,除了x,还有其他不可忽略的因素; (2)E(Y)与x的关系不是线性关系,而是其他关系; (3)Y与x不存在关系。,(四)线性假设的显著性检验,采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此(x)是否为x的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。,若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明Y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:,52,53,54,55,56,57,58,例3 检验例1中回归效果是否显著,取=0.05。,59,*也可用方差分析检验回归效果是否显著,60,(五)回归系数b的置信区间,当回归效果显著时,常需要对回归系数b 作区间估计,61,(六)回归函数 函数值的点估计和置信区间,62,63,(七)Y的观察值的点预测和预测区间,64,65,66,注:在预测时, 一定要落在已有的 的数据范围内部,否则预测常常没有意义。,67,例4,有人曾断言“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子的身高有回归到子代平均水平的趋势。”试问例1这组数据能证实这一论断吗 (=0.05) ?当x=69时,求(x)的置信及y的预测区间。,(1)回归到平均水平的趋势,即检验,父代的平均身高x0与子代的平均身高y0可能是不同的。如果父亲偏离多少,儿子有相同偏离的话,则应该有y-y0=x-x0,其斜率b为1。如果“有回归到平均水平的趋势”(即父亲“特高”,儿子“较高”;父亲“特矮”,儿子“较矮”),则b1。,68,69,例5 合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中 x:碳含量() y:钢的强度(kg/mm2)数据见下:,(1)画出散点图;(2)设(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取=0.05);(5)求回归系数b的95置信区间;(6)求在x=0.06点,回归函数的点估计和95置信区间;(7)求在x=0.06点,Y的点预测和95区间预测。,70,0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19,56 54 52 50 48 46 44 42 40 38,(1)合金钢的强度y与钢材中碳的含量x的散点图,71,72,0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 x,0,e,73,0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19,56 54 52 50 48 46 44 42 40 38,合金钢的强度y与钢材中碳的含量x的回归直线图,74,75,76,(八)可化为一元线性回归的例子,在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围。 或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系. 但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。 下面是几种常见的可转化为一元线性回归的模型。,77,可化为一元线性回归的例子,78,79,例 在彩色显像技术中,考虑析出银的光学密度x与形成染料光学密度Y之间的相关关系,其中 11个样本数据如下所示:,解 根据这11个样本数据点 (xi,yi)作出散点图.,从散点图上看出,这些数据点在一条曲线L周围.,80,根据有关的专业知识,结合散点图,可以认为曲线L大致为:,81,于是数据( )相应地变换成( ),将变换后的数据点( )画出散点图,从散点图可以看出 与 具有线性相关关系,因此用一元线性回归分析.,利用一元线性回归的方法可以计算出 与 的经验回归方程为,82,可求得x与y之间相关关系的一个经验公式:,这里a=0.58,b= -0.15,所以,83,332.1,213.9,142.4,43.86,19.72,9.95,时间t(分秒),1500,1000,800,400,200,100,距离X(米),例 赛跑是大家熟知的一种体育活动。下表给出了截至1997年底在6个不同的距离上中短跑成绩的世界记录:,试根据这些记录数据分析出运动员的赛跑成绩与所跑距离间的相关关系。,84,解 根据记录数据点(xi,ti)作出散点图,从散点图上看出,全部点(xi,ti)分布在一条曲线附近,因而x与t之间可以存在一种线性关系。,用一元线性回归分析,可计算出x与t间的线性回归模型为 t = -99.9+0.1455x,85,由此模型,当x=100,200,400,800,1000,1500(米)时,,t的理论值: 4.56, 19.10,48.20,146.4,215.5,328.2,可以看出t的理论值与实际记录数据多数都比较接近。,仔细分析,可发现线性回归模型的一些不合理之处。,如:当赛跑距离小于68米时,所需时间为负值;,当赛跑距离为100米时所需时间只须4.56.,再仔细分析,发现:短距离100米、200米及长距离1500米需要的时间实际值均高于线性模型的理论值,而中间的400米、800米、1000米需要的时间实际值均低于线性模型的理论值.,t的实际值: 9.95, 19.72,43.86,142.4,213.95,332.1,86,它告诉我们x与t的关系可能为一曲线,且曲线是下凸的。,对上式二边取对数,lnt=lna+blnx,得 t= a+b x为一线性关系,具有这种性质的最简单曲线当属幂函数:,t=axb,87,用一元线性回归分析估计a、b,从而算出,最后可得t与x间的幂函数模型:,t=0.48x1.145,当x=100,200,400,800,1000,1500(米)时,,利用幂函数模型算出t的理论值分别为:,t的理论值2: 9.39,20.78,45.96,141.68, 211.29,328.88,比较计算结果可知:幂函数模型比线性回归模型更能确切地反映t与x间的关系。,t的理论值1: 4.56, 19.10,48.20,146.4,215.5,328.2,t的实际值: 9.95, 19.72,43.86,142.4,213.95,332.1,88,4 多元线性回归,在实际问题中,影响Y(因变量)的因素(自变量)往往不止一个,设有,89,90,91,92,93,94,例6 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:,表1.1.2 化妆品销售的调查数据,95,化妆品销售的调查数据(续),96,97,由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。,多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应的Y进行点预测和区间预测。所有这些都可以通过SAS软件实现。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!