方差分析与回归分析理

上传人:san****019 文档编号:15796650 上传时间:2020-09-06 格式:PPT 页数:48 大小:1.14MB
返回 下载 相关 举报
方差分析与回归分析理_第1页
第1页 / 共48页
方差分析与回归分析理_第2页
第2页 / 共48页
方差分析与回归分析理_第3页
第3页 / 共48页
点击查看更多>>
资源描述
方差分析与回归分析,西北农林科技大学理学院,徐 钊编制,方差分析 Analysis Of Variance,一、方差分析的概念与基本思想 1.问题的提出 例题8.1 在饲料养鸡增肥研究中,某饲料研究所提出三 种配方: A1以鱼粉为添加料, A2以槐树粉为添加料, A3 以苜蓿粉添加料。为比较三种饲料的效果,特选24只相似 的雏鸡随机分为三组,每组用一种饲料喂养,60天后测其 体重,获得数据如下表,比较三种饲料的增重效果是否一致,可以转化为利用样本 比较三个总体均值是否相等。直观上看该问题可以用两个 总体均值差异显著性检验解决,但细想想还是存在一定问 题,因为这样的比较能增大犯错误的概率。为解决这类问 题,英国统计学家R.A.Fisher于1924年提出了解距此类问题 的通用方法-方差分析法。,2.方差分析的概念 因素:影响试验指标变化的原因。 水平:因素所划分成不同等级,每个等级称为该因素的一 个水平。 条件变差:能反映控制因素不同水平对试验指标的作用的 量,又称为处理效应或组间效应。 随机误差:能反映控制因素以外因素对试验指标作用的量。,3.方差分析的基本思想 试验指标的变化可以用指标值的方差反映,导致指标值 发生变化的原因有两方面:一是可控因素,二是不可控因 素。方差分析就是将指标值的方差分解成条件变差与随机 误差,然后依据概率远离比较条件变差与随机误差大小关 系,从而决定引起指标值的变化的主要原因。 4.方差分析的基本假定 不同因素对试验指标值的影响作用是加性效应,即试验 指标值的变化是各种因素所起作用的累加; 试验指标服从正态分布; 试验数据是随机的,并且可控因素不同水平的试验数据 方差齐性。,二、单因素方差分析的统计模型,1.单因素方差分析的数据结构 单因素方差分析的试验数据应具有下列结构形式。,2.单因素方差分析的统计模型,该形式称为单因素方差分析的统计模型。 在方差分析统计模型下,方差分析要解决的问题转化为 下列假设检验问题:,为了分析方便,我们往往对单因素方差分析的统计模型进 行如下转化。令,称其为总均值,而称,因素A第i格水平下的主效应。,三、单因素方差分析的原理,1. 试验数据离差平方和分解,离差平方和分解式,例题8.2 对例题8.1的试验数据进行方差分析。 解:H0:饲料种类对鸡的增肥没有影响; H1:有影响。,三、单因素方差分析模型的参数估计,一、相关关系的概念 在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,形成一定的相互关系,这种相互关系大致可分为两种:,相关关系与回归关系 Correlation and Regression,(1)确定性关系函数关系; (2)非确定性关系相关关系;,1.相关关系 相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。,2.相关关系举例,例如:在气候、土壤、水利、种子和耕作技术等条件基本相同时,某农作物的亩产量 Y 与施肥量 X 之间有一定的关系,但施肥量相同,亩产量却不一定相同。亩产量是一个随机变量。,又如:人的血压Y与年龄X之间有一定的依赖关系,一般来说,年龄越大,血压越高,但年龄相同的两个人的血压不一定相等。血压是一个随机变量。,农作物的亩产量与施肥量、血压与年龄之间的这种关系称为相关关系,在这些变量中,施肥量、年龄是可控变量,亩产量、血压是不可控变量。一般在讨论相关关系问题中,可控变量称为自变量,不可控变量称为因变量。,因此,统计学上讨论两变量的相关关系时,是设法 确定:在给定自变量 的条件下,因变量 的条 件数学期望,这种关系直观表达出来,一下图所示,二、回归关系的概念 1.回归关系,回归分析主要包括三方面的内容: 1)确定变量间的回归函数形式提供建立有相关关系的变 量之间的数学关系式(称为经验公式)的一般方法; 2)判别所建立的经验公式是否有效,并从影响随机变量 的诸变量中判别哪些变量的影响是显著的,哪些是不显著 的; 3)利用所得到的经验公式进行预测和控制。,3.回归分析与回归分析的内容 回归分析就是研究变量间的相关关系,通过对客观事物中变量的大量观测获得数据,去寻找隐藏在数据后面的相关关系,给出他们的表达式回归函数的估计式。,一元线性回归模型,如果试验的散点图中各点呈直线状,则假设这批数据的数学模型为,设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值: ,称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图.,因此,其中 是与 无关的未知常数。,一、一元线性回归模型,1.一元回归模型 一般地,称如下数学模型为一元线性模型,2.回归函数(方程)的建立,由观测值 确定的回归函数 , 应使得 较小。考虑函数,问题:确定 ,使得 取得极小值。,记,表示对 的估计值,则变量 对 的经验回归方程为,最小二乘法,3.回归方程有效性的检验,对于任何一组数据 ,都可按最 小二乘法确定一个线性函数,但变量 与 之间是否真 有近似于线性函数的相关关系呢?尚需进行假设检验。,假设,如果 成立,则不能认为 与 有线性相关关系。,三种检验方法:F检验法、t-检验法、r检验法。,(一)回归方程有效性的F检验法,记,总离差平方和,反映观测值与平均值的偏差程度。,经恒等变形,将 分解,回归平方和,反映回归值与平均值的偏差,揭示 变量 与 的线性关系所引起的数据波动。,剩余平方和,反映观测值与回归值的偏差,揭示 试验误差和非线性关系对试验结果所引起的数据波动。,如果 为真,则,于是,统计量,对给定的检验水平 ,,(1)当 时,拒绝 ,即可认为变量 与 有线性相关关系;,(2)当 时,接受 ,即可认为变量 与 没有线性相关关系;,记,样本的相关系数,可反映变量 与 之间的线性相关程度。,因为,(二)回归方程有效性的r检验法,越大,变量 与 之间的线性相关程度越强。,因为,(1),(2) 时,,(3) 时,,与 有线性相关关系;,与 无线性相关关系;,计算,对给定的检验水平 ,查相关系数的临界值表,如果 ,则拒绝 ,即线性回归方程 有效;否则,接受 ,即线性回归方程无效。,F检验与r检验是一致的:,(三)回归方程有效性的t检验法,统计量,H0成立时,,对给定的检验水平 ,H0的拒绝域为,即当 时,变量 与 有线性相关关系。,F检验与t检验是一致的:,试求出 与 的关系,并判断是否有效。,例8.3 为了研究大豆脂肪含量 和蛋白质含量 的关系, 测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量, 得到如下数据,解 (1)描散点图,(2)建立模型,由散点图,设变量 与 为线性相关关系:,确定回归系数 和 :,所以,所求的回归方程为,(3)检验回归方程的有效性,查相关系数临界值表,因为,所以回归方程在 的检验水平下有统计意义。,即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。,利用回归方程进行预测,1、点预测,时, 即为 的点预测值。,2、区间预测,统计量,对给定的置信水平 , 的预测区间为,续例1 求大豆脂肪含量为18.6%的条件下蛋白质 95%的预测区间。,解 由已求得的回归方程,得蛋白质的点预测值为,所以脂肪含量为18.6%时,蛋白质的95%的预测区间为,控制则为预测的反问题:已知因变量的取值区间为,,确定自变量的取值区间 使得,利用回归方程进行控制,一般地,要解出 和 很复杂,可作简化求解:,当样本容量很大时,,,则,前一节,我们学习了一元线性回归分析问题,在实 际应用中,有些变量之间并不是线性相关关系,但可以 经过适当的变换,把非线性回归问题转化为线性回归问 题。,可线性化的一元非线性回归,常见的几种变换形式:,1、双曲线,令,2、幂函数曲线,令,化非线性回归为线性回归,变形,3、指数函数曲线,令,变形,4、负指数函数曲线,令,化非线性回归为线性回归,变形,5、对数函数曲线,令,6、S型(Logistic)曲线,令,化非线性回归为线性回归,变形,例8.4 测定某肉鸡的生长过程,每两周记录一次鸡的重 量,数据如下表,由经验知鸡的生长曲线为Logistic曲线,且极限生长量 为k=2.827,试求y对x的回归曲线方程。,解 由题设可建立鸡重y与时间x的相关关系为,令,则有,列表计算,所以,所以所求曲线方程为,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!