生物统计学 第七章 直线相关与回归分析

上传人:二*** 文档编号:243001118 上传时间:2024-09-13 格式:PPT 页数:138 大小:1.81MB
返回 下载 相关 举报
生物统计学 第七章 直线相关与回归分析_第1页
第1页 / 共138页
生物统计学 第七章 直线相关与回归分析_第2页
第2页 / 共138页
生物统计学 第七章 直线相关与回归分析_第3页
第3页 / 共138页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2017/7/5,#,直线相关与回归分析,第七章,平均数,标准差,方差分析,多重比较,集中点,离散程度,差异显著性,一个变量,(产量),施肥量,播种密度,品种,在实际研究中,事物之间的相互关系涉及,两个或两个,以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为,协变关系,,具有协变关系的变量称为,协变量,。,确定的函数关系,PV,=R,T,气体压强,S,=,r,2,圆的面积,协,变,量,S,=,a,b,长方形面积,身高与胸围、体重,施肥量与产量,溶液的浓度与,OD,值,人类的年龄与血压,温度与幼虫孵化,不完全确定的函数关系,(,相关关系,),协,变,量,相,关,变,量,一个变量,的变化受,另一个变量或几个变量,的制约,因果关系,平行关系,两个以上变量,之间共同受到另外因素的影响,动物的生长速度受遗传、营养等影响,子女的身高受父母身高的影响,人的身高和体重之间的关系,兄弟身高之间的关系,为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。,散点图,(scatter diagram),为了研究父亲与成年儿子身高之间的关系,卡尔,.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴,X,上的数代表父亲身高,垂直轴,Y,上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,散点图,(scatter diagram),两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切),两个变量间关系的类型(直线型或曲线型),是否有异常观测值的干扰,1 2 3 4 5 6,4,3,2,1,1 2 3 4 5 6,4,3,2,1,1 2 3 4 5 6,4,3,2,1,正向直线关系,负向直线关系,曲线关系,散点图,直观地、定性地,表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系,定量地,表达出来。,回归,(regerssion),相关,(correlation),定量研究,在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或从一个变量,X,(可以是随机变量,也可以是一般的变量),去推测另一个随机变量,Y,。,x,y,施肥量,(,可以严格地人为控制,),产量,如果对,x,(非随机变量或随机变量)的每一个可能的值,都有随机变量,y,的一个分布相对应,则称随机变量,y,对变量,x,存在回归,(regression),关系。,自变量,(independent variable),因变量,(dependent variable),一个变量的变化受另一个变量或几个变量的制约,因果关系,研究,“,一因一果,”,,即一个自变量与一个依变量的回归分析称为,一元,回归分析,研究,“,多因一果,”,,即多个自变量与一个依变量的回归分析称为,多元回归分析,。,直线回归分析,曲线回归分析,多元线性回归分析,多元非线性回归分析,在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应,;,在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应,;,身高与体重之间存在,相关关系,。,X,身高,Y,体重,X,体重,Y,身高,相关关系,两变量,x,、,y,均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应,则称这两个变量存在,相关,(,correlation,)关系。,对两个变量间的直线关系进行相关分析称为,简单相关分析,(也叫,直线相关分析,);,对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为,复相关分析,;研究其余变量保持不变的情况下两个变量间的线性相关称为,偏相关分析,。,第二节:直线回归,Linear Regression,一、直线回归方程的建立,二、直线回归的数学模型和基本假定,三、直线回归的假设检验,四、直线回归的区间估计,简单回归,(,Simple Regression,),一、直线回归方程的建立,直线回归就是用来描述一个变量如何,依赖于,另一个变量,温度,天数,Y=a+bx,直线回归方程(,linear regression equation),截距,(intercept),回归截距,斜率,(slope),回归系数,(regerssion coefficient),自变量,与,x,值相对应的依变量,y,的点估计值,0,x,y,a0,b0,a0,a0,b0,a=0,b=0,变量,1,变量,2,收集数据,散点图,温度,天数,X Y,平均温度() 历,期天数,(,d,),11.8 30.1,14.7 17.3,15.6 16.7,16.8 13.6,17.1 11.9,18.8 10.7,19.5 8.3,20.4 6.7,黏虫孵化历期平均温度与历期天数关系图,0,10,20,30,40,10,12,14,16,18,20,22,温度,天数(天),(),回归直线在平面坐标系中的位置取决于,a,b,的取值。,y,最小,最小二乘法,(method of least square),根据微积分学中的求极值的方法,令,Q,对,a,、,b,的一阶偏导数等于,0,,即:,为最小值,基本性质,回归方程的中心化形式,X Y,平均温度() 历期天数(,d,),11.8 30.1,14.7 17.3,15.6 16.7,16.8 13.6,17.1 11.9,18.8 10.7,19.5 8.3,20.4 6.7,SUMPRODUCT,:返回若干数组中彼此对应元素的乘积的,和,0,10,20,30,40,10,12,14,16,18,20,22,温度,天数(天),(),11.8-20.4,用,x,估计,y,,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。,y,误差,二、数学模型和基本假定,y,i,y,的总体平均数,因,x,引起,y,的变异,y,的随机误差,总体回归截踞,总体回归系数,随机误差,直线回归的,数学模型,(,model of linear regression),基本假定,x,是没有误差的固定变量,或其误差可以忽略,而,y,是随机变量,且有随机误差。,x,的,任一值对应着一个,y,总体,且作正态分布,其平均数,+x,,方差受偶然因素的影响,不因,x,的变化而改变。,随机误差,是相互独立的,呈正态分布。,y,若,x,和,y,变量间并不存在直线关系, 但由,n,对观测值(,x,i,,,y,i,)也可以根据上面介绍的方法求得一个回归方程,显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量,x,与,y,间是否存在直线关系。,三、直线回归的假设检验,有意义,指导实践,?,是否真正存在线性关系,回归关系是否显著,一、直线回归的变异来源,y=a+bx,y,(x,y),y-y,y-y,y-y,实际值与估计值之差,剩余或残差。,y-y,估计值与均值之差,它与回归系数的大小有关。,一、直线回归的变异来源,y=a+bx,y,(x,y),y-y,y-y,y-y,实际值与估计值之差,剩余或残差。,y-y,估计值与均值之差,它与回归系数的大小有关。,依变量,y,的平方和,总平方和,,SS,y,SS,总,回归平方和,U,离回归平方和,Q,y,的离均差,反映了,y,的总变异程度,称为,y,的总平方和。,说明未考虑,x,与,y,的回归关系时,y,的变异。,反映了由于,y,与,x,间存在直线关系所引起的,y,的变异程度,因,x,的变异引起,y,变异的平方和,称为回归平方和。,它反映在,y,的总变异中由于,x,与,y,的直线关系,而使,y,变异减小的部分,在总平方和中可以用,x,解释的部分。,U,值大,说明回归效果好。,回归平方和,(regression sum of squares),U,误差因素引起的平方和,反映了除去,x,与,y,的直线回归关系以外的其余因素使,y,引起变化的大小。,反映,x,对,y,的线性影响之外的一切因素对,y,的变异的作用,也就是在总平方和中无法用,x,解释的部分。,离回归平方和,误差平方和,剩余平方和,(residual sum of squares),Q,在散点图上,各实测点离回归直线越近,,Q,值越小,说明直线回归的估计误差越小。,依变量,y,的平方和,总平方和,,SS,y,SS,总,回归平方和,U,离回归平方和,Q,直线回归分析中,回归自由度等于自变量的个数,只涉及到,1,个自变量,df,回归,1,df,总,n-1,df,离回归,n-2,Q/n-2,离回归标准差,回归估计标准误,剩余标准差,离回归方差,假 设,H,0,:,两变量间,无,线性关系,H,A,:,两变量间,有,线性关系,在无效假设存在下,回归方差与离回归方差的比值服从,F,分布。,df,1,= 1,df,2,= n-2,(,二),F,检验,H,0,:,黏虫孵化历期平均温度,x,与历期天数,y,之间,不存在,线性关系,H,A,:,两变量间,有,线性关系,变异来源,df SS s,2,F F,0.05,F,0.01,回归,1 353.6628 353.6628,89.89*,5.99 13.74,离回归,6 23.6060 3.9343,总变异,7 377.2688,检验线性回归系数的显著性,采用,t,检验法进行。,假 设,H,0,:,=0,H,A,:,0,检验样本回归系数,b,是否来自,=0,的双变量总体,以推断线性回归的显著性。,(,三),t,检验,样本统计量 的分布,是根据最小二乘法求出的样本统计量,它有自己的分布,的,分布具有如下性质,分布形式:正态分布,数学期望:,标准差:,由于,未知,需用其估计量,s,y,来代替得到 的估计的标准差,df=n-2,回归系数的标准误,否定,H,0,:=0,,接受,H,A,:0,,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。,同一概率值,F,(一尾)值(,df,1,=1,df,2,=n-2,),t,值(两尾)(,df=n-2,),a,和,b,的置信区间,(一),y/x,的置信区间和单个,y,的预测区间,(二),y/x,和单个,y,观测值置信区间图示,(三),四、直线回归的区间估计,(,一),a,和,b,的置信区间,df =,n-2,(,一),a,和,b,的置信区间,总体回归截距,的置信区间,(,一),a,和,b,的置信区间,总体回归系数,的置信区间,95%,的样本回归截距落在该区间内,95%,的样本回归系数落在该区间内,(,二),y/x,的置信区间和单个,y,的预测区间,不包含随机误差,由回归方程预测,x,为某一定值时,y,的观测值所在区间,则,y,观测值不仅受到,y,和,b,的影响,也受到随机误差的影响。,y,总体的平均数,单个,y,值所在的区间,x,点估计,(,二),y/x,的置信区间和单个,y,的预测区间,df = n-2,y,总体的平均数,单个,y,值所在的区间,x,y,总体的平均数,黏虫孵化历期平均温度为,15,时,历期天数为多少天(取,95,置信概率)?,df =,n-2,y,总体的平均数,x,单个,y,值所在的区间,单个,y,值所在的区间,某年的历期平均温度为,15,时,该年的历期天数为多少天(取,95,置信概率)?,(,二),y/x,的,置信区间和单个,y,的预测区间,(,三),y/x,和单个,y,观测值置信区间图示,正比,反比,愈靠近,x,,对,y,总体平均值或单个,y,的估计值就愈精确,而增大样本含量,扩大,x,的取值范围亦可提高精确度。,作回归分析时要有实际意义。,直线回归注意问题,不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作出合理解释或有所依据。,进行直线回归分析之前,绘制散点图。,当观察点的分布有直线趋势时,才适宜作直线回归分析。,散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的,a,和,b,的估计产生较大的影响。因此,需要复查此异常点的值。,直线回归注意问题,直线回归的适应范围一般以自变量的取值为限。,在自变量范围内求出的估计值,一般称为内插,(interpolation);,超过自变量取值范围所计算出的估计值,称为外延,(extrapolation),。,若无充分理由证明超过自变量取值范围还是直线,应该避免外延。,直线回归注意问题,描述两变量间的,依存,关系。,直线回归的应用,利用回归关系进行,预测,(forecast),。,将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个体,y,值容许区间方法计算。,回归方程进行,统计控制,(statistical control).,NO,2,浓度,Y,(NO,2,浓度,,mg/m,3,),= -0.064866+0.000133x,(,车流量,辆小时),直线回归的应用,第三节:直线相关,Linear,Correlation,一、相关系数和决定系数,二、相关系数的假设检验,三、相关系数的区间估计,一、相关系数和决定系数,x,y,线性关系,了解,x,和,y,相关以及相关的性质,相关系数,相关类型,正,相关,负,相关,零,相关,I,II,III,IV,I,II,III,IV,I,II,III,IV,I,II,III,IV,正相关,I,II,III,IV,正相关,I,II,III,IV,负相关,I,II,III,IV,零相关,直线相关的两个变量的相关程度和性质,乘积和,互变量,(,1),单位问题,(,2)x,与,y,本身的变异不影响,x,与,y,之间的相关性,?,r,两个变量的变异程度,两个变量的度量单位,两个变量的个数,r,可以用来比较不同双变量的相关程度和性质。,样本,总体,两个变量在相关系数计算中的地位是,平等,的,没有自变量和依变量之分,相关,回归,区,别,联系,决定系数,coefficient of determination,变量,x,引起,y,变异的回归平方和占,y,总变异平方和的比率,当,SSy,固定时,回归平方和,U,的大小取决于,r,2,。,回归平方和,U,是由于引入了相关变量而使总平方和,SSy,减少的部分。,说明引入相关的效果好,用,y,可以准确预测,y,值,x,与,y,完全相关。,完全正相关,完全负相关,散点图上所有点必在一条直线上。,回归一点作用也没有,即用,x,的线性函数完全不能预测,y,值的变化。,x,与,y,之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。,I,II,III,IV,x,的线性函数对预测,y,值的变化有一定作用,但不能准确预测,说明,y,还受其他因素(包括随机误差),的影响。,相关系数,(,r,),和决定系数,(,r,2,),的区别,(1),除去,r =1,和,0,的情况外,,r,2,r,,,这样可以防止对相关系数所表示的相关程度作夸张的解释。,(,2,),r,可正可负,,r,2,取正,,r,2,一般只用于表示相关程度而不表示相关性质。,温度,天数,黏虫孵化历期平均温度与历期天数成负相关。,x,和,y,的变异有,93.74,可用二者之间的线性关系来解释。,=0,x,y,(x,1,y,1,),(x,2,y,2,),(x,3,y,3,),(x,n,y,n,),P,?,二、相关系数的假设检验,r,是线性关系强弱的指标,H,0,:,=0,H,A,:,0,检验样本回归系数,b,是否来自,=0,的双变量总体,以推断线性回归的显著性。,对于相关系数,r,作显著性检验的无效假设为,=0,,即测定,r,来自,=0,总体的概率,也就是判断,r,所代表的总体是否存在直线,相关。,总体相关系数,=0,相关系数,r,的,标准误,()假设,(,2,)水平,(,3,)检验,(,4,)推断,H,0,:=0,;,H,A,:0,选取显著水平,在,显著水平上,否定,H,0,,接受,H,A,;推断,r,显著。,在,显著水平上,接受,H,0,,否定,H,A,;推断,r,不显著。,r,经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,这时不能用,r,代表其相关密切程度。,()假设,(,2,)水平,(,3,)检验,(,4,)推断,H,0,:=0,;,H,A,: 0,选取显著水平,0.01,否定,H,0,,接受,H,A,;推断,r,极显著,黏虫孵化历期温度与历期天数之间存在着极显著的直线相关关系。,必然结果,r,与,t,符号相同。,相关系数的假设检验可不计算,t,值,直接从附表,12,查出,df=n-2,时,r,的临界值。,椰子树的产量数,X(,个,),椰子树的高度,Y(,尺,),X(,个,) 120 121 123 126 128,Y(,尺,) 21 23 22 25 24,椰子树的产果树与树高之间,无,直线相关关系。,当样本太小时,即使,r,值达到,0.7996,,样本也可能来自总体相关系数,=0,的总体。,不能直观地由,r,值判断两变数间的相关密切程度。,试验或抽样时,所取的样本容量,n,大一些,由此计算出来的,r,值才能参考价值。,1,2,三、相关系数的区间估计,r,值经假设检验达到显著水平,需要由,r,估计总体相关系数,所在的区间。,y,(x,1,y,1,),(x,2,y,2,),(x,3,y,3,),(x,n,y,n,),X,0,两变量无直线相关关系,0,两变量有直线相关关系,正态分布,黏虫孵化历期温度与历期天数的总体相关系数,的,95,的置信区间为(,-0.9944,,,-0.8294,)。,回归方程的显著性,回归系数的显著性,相关系数的显著性,x,y,相关与回归的联系,一致,三者,同时,显著或不显著。,r,与,b,的符号一致,由两变量离均差乘积之和的符号决定。,相关与回归的联系,r,:,+,两变量间的相互关系是同向变化的。,b,:,+,x,增(减)一个单位,,y,平均值增(减),b,个单位。,相关与回归的联系,用回归解释,相关,:,相关与回归的联系,y,关于,x,的直线回归系数,x,关于,y,的直线回归系数,x,y,回归,相关,x,是可以精确测量和严格控制的变量,。,y,服从正态分布。,x,服从正态分布。,y,服从正态分布。,I,型回归,II,型回归,资料要求,x,y,相关与回归的联系,两变量间依存变化的数量关系,两变量间相关关系,回归,相关,应用,x,y,单向,x,y,x,y,双向,相关与回归的联系,回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的,b,与其,r,的符号相同。,回归系数有单位,形式为(应变量单位,/,自变量单位),相关系数没有单位。,相关系数的范围在,-1,+1,之间,而回归系数没有这种限制。,有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。,有些资料用相关和回归都适宜,此时须视研究需要而定。,就一般计算程序来说,是先求出相关系数,r,并对其进行假设检验,如果,r,显著并有进行回归分析之必要,再建立回归方程。,注意问题,作相关与回归分析要有实际意义。,不要把毫无关联的两个事物或现象用来作相关或回归分析。,*,*,*,*,如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的,r,、,b,是显著的,也是没有意义的。,相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,,并不能阐明两事物或现象间存在联系的本质,。,对相关分析的作用要正确理解。,*,*,*,*,注意问题,相关并不一定就是因果关系,切不可单纯,依靠相关系数或回归系数的显著性,“,证明,”,因果关系之存在。,要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。,适合相关和回归分析的资料通常有两种,一个变量,X,是选定的,另一个变,Y,是从正态分布的总体中随机抽取的。,*,*,*,*,1,回归分析,注意问题,由一个变量推算另一个变量,说明两变量间的相互关系,两变量,X,、,Y,(或,X,1,、,X,2,)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。,2,回归分析,相关分析,注意问题,在回归分析中,由,X,推算,Y,与由,Y,推算,X,的回归方程是不同的,不可混淆。,必须正确选定自变量与应变量。,一般说,事物的原因作自变量,X,,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量,X,,以推算应变量,Y,。,注意问题,回归方程的适用范围有其限度,一般仅适用于自变量,X,的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。,注意问题,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!