SPC:直线回归与相关

上传人:t****d 文档编号:243140344 上传时间:2024-09-16 格式:PPT 页数:63 大小:649KB
返回 下载 相关 举报
SPC:直线回归与相关_第1页
第1页 / 共63页
SPC:直线回归与相关_第2页
第2页 / 共63页
SPC:直线回归与相关_第3页
第3页 / 共63页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第八章 直线回归与相关,前面各章我们讨论的问题,都只涉及到一个变量,如体重 、日增重、产仔数、体温、血糖浓度 、产奶量 、产毛量或孵化率 、发病率等。 但是,由于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究两个或两个以上变量间的关系。,下一张,主 页,退 出,精品资料网,1,最高月产、,猪瘦肉率与背膘厚度、眼肌面积、胴体长;,绵羊产毛量与体重、胸围、体长 ;,黑白花奶牛的一胎,305,天产奶量与,、最高日产天数;,90,天产奶量、,最高日产,猪的增重与饲料消耗;,雏鹅重与70日龄重;,绵羊胸围与体,长,;,仔猪初生重与断奶重;,例如,精品资料网,2,变量间的关系有两类:,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。,如长方形的面积 (,S,) 与 长(,a,)和 宽(,b,)的关系可以表达为:,S=ab,。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为,函数关系,。,下一张,主 页,退 出,上一张,精品资料网,3,另一类是 变 量 间不存在完全的确定性关系,不能用精确的数学公式来表示。,如黄牛的体长与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。,像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为,相关关系,,把存在相关关系的变量称为,相关变量,。,下一张,主 页,退 出,上一张,精品资料网,4,相关变量间的关系一般分为两种:,一种是,因果关系,,即一个变量的变化受另一个或几个变量的影响。如仔猪的生长速度受遗传特性、营养水平、饲养管理条件等因素的影响,子代的体高受亲本体高的影响;,另一种是,平行关系,,它们互为因果或共同受到另外因素的影响。如黄牛的体长和胸围之间的关系,猪的背膘厚度和眼肌面积之间的关系等都属于平行关系。,下一张,主 页,退 出,上一张,精品资料网,5,统计学上采用回归分析 (regression analysis)研究呈因果关系的相关变量间的关系。,表示原因的变量称为自变量,表示结果的变量称为依变量。,研究“一因一果”,即一个自变量与一个依变量的回归分析称为,一元回归分析,;,研究“多因一果”,即多个自变量与一个依变量的回归分析称为,多元回归分析,。,一元回归分析又分为,直线回归分析,与,曲线回归分析,两种;多元回归分析又分为,多元线性回归分析,与,多元非线性回归分析,两种。,下一张,主 页,退 出,上一张,精品资料网,6,回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制依变量(结果)。,精品资料网,7,统计学上采用相关分析 ( correlation analysis)研究呈平行关系的相关变量之间的关系。,对两个变量间的直线关系进行相关分析称为,简单相关分析,(也叫,直线相关分析,);,对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为,复相关分析,;研究其余变量保持不变的情况下两个变量间的线性相关称为,偏相关分析,。,下一张,主 页,退 出,上一张,精品资料网,8,第一节 直线回归,一、直线回归方程的建立,对于两个相关变量,一个变量用,x,表示,另一个变量用,y,表示,如果通过试验或调查获得两个变量的n对观测值:,(,x,1,,,y,1,),(,x,2,,,y,2,),(,x,n,,,y,n,),下一张,主 页,退 出,上一张,为了直观地看出,x,和,y,间的变化趋势,可将每一对 观 测 值 在 平 面直角坐标系描点,作出散点图 (,见图8-1),。,精品资料网,9,从散点图(,图8-1,)可以看出:,两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);,下一张,主 页,退 出,上一张,散点图,直观地、定性地,表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系,定量地,表达出来。,两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;,精品资料网,10,如果呈因果关系的两个相关变量y(依变量)与x(自变量)间的关系是直线关系,根据,n,对观测值所描出的散点图,如,图81(b),和,图81,(e)所示。,由于依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值,y,i,可用自变量x的实际观测值x,i,表示为:,(,i,=1,2, ,n,) (81),精品资料网,11,其中:,x 为可以观测的一般变量(也可以是可以观测的随机变量);,y 为可以观测的随机变量;,这就是直线回归的,数学模型,。我们可以根据实际观测值对,以及方差 做出估计。,i,为相互独立,且都服从,N,(0, )的随机变量。,精品资料网,12,在,x,、,y,直角坐标平面上可以作出无数 条直线,我们,把所有直线中最接近散点图中全部散点的直线用来表示,x与y,的直线关系,,这条直线称为,回归直线,。,下一张,主 页,退 出,上一张,设回归直线的方程为:,(8-2),精品资料网,13,其中,,a,是的估计值,,b,是的估计值。,a、b,应使回归估计值 与实际观测值,y,的偏差平方和最小,,即:,根据微积分学中的求极值的方法,令 Q对,a、b,的一阶偏导数等于0,即:,最 小,精品资料网,14,整理得关于,a、b,的,正规方程组,:,下一张,主 页,退 出,上一张,解正规方程组,得:,(8-3),(8-4),精品资料网,15,(8-3)式中的分子是自变量,x,的离均差 与 依 变 量,y,的 离 均 差 的 乘 积和 ,简 称,乘积和,,记作 ,分母是自变量,x,的离均差 平方和 ,记作,SS,X,。,a,叫做样本,回归截距,,是回归直线与,y,轴交点的纵坐标,当,x,=0时, =,a,;,精品资料网,16,b,叫做样本,回归系数,,表 示,x,改 变一个单位,y平均改变的数量;,b,的符号反映了,x,影响,y,的性质,,b,的绝对值大小反映了,x,影响,y,的 程度;,的估计值。,叫做,回归估计值,,是当,x,在在其研,究 范 围 内 取某一个值时,,y,值平均数,精品资料网,17,回归方程的基本性质:,如果将(8-4)式代入(8-2)式,得到回归方程的另一种形式(,中心化形式,):,下一张,主 页,退 出,上一张,性质1,最小;,性质2,;,性质3,回 归 直 线 通 过 点,。,(8-5),精品资料网,18,【例8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(,y,)与雏鹅重(,x,)的直线回归方程。,精品资料网,19,表8-1 四川白鹅雏鹅重与70日龄重测定结果,(单位:,g,),下一张,主 页,退 出,上一张,精品资料网,20,1、作散点图,以雏鹅重(,x,)为横坐标,70日龄重(,y,)为纵坐标作散点图,见,图8-3,。,2、计算回归截距,a,,回归系数,b,,建立直线回归方程,首先根据实际观测值计算出 下 列数据:,精品资料网,21,下一张,主 页,退 出,上一张,精品资料网,22,进而计算出,b,、,a,:,得到四川白鹅的70日龄重,y,对雏鹅重,x,的,直线回归方程为:,精品资料网,23,根据直线回归方程可作出回归直线,见图,8-3,。从图,8-3,看出,并不是所有的散点都恰好落在回归直线上,这说明,用 去估计,y,是有偏差的。,下一张,主 页,退 出,上一张,精品资料网,24,3、直线回归的偏离度估计,偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为,离回归平方和,。统计学已经证明:在直线回归分析中离回归平方和的自由度为,n,-2。于是可求得,离回归均方,为:,离回归均方是模型(8-1)中,2,的估计值。,离回归均方的平方根叫,离回归标准误,,记为 ,即,精品资料网,25,(8-6),离回归标准误,S,yx,的大小表示了回归直线与实测点偏差的程度,,即回归估测值 与 实 际观测值,y,偏差的程度,于是我们,把离回归标准误,S,yx,用来表示回归方程的偏离度。,下一张,主 页,退 出,上一张,精品资料网,26,以后我们将证明:,(8-7),利用(8-7)式先计算出 ,然后再代入(8-6)式求,S,yx,。,对于【例8.1】有,所以,精品资料网,27,二、直线回归的显著性检验,若,x,和,y,变量间并不存在直线关系, 但由,n,对观测值(,x,i,,,y,i,)也可以根据上面介绍的方法求得一个回归方程 =,a,+,bx,。 显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量,x,与,y,间是否存在直线关系。我们先探讨依变量,y,的变异,然后再作出统计推断。,下一张,主 页,退 出,上一张,精品资料网,28,1、直线回归的变异来源,图8-4 的分解图,精品资料网,29,从图8-4看到:,上式两端平方,然后对所有的,n,点求和,则有,下一张,主 页,退 出,上一张,由 于,所 以,于 是,精品资料网,30,所以有,(8-8),反映了,y,的总变异程度,称为,y,的总平方和,记为,SS,y,;,反映了由于,y,与,x,间存在直线关系所引起的,y,的变异程度,称为回归平方和,记为,SS,R,;,精品资料网,31,反映了除,y,与,x,存在直线关系以外的原因,包括随机误差所引起的,y,的变异程度,称为离回归平方和或剩余平方和,记为,SS,r,。,(8-8)式又可表示为:,(8-9),这表明,y,的总平方和剖分为 回归平方和 与离回归平方和两部分。与此相对应,,y,的总自由度,df,y,也划分为回归自由度,df,r,与离回归自由度,df,r,两部分,即,下一张,主 页,退 出,上一张,精品资料网,32,(8-10),在直线回归分析中,回归自由度等于自变量的个数, 即 ;,y,的 总 自 由度 ;离回归自由度 。于是:,离回归均方 , 回 归 均 方,。,2、回归关系显著性检验,F,检验,精品资料网,33,x,与,y,两个变量间是否存在直线关系,可用,F,检验法进行检验。,无效假设H,O,:,=0,备择假设H,A,:,0。,在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的,F,分布,所以可以用,df,1,=1,df,2,=,n,-2,(8-11),下一张,主 页,退 出,上一张,精品资料网,34,来检验回归关系即回归方程的显著性。,回归平方和还可用下面的公式计算得到:,(8-12),(8-13),根据(8-9)式,可得到离回归平方和计算公式为:,下一张,主 页,退 出,上一张,精品资料网,35,对于【例8.1】资料,有,而 。于是可以列出方差分析表进行回归关系显著性检验。,精品资料网,36,表8-2 四川白鹅70日龄重与雏鹅重回归关系,方差分析,下一张,主 页,退 出,上一张,精品资料网,37,因为 ,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关系。,3、回归系数的显著性检验,t,检验,采用回归系数的显著性检验,t,检验也可检验,x,与,y,间是否存在直线关系。回归系数显著性检验的无效假设和备择假设为,H,O,:0,,H,A,:0。,精品资料网,38,t,检验的计算公式为:,(8-14),(8-15),其中,S,b,为回归系数标准误。,精品资料网,39,对于 【例8.1】 资 料 ,已计算得,故有,下一张,主 页,退 出,上一张,精品资料网,40,当 ,查,t,值表,得,因 , ,,否定,H,O,:0,接受,H,A,:0,即直线回归系数,b,=21.7122是极显著的,表明四川白鹅 70 日龄重 与雏鹅重间存在极显著的直线关系,可用所建立的直线回归方程来进行 预测和控制。,精品资料网,41,F,检验的结果与,t,检验的结果一致。,事实上,统计学已证明,在直线回归分析中,这二种检验方法是等价的,可任选一种进行检验。,下一张,主 页,退 出,上一张,精品资料网,42,特别要指出的是:利用直线回归方程进行预测或控制时,一般 只 适 用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制 , 一 般只能内插,不要轻易外延。,精品资料网,43,第二节 直线相关,进行直线相关分析的基本任务在于根据,x、y,的实际观测值,计算表示两个相关变量,x、y,间线性相关程度和性质的统计量相关系数,r,并进行显著性检验。,下一张,主 页,退 出,上一张,精品资料网,44,一、决定系数和相关系数,在上一节中已经证明了等式:,从这个等式不难看到:,y,与,x,直线回归效果的好坏取决于回归平方和 与离回归平方和,的大小,或者说取决于回归平方和在,y,的总平方和 中所占的比例的大小。这个比例越大,,y,与,x,的直线回归效果就越好,反之则差。,我们把比值,叫 做,x,对,y,的,决定系数,( coefficient of determination),记为 r,2,,即,下一张,主 页,退 出,上一张,精品资料网,45,(8-24),决定系数的大小表示了回归方程估测可靠程度的高低,,或者说表示了回归直线拟合度的高低。显然有0,r,2,1。因为,精品资料网,46,而,SP,xy,/,SS,x,是以,x,为自变量、,y,为依变量时的回归系数,b,yx,。 若把,y,作为自变量 、,x,作为依变量 ,则回归系数,b,xy,=,SP,xy,/,Ss,y,,所以决定系数,r,2,等于,y,对,x,的回归系数与 x对y的回归系数的乘积。这就是说,决定系数反应了,x,为自变量、,y,为依变量和,y,为自变量 、,x,为依变量时两个相关变量,x,与,y,直线相关的信息 ,即,决定系数表示了 两个互为因果关系的相关变量间直线相关的程度,。但决定系数介于0和1之间,不能反应直线关系的性质是同向增减或是异向增减。,下一张,主 页,退 出,上一张,精品资料网,47,若求,r,2,的平方根,且取平方根的符号与乘积和,SP,xy,的符号一致,即与,b,xy,、,b,yx,的符号一致,这样求出的平方根,既可表示,y,与,x,的直线相关的程度,也可表示直线相关的性质,。统计学上把这样计算所得的统计量称为,x,与,y,的相关系数(coefficient of correlation),记为,r,,即,精品资料网,48,(8-25),(8-26),下一张,主 页,退 出,上一张,精品资料网,49,二、相关系数的计算,【例8.6】 计算10只绵羊的胸围(,cm,)和体重(,kg,) 的相关系数。,表8-3 10只绵羊胸围和体重资料,下一张,主 页,退 出,上一张,精品资料网,50,根据表8-3所列数据先计算出:,代入(8-25)式得:,即绵羊胸围与体重的相关系数为0.8475。,下一张,主 页,退 出,上一张,精品资料网,51,三、相关系数的显著性检验,上述根据实际观测值计算得来的相关系数,r,是样本相关系数, 它是双变量正态总体中的总体相关系数的估计值。样本相关系数,r,是否来自0的总体,还须对样本相关系数,r,进行显著性检验。 此 时 无 效 假 设、备 择 假 设 为H,O,:=0,H,A,:0。 与直线回归关系显著性检验一样,可采用,t,检验法与F检验法对相关系数,r,的显著性进行检验。,精品资料网,52,t,检验的计算公式为:,t,= ,,df,=,n,-2 (8-27),其中, ,叫做相关系数标准误。,F,检验的计算公式为:,F,= ,,df,1,=1,df,2,=,n,-2,(8-28),下一张,主 页,退 出,上一张,精品资料网,53,统计学家已根据相关系数,r,显著性,t,检验法计算出了临界,r,值并列出了表格。 所以 可以直接采用查表法对相关系数,r,进行显著性检验。,具体作法是:,先 根 据 自 由 度,n,-2 查临界,r,值 ( 附 表 8 ),得 , 。 若|,r,| ,,P,0.05,则相关系数,r,不显著,在,r,的右上方标记“,ns,”;若 |,r,| ,0.01,P,0.05,则相关系数,r,显著,在,r,的右上方标记“*”;若|,r,| ,,P, 0.01, 则相 关 系 数,r,极显著,在,r,的右上方标记“*”。,精品资料网,54,对于【例8-6】,因为,df,=,n,-2=10-2,=8,查附表8得: =0.632, =0.765,而,r,=0.8475 ,,P,0.01,表明绵羊胸围与体重的相关系数极显著。,四、相关系数与回归系数的关系,从相关系数计算公式的导出可以看到:相关变量,x,与,y,的相关系数,r,是,y,对,x,的回归系数与,x,对,y,的相关系数,b,xv,的几何平均数:,下一张,主 页,退 出,上一张,精品资料网,55,表明直线相关分析与回归分析关系十分密切。事实上,它们的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质计算出相关系数。两种分析所进行的显著性检验都是解决,y,与,x,间是否存在直线关系。因而二者的检验是等价的。即相关系数显著 , 回归系数亦显著; 相关系数不,精品资料网,56,显著,回归系数也必然不显著。由于利用查表法对相关系数进行检验十分简便,因此,在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验,,即可先计算出相关系数,r,并对其进行显著性检验,若检验结果,r,不显著,则用不着建立直线回归方程;若,r,显著,再计算回归系数,b,、回归截距,a,,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用来进行预测和控制。,下一张,主 页,退 出,上一张,精品资料网,57,五、应用直线回归与相关的注意事项,直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:,精品资料网,58,1、变量间是否存在相关,直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。,下一张,主 页,退 出,上一张,精品资料网,59,2、其余变量尽量保持一致,由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。,下一张,主 页,退 出,上一张,精品资料网,60,3、观测值要尽可能的多,在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。,4、外推要谨慎,直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量,x,的取值区间以内,外推要谨慎,否则会得出错误的结果。,下一张,主 页,退 出,上一张,精品资料网,61,5、正确理解回归或相关显著与否的含义,一个不显著的相关系数并不意味着变量,x,和,y,之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着,x,和,y,的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。,精品资料网,62,6、一个显著的回归方程并不一定具有实践上的预测意义,如 一 个 资 料,x,、,y,两 个变量间的相关系数,r,=0.5,在,df,= 2 4 时 ,,r,0.01(24),= 0. 4 9 6,,r,r,0.01(24),,表明相关系数极显著。而,r,2,=0.25,即,x,变量或y变量的总变异能够通过,y,变量或,x,变量以直线回归的关系来估计的比重只占25%,其余的 75% 的变异无法借助直线回归来估计。,下一张,主 页,退 出,上一张,精品资料网,63,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!