直线相关与直线回归分析

上传人:muw****50 文档编号:253054373 上传时间:2024-11-28 格式:PPT 页数:71 大小:377KB
返回 下载 相关 举报
直线相关与直线回归分析_第1页
第1页 / 共71页
直线相关与直线回归分析_第2页
第2页 / 共71页
直线相关与直线回归分析_第3页
第3页 / 共71页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第十五章 直线相关与回归分析,1,学 习 目 标,1.说出直线相关与直线回归的概念;,2.说出等级相关的适用范围;,3.能计算直线相关系数与回归系数、进行假设检验;,4.能从专业角度考虑相关与回归的实际意义。,2,两个变量之间的关系大致分为两种:,3,1.两个变量共同变化的,是一种相互依赖的关系,例如身高与体重的关系。可以用相关分析方法去研究这种关系。,可以研究两个变量之间的相互关系的密切程度和变化趋势,,并用恰当的统计指标表达。,4,2.一个变量对另外一个变量有着某种依存关系,例如儿子的身高与父亲的身高有着某种依存关系,可以用回归分析的方法去研究这种关系,即把两个变量间的数量依存关系用函数形式表示出来,,用一个或多个变量去推测另一个变量的估计值和波动范围,这就是回归分析。,5,为了研究父亲与成年儿子身高之间的关系,卡尔,.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴,X,上的数代表父亲身高,垂直轴,Y,上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,6,第一节 直 线 相 关 分 析,Linear Correlation,7,1.直线相关概念,概念:,描述和推断两个(事件、现象)正态变量(x、y)总的变化趋势上,协同变化,规律性的密切程度和方向(但又,非确定的函数关系),的统计分析方法。,协同变化:同增同减,此增彼减,8,2.直线相关的特点:,两变量同时进入数据分析;,两变量不区别为原因变量和结果变量,是一种互为因果的数量协同变化关系;,变量类型:,两变量应同时满足正态分布的条件(实际工作中近似正态分布)。,9,相关分析,1.,图示法,:有无相关、相关程度、相关方向,2,相关系数,:在求相关系数前,最好先做图。,10,相关分析:无自变量、因变量、地位平等。,回归分析:有自变量、因变量,两者从属关系。,11,绘制散点图,分析研究两个变量x与y之间的关系时,两个变量的值可视为直角坐标系的一个点。为直观地判断两个变量间的关系,可把每对(x,y)变量值在直角坐标系标点出来,此为散点图。,若一个变量x由小到大(或由大变小),则另一变量相应地由小到大(或由大到小),两个变量的散点图呈直线趋势,可称这种现象为共变。,12,3、相关的类型,正相关,负相关,完全正相关 完全负相关 ,零相关,13,一、直线相关统计量,14,相 关 系 数 及 意 义,相关系数,:相关系数是用以衡量两个变量线形相关,有无,、,强弱,与,方向,的统计指标。,总体参数:,样本相关系数:r,15,相关系数的计算公式,16,r,的计算结果:,说明了两个变量,X,与,Y,之间关联的密切程度(绝对值大小)与关联的性质(正负号)。,17,r是无量刚的统计量;-1r2.228,由t所推断的P值小于0.05,按,=0.05水准拒绝,H0,,接受,H1, r为正值,说明唾液药物浓度与血液药物浓度存在正相关关系。,24,相关一定有内在联系吗?,某君喜得贵子,庭前种一小树,每月测子高与树高,积累了数据。统计计算发现,子高与树高具有相关性,难道两者真有内在联系?原来子高与树高均与日俱增,时间变量与两者得潜在联系,造成了子高与树高的虚假联系。,25,相关关系与因果关系是一回事吗?,相关关系可能是:,(1)两个变量之间存在依存因果关系,如由于遗传的原因,子女的身高数值的大小在很大程度上取决于父母的身高。,(2)两个变量之间存在相互的伴随关系,如“蛙鸣而燕至”,虽然年年如此,但蛙鸣永远也不能成为燕至的原因。,26,直线相关的应用,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;,如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。,一般说来,当样本量较大(n100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。,27,前面我们讨论了,12,名癫痫病人的唾液药物浓度和血液药物浓度之间的关系,知道了二者之间成正相关。那么,如果我们知道了一位癫痫病人的唾液药物浓度,能推断出血液药物浓度的大小吗?或血液药物浓度可能在什么范围内呢?还有,唾液药物浓度和血液药物浓度。那么,体重每增加,1,微克,血液药物浓度增加多少呢?上面的相关关系分析不能提供给我们需要的答案。这些要用直线回归的方法来解决。,28,五、直线相关分析的注意点,作直线相关分析时,应结合散点图来判断两变量的数量协同变化关系是否呈直线关系,避免将某些曲线关系误判为直线关系;,应该注意假相关情况;,当两变量均明显不呈正态分布时,最好采用秩相关统计分析方法计算秩相关系数。,29,第二节 直线回归分析,linear Regression,30,“回归”一词的来由,“回归”一词最早由Golton在一项有关父亲与儿子身高的研究中提出。儿子的身高(Y)与父亲的身高(X)自然是相关的,他发现身材高大的父亲所生儿子的高度不少要比其父亲矮,而身材矮小的父亲所生的儿子不少要比其父亲高;也就是说,,无论是身材高还是身材矮的父亲所生儿子的身高有向人群的平均身高“回归”的趋势,这就是“回归”的生物学内涵。,后来人们借助“回归”一词来描述通过自变量的数值预测反应变量的平均水平。,31,为了通过可测或易测的变量对未知或难测或不可测量的状态进行估计,可以借助回归分析。,例如:我们可以用身高、体重、肺活量这些容易测得的指标来估计心室血输出量、体循环总血量等相对难测的指标;通过对产妇的尿雌三醇含量的检测来估计腹中胎儿体重,以便采取必要的措施降低生产过程的难产风险。,32,(,1,) 当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。,(,2,)但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为,直线回归方程,,这种关系为直线回归.,33,直线回归的定义,分析两个变量X、Y之间确切的定量关系,建立一个方程式,从而可由X变量的大小推算出Y变量的估计值。,直线回归就是用来描述一个变量如何,依赖于,另一个变量。,34,回归方程,直线回归的任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做,直线回归方程,。,:是由自变量X推算应变量Y的估计值(读作Y hat),a,:是回归直线在Y 轴上的截距,即X=0时的Y值;,b,:为样本的回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。,35,直线回归分析的特点:,两变量同时进入数据分析;,两变量必须区分为自变量X和应变量Y;,要求应变量,Y,为正态分布,或对应同一X值的应变量,Y,与直线回归方程估计值的差值服从正态分布,适用于两变量数量协同变化关系密切的情况,否则回归估计误差过大,无应用价值。,36,直线回归分析的意义,可以用来较准确描述两变量的定量关系;,可以在一定自变量变化线性范围内由自变量预报应变量值,,给定应变量的控制限值,利用直线方程寻找自变量的控制限值。,37,要使 是 最适合的直线,必须满足下列条件:,(1)直线上方各点离回归线的距离(以平行于Y轴计算)之和与直线下方各点离回归线的距离之和绝对值相等,但方向相反,因此:,38,(2)此直线是使得误差平方和 为最小值的直线,即因变量的实际观察值y与理论值 之差的平方和取最小值。,对于每一个x值来说,它所对应实际的y值,与估计的 值往往会存在差异,这个差异就是用估计 值来代替实际y值所产生的误差,即 ,误差越小越好,由于理论上 ,因此要把 为最小值的直线当作回归直线是很困难的。一个最佳且能表达同样目的的方法,那就是将此直线定义为使得,误差平方和为最小值,的直线。这个方法称为,最小二乘法,。,39,根据最小二乘法原理,a 和 b的计算公式,Lxy为离均差积和,Lxx为x的离均差平方和,40,三、直线回归分析的方法步骤与作图,例152 根据例151的资料以唾液药物浓度作自变量X,以血药物浓度作应变量Y,进行直线回归分析,并作出回归直线。,具体过程见书P269,41,例16-3,某研究人员采用不同剂量山莨菪碱测得小白鼠的扩瞳指数,试分析山莨菪碱和扩瞳指数之间的回归关系。,1.绘制散点图 有相关关系,再作回归分析,2.计算回归系数,42,(1)编制回归系数计算表:求基础数据,43,(2)计算离均差平方和及离均差积和,44,(3)计算b,a,得回归方程:,45,=0.445+0.117X,是否一定能说明山莨菪碱与扩瞳指数之间存在回归关系?,46,回归直线的描绘,根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。,回归直线一定经过(0,a ),( )。这两点可以用来核对图线绘制是否正确。,47,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对,样本的回归系数b,进行假设检验,,以判断,b,是否从回归系数为零的总体中抽得。,为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用,表示。,48,1.,方差分析,F=MS,组间,/MS,组内,2.t,检验,回归系数的假设检验,H,0,:=0,H,1,:0,=0.05,选择合适的假设检验方法,计算统计量,计算概率值P,做出推论:统计学结论和专业结论,当变量Y服从正态分布时,回归系数得显著性检验,可用t检验,也可用方差分析,49,1.,采用方差分析,(,了解,),50,1.平方和与自由度的分解,因变量Y得变化规律:y值的变异可用离均差平方和来反映:,51,52,是回归值与平均数之差的平方和,根据回归方程,回归值 因此可以把 看做是由于x的变化而引起的y值的变化,所有这些量的平方和,反映了在y总的变异中由于x与y的线性关系而引起y变化的部分,称它为,回归平方和,,用SS回表示,y的这部分变异是由x解释的。,因此回归平方和也就是考虑了x 与y的线性关系,,或者说作了回归后能使总平方和减少的部分,所以,越大,说明回归效果越好。,53,是所有观察点距回归直线的剩余的平方和,,根据前述的最小二乘法原理,这个量是在所有类似的直线中与观测点距离平方和最小的一个,,它,除了x对y的线性影响之外的一切因素对y变异的作用,称为剩余平方和(或残差平方和),用SS剩表示,也就是在总平方和中无法用x解释的部分。,在散点图中,各实测点与回归直线越近,,也就越小,说明直线回归的估计误差越小。,54,为y的离均差平方和,又称总平方和,用SS总表示,,说明未考虑x与y的回归关系时y的变异,,三者之间的关系:,SS总SS回+SS剩,V 总= v回 + v剩,V总N-1,N为样本含量,V回:对应于自变量的个数,因此v回1,v剩N-2,以离均差平方和除以自由度可得均方,即,MS回SS回/v回,MS=SS回/v回,如果回归均方显著地大于剩余均方,,则说明回归是显著的,因此可用方差分析,的方法来检验回归方程是否有显著性意义。,55,2.采用,t,检验方法,将 除以它的自由度n-2,即得估计值 的方差 ,称为剩余方差,开方即得剩余标准差,,其中,Sy.x,为各观察值,y,到回归直线的距离的标准差,,它的意义是指当x对y的影响被扣除后,y仍有剩余变异,其变异的程度可用 来衡量,故 用来反映y的剩余变异。,56,自由度,=5-2=3,查t值表,t,0.05(3),=3.182, 6.573, 3.182,,,P0.05,按,=0.05检验水准,拒绝H,0,说明扩瞳指数与山莨菪碱之间存在直线回归关系。,57,六、直线回归分析中应注意的问题,1、作直线回归分析适合在两变量数量协同变化直线关系较为密切时进行,否则直线回归方程预报误差过大,无实用价值。,2、直线回归方程原则上只适用于样本资料提供的自变量线性范围内,不能任意外延。自变量线性范围以外尚不知道两变量是否存在直线关系。,58,3.直线回归分析只要求应变量Y或对应同一X值的Y-Yhat值呈正态分布,对数值型自变量X无正态分布要求。,4.应用直线回归分析方法制作实验方法的工作曲线时,由于工作曲线应用属于“逆预报”,是通过应变量Y推X值,故必须满足X与Y呈近似直线函数关系时,才能这样做。为此,要求作为样本资料中自变量的各标准液浓度应重复测定几次,取对应每一标准液浓度的Y的均值,建立直线回归方程并绘出工作曲线。,59,七、直线相关与直线回归分析的比较,60,(一)联系,两种分析方法都是研究两变量数量协同变化直线关系的统计方法;,关系:,能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出回归方程。,61,相关系数,r,与回归系数,b,r,与,b,的符号一致。,r,为正时,,b,也为正,表示两变量是正相关,是同向变化。,r,为负时,,b,也为负,表示两变量是负相关,是反向变化。,r,与,b,的假设检验结果一致 ,可用,r,的显著检验代替,b,的显著性检验。,62,同一资料直线相关系数与直线回归系数假设检验的结果和水平一致,即t,r,=t,b,同一资料r,2,=b,yx,. b,xy,63,相关与回归的区别,1.,意义,:,相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。,2.,应用,:,研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。,64,3.研究性质:,相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。,4.,相关系数,r,与回归系数,b,:,r与b的绝对值反映的意义不同。,r,的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。,b,的绝对值越大,回归直线越陡,说明当,X,变化一个单位时,,Y,的平均变化就越大。反之也是一样。,65,直线回归的应用,描述两变量之间的依存关系:,通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。例如上例回归方程:,就是山莨菪碱与扩瞳指数之间的定量表达式 。,利用回归方程进行预测,:把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某山莨菪碱的剂量,代入回归方程,再用区间估计的方法,即可知道扩瞳指数的范围。,利用回归方程进行统计控制,利用多元回归描述多因素的影响,66,应用直线相关与回归的注意事项,1.实际意义,进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。,2.相关关系,相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,67,3.利用散点图,对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。,4.变量范围,相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,68,第四节 等级相关,等级相关适用于:非参数统计法,1.资料不服从双变量正态分布;,2.总体分布未知;,3原始资料是等级记录的。,69,等级相关系数,描述两变量相关关系的密切程度和方向。,70,小 结,两(或多)变量之间有无相关、,相关的方向、联系的密切程度、联系的真伪?,相关分析,回归分析,两变量间的数量关系,有相关,绘制散点图,有直线趋势,71,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!