双变量相关与回归--课件

上传人:沈*** 文档编号:242853120 上传时间:2024-09-08 格式:PPT 页数:42 大小:1,006KB
返回 下载 相关 举报
双变量相关与回归--课件_第1页
第1页 / 共42页
双变量相关与回归--课件_第2页
第2页 / 共42页
双变量相关与回归--课件_第3页
第3页 / 共42页
点击查看更多>>
资源描述
書式設定, 書式設定,第,2,第,3,第,4,第,5,PPT课件,*,单击此处编辑母版标题样式,Soft Computing Lab.,*,单击此处编辑母版文本样式,第二级,中医药统计学与软件应用,1,PPT课件,第,8,讲 双变量相关与回归,直线相关,秩相关,直线回归,曲线回归,双变量相关与回归电脑实验,2,PPT课件,第,8,讲 双变量相关与回归,引言,世界上万事万物是相互联系的,相互联系着的事物(变量)间的关系有,确定性关系,和,非确定性关系,。确定性关系既变量间的函数关系,是指一个变量的每个可能取值,另外的变量都有完全确定的值与之对应;如路程速度时间的关系为。非确定性关系是指变量在宏观上存在关系,但并未精确到可以用函数关系来表达,也称随机性关系。在医药研究中,常常要分析变量间的非确定性关系,如糖尿病患者的血糖与胰岛素水平、降糖药剂量与疗效的关系等。本章介绍研究变量间的非确定性关系的统计分析方法,相关(,correlation,)与回归(,regression,)。,相关分析,是研究事物或现象之间有无相关、相关的方向和密切程度如何,一般不区别自变量或因变量。,3,PPT课件,第一节 直线相关,一、直线相关的概念,直线相关是分析两个变量间是否存在线性相关关系的方法。(非确定关系,如身高和体重),适用于双变量正态分布资料,直线相关的性质可由散点图说明,4,PPT课件,第一节 直线相关,受试者号,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,凝血酶浓度(单位,/,毫升),1.1,1.2,1.0,0.9,1.2,1.1,0.9,0.6,1.0,0.9,1.1,0.9,1.1,1,0.7,凝血时间(秒),14,13,15,15,13,14,16,17,14,16,15,16,14,15,17,表,8-1 15,例健康成人凝血时间与凝血酶浓度测量值记录,5,PPT课件,6,PPT课件,第一节 直线相关,正相关:,x,、,y,同向变化,即,x,增大,y,也增大。,完全正相关,负相关:,x,、,y,反向变化,即,x,增大,,y,减小。,完全负相关,零相关:,x,、,y,变化无规律,相关类型,7,PPT课件,第一节 直线相关,Pearson,相关系数,相关系数是描述两个变量间相关关系的密切程度与相关方向的指标。,总体相关系数,,样本相关系数,r,8,PPT课件,第一节 直线相关,Pearson,相关系数,9,PPT课件,第一节 直线相关,总体相关系数检验,相关系数的假设检验,由于存在抽样误差,要判断总体,X,、,Y,间是否有相关关系,就要对相关系数进行检验。,H,0,:,0,H,1,:,0,t,检验,查附表,7,,相关系数,r,界值表。,10,PPT课件,第一节 直线相关,直线相关分析的步骤,考察资料是否满足双变量正态性,作散点图(,scatter plot,),考察两变量间有无直线趋势,计算相关系数,r,相关系数的假设检验与下结论,11,PPT课件,H,0,:,0,H,1,:,0,a=0.05,据自由度,15-2,13,查,t,临界值表,,P,0.001,故拒绝,H,0,,,接受,H1,,差异有统计学意义。可以认为凝血酶浓度与凝血时间之间存在负相关。,12,PPT课件,第一节 直线相关,直线相关分析的注意事项,要有实际意义,不能把毫无关联的现象都去做相关分析。,样本的相关系数接近零并不意味着两变量间一定无相关性,绘制散点图,一个变量的数值人为选定时莫作相关,两变量间存在直线相关关系,并不表示一定是因果关系,可能是伴随关系。,相关系数的假设检验中,概率,p,不能说明相关关系的密切程度,13,PPT课件,第一节 直线相关,直线相关分析的注意事项,出现异常值时慎用相关,分层资料盲目合并易出假象,14,PPT课件,不满足双变量正态分布,或总体分布类型未知,或等级资料,则进行等级相关分析,等级相关分析主要有,Spearman,法和,Kendall,s tau-u,法。,Spearman,等级相关即秩相关(,rank correlation,),是一种非参数统计方法 。,Spearman,等级相关系数,或称秩相关系数,第二节 秩相关,15,PPT课件,第二节 秩相关,秩相关系数 无量纲,且 。 表示变量和之间的相关程度。 的符号表示相关方向, 称为正相关, 称为负相关。若 的值越接近,1,,则相关性越强;若 的值越接近,0,,则相关性越弱;当 称为零相关; 称为完全相关。,Pearson,相关系数是度量变量间的线性相关关系指标,秩相关系数是作为双变量之间单调关系强弱的统计指标。因此,不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加(或减少)的关系,变量之间的秩相关系数就是,1,(或,-1,),即完全相关。,16,PPT课件,第二节 秩相关,17,PPT课件,第二节 秩相关,秩相关假设检验,18,PPT课件,第二节 秩相关,【,例,9-2】,调查正常成年人脉象,记录各年龄组弦脉阳性率,资料见表,9-2,,试讨论年龄与弦脉阳性率之间是否存在秩相关关系?,19,PPT课件,第二节 秩相关,20,PPT课件,第三节 直线回归,引言,“回归”一词最早由英国统计学家弗朗西斯,高尔顿爵士(,Francis Galton,,,1822-1911,,达尔文的表兄弟)和他的学生、现代统计学的奠基者之一卡尔,皮尔逊(,Karl,Pearson,,,1856-1936,年)在研究父母身高与其子女身高的遗传问题时提出的。他们研究发现身材高的父亲,他们的孩子也高,但这些孩子平均起来并不像他们的父亲那样高。对于比较矮的父亲情形也类似,他们的孩子比较矮,但这些孩子的平均身高要比他们的父亲的平均身高高。高尔顿和皮尔逊把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他们创立的研究计量变量依存关系的方法称为回归分析。,21,PPT课件,第三节 直线回归,概念,直线回归(,linear regression,)又称简单线性回归(,simple linear regression,),是反映两变量间的线性依存关系,它采用最小二乘法原理找出最能描述变量间非确定性关系的一条直线,此直线为回归直线或经验直线,相应的方程为直线回归方程或经验方程。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(,dependent variable,)和自变量(,independent variable,),习惯上分别用,y,来,x,表示。直线回归分,型回归与,型回归两种,,y,依存于,x,为,型回归,,y,与,x,相互依存为,型回归。,22,PPT课件,第三节 直线回归,应用条件,线性回归模型成立需要满足,4,个前提条件,即线性(,linearity,)、独立(,independency,)、正态(,normal,)和等方差性(,equal variance,),简记为,Line,。,2.,独立是指各例观测值,y,i,(,i=1,2,n,)相互独立 通常利用专业知识或残差分析来判断这项假定是否满足。,1.,线性是指因变量的总体平均值与自变量具有线性关系。,通过观察散点的分布来判断有无线性趋势,。,23,PPT课件,第三节 直线回归,应用条件,3.,正态是指因变量值服从正态分布 即要求线性模型的随机误差项,服从正态分布。如果该条件不成立,在正态分布假设下对总体回归系数的假设检验和可信区间估计的结论均无效。可通过专业知识、对变量进行正态性检验或利用残差分析来考察这一条件是否满足。,4,等方差性是指对任意一组自变量,x,1,、,x,2,、,、,x,m,值,因变量,y,具有相同方差 如果该条件不成立,总体回归系数的估计有偏性,可信区间估计及假设检验的结论均无效。通常可利用(,x,i,y,i,)散点图或残差分析判断等方差性。,24,PPT课件,第三节 直线回归,应用条件,资料不满足这四个条件时,常用的处理方法有:修改模型或者采用曲线拟合,也可变量转换。常用的变量转换有对数转换、平方根转换、倒数转换等。变量转换对自变量或(和)因变量均适宜;如果方差不齐,可采用加权最小二乘法估计回归系数。,25,PPT课件,第三节 直线回归,一般步骤,1,绘制散点图,看有无直线趋势,有无异常点 有直线趋势无异常点方可考虑直线回归分析,否则,查找异常点的缘故,剔除过失误差所致的异常点,保留客观存在的异常点进行曲线回归。,2,考察资料是否满足直线回归分析的条件 除线性外,可通过残差分析结果来考察资料是否满足其应用条件。,3,求回归系数,b,和常数项,a,4,写出回归方程,26,PPT课件,第三节 直线回归,一般步骤,5,对回归方程和回归系数进行假设检验,6,绘制回归直线,7,残差分析,8,统计预测,有必要时还可进行统计控制,9,回归分析效果评价,27,PPT课件,第三节 直线回归,直线回归模型,若随机变量,y,和确定性变量,x,(其值是可以精确测量或控制的)存在直线依存关系,则可设其回归模型为:,为待估参数, 为随机误差。,28,PPT课件,第三节 直线回归,直线回归模型,实际中仅能获取有限的样本数据,用直线方程建立关于的近似表达式:,其中, 是对应的随机变量,y,的总体均值的一个估计值, 、 分别是 、 的估计值。,b,为回归系数,(regression oefficient),,又称斜率,(slope),,表示,当,x,变动一个单位时,,y,平均变动,b,个单位。,29,PPT课件,第三节 直线回归,直线回归方程的建立,参数一般只能通过样本数据来估计。当,X,取值为,X,i,时,,Y,的平均值的估计值,应为,a + b X,i,,而实际观察值却是,Y,i,。两者之差称为残差,(residual),。,a,和,b,取不同的数值获得不同的候选直线。如果我们得到了,a,和,b,的适宜值,能使所有,n,个数据点的残差平方和达到最小值,则称这一对,a,和,b,为,和,的最小二乘估计(,least squared estimation,,,LSE,)。上述使回归残差平方和最小的策略称为最小二乘原则。,最小二乘法:各个散点到直线的纵向距离平方和最小。,30,PPT课件,第三节 直线回归,直线回归模型,31,PPT课件,第三节 直线回归,直线回归模型的检验,(一)回归方程的假设检验:用样本资料建立的直线回归方程是否能反映总体上两个变量之间存在直线回归关系,即直线回归方程在总体中是否成立,这就需要进行直线回归方程的假设检验。回归方程的假设检验常采用方差分析。,32,PPT课件,第三节 直线回归,直线回归模型的检验,33,PPT课件,第三节 直线回归,直线回归模型的检验,(二)回归系数的假设检验,:由于抽样误差的原因,即使,x,、,y,的总体回归系数,为零,其样本回归系数,b,也不一定为零,因此需要进行是否为零的假设检验。回归系数的假设检验常采用,t,检验,.,34,PPT课件,第三节 直线回归,直线回归模型的检验,在直线回归方程中,由于只有一个自变量,所以回归模型的方差分析等价于对回归系数进行的,t,检验,且 。但在多元线性回归分析中回归模型的方差分析与(偏)回归系数的,t,检验是有区别的。,(三)总体回归系数的可信区间估计,:,回归系数,b,是总体回归系数的点估计,由于存在抽样误差,需要进行的(,1-,)可信区间估计。,35,PPT课件,第三节 直线回归,直线回归模型的检验,(四)回归方程的拟合优度,1,决定系数(,determining coefficient,,,R,2,) 就是相关系数的平方,r,2,,是回归平方和在总的离均差平方和中所占的比例,反映因变量的总变异中可由回归因素解释的部分。,36,PPT课件,第三节 直线回归,直线回归模型的检验,, 值越接近于,1,,表示回归平方和在的总离均差平方和中所占的比重越大,模型对数据的拟合程度越好,表明利用回归方程进行预测也越有意义。反之, 值越接近于,0,,表示回归平方和在,y,的总离均差平方和中所占的比重越小,模型对数据的拟合程度越差。所以,是评价回归效果的一个重要指标。,37,PPT课件,第三节 直线回归,直线回归模型的检验,2,估计标准误差(,standard error of emtimate,),是残差平方和的均方根,即回归的剩余标准差,用来 表示,是指扣除了,x,对,y,的线性影响后,,y,的变异,可用于说明估计值 的精确性。它越小,表示回归方程的估计精度越高。若各观察点都落在回归直线上,则它等于,0,,此时用自变量来预测因变量是没有误差的。因此, 也是考究回归直线拟合优度的一个统计量。,38,PPT课件,第三节 直线回归,绘制回归直线,可在坐标轴上任意取相距较远且易读的两值,根据所求直线回归方程算得对应值,用直线连接两点。应注意的是,回归直线可适当延长,但不应超过的实测值范围;另外,所绘回归直线必然通过( ),据此可判断所绘图形是否正确。,39,PPT课件,第三节 直线回归,残差分析与异常值诊断,残差(,residual,)是因变量的观测值 与根据回归方程求出的预测值 之差,,,它反映了用回归方程去预测 而引起的误差,。,残差分析(,residual analysis,)旨在通过残差深入了解数据与回归方程之间的关系,考察资料是否满足独立性、正态性和等方差性,检测有无异常值等。常用的是标准化残差与标准化残差图。,40,PPT课件,第三节 直线回归,残差分析与异常值诊断,标准化残差(,standardized residual,)是残差除以它的标准差后得到的数值,也称,Pearson,残差。以自变量取值为横轴,以标准化残差为纵坐标,就可绘制标准化残差图。资料满足独立性、正态性和等方差性,也无异常值,则,95%,的标准化残差应在(,-1.96,,,1.96,)之间。因此,通常以(,-2,,,2,)区间为界限来证实模型的假定条件是否得到满足,判断有无异常值。,如果标准化残差大于,2,的观测值比较多,则资料不满足独立性、正态性和等方差性;当标准化残差大于,2,时,该条观测可能就是异常值,大于,3,(,3-,原则)时几乎可以肯定该条观测为异常值(离群点)。,41,PPT课件,第三节 直线回归,直线回归方程应用,42,PPT课件,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!