双变量回归与相关-医学统计教学课件

上传人:痛*** 文档编号:242851278 上传时间:2024-09-08 格式:PPT 页数:98 大小:2.34MB
返回 下载 相关 举报
双变量回归与相关-医学统计教学课件_第1页
第1页 / 共98页
双变量回归与相关-医学统计教学课件_第2页
第2页 / 共98页
双变量回归与相关-医学统计教学课件_第3页
第3页 / 共98页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Click to edit Master title style,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,双变量回归与相关-医学统计教学课件,讲课内容:,第一节 直线回归,(重点),第二节 直线相关,(重点),第三节 秩相关,第六节 两条回归直线的比较,第七节 曲线拟合,2,事物间的相关关系,确定性关系,两变量间的函数表达式,圆的周长与半径的关系:,C,2,R,路程与速度、时间的关系:,L,ST,数学中,X,与,Y,的直线函数关系:,Y,a+bX,非确定性关系,两变量间存在关系,但未精,确到可以用函数表达式来描述。,年龄与血脂的关系;,身高与体重的关系;,体重与体表面积的关系。,5,第一节 直线回归,Linear Regression,6,一、直线回归的概念,“回归”是一个借用已久因而相沿成习,的统计学术语。,直线回归是分析,成对观测数据,中两变量,间,线性依存关系,的方法。,7,生物遗传学上的“回归”,Pearson K(,英,1857,1936)1903,年搜集了,1078,个家庭人员的身高、前臂长等指标的记录,发现儿子身高,(Y,英寸,),与父亲身高间,(X,英寸,),存在线性依存关系:,=33.73+0.516 X,但不少身材高的父亲的儿子成年后身高比其父亲矮,不少身材矮的父亲的儿子成年后身高比其父亲高。,Galton,F (,英,1822,1911 ),将这种现象称之为子一代身高向人群平均身高的“回归”。,8,Regression 释义,2,10,=1024,9,Francis Galton,Francis Galton 爵士 (英,18221911) 是达尔文(Charles Darwin) 的表弟。他对统计学的主要贡献是提出“相关”与“回归”的概念,用统计方法对进化论中的变异进行研究,开创了生物统计学。,10,Karl Pearson,Karl Pearson (,英,18571936)是Francis Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。,11,天文学上的“回归”,地球绕太阳公转,在公转的同时本身还自转,在本身自转的同时地球的假设轴心还来回摆动。由于地球轴心的来回摆动,太阳光垂直照射到地球上就有南、北两个极限位置,(,南、北纬,23,0,27,),,,分别称南、北回归线,太阳光对赤道“回归”垂直照射到南、北回归线的时间分别为我国农历的冬至与夏至。,12,日常生活中的“回归”现象,1,岁姜二狗,,7,岁姜二狗同学,,20,岁小姜同志,,30,岁姜科长,,40,岁姜处长,,50,岁姜局长,,60,岁姜老,,70,岁老姜,,80,岁姜二狗。,目前“回归”已成为表示变量之间,数量依存关系,的统计术语,并且衍生出“回归方程”、 “回归系数”等统计学概念。,13,例,某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h),试估计尿肌酐含量(Y)对其年龄(X)的回归方程。,14,年龄(岁)X,尿肌酐含量,Y,(mmol/24h),hat,15,各散点呈直线趋势,但并非均在一条直线上,根据原始数据拟合的直线方程与数理,上二元一次函数方程在内涵上有区别,,称为,直线回归方程,。,16,二、直线回归方程的求法,最小二乘法,在所有直线中最小,17,18,CASIO fx-3600PV,计算器计算,a、b,与,r,步骤,键 盘,说 明,1,MODE 2,进入线性回归模式,LR,2,SHIFT KAC,清除以前储存数据,3,13 X,D,Y,D,3.54 DATA,数据输入,11 X,D,Y,D,3.01 DATA,9 X,D,Y,D,3.09 DATA, ,4,SHIFT r,显示相关系数,0.8818,5,SHIFT a,显示截距,1.6617,6,SHIFT b,显示回归系数,0.1392,SHIFT DEL,删除输错的一对数据,19,年龄(岁)X,尿肌酐含量,Y,(mmol/24h),(8,2.8),(12,3.3),20,b,的意义,斜率,(slope),年龄每增加1岁,尿肌酐含量平均增加0.1392(mmol/24h),b,的单位为,(Y,的单位,/X,的单位,),21,a 截距(intercept, constant),X=0 时,Y的估计值,a的单位与Y值相同,当X可能取0时,a才有实际意义。,a,的意义,22,回归直线的有关性质,直线通过均点,各点到该回归线纵向距离平方和较到其它任何直线者为小。,为来自,的一个样本,对于X各个取值,相应Y的总体均数,23,X,Y,24,三、直线回归方程中的统计推断,(一)回归方程的假设检验,1.方差分析,(1)建立检验假设并确定检验水准,H,0,:=0 H,1,: 0,=0.05,的分解,重点,25,因变量Y总变异 的分解,X,Y,Y,26,SS,总,=SS,回,+SS,残,27,未引进回归时的总变异:,(sum of squares of deviation from mean),引进回归以后的剩余变异:,(sum of squares of residuals),回归的贡献,回归平方和:,(sum of squares due to regression),Y的总变异分解,28,(3)计算检验统计量F值,SS,总,=l,YY,=1.0462,SS,回,=bl,XY,=l,2,XY,/l,XX,=5.845,2,/42=0.8134,SS,残,=,SS,总,SS,回,=1.04620.8134=0.2328,v,总,=v,回,+v,剩,v,总,=n,1,v,回,=1, v,残,=n,2,29,F,0.01(1,6),=13.74,30,2. t 检验,回归的剩余标准差,扣除了X的影响后Y方面的变异;,引进回归方程后, Y方面的变异。,31,(2)计算检验统计量 t 值,(1)建立检验假设并确定检验水准,(3)确定P值下结论,32,(二)总体回归系数,的可信区间,此区间不包括=,0,结论为b有统计学意义。,33,SPSS结果,34,(三)利用回归方程进行估计与预测,1.总体均数 的可信区间,: 给定X后对应Y的总体均数,给定X后对应Y的样本均数,35,2.个体Y值的容许区间,给定X后对应个体Y值波动范围,36,X Y,(体重,kg) (体表面积,10,3,cm,2,),11.0 5.283,11.8 5.299,12.0 5.358,12.3 5.292,13.15.602,13.7 6.014,14.4 5.830,14.9 6.102,15.2 6.075,16.0 6.411,例 某地10名三岁儿童体重与体表面积,37,11,12,13,14,15,16,4.5,5.0,5.5,6.0,6.5,7.0,可信区间,与,容许区间,示意,(confidence band & tolerance band),X 体重,Y 体表面积,38,第二节 直线相关,Linear Correlation,39,生物遗传学上的“相关”,在回归分析中,有理由认为父亲身高决定儿子身高,故把父亲身高作为自变量,X,,儿子身高作为应变量,Y,。,Pearson K(,英,1857,1936),在对同一家庭中兄弟与姐妹身高间关系进行分析时,发现两者难以象父亲与儿子身高间关系那样区别自变量,X,与应变量,Y,,也不必计算回归方程。,Galton,F(,英,1822,1911),将这种现象称之为 “相关”。,40,当一个变量增大,另一个也随之增大,(,或减少,),,我们称这种现象为共变,或相关。,两个变量有共变现象,称为有相关关系,。,相关关系不一定是因果关系。,一、直线相关的概念,41,r = 0,(h),r 0,(f),r-1,(d),r1,(b),0r1,(a),-1r0,(c),r,0,(e),r,0,(g),零相关,正相关,负相关,完全正相关,完全负相关,零相关,零相关,零相关,相互关系示意图,42,相关系数的性质,两变量间的线性关系密切程度与相关方,向用直线相关系数,r,表示。,1 r 1,r,0,为正相关,r,0,为负相关,r,0,为零相关或无相关,43,二、相关系数的意义与计算,Pearson 相关系数,标准化后的协方差,44,45,SPSS结果,46,三、相关系数的统计推断,(一)相关系数的假设检验,尿肌酐含量与年龄之间无直线相关关系,47,附表2,附表13,48,(二)总体相关系数的可信区间,相关系数的抽样分布在,0,时呈偏态分布,Z的1-可信区间:,变换后r的1-,可信区间:,Z变换后服从正态分布,49,相关系数的抽样分布(|, |,= 0.8,n=100,1000次抽样),-0.8,-0.6,-0.4,-0.2,0.0,0,100,200,300,-1.0,0,0.2,0.4,0.6,0.8,1.0,0,100,200,300,= - 0.8,= 0.8,50,R.A. Fisher(1921) 的,z,变换,z,近似服从均数为 ,,标准差为 的正态分布。,51,相关系数的z变换值的抽样分布(,= - 0.8),0,0.5,1.0,1.5,2.0,0,50,100,150,200,-0.8,-0.6,-0.4,-0.2,0.0,0,100,200,300,-1.0,变换前,变换后,52,0,1,2,3,4,0,50,100,150,200,0,0.2,0.4,0.6,0.8,1.0,0,100,200,300,相关系数的z变换值的抽样分布(,=0.8),变换前,变换后,53,相关系数的可信区间估计,1. 将 r 变换为 z 。,2. 根据 z 服从正态分布,估计 z 的可信区间。,3. 再将 z 变换回 r。,54,求得,8,名健康成人血清总胆固醇与低密度脂蛋白胆固醇含量间的,r=0.974,,试求总体相关系数,的,95%,可信区间。,z的95%可信区间:,总体相关系数的95%可信区间 :,(0.8587 0.9954),55,四、决定系数,0R,2,1,Y,的总变异中回归关系所能解释的百分比,年龄可解释尿肌酐含量变异性的,77.75%,56,五、直线回归与直线相关的区别与联系,区别,r,没有单位,,b,有单位;,相关表示相互关系,没有依存关系;,回归有依存关系;,对资料的要求不同:,当,X,和,Y,都是随机的,可以进行相关和回,归分析;,当,Y,是随机变量,,X,是控制变量时,理论,上只能作回归而不能作相关分析;,57,区别,I,型回归:,Y,是随机变量,,X,是控制变量;,II,型回归:,Y,与,X,均是随机变量。,同一资料中由,X,推算,Y,与由,Y,推算,X,的回归方程不同:,58,联系,均表示线性关系,符号相同:共变方向一致,假设检验结果相同:,t,r,=,t,b,可以互相换算:,59,六、直线回归与相关应用的注意事项,相关:,X,与,Y,没有主次,为双向。,回归:,Y,依,X,变化而变化,为单向。,自变量的选择:,原因、容易测量、变异小,要有实际意义。,1.根据分析目的选择变量及统计方法,60,孩子的身高与小树,的高度间显示出显,著的相关性,61,有无异常点,谨慎剔除。,2.,进行相关、回归分析前要绘制散点图,,进行判断,62,离群值对相关的影响,63,样本的间杂性对相关性的误导,64,3.,用残差图考察数据是否符合模型假设条件,Y,与,X,为线形关系,误差服从均数为,0,的正态分布,方差相等,各观察单位独立,回归模型应用前提条件:,65,e,0,66,0,0,0,0,e,e,e,e,67,P,值越小越有理由认为变量间直线关系,存在,不能说关系越密切。,直线回归关系可以内插,不宜外延。,当样本含量较大时,统计学检验的作用,减弱。,r,0.05/2,100,=0.195,4.结果的解释及正确应用,68,第三节 秩相关,Rank Correlation,一、,Spearman,秩相关,69,应用条件:,1.,不服从双变量正态分布而不宜作积差,相关分析;,2.,总体分布类型未知;,3.,原始数据用等级表示。,70,work years of potential life lost,71,72,或用秩P,i,、Q,i,直接计算积差相关系数r,附表14(n50),73,SPSS结果,74,第六节 两条回归直线的比较,一、两个回归系数的比较,二、两个截距的比较,75,76,Y,X,b,c,b,2,b,1,b,c,0,77,第七节 曲线拟合,78,一、曲线拟合的一般步骤,1.,依据分析目的确定,X,与,Y,,根据两变量,散点图、结合专业知识选择曲线类型。,2.,求回归方程:曲线直线化。,3.,拟合优度:,R,2,。,79,CRF:,促肾上腺皮质激素释放因子,ACTH:,肾上腺皮质激素,例9-13,80,例9-13数据散点图,CRF(nmol/L) X,Y,ACTH(pmol/L),81,82,例9-13数据对X作对数变换散点图,Y,ACTH(pmol/L),lg,CRF(nmol/L) X,83,例9-14,84,例,9-14,数据散点图,病人住院天数(天) X,Y,预后指数,85,l,nY,预后指数,例9-14数据对Y作对数变换散点图,病人住院天数(天) X,86,用最小二乘估计只能保证 最小,不能保证将变换值方程 回代后得到的 最小。,87,二、曲线拟合的用途,1.,定量刻画,X,与,Y,的关系。,2.,用决定系数,R,2,反应两变量曲线关系的密切程度。,88,Y,X,0,三、常见的几种曲线,对数曲线,89,Y,X,0,指数曲线,90,Y,X,0,Y = b,0,+ b,1,X + b,2,X,2,抛物线,91,Y,X,Y = b,0,+ b,1,X + b,2,X,2,+ b,3,X,3,0,3次多项式曲线,92,SPSS中曲线模型,93,94,例9-13,95,例9-14,96,讲课内容:,第一节 直线回归,(重点),第二节 直线相关,(重点),第三节 秩相关,第六节 两条回归直线的比较,第七节 曲线拟合,97,Thank you!,98,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!