生物医学研究的统计方法之十七判别分析课件

上传人:20****08 文档编号:242206237 上传时间:2024-08-16 格式:PPT 页数:69 大小:2.70MB
返回 下载 相关 举报
生物医学研究的统计方法之十七判别分析课件_第1页
第1页 / 共69页
生物医学研究的统计方法之十七判别分析课件_第2页
第2页 / 共69页
生物医学研究的统计方法之十七判别分析课件_第3页
第3页 / 共69页
点击查看更多>>
资源描述
生物医学研究的统计方法,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,*,厚德载物 自强不息,*,生物医学研究的统计方法,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,厚德载物 自强不息,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,厚德载物 自强不息,*,生物医学研究的统计方法之十七判别分析,51、没有哪个社会可以制订一部永远适用的宪法,甚至一条永远适用的法律。杰斐逊,52、法律源于人的自卫本能。英格索尔,53、人们通常会发现,法律就是这样一种的网,触犯法律的人,小的可以穿网而过,大的可以破网而出,只有中等的才会坠入网中。申斯通,54、法律就是法律它是一座雄伟的大夏,庇护着我们大家;它的每一块砖石都垒在另一块砖石上。高尔斯华绥,55、今天的法律未必明天仍是法律。罗伯顿,生物医学研究的统计方法之十七判别分析生物医学研究的统计方法之十七判别分析51、没有哪个社会可以制订一部永远适用的宪法,甚至一条永远适用的法律。杰斐逊,52、法律源于人的自卫本能。英格索尔,53、人们通常会发现,法律就是这样一种的网,触犯法律的人,小的可以穿网而过,大的可以破网而出,只有中等的才会坠入网中。申斯通,54、法律就是法律它是一座雄伟的大夏,庇护着我们大家;它的每一块砖石都垒在另一块砖石上。高尔斯华绥,55、今天的法律未必明天仍是法律。罗伯顿生物医学研究的统计方法之十七,判别分析,Discriminant Analysis,4/13/20212厚德载物 自强不息判别分析的基本概念 什么是判别分析,判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。,在医学研究中经常遇到这类问题;例如, 临床上常需根据就诊者的各项症状、 体征、实验室检查、病理学检查及医学影像学资料等对其作出是否有某种疾病的诊断或对几种可能患有的疾病进行鉴别诊断,有时已初步诊断为某种疾病,还需进一步作出属该类疾病中哪一种或哪一型的判断。4/13/20213厚德载物 自强不息,生物医学研究的统计方法之十七判别分析51、没有哪个社会可以制,生物医学研究的统计方法之十七判别分析课件,生物医学研究的统计方法之十七判别分析课件,生物医学研究的统计方法之十七判别分析课件,生物医学研究的统计方法之十七判别分析课件,(2)收集数据,得到训练样本,对于若干已明确诊断为癌症的110个病人和无癌症的190个正常人均用显微分光光度计对细胞进行检测,得到X1,X2和X3的值。这就是,训练样本。,例号 X1 X2 X3 Y(类别),1 1 2 2 0,2 2 5 6 1,。,300 3 3 3 0,8/16/2024,6,厚德载物 自强不息,(2)收集数据,得到训练样本8/25/20236厚德载物,(3)用判别分析方法得到判别函数,根据实测资料(训练样本)用判别分析方法可建立判别函数,本例用Fisher判别分析方法得到:,Y=a,1,X1+a2,X2+a3,X3,找到界线C,YC为是,Y=X,1,+10X,2,+10X,3,并确定判别准则为: 如有某病人的X,1,X,2,X,3,实测值,代入上述判别函数可得Y值,Y100则判断为癌症,Y100则判断为癌症,Y100则判断为非癌症。,8/16/2024,9,厚德载物 自强不息,(5)实际应用8/25/20239厚德载物 自强,判别分析的一般步骤,8/16/2024,10,厚德载物 自强不息,判别分析的一般步骤8/25/202310厚德载物,判别分析通常都要建立一个,判别函数,,然后利用此判别函数来进行判别。,为了建立判别函数就必须有一个,训练样本,。判别分析的任务就是向这份样本学习, 学出判断类别的规则, 并作多方考核。,训练样本的质量与数量至为重要。每一个体所属类别必须用,“,金标准,”,予以确认; 解释变量(简称为变量或指标)X,1,X,2, X,p,必须确实与分类有关; 个体的观察值必须准确;个体的数目必须足够多。,8/16/2024,11,厚德载物 自强不息,判别分析通常都要建立一个判别函数,然后利用此判别函数,训练样本的数据内容与符号,解释变量,个体号 类别变量(Y),X,1,X,2,X,j,X,P,1 X,11,X,12,X,1j,X,1P,y,1,2 X,22,X,22,X,2j,X,2P,y,2,i X,i1,X,i2,X,ij,X,iP,y,3,n X,n1,X,n2,X,nj,X,nP,y,P,8/16/2024,12,厚德载物 自强不息,训练样本的数据内容与符号8/25/202312厚德载物,判别分析常用方法,(1)最大似然法 该法是建立在概率论中独立事件乘法定律的基础上, 适用于各指标是定性的或半定量的情况。,(2)Fisher判别分析 用于两类或两类以上间判别,但常用于两类间判别,上例中应用的就是Fisher判别分析方法。,(3)Bayes判别分析 用于两类或两类以上间判别,要求各类内指标服从多元正态分布。,8/16/2024,13,厚德载物 自强不息,判别分析常用方法(1)最大似然法 该法是建立在概率论中独,(,4)逐步判别分析 建立在Bayes判别分析基础上,它象逐步回归分析一样,可以在众多指标中挑选一些有显著作用的指标来建立一个判别函数, 使方程内的指标都有显著的判别作用而方程外的指标作用都不显著。,(5)logistic判别 常用于两类间判别。它不要求多元正态分布的假设,故可用于各指标为两值变量或半定量的情况。,8/16/2024,14,厚德载物 自强不息,(4)逐步判别分析 建立在Bayes判别分析基础上,它,判别分析建模的方法,根据自变量(x)资料性质:,自变量(x)为计量数据:,Fisher判别、Bayes判别(SPSS、SAS统计软件可实现)。,自变量(x)为定性数据:,最大似然判别法、Bayes公式判别。,8/16/2024,15,厚德载物 自强不息,判别分析建模的方法根据自变量(x)资料性质:8/25/202,Fisher判别,两类判别,Fisher判别(典则判别 canonical discriminant),用已知类别(A或B)研究对象的x,1, x,2,x,m,指标,建立判别方程(z):,方程中系数c为判别系数,c,1,c,2,c,m,,8/16/2024,16,厚德载物 自强不息,Fisher判别两类判别Fisher判别(典则判别,Fisher判别的原理,正常人,冠心病人,z1,z2,Z,8/16/2024,17,厚德载物 自强不息,Fisher判别的原理正常人冠心病人z1z2Z8/25/20,Fisher方差分析的思想,准则:寻找组间变异(类间均数)/ 组内变异的比值最大化.,英国统计学家Fisher,R A 爵士(18901962),8/16/2024,18,厚德载物 自强不息,Fisher方差分析的思想 准则:寻找组,通过解下列距阵得到判别系数(c),S,ij,为第i指标和第j个指标的合并协方差,类间均数差值,8/16/2024,19,厚德载物 自强不息,通过解下列距阵得到判别系数(c)Sij为第i指标和第,2.建立判别规则和判别值(Z,c,),判为A类,判为B类,判为任意一类,8/16/2024,20,厚德载物 自强不息,2.建立判别规则和判别值(Zc)判为A类8/25/2,两类疾病 22例患者三项指标观察结果,编号 类别(y) x1 x2 x3,1 A 23 8 0,2 A -1 9 -2,3 A -10 5 0,13 B 9 -5 1,14 B 2 -1 - 1,15 B 17 -6 - 1,8/16/2024,21,厚德载物 自强不息,两类疾病 22例患者三项指标观察结果编号 类别(y,计算步骤:,1.计算各类均数和合并(A、B)的协方差距阵(S),8/16/2024,22,厚德载物 自强不息,计算步骤:8/25/202322厚德载物 自强不,变量的合并方差和协方差,8/16/2024,23,厚德载物 自强不息,变量的合并方差和协方差8/25/202323厚德载物,2.解正规方程得出判别系数C,类间均数差值,8/16/2024,24,厚德载物 自强不息,2.解正规方程得出判别系数C类间均数差值8/25/20232,3.计算判别界值Z,c,将各类每个个体的变量值代入判别方程,得到z,i,,得到z,A,和z,B,的均数.,预测:,某病人测定了x1、x2、x3值,代入方程z,计算的z-0.004,为A类。,8/16/2024,25,厚德载物 自强不息,3.计算判别界值Zc 将各类每个个体的变量值代入判,例:表18-1两类疾病 22例患者三项指标预测结果,类别 x1 x2 x3,z值 判别结果,A 23 8 0 0.19 A,A -1 9 -2 2.73 A,A -10 5 0 1.83 A,B 9 -5 1 -2.07 B,B 2 -1 -1 -0.05 A,B 17 -6 -1 -2.22 B,z-0.004,为A类,8/16/2024,26,厚德载物 自强不息,例:表18-1两类疾病 22例患者三项指标预测结果类别,二、判别效果的评价,用误判率评价:,8/16/2024,27,厚德载物 自强不息,二、判别效果的评价用误判率评价:8/25/202327厚德载,资料回顾性判别效果评价,原分类 判别分类,A B 合计,A 10 2 12,B 2 8 10,合计 12 10 22,第A类误判率=2/12=16.6%,第B类误判率=2/10=20.0%,方程总误判率=4/22=18.2%,8/16/2024,28,厚德载物 自强不息,资料回顾性判别效果评价原分类 判别,目前判别分析效果评价方法,1.回顾性评价:,将原始数据带入判别方程得误判率评价.,2.前瞻性:,将原始数据分为0.85(训练样本)建立判别方程和0.15(验证样本).计算误判率(要求例数较多)。,3.误判率,总误判率低于0.2,认为判别函数可用.,8/16/2024,29,厚德载物 自强不息,目前判别分析效果评价方法1.回顾性评价:8/25/2023,例:世界经济统计研究(1995年)人文指数 反映国家综合水平,国家,类别,期望寿命,识字率,GDP,美国,1.00,76.00,99.00,5374.00,日本,1.00,79.50,99.00,5359.00,训练样本,瑞士,1.00,78.00,99.00,5372.00,阿根廷,1.00,72.10,95.90,5242.00,阿联酋,1.00,73.80,77.70,5370.00,保加利亚,2.00,71.20,93.00,4250.00,古巴,2.00,75.30,94.90,3412.00,巴拉圭,2.00,70.00,91.20,3390.00,格鲁吉亚,2.00,72.80,99.00,2300.00,南非,2.00,62.90,80.60,3799.00,中国,2.00,68.50,79.30,1950.00,待判样本,罗马尼亚,2.00,69.90,96.90,2840.00,希腊,1.00,77.60,93.80,5233.00,哥伦比亚,1.00,69.30,90.30,5158.00,8/16/2024,30,厚德载物 自强不息,例:世界经济统计研究(1995年)人文指数,Bayes判别分析,(一). Bayes准则,设有定义明确的,g个总体,1,2,g, 分别为X,1,X,2,X,p,的多元正态分布,。对于任何一个个体, 若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。,如果我们制订了一个判别分类规则, 难免会发生错分现象。,把实属第i类的个体错分到第j类的概率记为P(ji),这种错分造成的损失记为C(ji)。,Bayes判别准则就是,平均损失,最小的准则。按照这个准则去找一种判别分类的规则,就是Bayes判别。,8/16/2024,31,厚德载物 自强不息,Bayes判别分析(一). Bayes准则 8/25/20,(二). 分类函数 (,g个类别,p个指标),Bayes准则下判别分析的分类函数形式如下:,Y,1,=C,01,+C,11,X,1,+C,21,X,2,+,+C,p1,X,p,Y,2,=C,02,+C,12,X,1,+C,22,X,2,+,+C,p2,X,p,Y,g,=C,0g,+C,1g,X,1,+C,2g,X,2,+,+C,pg,X,p,8/16/2024,32,厚德载物 自强不息,(二). 分类函数 (g个类别,p个指标)8/25/2023,即g个线性函数的联立方程,每个线性函数对应于某一类别。其中C,0j,,C,1j,,,,C,pj,,(j=1,2,g)为需估计的参数。,判别函数建立后通常的判别准则为:如欲判断某样品属于上述g类中的哪一类,可将该样品的各X,i,值代上式中的各个方程,分别算出Y,1,,Y,2,,,,Y,g,等值。其中如Y,f,为最大则意味着该样品属第f类的概率最大,故判它属于第f类。,8/16/2024,33,厚德载物 自强不息,即g个线性函数的联立方程,每个线性函数对应于某一类别。其中C,事前概率(prior probability)又称先验概率。如在所研究的总体中任取一个样品,该样品属于第f类别的概率为q(y,f,),则称它为类别f的事前概率。,例如, 阑尾炎病人总体中卡他性占50,蜂窝织炎占30,坏疽性占10,腹膜炎占10; 则在该总体中任取一个阑尾炎病人,该病人属于以上四型的概率分别为0.5,0.3,0.1和0.1, 它们也分别是这四类的事前概率。,(三).,事前概率,8/16/2024,34,厚德载物 自强不息,事前概率(prior probability)又称先,考虑事前概率时,判别函数如下式,:,Y,1,=C,01,+C,11,X,1,+C,21,X,2,+,+C,p1,X,p,+ln(q(Y,1,),Y,2,=C,02,+C,12,X,1,+C,22,X,2,+,+C,p2,X,p,+ln(q(Y,2,),Y,g,=C,0g,+C,1g,X,1,+C,2g,X,2,+,+C,pg,X,p,+ln(q(Y,g,),差别仅仅在于ln(q(Y,j,)项,8/16/2024,35,厚德载物 自强不息,考虑事前概率时,判别函数如下式:8/25/202335厚德载,考虑事前概率可适当提高判别的敏感性。事前概率可据于,文献报道或以往的大样本研究,。但是困难在于事前概率往往不容易知道;如果训练样本是从所研究的总体中随机抽取的,则,可用训练样本中各类的发生频率Q(Y,j,),来估计各类别的事前概率q(Y,j,)。如果事前概率未知,而又不可以用Q(Y,j,)来估计q(Y,j,),就只能将事前,概率取为相等值,,即取q(Y,j,)=1/g。,8/16/2024,36,厚德载物 自强不息,考虑事前概率可适当提高判别的敏感性。事前概率可据于文,(四). 事后概率,事后概率(posterior probability)又称后验概率。如果已知某样品各个指标X,i,的观察值为S,i,,则在该条件下,样品属于Y,j,类别的概率P(Y,j,/S,1,S,2,S,P,)称为事后概率。,事后概率和指标的值有关,。,引入事后概率后,可用事后概率来描述某样品属于Y,j,类别的概率。这就使得判别的可靠性有一个数量的指标。,8/16/2024,37,厚德载物 自强不息,(四). 事后概率 事后概率(posterior prob,例:A1,A2,A3的事后概率为0.95,0.03和0.02,判为A1类的可靠性好。,A1,A2,A3的事后概率为0.40,0.30和0.30,判为A1类的可靠性差。,如欲判别某样品属于哪个类别时,可据样品各指标的取值S,1,,S,2,,,,S,P,代入判别函数,求得各类别之Y值,即Y,1,,Y,2,,,,Y,g,。,8/16/2024,38,厚德载物 自强不息,例:A1,A2,A3的事后概率为0.95,0.03和0.02,事后概率的计算公式为:,8/16/2024,39,厚德载物 自强不息,事后概率的计算公式为:8/25/202339厚德载物,8/16/2024,40,厚德载物 自强不息,8/25/202340厚德载物 自强不息,仅凭哪一个事后概率为最大,就判为那一类别有时是不够的。例如某样品属于三个类别的事后概率分别为0.95,0.03,0.02,则判为第一类的可靠性就较大。但如果三个事后概率分别为0.4,0.3,0.3。再判为第一类的可靠性就较差了。 与临床上诊断相类似,当对某病员的诊断把握不大时,常定为可疑或待查等。,8/16/2024,41,厚德载物 自强不息,仅凭哪一个事后概率为最大,就判为那一类别有时是不够的,例,某医院眼科研究糖尿病患者的视网膜病变情况, 视网膜病变分轻、中、重三型。研究者用年龄(age)、患糖尿病年数(time)、血糖水平(glucose)、视力(vision)、视网膜电图中的a波峰时(at)、a波振幅(av)、b波峰时(bt)、b波振幅(bv)、qp波峰时(qpt)及qp波振幅(qpv)等指标建立判别视网膜病变的分类函数, 以判断糖尿病患者的视网膜病变属于轻、中、重中哪一型。,8/16/2024,42,厚德载物 自强不息,例 某医院眼科研究糖尿病患者的视网膜病变情况, 视网膜病变,观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患, 眼底无明显其他视网膜 疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。见表。(表中仅列出前5例)。试以此为训练样本, 仅取age,vision,at,bv和qpv 5项指标, 求分类函数, 并根据王的信息: 38岁, 视力1.0, 视网膜电图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变属于哪一型。,8/16/2024,43,厚德载物 自强不息,观察131例糖尿病患者,要求其患眼无其他明显眼前段,131例糖尿病患者各指标实测记录(前5例),例号 年龄 患病 血糖 视力 a波 a波 b波 b波 qp波 pq波 视网膜,年数 峰时 振幅 峰时 振幅 峰时 振幅 病变程度,1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1,2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1,3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1,4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1,5 54 10.00 137 0.6 13.75 269.59 55.50 451.27 78.0 33.70 A2,8/16/2024,44,厚德载物 自强不息,131例糖尿病患者各指标实测记录(前5例)8/25/2023,解,假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率, 可得分类函数,Y,1,-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv),Y,2,-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv),Y,3,-189.228+0.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv),以王的观察值代入分类函数, 得,Y,1,=-181.447+0.47338+60.3691.0+17.70814.25,+0.048383.39+0.36443.18,=183.36,同样可算得: Y,2,180.58, Y,3,179.66,其中最大者为Y,1, 故判断为轻度病变。,8/16/2024,45,厚德载物 自强不息,解 假定样本系从总体中随机抽取,则样本中三种疾患类型的样本,由上例见, Y,1, Y,2, Y,3,的数值相差不多,单纯凭分类函数值的大小作决策有时易出偏差。这时, 分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属, 而避免武断。令Y*=180, 从而有,P(Y,1,X,1,X,2,X,5,)e,(183.36-180),/(e,(183.36-180),+e,(180.58-180),+e,(179.66-180),),e,4.36,/(e,4.36,+e,1.58,+e,0.66,),0.9202,类似地, 可得,P(Y,2,X,1,X,2,X,5,),0.0571,P(Y,3,X,1,X,2,X,5,),0.0227,由此可见王为轻度病变的概率为0.9202,因此把他判断为轻度病变可靠性较大。,8/16/2024,46,厚德载物 自强不息,由上例见, Y1, Y2, Y3的数值相差不多,单纯,逐步判别分析,从逐步回归分析中我们已知道,回归方程中的自变量并非越多越好。作用不大的变量进入方程后不但无益,反而有害。在判别分析中也有类似情况,解释变量并非越多越好。解释变量的特异性越强,判别能力越强,这类解释变量当然越多越好;相反,那些判别能力不强的解释变量如果引入分类函数,同样也是有害无益的,不但增加了搜集数据和处理数据的工作量,而且还可能削弱判别效果。因此我们希望在建立分类函数时既不要遗漏有显著判别能力的变量, 也不要引入不必要的判别能力很弱的变量。逐步判别分析是达到上述目标的重要方法。它象逐步回归分析一样,可以在很多候选变量中挑选一些有重要作用的变量来建立分类函数,使方程内的变量都较重要而方程外的变量都不甚重要。分类函数内的变量是否有重要作用可用,F检验, 检验的零假设是:该变量对判别的贡献为零。若P值较小便拒绝零假设,认为该变量的贡献具有统计学意义。,8/16/2024,47,厚德载物 自强不息,逐步判别分析 从逐步回归分析中我们已知道,回归方程中,含10个变量的分类函数中各变量的统计检验,变量 F值 P值,年龄 25.338 0.0001,病程 1.211 0.3016,血糖 1.255 0.2889,视力 45.956 0.0001,at 20.310 0.0001,av 0.219 0.8037,bt 0.950 0.3898,bv 6.012 0.0033,qpt 0.971 0.3818,apv 1.989 0.1414,8/16/2024,48,厚德载物 自强不息,含10个变量的分类函数中各变量的统计检,逐步判别分析剔选变量结果,判别函数内 判别函数外, ,变量 F值 P值 变量 F值 p值,年龄 28.818 0.0001 病程 0.891 0.4127,视力 46.491 0.0001 血糖 0.793 0.4548,at 24.964 0.0001 av 0.397 0.6730,bv 9.387 0.0002 bt 0.421 0.6572,qpv 3.829 0.0243 qpt 1.016 0.3649,8/16/2024,49,厚德载物 自强不息,逐步判别分析剔选变,回顾性考核和前瞻性考核,分类函数及判别准则建立后必须进行考核。考核就是将样品逐一用所建立的判别准则进行归类, 求出其假阳性率、假阴性率及总的错误率。考核可分为回顾性考核与前瞻性考核。,回顾性考核也称回代或组内考核(internal validation),即用原来的训练样本进行考核。前瞻性考核也称组外考核,是对新的已知其分类的样品(称为考核样本)进行考核。用前瞻性考核可估计总体中的假阳性率、假阴性率和总的错误率。,8/16/2024,50,厚德载物 自强不息,回顾性考核和前瞻性考核 分类函数及判别准则建立后必须进,除了可用前瞻性考核来估计总体中的错误率外,还可用,刀切法(jackknife)交叉考核(cross validation)。,其方法如下:设训练样本中共有n个个体,先搁置第一个个体,对其余n-1个个体进行判别分析求出判别函数,用该函数对第一个个体进行考核;然后放回第一个个体, 搁置第二个个体,用其余n-1个个体求出判别函数并对第二个个体进行考核,每次搁置一个个体,用其余的n-1个个体作出判别函数(注意,这些判别函数可能不相同),对搁置的个体进行考核,一共进行n次,遍历每一个个体;从而求出假阳性率、假阴性率和总的错误率,称为刀切法交叉考核,它们可作为前瞻性考核的辅助信息。,8/16/2024,51,厚德载物 自强不息,除了可用前瞻性考核来估计总体中的错误率外,还可用刀,回顾性考核结果,判别函数分类,原分类 合计 错误率(%),A1 A2 A3,A1 62 4 2 68 8.82,A2 1 41 1 43 4.65,A3 1 0 19 20 5.00,合计 64 45 22 131 6.87,8/16/2024,52,厚德载物 自强不息,回顾性考核结果8/25/,刀切法考核结果,判别分类,原分类 合计 错误率(%),A1 A2 A3,A1 60 6 2 68 11.76,A2 2 40 1 43 6.98,A3 1 0 19 20 5.00,合计 63 46 22 131 9.16,8/16/2024,53,厚德载物 自强不息,刀切法考核结果8/25,前瞻性考核结果,判别分类,原分类 合计 错误率(%),A1 A2 A3,A1 14 1 0 15 6.67,A2 1 9 1 11 18.18,A3 0 0 5 5 0.00,合计 15 10 6 31 9.68,8/16/2024,54,厚德载物 自强不息,前瞻性考核结果8/25/,最大似然法判别,适用于定性指标的两类和多类判别.,似然函数方程:,X,m,: x1,x2.m个判别变量.,Y,k,: y1,y2 .k个类型例数.,S :个体为某种状态(条件).,P=个体在某状态的条件概率,8/16/2024,55,厚德载物 自强不息,最大似然法判别适用于定性指标的两类和多类判别.P=个体在某状,2.判别规则:,原理:,根据独立事件概率乘法原理进行判别。,在计算个体k个似然函数,其中概率最大的p, 判个体为第k类。,有人用7个指标对4种类型阑尾炎的鉴别诊断,收集5668例确诊的病史数据:,8/16/2024,56,厚德载物 自强不息,2.判别规则:原理:8/25/202356厚德载物,5668例不同型阑尾炎症状发生频率%,变量 症状 卡他性 蜂窝炎 坏疽 腹膜炎,S,l,Y1 Y2 Y3 Y4,X1 右下 57 34 35 21,腹痛 下腹 15 13 12 27,部位 上 腹 12 35 35 34,脐周 12 10 9 6,全腹 4 8 9 12,X2,恶心 (-)(-) 73 33 8 13,呕吐 (+)(-) 16 30 37 22,(+) 11 37 55 65,100%,8/16/2024,57,厚德载物 自强不息,5668例不同型阑尾炎症状发生频率%变量 症状,例:对某个新个体做判别(讲义388页),症状与体征 变量 某病例的症状,腹疼部位 x1 右下腹,呕吐 x2 有,排便 x3 正常,腹部压痛 x4 右下部,腹部肌防御 x5 有,体温 x6 36.6,白细胞 x7 23.7,(单位),8/16/2024,58,厚德载物 自强不息,例:对某个新个体做判别(讲义388页)症状与体征,某病例根据最大似然法和判别规则,该病例预测为第3类 - 坏疽型,该法主要得到 表18-3条件概率,要求例数较多.,8/16/2024,59,厚德载物 自强不息,某病例根据最大似然法和判别规则该病例预测为第3类 - 坏疽,二类判别及其与回归的关系,8/16/2024,60,厚德载物 自强不息,二类判别及其与回归的关系8/25/202360厚德载物,8/16/2024,61,厚德载物 自强不息,8/25/202361厚德载物 自强不息,二类判别也可用回归分析来解决,-1当某样品属A,1,类时,例如定义 y=,1当某样品属A,2,类时,再用逐步回归分析,得到回归方程。,该回归方程可作为判别函数用于判别分类,本例中的判别准则为y0时判为A,2,类。通过简单的计算,该判别函数可与事先概率相等(或不考虑 )的逐步判别分析得到的结果化成一致。,8/16/2024,62,厚德载物 自强不息,二类判别也可用回归分析来解决8/25/202362厚,用于判别分析的SAS过程及其应用实例,(一)STEPDISC过程的使用,1. 功能,STEPDISC过程用于逐步判别分析中对变量的剔选。本过程不能计算判别函数。用剔选后得到的变量再调用DISCRIM过程计算判别函数等。,2. 语句,PROC STEPDISC 选择项,;,CLASS 变量;,VAR 变量;,8/16/2024,63,厚德载物 自强不息,用于判别分析的SAS过程及其应用实例 (一)STEPDIS,3. 语句说明,(1)PROC STEPDISC语句中主要的选择项如下:,DATA=SAS数据集名 指定用于分析的SAS数据集,即训练样本,SLENTRY=P值,指定选入方程的显著性水平,默认值为0.15,SLSTAY=P值, 指定剔出方程的显著性水平,默认值为0.15,START=n值, 指定VAR语句中前n个变量先进入方程,然后,再开始剔选,INCLUDE=n值,指定VAR语句中前n个变量必须包含在方程中,SIMPLE, 打印各变量总的及每一类内的简单描述性统计量,(2)CLASS语句指定判别分析用的分类变量名,该变量可以是数字型, 也可以是字符型。,(3)VAR语句指定判别分析用的各指标的变量名。,8/16/2024,64,厚德载物 自强不息,3. 语句说明8/25/202364厚德载物 自,(二)DISCRIM过程的使用,1. 功能,DISCRIM过程用于判别分析,计算判别函数,进行组内和组外考核等。该过程不能剔选变量。,2. 语句,PROC DISCRIM 选择项,;,CLASS 变量;,VAR 变量;,PRIORS 选择项,:,8/16/2024,65,厚德载物 自强不息,(二)DISCRIM过程的使用8/25/202365厚德载,3. 语句说明,(1)PROC DISCRIM语句中主要的选择项如下:,DATA=SAS数据集名 指定用于训练样本的SAS数据集,TESTDATA= SAS数据集名 指定用于组外考核的SAS数据集,SIMPLE, 打印训练样本中各变量总的及每一类内的简单,描述性统计量,THRESHOLD=P值,指定判别分类时最小的可接受的事后概率P,默认值为0,CROSSVALIDATE 要求进行刀切法考核,8/16/2024,66,厚德载物 自强不息,3. 语句说明8/25/202366厚德载物,(2)CLASS语句指定判别分析用的分类变量名,该变量可以是数字型, 也可以是字符型。,(3)VAR语句指定判别分析用的各指标的变量名,(4)PRIORS语句指定各类事先概率值,可有如下选择项,EQUAL 各类事先概率值相等,这是默认值,PROP 各类事先概率值取训练样本中各类所占比例,类别变量的输出格式:值1=P1,值2=P2,,8/16/2024,67,厚德载物 自强不息,(2)CLASS语句指定判别分析用的分类变量名,该变量可,Thank you!,8/16/2024,68,厚德载物 自强不息,Thank you!8/25/202368厚德载物,谢谢!,21,、要知道对好事的称颂过于夸大,也会招来人们的反感轻蔑和嫉妒。,培根,22,、业精于勤,荒于嬉;行成于思,毁于随。,韩愈,23,、一切节省,归根到底都归结为时间的节省。,马克思,24,、意志命运往往背道而驰,决心到最后会全部推倒。,莎士比亚,25,、学习是劳动,是充满思想的劳动。,乌申斯基,供娄浪颓蓝辣袄驹靴锯澜互慌仲写绎衰斡染圾明将呆则孰盆瘸砒腥悉漠堑脊髓灰质炎,(,讲课,2019),脊髓灰质炎,(,讲课,2019),谢谢!21、要知道对好事的称颂过于夸大,也会招来人们的反感轻,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!