统计 聚类分析

上传人:fgh****35 文档编号:252953779 上传时间:2024-11-26 格式:PPT 页数:37 大小:272.50KB
返回 下载 相关 举报
统计 聚类分析_第1页
第1页 / 共37页
统计 聚类分析_第2页
第2页 / 共37页
统计 聚类分析_第3页
第3页 / 共37页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,37,*,第十九章 聚类分析(,clustering analysis,),1,37,判别分析,:,在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。,聚类分析,:,将随机现象归类的统计学方法,,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。,已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计分析方法。,2,37,聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。例如测量了,n,个病例(样品)的,m,个变量(指标),可进行:,(,1,),R,型聚类,:,又称,指标聚类,,是指将,m,个指标归类的方法,其,目的,是将指标降维从而选择有代表性的指标。,(,2,),Q,型聚类,:,又称,样品聚类,,是指将,n,个样品归类的方法,其,目的,是找出样品间的共性。,3,37,无论是,R,型聚类或是,Q,型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量,相似系数,(,similarity coefficient,)的定义。,4,37,第一节 相似系数,1,R,型(指标)聚类的相似系数,X1,,,X2,,,,,Xm,表示,m,个变量,,R,型聚类常用,简单相关系数,的绝对值定义变量与间的相似系数:,绝对值越大表明两变量间相似程度越高。同样也可考虑用,Spearman,秩相关系数,定义非正态变量与间的相似系数。当变量均为定性变量时,最好用,列联系数,定义类间的相似系数。,5,37,2,Q,型(样品)聚类常用相似系数 将,n,例(样品)看成是,m,维空间的,n,个点,用,两点间的距离,定义相似系数,,距离越小表明两样品间相似程度越高,。(,1,)欧氏距离,:,欧氏距离(,Euclidean distance,)(,2,)绝对距离:绝对距离(,Manhattan distance,)(,3,),Minkowski,距离:绝对距离是,q=,1,时的,Minkowski,距离;欧氏距离是,q=,2,时的,Minkowski,距离。,Minkowski,距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。,6,37,(,4,)马氏距离:用表示,m,个变量间的样本协方差矩阵,马氏距离(,Mahalanobis,distance,)的计算公式为 其中向量 。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。以上定义的,4,种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。,7,37,第二节 系统聚类,系统聚类(,hierarchical clustering analysis,)是将相似的样品或变量归类的最常用方法,聚类过程如下:,1,)开始将各个样品(或变量)独自视为一类,即各类 只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;,2,)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数;重复第二步,直至全部样品(或变量)被并为一类。,8,37,一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数,(即:新形成的类别与其他类之间的类间相似系数的确定),,当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。,9,37,当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出,5,种,计算方法。用分别表示两类,各自含有个样品或变量。,(,n,p,与,n,q,分别代表,G,p,与,G,q,两类的样品或变量数,),1,最大相似系数法,类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。,2,最小相似系数法,类间相似系数计算公式为,3,重心法,(仅用于,样品聚类,)用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为,10,37,4,类平均法,(仅用于,样品聚类,)对,G,p,类中的,n,p,个样品与,G,q,类中的,n,q,个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。,11,37,5,离差平方和法,又称,Ward,法,仅用于,样品聚类,。此法效仿方差分析的基本思想,即,合理的分类使得类内离差平方和较小,而类间离差平方和较大,。假定,n,个样品已分成,g,类,是其中的两类。此时有个样品的第,k,类的离差平方和定义为:,其中为类内指标的均数。所有,g,类的合并离差平方和为。如果将与合并,形成,g-,1,类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当,n,个样品各自成一类时,,n,类的合并离差平方和为,0,。,12,37,例,19-1,测量了,3454,名成年女子身高(,X,1,)、下肢长(,X,2,)、腰围(,X,3,)和胸围(,X,4,),计算得相关矩阵:,试用系统聚类法将这,4,个指标聚类,。本例是,R,型(指标)聚类,相似系数选用,简单相关系数,,类间相似系数采用,最大相似系数法,计算。,13,37,聚类过程如下:,(,1,),各个指标独自成一类,G,1=,X,1,,,G,2=,X,2,,,G,3=,X,3,,,G,4=,X,4,,共,4,类。,(,2,),将相似系数最大的两类合并成新类,由于,G,1,和,G,2,类间相似系数最大,等于,0.852,,将两类合并成,G,5=,X,1,X,2,,形成,3,类。计算,G,5,与,G,3,、,G,4,间的类间相似系数,G,3,,,G,4,,,G,5,的类间相似矩阵,14,37,(,3,)由于,G,3,和,G,4,类间相似系数最大,等于,0.732,,将两类合并成,G,6=,G,3,G,4,,形成两类。计算,G,6,与,G,5,间的类间相似系数。(,4,)最终将,G,5,G,6,合并成,G,7=,G,5,G,6,所有指标形成一大类。,15,37,根据聚类过程,绘制出系统聚类图(见图,19-1,)。图中显示分成两类较好:,X,1,,,X,2,,,X,3,,,X,4,,即长度指标归为一类,围度指标归为另一类。,身高 下肢长 腰围 胸围,G1 G2 G3 G4,图,19-1 4,个指标聚类的系统聚类图,0.852,0.732,0.234,16,37,例,19-2,今测得,6,名运动员,4,个运动项目(样品)的能耗、糖耗的均数见表,19-1,,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。,表,19-1 4,个运动项目的测定值,运动项目名称,能耗,X,1,(焦耳,/,分、,m,2,),糖耗,X,2,(,%,),负重下蹲,G,1,27.892,61.42,1.315,0.688,引体向上,G,2,23.475,56.83,0.174,0.088,俯,卧,撑,G,3,18.924,45.13,-1.001,-1.441,仰卧起坐,G,4,20.913,61.25,-0.488,0.665,变量的标准化,X,1,X,2,17,37,本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化,分别是,Xi,的样本均数与标准差。变换后的数据列在表,19-1,的 ,列。,18,37,聚类过程如下:,(,1,),计算,4,个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(,19-3,)计算得同样负重下蹲与俯卧撑之间的距离同理,计算出距离矩阵,19,37,(,2,),G,2,,,G,4,间距离最小,将,G,2,,,G,4,并成一新类,G,5=,G,2,,,G,4,。应用,最小相似系数法,,按公式(,19-8,)计算,G,5,与其他各类之间的距离,G,1,,,G,3,,,G,5,的距离矩阵,(,3,),G,1,,,G,5,间距离最小,将,G,1,,,G,5,并成一新类,G,6=,G,1,,,G,5,。计算,G,6,与,G,3,之间的距离,(,4,),最终将,G,1,G,6,合并成,G,7=,G,1,G,6,所有指标形成一大类。,d,15,=Max,(,d,12,,,d,14,),=Max,(,1.289,,,1.803,),=1.803,d,35,=Max,(,d,23,,,d,34,),=Max,(,1.928,,,2.168,),=2.168,20,37,根据聚类过程,绘制出系统聚类图(见图,19-2,)。结合系统聚类图和专业知识认为分成两类较好:,G,1,,,G,2,,,G,4,,,G,3,。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大,训练时应提高膳食标准。,图,19-2 4,个运动项目样品聚类的系 统聚类图,G2,G,4,G,1,G3,G,5,G,6,G,7,21,37,例,19-3,调查了,27,名沥青工和焦炉工的年龄、工龄、吸烟情况,检测了血清,P21,、,P53,、外周血淋巴细胞,SCE,、染色体畸变数和染色体畸变细胞数。数据列于表,19-3,,其中,P21,倍数,=P21,检测值,/,对照组,P21,均数。试用系统聚类法将,27,名工人归类。,22,37,表,19-3,沥青工和焦炉工的生物标志物检测及聚类分析结果,工人编号,(,样品号,),年龄,工龄,吸烟,支,/d,血清,P21,P21,倍数,P53,SCE,染色体,畸变数,染色体畸,变细胞数,聚类,结果,1,46,25,5,2138,1.68,0.35,8.11,4,4,1,2,35,12,20,3510,2.76,1.43,6.84,3,3,1,3,52,25,20,2784,2.19,0.54,4.11,3,3,1,4,32,7,20,2451,1.93,0.47,11.45,9,6,1,5,38,22,0,3247,2.56,0.80,11.68,5,5,1,6,51,31,30,3710,2.92,0.37,11.60,2,2,1,7,40,9,10,3194,2.51,0.40,11.40,5,5,1,8,34,17,20,4658,3.67,0.46,11.35,3,3,1,9,50,29,0,5019,3.95,0.47,13.45,10,8,1,10,42,20,20,7482,5.89,0.12,13.11,0,0,2,11,57,30,15,3800,2.99,0.19,10.76,2,2,1,12,36,15,20,2478,1.95,0.25,10.00,0,0,1,13,37,12,0,3827,3.01,0.82,10.50,4,4,1,14,52,32,0,2984,2.35,0.16,11.15,3,3,1,15,52,32,10,3749,2.95,0.72,11.45,11,10,1,16,42,27,30,4941,3.89,0.73,13.80,7,6,1,17,44,27,20,3948,3.11,0.33,13.65,16,14,1,18,40,21,5,3360,2.64,0.37,11.40,0,0,1,19,38,21,5,2936,2.31,0.69,11.40,1,1,1,20,44,27,20,6851,5.39,0.99,12.28,7,6,2,21,43,27,0,3926,3.09,0.47,11.95,0,0,1,22,26,10,3,4381,3.45,0.52,11.80,7,5,1,23,37,18,20,7142,5.62,0.85,11.81,5,5,2,24,28,9,20,2612,2.06,0.37,11.65,1,1,1,25,25,9,30,2638,2.08,0.78,12.25
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!