聚类分析和MATLAB实现

上传人:仙*** 文档编号:243445075 上传时间:2024-09-23 格式:PPT 页数:66 大小:1.07MB
返回 下载 相关 举报
聚类分析和MATLAB实现_第1页
第1页 / 共66页
聚类分析和MATLAB实现_第2页
第2页 / 共66页
聚类分析和MATLAB实现_第3页
第3页 / 共66页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,4,章 聚类分析,( cluster analysis),4.1,样品(变量)相近性度量,4.2,谱系聚类法及,MATLAB,实现,4.3,快速聚类法,统计方法(聚类分析),:,聚类分析,所研究的样本或者变量之间存在程度不同的相似性,要求设法找出一些能够度量它们之间相似程度的统计量作为分类的依据,再利用这些量将样本或者变量进行分类,系统聚类分析,将,n,个样本或者,n,个指标看成,n,类,一类包括一个样本或者指标,然后将性质最接近的两类合并成为一个新类,依此类推。最终可以按照需要来决定分多少类,每类有多少样本(指标),统计方法(系统聚类分析步骤),:,系统聚类方法步骤:,计算,n,个样本两两之间的距离,构成,n,个类,每类只包含一个样品,合并距离最近的两类为一个新类,计算新类与当前各类的距离(新类与当前类的距离等于当前类与组合类中包含的类的距离最小值),若类的个数等于,1,,转,5,,否则转,3,画聚类图,决定类的个数和类。,系统聚类分析,:,主要介绍,系统聚类分析方法,。,系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本原理是:首先将一定数量的样品或指标各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直至将所有的样品(或指标)合并为一类。,系统聚类分析用到的函数,:,函 数,功 能,pdist,计算观测量两两之间的距离,squareform,将距离矩阵从上三角形式转换为方形形式,或从方形形式转换为上三角形式,linkage,创建系统聚类树,dendrogram,输出冰柱图,cophenet,计算,Cophenetic,相关系数,cluster,根据,linkage,函数的输出创建分类,clusterdata,根据数据创建分类,inconsistent,计算聚类树的不连续系数,聚类分析,研究对,样品或指标,进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。,聚类分析把分类对象按一定规则分成若干类,这些类,非事先给定,的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。,职能是建立一种能按照样品或变量的相似程度进行分类的方法。,聚类分析有两种,:一种是对样品的分类,称为,Q,型,另一种是对变量(指标)的分类,称为,R,型。,R,型聚类分析的主要作用:,不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。,根据变量的分类结果以及它们之间的关系,可以选择主要变量进行,Q,型聚类分析或回归分析。(,R,2,为选择标准),Q,型聚类分析的主要作用:,可以综合利用多个变量的信息对样本进行分析。,分类结果直观,聚类谱系图清楚地表现数值分类结果。,聚类分析所得到的结果比传统分类方法更细致、全面、合理。,在课堂上主要讨论,Q,型聚类分析, Q,型聚类常用的统计量是距离,.,4.1,样品(变量)间相近性度量,4.1.1,聚类分析的基本思想,在生产实际中经常遇到给产品等级进行分类的问题,如一等品、二等品等,在生物学中,要根据生物的特征进行分类;在考古时要对古生物化石进行科学分类;在球类比赛中经常要对各球队进行分组如何确定种子队,这些问题就是聚类分析问题。随着科学技术的发展,我们利用已知数据首先提取数据特征,然后借助计算机依据这些特征进行分类,聚类的依据在于各类别之间的接近程度如何计量,通常采取距离与相似系数进行衡量。,设有,n,个样品的,p,元观测数据组成一个数据矩阵,其中每一行表示一个样品,每一列表示一个指标,,x,ij,表示第,i,个样品关于第,j,项指标的观测值,聚类分析的基本思想就是在样品之间定义距离,在指标之间定义相似系数,样品之间距离表明样品之间的相似度,指标之间的相似系数刻画指标之间的相似度。将样品(或变量)按相似度的大小逐一归类,关系密切的聚集到较小的一类,关系疏远的聚集到较大的一类,聚类分析通常有:,谱系聚类、快速聚类,我们主要介绍谱系聚类的方法与,MATLAB,实现,4.1.2,样品间的相似度量,距离,一,.,常用距离的定义,设有,n,个样品的,p,元观测数据:,这时,每个样品可看成,p,元空间的一个点,每两个点之间的距离记为,满足条件:,1.,欧氏距离,pdist(x),2.,绝对距离,pdist(x,cityblock,),3.,明氏距离,pdist(x,minkowski,r),4.,切氏距离,max(abs(xi-xj),5.,方差加权距离,将原数据标准化以后的欧氏距离,6.,马氏距离,pdist(x,mahal,),7.,兰氏距离,8.,杰氏距离(,Jffreys & Matusita,),例,1,.,为了研究辽宁、浙江、河南、甘肃、青海,5,省,1991,年城镇居民生活消费规律,需要利用调查资料对五个省进行分类,指标变量共,8,个,意义如下:,x1:,人均粮食支出,,x2:,人均副食支出,;x3:,人均烟酒茶支出,,x4:,人均其他副食支出,x5:,人均衣着商品支出,x6:,人均日用品支出,,x7:,人均燃料支出,,x8,人均非商品支出,X,1,X,2,X,3,X,4,X,5,X,6,X,7,X,8,辽宁,7.9,39.77,8.49,12.94,19.27,11.05,2.04,13.29,浙江,7.68,50.37,11.35,13.3,19.25,14.59,2.75,14.87,河南,9.42,27.93,8.2,8.14,16.17,9.42,1.55,9.76,甘肃,9.16,27.98,9.01,9.32,15.99,9.1,1.82,11.35,青海,10.06,28.64,10.52,10.05,16.18,8.39,1.96,10.81,表,1 1991,年五省城镇居民生活月均消费(元,/,人),计算各省之间的欧氏、绝对、明氏距离,解:,a=7.939.778.4912.9419.2711.052.0413.29,7.6850.3711.3513.319.2514.592.7514.87,9.4227.938.28.1416.179.421.559.76,9.1627.989.019.3215.999.11.8211.35,10.0628.6410.5210.0516.188.391.9610.81;,d1=pdist(a);%,此时计算出各行之间的欧氏距离,,为了得到书中的距离矩阵,我们键入命令:,D= squareform(d1), %,注意此时,d1,必须是一个行向量,结果是实对称矩阵,若想得到书中的三角阵,则有命令:,S = tril(squareform(d1),S = 0 0 0 0 0,11.6726 0 0 0 0,13.8054 24.6353 0 0 0,13.1278 24.0591 2.2033 0 0,12.7983 23.5389 3.5037 2.2159 0,d2=pdist(a,cityblock); S2 = tril(squareform(d2),S2 = 0 0 0 0 0,19.89 0 0 0 0,27.2 47.05 0 0 0,24.58 43.39 4.66 0 0,26.52 42.31 8.08 5.38 0,d3=pdist(a,minkowski,3); S3 = tril(squareform(d3),序号,国家,1990,1995,2000,1,澳大利亚,1249.39,1273.61,1282.68,2,巴西,821.6,859.85,919.73,3,加拿大,1641.01,1591.54,1608.32,4,中国,1330.45,1382.68,1462.08,5,法国,1546.55,1501.77,1525.95,6,德国,1656.52,1630.52,1570.69,7,印度,861.30,862.51,945.11,8,意大利,1321.77,1232.3,1243.51,9,日本,1873.68,1949.89,1851.20,10,俄罗斯,1475.16,1315.87,1297,11,南非,794.25,787.48,782.38,12,英国,1486.75,1441.71,1465.12,13,美国,2824.29,2659.64,2740.12,例,2.,13,个国家,1990,,,1995,,,2000,可持续发展能力如下:分成,4,类,采用不同的距离,得到结果如下,类别,欧氏距离(最短距离),1,日本,2,澳大利亚、加拿大、英、德、意、中、俄、法,3,巴西、印度、南非,4,美国,类别,欧氏距离(,ward,距离),1,澳大利亚、中、意、俄,2,加拿大、英、德、法、日本,3,巴西、印度、南非,4,美国,类别,马氏距离(,ward,距离),1,日本,2,澳大利亚、加拿大、英、德、意、南非、俄、法,3,巴西、印度、中,4,美国,4.1.3,变量间的相似度量,相似系数,当对,p,个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(关联度),若用 表示变量之间的相似系数,则应满足:,相似系数中最常用的是,相关系数与夹角余弦,。, 夹角余弦,两变量的夹角余弦定义为:, 相关系数,两变量的相关系数定义为:,例,3,.,计算例,1,中各指标之间的相关系数与夹角余弦,解:,a=7.939.778.4912.9419.2711.052.04 13.29,7.6850.3711.3513.319.2514.592.75 14.87,9.4227.938.28.1416.179.421.55 9.76,9.1627.989.019.3215.999.11.82 11.35,10.0628.6410.5210.0516.188.391.96 10.81;,R=corrcoef(a);%,指标之间的相关系数,a1=normc(a); %,将,a,的各列化为单位向量,J=a1,*a1 %,计算,a,中各列之间的夹角余弦,J =,1.0000 0.9410 0.9847 0.9613 0.9824 0.9546,0.9620 0.9695,0.9410 1.0000 0.9782 0.9939 0.9853 0.9977 0.9947 0.9935,0.9847 0.9782 1.0000 0.9859 0.9911 0.9840 0.9931 0.9909,0.9613 0.9939 0.9859 1.0000 0.9944 0.9919 0.9947 0.9981,0.9824 0.9853 0.9911 0.9944 1.0000 0.9901 0.9901 0.9968,0.9546 0.9977 0.9840 0.9919 0.9901 1.0000 0.9952 0.9953,0.9620 0.9947 0.9931 0.9947 0.9901 0.9952 1.0000 0.9968,0.9695 0.9935 0.9909 0.9981 0.9968 0.9953 0.9968 1.0000,4.2,谱系聚类法,谱系聚类法是目前应用较为广泛的一种聚类法。谱系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。,聚类分析的,基本思想,是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为,系统聚类分析,。,4.2.1,类间距离,前面,我们介绍了两个向量之间的距离,下面我们介绍两个类别之间的距离:,设,d,ij,表示两个样品,x,i,x,j,之间的距离,,G,p,G,q,分别表示两,个类别,各自含有,n,p,n,q,个样品,.,(,1,)最短距离,即用两类中样品之间的距离最短者作为两类间距离,(,2,)最长距离,即用两类中样品之间的距离最长者作为两类间距离,最短距离(,Nearest Neighbor),x,21,x,12,x,22,x,11,最长距离(,Furthest,Neighbor,),x,11,x,21,重心距离,最长距离,最短距离,A,B,C,D,E,F,中间距离,(,3,)类平均距离,即用两类中所有两两样品之间距离的平均作为两类间距离,(,4,)重心距离,其中 分别是,G,p,G,q,的重心,这是用两类的重心,之间的欧氏距离作为两类间的距离。,(,5,)离差平方和距离(,ward,),显然,离差平方和距离与重心距离的平方成正比。,4.2.2,类间距离的递推公式,设有两类,Gp,Gq,合并成新的一类,Gr,,包含了,n,r,=n,p,+n,q,个样品,如何计算,Gr,与其他类别,G,k,之间的距离,这就需要建立类间距离的递推公式。,(,1,)最短距离,(,2,)最长距离,(,3,)类平均距离,(,4,)重心距离,证明:,将,代入(,1,),(1),将上式中加上再减去 与,,合并同类项得,上式第二行合并同类项,得,(,5,)离差平方和距离,1.,选择样本间距离的定义及类间距离的定义;,2.,计算,n,个,样本,两两之间的距离,得到距离矩阵,3.,构造个类,每类只含有一个,样本,;,4.,合并符合类间距离定义要求的两类为一个新类;,5.,计算新类与当前各类的距离。若类的个数为,1,,则转到步骤,6,,否则回到步骤,4;,6.,画出聚类图;,7.,决定类的个数和类。,4.2.3,谱系聚类法的步骤谱系聚类的步骤如下:,系统聚类分析的方法,系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义,,类间距离,的不同定义就产生了不同的系统聚类分析方法。,以下用,d,ij,表示样品,X,(i),和,X,(j),之间的距离,当样品间的亲疏关系采用相似系数,C,ij,时,令 ;,以下用,D,(p,q),表示类,G,p,和,G,q,之间的距离。,(,1,),n,个样品开始作为,n,个类,计算两两之间的距离或相似系数,得到实对称矩阵,(,2,)从,D,0,的非主对角线上找最小(距离)或最大元素(相似系数),设该元素是,D,pq,,则将,Gp,Gq,合并成一个新类,Gr=,(,Gp,Gq,),在,D,0,中去掉,Gp,Gq,所在的两行、两列,并加上新类与其余各类之间的距离,(,或相似系数,),,得到,n-1,阶矩阵,D1,。,(,3,)从,D1,出发重复步骤(,2,)的做法得到,D2,,再由,D2,出发重复上述步骤,直到所有样品聚为一个大类为止。,(,4,)在合并过程中要记下合并样品的编号及两类合并时的水平,并绘制聚类谱系图。,例,4.,从例,1,算得的样品间的欧氏距离矩阵出发,用下列方法进行谱系聚类。,(,1,)最短距离,(,2,)最长距离,解:我们用,1,,,2,,,3,,,4,,,5,分别表示辽宁、浙江、河南、甘肃和青海,将距离矩阵记为,D0,(,1,)最短距离法:将各省看成一类,即,Gi=i,i=1,5,从,D0,可以看出各类中距离最短的是,d43=2.20,因此将,G3,G4,在,2.20,水平上合成一个新类,G6=3,4,计算,G6,和,G1,G2,G5,之间的最短距离,,得,将计算结果作为第一列,从,D0,中去掉第,3,、,4,行与,3,、,4,列,剩余元素作为其余各列得到,D1,从,D1,可以看出,G6,与,G5,的距离最小,因此在,2.21,的水平上将,G6,与,G5,合成一类,G7,,即,G7=3,,,4,,,5,计算,G7,与,G1,,,G2,之间的最短距离,得,将计算结果作为第一列,从,D1,中划掉,3,,,4,与,5,所在的行与列,剩余元素作为其他列得,从,D2,可以看出,G1,G2,最接近,在,11.67,的水平上合并成一类,G8,,至此只剩下,G7,G8,两类,他们之间的距离为:,12.8,,故在此水平上将合成一类,包含了全部的五个省份。,最后,我们作出谱系聚类图:,图,1,最短距离聚类图,最长距离聚类方法,同学练习,例,为了研究辽宁等,5,省,1991,年城镇居民生活消费情况的分布规律,根据调查资料做类型分类,用最短距离做类间分类。数据如下:,x1,x2,x3,x4,x5,x6,x7,x8,辽宁,1,7.90,39.77,8.49,12.94,19.27,11.05,2.04,13.29,浙江,2,7.68,50.37,11.35,13.30,19.25,14.59,2.75,14.87,河南,3,9.42,27.93,8.20,8.14,16.17,9.42,1.55,9.76,甘肃,4,9.16,27.98,9.01,9.32,15.99,9.10,1.82,11.35,青海,5,10.06,28.64,10.52,10.05,16.18,8.39,1.96,10.81,将每一个省区视为一个样品,先计算,5,个省区之间的欧式距离,用,D,0,表示距离矩阵(对称阵,故给出下三角阵),因此将,3.4,合并为一类,为类,6,,替代了,3,、,4,两类,类,6,与剩余的,1,、,2,、,5,之间的距离分别为:,d(3,4),1,=min(d31,d41)=min(13.80,13.12)=13.12,d(3,4),2,=min(d32,d42)=min(24.63,24.06)=24.06,d(3,4),5,=min(d35,d45)=min(3.51,2.21)=2.21,得到新矩阵,合并类,6,和类,5,,得到新类,7,类,7,与剩余的,1,、,2,之间的距离分别为:,d(5,6),1,=min(d51,d61)=min(12.80,13.12)=12.80,d(5,6),2,=min(d52,d62)=min(23.54,24.06)=23.54,得到新矩阵,合并类,1,和类,2,,得到新类,8,此时,我们有两个不同的类:类,7,和类,8,。,它们的最近距离,d(7,8),=min(d71,d72)=min(12.80,23.54)=12.80,得到矩阵,最后合并为一个大类。这就是按最短距离定义类间距离的系统聚类方法。最长距离法类似!,4.2.4,谱系聚类的,MATLAB,实现:,(,1,),输入数据矩阵,注意行与列的实际意义;,(,2,),计算各样品之间的距离(行?列?),欧氏距离:,d=pdist(A) %,注意计算,A,中各行之间的距离;,绝对距离:,d= pdist(A,cityblock);,明氏距离:,d=pdist(A,minkowski,r); % r,要填上具体的实数;,方差加权距离:,d= pdist(A,seuclid);,马氏距离:,d= pdist(A,mahal);,注意:以上命令输出的结果是一个,行向量,,如果要得到距离矩阵,可以用命令:,D= squareform(d),若得到三角阵,可以用命令:,D= tril(squareform(d1),(3),选择不同的类间距离进行聚类,最短距离,:,z1= linkage(d) %,此处及以下的,d,都是(,2,)中算出的距离行向量,最长距离:,z2= linkage(d,complete),中间距离:,z3= linkage(d,centroid),重心距离:,z4= linkage(d,average),离差平方和:,z5= linkage(d,ward),注意:此时输出的结果是一个,n-1,行,3,列的矩阵, 每一行表示在某水平上合并为一类的序号;,(,4,),作出谱系聚类图,H=dendrogram(z,d) %,注意若样本少于,30,,可以省去,d,否则必须填写,.,(,5,),根据分类数目,输出聚类结果,T=cluster(z,k) %,注意,k,是分类数目,,z,是(,3,)中的结果,Find(T=k0) %,找出属于第,k0,类的样品编号,例,5.,将例,1,利用,MATLAB,软件进行聚类,解:,b=7.939.778.4912.9419.2711.052.0413.29,7.6850.3711.3513.319.2514.592.7514.87,9.4227.938.28.1416.179.421.559.76,9.1627.989.019.3215.999.11.8211.35,10.0628.6410.5210.0516.188.391.9610.81;,欧氏距离:,d1=pdist(b); %b,中每行之间距离,%,五种类间距离聚类,z1=linkage(d1);,z2=linkage(d1,complete);,z3=linkage(d1,average);,z4=linkage(d1,centroid);,z5=linkage(d1,ward);,其中,z1,输出结果为:,z1 =,3.0000 4.0000 2.2033,6.0000 5.0000 2.2159,1.0000 2.0000 11.6726,8.0000 7.0000 12.7983,%,在,2.2033,的水平,,G3,G4,合成一类为,G6,%,在,2.2159,的水平,,G6,G5,合成一类为,G7,%,在,11.6726,的水平,,G1,G2,合成一类为,G8,%,在,12.7983,的水平,,G7,G8,合成一类,作谱系聚类图:,H= dendrogram(z1),%,输出分类结果,T=cluster(z1,3),T,1,2,3,3,3,图,2.,最短距离聚类图,结果表明:若分为三类,则辽宁是一类,浙江是一类,河南、青海和甘肃是另一类。,以上是样品之间是欧氏距离,类间距离是最短距离聚类的结果,实际上,对样品之间的每一种距离,可以由五种不同的类间距离进行聚类。那么哪一种最好呢?,为此我们可以计算复合相关系数,若该系数越接近于,1,则该聚类越理想。在,MATLAB,中计算复合相关系数的命令如下:,R=cophenet(z,d),其中,,,z,是用某种类间距离,linkage,后的结果,,d,是样品之间的某种距离,,想了解利用欧氏距离聚类,那种类间距离最好,可以计算五个复合相关系数:,R=cophenet(z1,d1),cophenet(z2,d1),cophenet(z3,d1),cophenet(z4,d1),cophenet(z5,d1),结果为:,0.8413 0.8571 0.8623 0.8622 0.8532,由于,0.8623,最大,故认为若样品之间采用欧氏距离,则类间距离以中间距离最好,如果我们要找到最理想的分类方法,可以对每一种样品之间的距离,都计算上述的复合相关系数,这样就可以找到最理想的样品距离与对应的类间距离。,a=28 ,18,11 , 21 ,26, 20 ,16, 14, 24,22,29, 23, 22, 23, 29, 23, 22, 23,29, 27,28 ,18, 16, 22, 26,22,22 ,24,24,24;,对,a,的各列进行聚类,如何计算复合相关系数,d=pdist(a);pdist(a,mahal);pdist(a,cityblock);pdist(a,seuclid);pdist(a,minkowski,0.4);,for i=1:5,d1=linkage(d(i,:); r1(i)=cophenet(d1,d(i,:);,end,for i=1:5,d2=linkage(d(i,:),complete);r2(i)=cophenet(d2,d(i,:);,end,for i=1:5,d3=linkage(d(i,:),average) ;r3(i)=cophenet(d3,d(i,:);,end,for i=1:5,d4=linkage(d(i,:),centroid);r4(i)=cophenet(d4,d(i,:);,end,for i=1:5,d5=linkage(d(i,:),ward);r5(i)=cophenet(d5,d(i,:);,end,r=r1;r2;r3;r4;r5;,4.3,快速聚类法,快速聚类法又称为,动态聚类法,,该方法首先将样品进行粗糙分类,然后依据样品间的距离按一定规则进行调整,直至不能调整为止,.,该方法适用于样品数量较大的数据集的聚类分析,但是需要事先给定聚类数目,此数目对最终聚类结果有很大影响,实际应用时要选择多个数目进行分类,然后找出合理的分类结果,.,4.3.1,快速聚类的步骤,1.,选择聚点,聚点是一批有代表性的样品,他的选择决定了初始分类,并对最终分类有很大影响,选择聚点之前要先确定聚类数,k.,通常,有以下确定聚点的方法:, 经验确定:对样品非常熟悉,根据经验确定,k,个样品作为聚点,. (,比如确定种子队,), 将,n,个样品随机地分为,k,类,然后以每一类的均值向量作为聚点,., 最小最大原则:若,n,个样品分为,k,类,先选择所有样品中距离最大的两个样品,x,i1, x,i2,为两个初始聚点,即,d(x,i1,x,i2,)=max(d,ij,),然后选择第,3,个聚点,xi3,,使得该点到上述两点距离最小是所有其它点到上述两点距离最小中最大者,即,mind(x,i3,x,ir,),r=1,2=maxmind(x,j,x,r,),r=1,2, 按照同样的原则选取,x,i4,,依次下去,直至选出,k,个聚点,x,i1,x,i2,x,ik,序号,国家,1990,1995,2000,1,澳大利亚,1249.39,1273.61,1282.68,2,巴西,821.6,859.85,919.73,3,加拿大,1641.01,1591.54,1608.32,4,中国,1330.45,1382.68,1462.08,5,法国,1546.55,1501.77,1525.95,6,德国,1656.52,1630.52,1570.69,7,印度,861.30,862.51,945.11,8,意大利,1321.77,1232.3,1243.51,9,日本,1873.68,1949.89,1851.20,10,俄罗斯,1475.16,1315.87,1297,11,南非,794.25,787.48,782.38,12,英国,1486.75,1441.71,1465.12,13,美国,2824.29,2659.64,2740.12,前 例,2,中,分成,4,类用不同方法确定聚点, 人为确定:澳大利亚、中国、英国、美国, 首先按照亚非洲、美洲、欧洲、大洋洲分为四类,以每一类的均值向量作为聚点,., 最小最大准则,(a,为原始数据矩阵),m,n=size(a);,for i=1:m,for j=1:m,d(i,j)=a(i,:)-a(j,:)*a(i,:)-a(j,:),; %,欧氏距离平方,end,end,d1=max(d);,d2=sort(d1,descend);,d2,i1=sort(d1,descend,); % i1,前两位数字为初始聚点号码,d3=max(min(setdiff(d(:,i1(1),0),min(setdiff(d(:,i1(2),0);,t3=find(d(:,i1(1)=d3),find(d(:,i1(2)=d3);% c=i1(1),i1(2),t3;,c1=setdiff(1:13,c);,d4=max(min(d(c1,c);,t4=find(d(:,i1(1)=d4),find(d(:,i1(2)=d4),find(d(:,t3)=d4);,由此得到:美国、南非、日本、德国,2.,快速聚类步骤,首先假定向量之间距离为欧氏距离, 确定,k,个初始聚点的集合为:, 从,G,(0),出发,计算新的聚点集合,L,(1),即以,G,i,(0),的重心(均值)作为新的聚点集合,按照以下准则实现初始聚类,这样,将样品分成不相交的,k,类,该原则为每个样品以最靠近的初始聚点归类,得到初始分类:,依次计算下去,%,初始聚类,c2=setdiff(c1,t4);,c3=i1(1),i1(2),t3,t4;,D=d(:,i1(1),i1(2),t3,t4);,D1,J1=sort(D,2);,for i=1:m,if D1(i)=0,L1(i)=J1(i,1);,else,L1(i)=J1(i,2);,end,end,q1=find(L1=1);q2=find(L1=2);q3=find(L1=3);q4=find(L1=4);,G1=a(i1(1),q1,:),G2=a(setdiff(i1(2),q2,i1(1),q1),:),G3=a(setdiff(t3,q3,i1(1),i1(2),q1,q2),:),G4=a(setdiff(t4,q4,i1(1),i1(2),t3,q3),:), 设在第,m,步得到分类,以上递推计算过程中, ,不一定是样品,也未必是,G,i,(m),重心,当,m,逐渐增大,分类趋于稳定,此时,x,i,(m),x,i,(m+1), G,i,(m),G,i,(m+1),算法即可结束,.,实际计算若从某步开始,连续两次分类一样,则分类完成,.,%,二次聚点与分类,m1=mean(G1);,m2=G2;,m3=mean(G3);,m4=mean(G4);,Q=dist(m1;m2;m3;m4,a);,F1=sort(Q);,F1,U1=sort(Q),e1=find(U1(1,:)=1),e2=find(U1(1,:)=2),e3=find(U1(1,:)=3),e4=find(U1(1,:)=4),聚类结果如下:,巴西、印度、南非,类的个数的确定:,由适当的阈值确定,;,根据数据点的散布直观地确定类的个数;,根据统计量确定分类个数;,根据谱系图确定分类个数的准则,:,各类重心间的距离必须很大;,类中保包含的元素不要太多;,类的个数必须符合实际应用;,如果采用几种不同的聚类方法处理,则在各种聚类图中应该发现相同的类。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!