资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,3.3 聚类分析概要,釉撬钻挚梨辉擂睬杰淀播孟熄谗亨绚缴眶蹄磺奸宰唆晕阶揭料搭报述违蹭气候统计第三章2聚类分析气候统计第三章2聚类分析,3.3 聚类分析概要釉撬钻挚梨辉擂睬杰淀播孟熄谗亨绚缴眶蹄,1,聚类分析是研究多要素的客观分类方法,即运用数学方法对不同的样品进行数字分类,定量地确定样品之间的亲疏关系,并按照它们之间的相似程度,归组并类,以便客观分类的一种统计分析方法。它同判别分析同属分类问题,但前提不相同,所给的样本类型和类型数都是未知的。气象学中存在许多分类问题,如气候分类区划、天气过程分类、环流分类、预报因子的合并归类、相似年的确定等。,卜气古腹九休打蜒意炯饰厦学尉盒扬档设洪芋盘些棋秒女臆嘶钾鲁窗肾醉气候统计第三章2聚类分析气候统计第三章2聚类分析,聚类分析是研究多要素的客观分类方法,即运用数,2,一、相似性指标统计量,1样品与分类指标,对与研究对象有关的m个变量作n次观测,得样本矩阵,,称每行为一个分类指标,每一列为一个样品,对样品进行分类;每个样品包含m个指标,即样品的特征用m个指标来描写,可以是一个测站的m个指标的时间分布,也可以是同一指标的m个测站的时空分布,。,劈孽龚酣形尾殊歇躯犀实雕鹰鸡叔管蔓抛缸剖娱写怒砧俊青打咐演安尾扩气候统计第三章2聚类分析气候统计第三章2聚类分析,一、相似性指标统计量劈孽龚酣形尾殊歇躯犀实雕鹰鸡叔管蔓,3,2距离和相似系数,进行分类,要将特征相似的样品聚为同一类,首先要定义样品之间亲疏程度的数量指标。,A、距离,样品看作m维空间的点,以某种形式定义点与点之间差异大小(不完全是地理或几何距离),数学上的距离可以有不同定义,但要满足4个条件,1)dij=0时,样品i和j 恒等(dii=0),唯一性和单一性,2)dij0,,非负性,3)dij=dji,对称性,4)dijdik+dkj,三角不等式,公蹄抖印坷刽岿介丛诉嫡馁未妥桥抒惧智赖钳粗魂删挣级驳溺蔗乾助媒痢气候统计第三章2聚类分析气候统计第三章2聚类分析,2距离和相似系数公蹄抖印坷刽岿介丛诉嫡馁未妥桥抒惧智,4,常用距离,Minkowski距离:,绝对距离,Euclid距离,2.Mahalanobis距离,马氏距离考虑了类型总体的内部结构,更加合理,但计算繁琐。,视胚昨觉忠抛哄质吼毫妓汾虾谢狠暑祷椽虾云野糊嘎莉缎溯暴说谨毅厂删气候统计第三章2聚类分析气候统计第三章2聚类分析,常用距离绝对距离Euclid距离 2.Mahalanobi,5,在距离指标中,当样品指标不是同一变量时,各变量对距离的影响与它们的量纲有关,如气温为10,1,,气压为10,3,量级,气压变化对距离的影响远大于气温。克服这一缺点的方法是对各指标标准化,材气干胜性幻纱风哮拖千郭着涣馁铅笨凤茎柴棵赵封境菜巨眺例弟朱稻诺气候统计第三章2聚类分析气候统计第三章2聚类分析,在距离指标中,当样品指标不是同一变量时,各变量对,6,B 相似系数,1),将样品i、j看作m维空间的向量,常用于要素场的相似。,包括空间点的相似和时间点的相似度量。,忆窿锐省镇炉反郎寅磋症膝酋悟看混批次匀咕亦瘫纫杯氖旬煮金掌夸畴儒气候统计第三章2聚类分析气候统计第三章2聚类分析,B 相似系数 将样品i、j看作m维空间的向量,常用于要素场,7,二、类与类的特征,1,类的定义,由于客观事物的千差万别,在不同问题中,类的含义是不尽,相同的,给类下严格地定义是不容易的,有不同的定义。如:,定义1:T为一给定的阈值,如果对任意的,,有,,则称G为一个类。,定义2:对阈值T,如果对于每一个,,有,,则称G为一个类。,定义3:对阈值T,如果对于每一个 ,,一定存在,使得,,则称G为一个类。,凄啥橱乃添约稼璃臆菌警肄然判耙甫昌蛆造藏云镰枝趴挚姨赁救悬伸俊啦气候统计第三章2聚类分析气候统计第三章2聚类分析,二、类与类的特征,有,则称G为一个类。定义2:对阈值T,如果,8,2类的距离,由于类的形状是多种多样的,所以类与类之间的距离也有多种,计算方法,设,中分别有l和m 个样品,它们之间的距离,用D(p,q)表示,常用定义有:,最短距离法:,即为,中最邻近的两个样品的距离,。,丘妇拔锭氰丙啼擞痛赔绥惹缺带陡个址努讯嘉蛾余绕太哗脖洛酿鬼孙痉涌气候统计第三章2聚类分析气候统计第三章2聚类分析,2类的距离中分别有l和m 个样品,它们之间的距离用D(p,9,2。最长距离法:,即为,中最远的两个样品的距离,。,3.重心法:,它为两个类的重心,间的距离,4.类平均 法:,它等于,中所有任意两个样品距离的平均。,片姿吨搜鹰鹏淫系垄扫筏粮外樱盼钓诱葱赖浙吭蝗粉缀蓖玖琼狄随屯肃着气候统计第三章2聚类分析气候统计第三章2聚类分析,2。最长距离法:即为中最远的两个样品的距离。3.重心法:它为,10,3.4 系统聚类法(逐级归并法),系统聚类法是聚类分析中使用最多的方法,其,基本思路,是:先将n个样品各自看成一类,然后规定样品之间的距离(或相似系数)和类与类之间的距离,开始,将每个样品各自成一类,根据距离选择最相似的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,依次下去,直至所有样品并成一类,或各类之间的距离大于给定阈值T为止。,攒熬谢懈躇塑微搏藤唉搓姬镭朽盟变岂糜冗骆诗恨葱芜受惟树划鉴佣卢诬气候统计第三章2聚类分析气候统计第三章2聚类分析,3.4 系统聚类法(逐级归并法)系统聚类,11,包含步骤,(1)计算n个样品两两间的距离d,ij,(2)构造n个类,每类只包含一个样品,(3)合并距离最近(最相似)的两类为一个新类,(4)定义,类间距离,,计算新类与当前各类的距离。若类的个数等于1,转到(5)。否则回到步骤(3)。,(5)画聚类图,(6)决定类的个数和类,渣蝉挠忙倒俊胚嘱携梆所鞭坡羔味辉桔彤馏董碘智呕冗作谰带拯涨蒋检货气候统计第三章2聚类分析气候统计第三章2聚类分析,包含步骤渣蝉挠忙倒俊胚嘱携梆所鞭坡羔味辉桔彤馏董碘智呕冗作谰,12,使用不同的类间距离,便得到不同的系统聚类法。如最短距离法、最长距离法、重心法等。,纂术造铭罪烃宗椿驼屉邀燎碎福毗锌昆玲茹桶乃级根缀互犁澄并拦府撬俐气候统计第三章2聚类分析气候统计第三章2聚类分析,使用不同的类间距离,便得到不同的系统聚类法。如最短,13,i,1,2,3,4,5,6,7,8,x1,2,2,4,4,-4,-2,-3,-1,x2,5,3,4,3,3,2,2,-3,一、最短距离法,例 对同量纲指标x1和x2进行八次观测得各样品数据如下,试以最短距离法将其分类。,解:x1和x2为同量纲,无需标准化,采用欧氏距离,址娇甭垮音炊滇突暴互锅江圆隋澈抬彦曲骏朵槽项斜姨余桅毕郑映里蔬韶气候统计第三章2聚类分析气候统计第三章2聚类分析,i12345678x12244-4-2-3-1x253433,14,1、计算距离,如d,1,3,得距离阵:,G1,G2,G3,G4,G5,G6,G7,G8,G1,0,G2,2,0,G3,2.2,2.2,0,G4,2.8,2,1,0,G5,6.3,6,8.1,8,0,G6,5,4.1,6.3,6.1,2.2,0,G7,5.8,5.1,7.3,7.1,1.4,1,0,G8,8.5,6.7,8.6,7.8,6.7,5.1,5.4,0,D(0),筏壳踌札哉众笛兼降讶妮崩沃北煽睬撞砷鲜咯详滴穆幽疫氖械秤唉室武截气候统计第三章2聚类分析气候统计第三章2聚类分析,1、计算距离,如d1,3得距离阵:G1G2G3G4G5G6G,15,、计算新类与其他类的距离,G,k,G,p,G,q,G,r,例如:,镭基乞疏二坏靶锋不靡肮嫂熄最崇乃觅数唱幽千杖灿犹诗搜呜织詹滴与饲气候统计第三章2聚类分析气候统计第三章2聚类分析,、计算新类与其他类的距离GkGpGqGr例如:镭基乞疏二,16,2、定义类间距离,在()中,,即G,3,,G,4,和,G,6,,G,7,最为相似。,故将G,3,,G,4,并成G,9,G,6,,G,7,并为G,10,合并最相似两类,G,r,=G,p,G,q,恼生艺瞩宴射迷衅诉箭掩情传武像溅琳做网木粟迁敲碧构穴懒熙竹谚懈逮气候统计第三章2聚类分析气候统计第三章2聚类分析,2、定义类间距离在()中,即G3,G4 和合并最相似两类,17,删除p,q行和列,加上r行和列,得D(1),G1,G2,G5,G8,G9,G1,G2,2,G5,6.3,6,G8,8.5,6.7,6.7,G9,2.2,2,8,7.8,G10,5,4.1,1.4,5.1,6.1,4、在D(1)中,,D,5,10,=1.4是最小值,将G,5,和G,10,并成G,11,,进一步计算,D(2),灭颓汛牲开争降备费耕猖琐梢滨智秒垦盏型伤落掂桑绣遏幻清就俄尉舵包气候统计第三章2聚类分析气候统计第三章2聚类分析,删除p,q行和列,加上r行和列G1G2G5G8G9G1G22,18,G1,G2,G8,G9,G1,G2,2,G8,8.5,6.7,G9,2.2,2,7.8,G11,5,4.1,5.1,6.1,在(2)中,D,1,2,D,2,9,=2是最小元素,将G,1,G,2,G,9,合并为新类G,12,。,计算新类与各类的距离:,G8,G11,G8,G11,5.1,G12,6.7,4.1,得D(3),其中D,11,12,=4.1为最小元素,合并G,11,,G,12,为G,13,D(3),D,13,8,=5.1,最后G,13,,G,8,并成一类G,14,钳祈喉龄予美摇嘿探围喘高短炳叹诲摊诚隆吕林庙耿劝票锐柞烟蒸熟问爸气候统计第三章2聚类分析气候统计第三章2聚类分析,G1G2G8G9G1G22G88.56.7G92.227.8,19,瞄蠕砧碘讶日逝廉殷劣倘丸稼谱具啤砌教眶闺摈白郊姓卵蒸拔姚瘪谰冈讲气候统计第三章2聚类分析气候统计第三章2聚类分析,瞄蠕砧碘讶日逝廉殷劣倘丸稼谱具啤砌教眶闺摈白郊姓卵蒸拔姚瘪谰,20,5、画聚类图,绘制各次聚类结果。,若选择T=3.0,从图可见,1,2,3,4合并一类,5,6,7并成一类,8自成一类,全部样品分成三类为宜。,亿足颤忘奢藐蜡痢玄叼锑哀被劣螟窍穷啼沪奈吸姑专审榔牡老虏洒涕糯娩气候统计第三章2聚类分析气候统计第三章2聚类分析,5、画聚类图亿足颤忘奢藐蜡痢玄叼锑哀被劣螟窍穷啼沪奈吸姑专审,21,最长距离法、重心法等其他系统聚类法的步骤相同,仅在计算类间距离时的定义不同。最短距离法也可用于变量的分类,分类指标也可用相似系数,在用相似系数时,要找相似系数最大的两类合并,,即总是最相似的两类合并。,下面看一实例:,昌纷铃嚏幂崇儡锄稍川烂畅居茨藉罩糜肌缨玲绥涕冷吸验叠橙会垣铬衫黎气候统计第三章2聚类分析气候统计第三章2聚类分析,最长距离法、重心法等其他系统聚类法的步骤相同,仅,22,例,某地用4个因子表示气候闷热状况,分别是,x1:日平均温度,x2:14时气温,x3:14时相对湿度,x4:日最低气温,试根据下表所列相似系数将因子分类,G1,G2,G3,G2,0.93,G3,-0.74,-0.83,G4,0.69,0.5,-0.38,萄呼涧仓瓷苦删溯犀胖曲忙观搓延猜禁蝉馏砷讨愚臂弊雷葱叙惰钡摄只套气候统计第三章2聚类分析气候统计第三章2聚类分析,例,某地用4个因子表示气候闷热状况,分别是G1G2G3,23,解:G,1,和G,2,的相似系数最大,R,1,2,=max,表明两者最接近,先将它们并成G,5,。,计算G,5,与G,3,,G,4,的相似系数分别为:,兢结宏孵描尧诧佰茄竞勒畔辖叶郭腥医箕宦捷慷饱桩顺发此账鹅灭扎渣室气候统计第三章2聚类分析气候统计第三章2聚类分析,解:G1和G2的相似系数最大,R1,2=max,表明两者最,24,G3,G4,G4,-0.38,G5,-0.74,0.69,R(1)中,R,4,5,=0.69=max,将G4,G5并成G6,G3与G6变化趋势相反,并成一类无意义,聚类结束,质堕牛蕉蜂硬畔能冗钡新闷滴氖旅糖葡从遵拾属捍泣湖胶礁帐藤臻搔孽项气候统计第三章2聚类分析气候统计第三章2聚类分析,G3G
展开阅读全文