资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,4/14/2023,*,多元统计分析,谢中华,天津科技大学数学系.,第三节 系统聚类方法,类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。,开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。,一、根本思想,4/14/2023,x,21,x,12,x,22,x,11,二、最短距离法single linkage method),4/14/2023,例,设有五个样品,每个只测量了一个指标,指标值分别是1,2,6,8,11.在用最短距离法对这五个样品进行聚类时,样品间采用绝对值距离,现已得到样品间初始距离矩阵 如下,G,1,G,2,G,3,G,4,G,5,G,1,0,G,2,1,0,G,3,5,4,0,G,4,7,6,2,0,G,5,10,9,5,3,0,试根据以上结果完成下面的聚类过程,将五个样品聚为一类。,4/14/2023,data,exam7_3_1_1;,input,v$x;,cards,;,x1 1,x2 2,x3 6,x4 8,x5 11,;,proc,cluster,method,=sin;,var,x;,id,v;,proc,tree,horizontal,=,1,;,id,v;,run,;,SAS,程序1,4/14/2023,data,exam7_3_1_2(type=distance);,array,x(,5,)x1-x5;,input,v$x1-x5;,cards,;,x1 0 .,x2 1 0 .,x3 5 4 0 .,x4 7 6 2 0 .,x5 10 9 5 3 0,;,proc,cluster,method,=sin;,var,x1-x5;,id,v;,proc,tree,horizontal,;,id,v;,run,;,SAS,程序2,4/14/2023,聚类树形谱系图,4/14/2023,x,11,x,21,三、最长距离法Complete linkage method),4/14/2023,例,对305名女中学生测量八个体型指标:,x,1,=身高,,x,5,=体重,,x,2,=手臂长,,x,6,=颈围,,x,3,=上肢长,,x,7,=胸围,,x,4,=下肢长,,x,8,=胸宽,,相关矩阵列于下表,x,1,x,2,x,3,x,4,x,5,x,6,x,7,x,8,x,1,1.000,.,.,.,.,.,.,.,x,2,0.846,1.000,.,.,.,.,.,.,x,3,0.805,0.881,1.000,.,.,.,.,x,4,0.859,0.826,0.801,1.000,.,.,.,.,x,5,0.473,0.376,0.380,0.436,1.000,.,.,.,x,6,0.398,0.326,0.319,0.329,0.762,1.000,.,.,x,7,0.301,0.277,0.237,0.327,0.730,0.583,1.000,.,x,8,0.382,0.415,0.345,0.365,0.629,0.577,0.539,1.000,4/14/2023,应用最长距离法进行聚类,即类与类之间的相似系数定义为两类变量之间的最小相关系数。每次聚类时合并两个相关系数最大的类。,4/14/2023,data,examp7_3_2(type=distance);,array,x(,8,)x1-x8;,input,v$x1-x8;,do,i=,1,to,8,;,x,(i)=,1,-x(i);,end,;,drop,i;,cards,;,x1 1.000 .,x2 .846 1.000 .,x3 .805 .881 1.000 .,x4 .859 .826 .801 1.000 .,x5 .473 .376 .380 .436 1.000 .,x6 .398 .326 .319 .329 .762 1.000 .,x7 .301 .277 .237 .327 .730 .583 1.000 .,x8 .382 .415 .345 .365 .629 .577 .539 1.000,;,proc,print,data,=examp7_3_2;,run,;,proc,cluster,data,=examp7_3_2,method,=com;,var,x1-x8;,id,v;,proc,tree,horizontal,;,id,v;,run,;,SAS,程序,4/14/2023,四、中间距离法median method),D,KJ,D,LJ,中间距离,4/14/2023,用上式作为递推公式的系统聚类法称为,可变法,。,五、可变法,如果让中间距离法的递推公式三项的系数依赖于参数,b,,即递推公式为:,4/14/2023,类平均法定义类间的距离是两类间所有样品对之间的距离的平均值,即,六、类平均法Average linkage method),定义距离:,递推公式:,注:类平均法利用了所有样品的信息,在很多情况下被认,为是一种比较好的系统聚类法,4/14/2023,类平均法的递推公式中,没有反映GK类和GL类的距离有多大,进一步将其改进,参加D2KL,并给定系数1,那么类平均法的递推公式改为:,用此递推公式进行聚类就是可变类平均法。,递推公式由:,K类和L类与J类的距离的加权平均数,K类和L类的距离,两项的加权和构成,,的大小根据哪项更重要而定。,七、可变类平均法Flexible-Beta method),4/14/2023,分别为GK和GL的重心,类与类之间的平方距离定义为两个类重心类内样品平均值间的平方距离,即,重心法,也称为样品的均值法。设G,K,和G,L,为两个类,八、重心法 Centroid hierarchical method),4/14/2023,设某一步GK和GL的类内的样品数分别为nK和nL,如果要把GK和GL合并为GM类,那么GM类的样品数nM=nK+nL,GM类的重心为 和 的加权算术平均数:,距离递推公式为,4/14/2023,类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。,离差平方和法的思路是,先让,n,个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S,2,增加最小的两类合并,直到所有的样品归为一类为止。离差平方和法定义类间的平方距离为,九、离差平方和法 Wards minimum variance,method),4/14/2023,设类G,K,和G,L,合并成新类G,M,,三类的类内离差平方和分别记为,定义,类G,K,和G,L,之间的平方距离为:,4/14/2023,可以证明离差平方和法的聚类递推公式为:,4/14/2023,例 下表列出了1999年全国31个省、市和自治区的城镇居民家庭平均全年消费性支出的八个主要变量数据,这8个变量是,x1=食品,x5=交通和通讯,,x2=衣着,x6=娱乐教育文化效劳,,x3=家庭设备用品及效劳,x7=居住,,x4=医疗保健,x8=杂项商品和效劳,,试分别用最短距离法、重心法和Ward方法对各地区作聚类分析。,4/14/2023,Obs region x1 x2 x3 x4 x5 x6 x7 x8,1 北京 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64,2 天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08,3 河北 1495.63 515.90 362.37 285.32 272.95 540.58 364.91 188.63,4 山西 1406.33 477.77 290.15 208.57 201.50 414.72 281.84 212.10,5 内蒙古 1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96,6 辽宁 1730.84 553.90 246.91 279.81 239.18 445.20 330.24 163.86,7 吉林 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76,8 黑龙江 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85,9 上海 3712.31 550.74 893.37 346.93 527.00 1034.98 720.33 462.03,10 江苏 2207.58 449.37 572.40 211.92 302.09 585.23 429.77 252.54,11 浙江 2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36,12 安徽 1844.78 430.29 271.28 126.33 250.56 513.18 314.00 151.39,13 福建 2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.29,14 江西 1563.78 303.65 233.81 107.90 209.70 393.99 509.39 160.12,15 山东 1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84,16 河南 1427.65 431.79 288.55 208.14 217.00 337.76 421.31 165.32,17 湖北 1783.43 511.88 282.84 201.01 237.60 617.74 523.52 182.52,18 湖南 1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.45,19 广东 3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81,20 广西 2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27,21 海南 2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19,22 重庆 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.80,23 四川 1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.46,24 贵州 1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48,25 云南 2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.95,26 西藏 2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.33,27 陕西 1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.34,28 甘肃 1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.19,29 青海 1654.69 437.77 258.78 303.00 244.93 479.53 288.56 236.51,30 宁夏 1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.93,31
展开阅读全文