多元统计应用第4讲(聚类分析).ppt

资源描述

数理统计及其应用聚类分析ClusterAnalysis 第一节聚类分析方法第二节聚类统计量第三节无量纲化方法第四节Q型系统聚类法第五节R型系统聚类法第六节快速聚类法推荐阅读第一节聚类分析方法聚类分析是根据物以类聚的道理对样品或指标进行分类的一种多元统计分析方法它们讨论的对象是大量的样品要求能合理地按各自的特性来进行合理的分类没有任何模式可供参考或依循即是在没有先验知识的情况下进行的基本思想是根据事物本身的特性研究个体分类的方法聚类原则是同一类中的个体有较大的相似性不同类中的个体差异很大基本程序是根据一批样品的多个观测指标具体地找出一些能够度量样品或指标之间相似程度的统计量然后利用统计量将样品或指标进行归类具体进行聚类时由于目的要求不同因而产生各种不同的聚类方法由小类合并到大类的方法由大类分解为小类的方法静态聚类法动态聚类法按样本聚类 Q 按指标聚类 R 在社会经济领域中存在着大量分类问题如对我国31个省市自治区独立核算工业企业经济效益进行分析一般不是逐省市自治区去分析而较好地做法是选取能反映企业经济效益的代表性指标如百元固定资产实现利税资金利税产值利税率等根据这些指标对全国各省市自治区进行分类然后根据分类结果对企业经济效益进行综合评价就易于得出科学的分析第二节聚类统计量一概述二 Q型聚类统计量三 R型聚类统计量概述设有n个样本单位每个样本测得p项指标变量原始资料阵为 Q型聚类以距离作为统计量 R型聚类以相似系数作为统计量 Q型聚类统计量距离把n个样本点看成p维空间的n个点1 绝对距离 Block距离 2 欧氏距离 Euclideandistance 3 明考斯基距离 Minkowski 4 兰氏距离5 马氏距离6 切比雪夫距离 Chebychev R型聚类统计量对两个指标之间的相似程度用相似系数来刻划相似系数的绝对值越接近于1 表示指标间的关系越密切绝对值越接近于0 表示指标间的关系越疏远 1 夹角余弦2 相关系数3 同号率第三节无量纲化方法所谓无量纲化处理是将原始数据矩阵中每个元素按照某种特定的运算把它变成一个新值且是数值的变化不依赖于原始数据中其它数据的新值 1 极差正规化规格化变换阈值法 2 标准化变换3 功效系数法4 相对化变换例某年我国部分省市经济效益情况用以上几种方法对其无量纲化第四节Q型系统聚类法系统聚类法层次聚类法在聚类分析的开始每个样本自成一类然后按照某种方法度量所有样本之间的亲疏程度并把最相似的样本首先聚成一小类接下来度量剩余的样本和小类间的亲疏程度并将当前最接近的样本或小类再聚成一类再接下来再度量剩余的样本和小类间的亲疏程度并将当前最接近的样本或小类再聚成一类如此反复直到所有样本聚成一类为止步骤 1 对数据进行变换处理消除量纲2 构造n个类每个类只包含一个样本计算3 n个样本两两间的距离 dij 4 合并距离最近的两类为一新类5 计算新类与当前各类的距离重复 4 6 画聚类图7 决定类的个数和类类与类间距离的确定一最短距离法二最长距离法三中间距离法四重心距离法五类平均法六离差平方和最短距离法 NearestNeighbor 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离例1 为了研究辽宁省5省区某年城镇居民生活消费的分布规律根据调查资料做类型划分 spssex ex501 G1 辽宁 G2 浙江 G3 河南 G4 甘肃 G5 青海 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南与甘肃的距离最近先将二者 3和4 合为一类G6 G2 G4 d61 d 3 4 1 min d13 d14 13 12d62 d 3 4 2 min d23 d24 24 06d65 d 3 4 5 min d35 d45 2 21612560D2 113 120224 0611 67052 2112 8023 540d71 d 3 4 5 1 min d13 d14 d15 12 80 d72 d 3 4 5 2 min d23 d24 d25 23 54712D3 70112 800223 5411 670 河南甘肃与青海并为一新类G7 G6 G5 G3 G4 G6 G8 G1 G2 d78 min d71 d72 12 8078D4 70812 80河南3甘肃4青海5辽宁1浙江2 最长距离法 furthestneighbor 以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离例2 对例1的数据以最长距离法聚类 d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南与甘肃的距离最近先将二者 3和4 合为一类G6 G2 G4 d61 d 3 4 1 max d13 d14 13 80d62 d 3 4 2 max d23 d24 24 63d65 d 3 4 5 max d35 d45 3 51612560D2 113 800224 6311 67053 5112 8023 540 河南甘肃与青海并为一新类G7 G6 G5 G3 G4 G6 d71 d 3 4 5 1 max d13 d14 d15 13 80d72 d 3 4 5 2 max d23 d24 d25 24 63712D3 70113 800224 6311 670d78 max d71 d72 24 6378D4 70824 630 G8 G1 G2 中位数法 Medianclustering 用两位类的中位数间的距离作为两类的距离 Gt Gl Gm 重心法用两类的重心间的距离作为两类的距离组间平均链锁法 Between groupslinkage 定义两个小类之间的距离为所有样本对间的平均距离利用了所有样本对距离的信息组内平均链锁法 Within groupslinkage 对所有样本对的距离求平均值包括小类之间的样本对小类内的样本对离差平方和法 Ward smethodword 使小类内各样本的欧氏距离总平方和增加最小的两小类合并为一类将q固定时要选择使S达到极小的分类一切可能的分法有 Ward寻找到一个局部最优解的方法先将n个样本各成一类然后每次缩小一类每缩小一类离差平方和就要增大选择使离差平方和S增加最小的两类合并直至所有样本归为一类为止例3 为了研究某年全国各地区农民家庭收支的分布规律根据抽样调查资料进行分类处理共抽取28个省市自治区的样本每个样本有六个指标分别为食品衣着燃料住房生活用品及其它文化生活服务支出原始资料见spssex ex512 第五节R型系统聚类法一最小系数法二最大系数法三中间系数法对变量聚类是一种降维的方法用于在变量众多时寻找有代表性的变量以便当用少量有代表性的变量代替大变量时损失信息很少第六节快速聚类如果选择了N个数值型变量参与聚类分析最后要求聚类数K 那么可以由系统首先选择K个观测量作为聚类的种子也称初始类中心凝聚点按照距这几个类中心的距离最小原则把观测量分到各类中心所在的类中去形成第一次迭代形成的K类根据组成每一类的观测量计算各变量均值每一类中的n个均值在N维空间中又形成K个点这就是第二次迭代的类中心按照这种方法依次迭代下去直到分类比较合理为止凝聚点的选择 1 经验选择2 对样本人为或随机分类以每类的重心作为凝聚点3 最小最大距离法如果欲将n个样本点分为q类先选取距离最大的两点xi1 xi2为前两个凝聚点然后选取第3个凝聚点xi3 由于其余所有点与前两个凝聚点都有最短距离在全部最短距离中选择最长距离这个距离的两端一个是xi1或xi2 而另一个就是我们要选择的xi3 4 密度法例4 有15个样品每个样品有两个经相对化处理后的指标y1 y2 试用密度法先取凝聚点距离以欧氏距离计算球半径为0 3 数据见spssex ex513在SPSS中计算出距离矩阵归纳出各样本的密度为凝聚点为样本6 12 1 13 初始分类 1 人为地分类2 选择凝聚点后将与其最近的凝聚点归并3 选择凝聚点后每个凝聚点自成一类将样本依次归入其距离最近的凝聚点那一类并立即计算该类的重心以代替原来的凝聚点再计算下一个样本的归类 4 先对样本数据标准化然后计算统计量这个数接近几就归入第几类快速聚类步骤 1 选择分析变量2 指定聚类数目3 选择k个样本作为凝聚点4 按照距初始类中心最小的原则将各观察量分到聚类中心所在的类中去形成第一步迭代的k类5 计算每类中所有变量的均值作为第二次迭代的中心6 重复3 4步直至指定的迭代次数或达到终止的条件例5 仍以例3的数据资料进行快速聚类分为4类例5 仍以例3的数据资料进行快速聚类分为4类 SPSS 聚类方法的选择 between groupslinkage 组间连接within groupslinkage 组内连接nearestneighbor 最近邻法furthestneighbor 最远邻法centroidclustering 重心聚类法medianclustering 中位数法Ward smethod 离差平方和法对距离的测度方法选择 Euclideandistance 欧氏距离squaredEuclideandistance 欧氏距离平方cosine 相似性测度Pearsoncorrelation 皮尔逊相关Chebychev 切比雪夫距离block 绝对距离Minkowski 明考斯基距离customized 自定义选择统计表 Dendrogram 树形图Icicle 冰柱图推荐阅读数量经济技术经济研究2003 7 中国可持续发展问题特征研究暨中等发达国家可持续发展模式的聚类分析有问题请提问

展开阅读全文

多元统计应用第4讲(聚类分析).ppt

最新文档