多元统计应用第4讲(聚类分析).ppt

上传人:max****ui 文档编号:8423340 上传时间:2020-03-29 格式:PPT 页数:44 大小:289.16KB
返回 下载 相关 举报
多元统计应用第4讲(聚类分析).ppt_第1页
第1页 / 共44页
多元统计应用第4讲(聚类分析).ppt_第2页
第2页 / 共44页
多元统计应用第4讲(聚类分析).ppt_第3页
第3页 / 共44页
点击查看更多>>
资源描述
数理统计及其应用 聚类分析ClusterAnalysis 第一节聚类分析方法第二节聚类统计量第三节无量纲化方法第四节Q型系统聚类法第五节R型系统聚类法第六节快速聚类法推荐阅读 第一节聚类分析方法 聚类分析是根据 物以类聚 的道理 对样品或指标进行分类的一种多元统计分析方法 它们讨论的对象是大量的样品 要求能合理地按各自的特性来进行合理的分类 没有任何模式可供参考或依循 即是在没有先验知识的情况下进行的 基本思想是根据事物本身的特性研究个体分类的方法 聚类原则是同一类中的个体有较大的相似性 不同类中的个体差异很大 基本程序 是根据一批样品的多个观测指标 具体地找出一些能够度量样品或指标之间相似程度的统计量 然后利用统计量将样品或指标进行归类 具体进行聚类时 由于目的 要求不同 因而产生各种不同的聚类方法 由小类合并到大类的方法由大类分解为小类的方法静态聚类法 动态聚类法按样本聚类 Q 按指标聚类 R 在社会经济领域中存在着大量分类问题 如 对我国31个省市自治区独立核算工业企业经济效益进行分析 一般不是逐省市自治区去分析 而较好地做法是选取能反映企业经济效益的代表性指标 如百元固定资产实现利税 资金利税 产值利税率等 根据这些指标对全国各省市自治区进行分类 然后根据分类结果对企业经济效益进行综合评价 就易于得出科学的分析 第二节聚类统计量 一 概述二 Q型聚类统计量三 R型聚类统计量 概述 设有n个样本单位 每个样本测得p项指标 变量 原始资料阵为 Q型聚类以距离作为统计量 R型聚类以相似系数作为统计量 Q型聚类统计量 距离 把n个样本点看成p维空间的n个点1 绝对距离 Block距离 2 欧氏距离 Euclideandistance 3 明考斯基距离 Minkowski 4 兰氏距离5 马氏距离6 切比雪夫距离 Chebychev R型聚类统计量 对两个指标之间的相似程度用相似系数来刻划 相似系数的绝对值越接近于1 表示指标间的关系越密切 绝对值越接近于0 表示指标间的关系越疏远 1 夹角余弦2 相关系数3 同号率 第三节无量纲化方法 所谓无量纲化处理 是将原始数据矩阵中每个元素按照某种特定的运算把它变成一个新值 且是数值的变化不依赖于原始数据中其它数据的新值 1 极差正规化 规格化变换 阈值法 2 标准化变换3 功效系数法4 相对化变换 例 某年我国部分省市经济效益情况用以上几种方法对其无量纲化 第四节Q型系统聚类法 系统聚类法 层次聚类法 在聚类分析的开始 每个样本自成一类 然后 按照某种方法度量所有样本之间的亲疏程度 并把最相似的样本首先聚成一小类 接下来 度量剩余的样本和小类间的亲疏程度 并将当前最接近的样本或小类再聚成一类 再接下来 再度量剩余的样本和小类间的亲疏程度 并将当前最接近的样本或小类再聚成一类 如此反复 直到所有样本聚成一类为止 步骤 1 对数据进行变换处理 消除量纲2 构造n个类 每个类只包含一个样本计算3 n个样本两两间的距离 dij 4 合并距离最近的两类为一新类5 计算新类与当前各类的距离 重复 4 6 画聚类图7 决定类的个数和类 类与类间距离的确定 一 最短距离法二 最长距离法三 中间距离法四 重心距离法五 类平均法六 离差平方和 最短距离法 NearestNeighbor 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离 例1 为了研究辽宁省5省区某年城镇居民生活消费的分布规律 根据调查资料做类型划分 spssex ex501 G1 辽宁 G2 浙江 G3 河南 G4 甘肃 G5 青海 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南与甘肃的距离最近 先将二者 3和4 合为一类G6 G2 G4 d61 d 3 4 1 min d13 d14 13 12d62 d 3 4 2 min d23 d24 24 06d65 d 3 4 5 min d35 d45 2 21612560D2 113 120224 0611 67052 2112 8023 540d71 d 3 4 5 1 min d13 d14 d15 12 80 d72 d 3 4 5 2 min d23 d24 d25 23 54712D3 70112 800223 5411 670 河南 甘肃与青海并为一新类G7 G6 G5 G3 G4 G6 G8 G1 G2 d78 min d71 d72 12 8078D4 70812 80河南3甘肃4青海5辽宁1浙江2 最长距离法 furthestneighbor 以当前某个样本与已经形成的小类中的各样本距离中的最大值作为当前样本与该小类之间的距离 例2 对例1的数据以最长距离法聚类 d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南与甘肃的距离最近 先将二者 3和4 合为一类G6 G2 G4 d61 d 3 4 1 max d13 d14 13 80d62 d 3 4 2 max d23 d24 24 63d65 d 3 4 5 max d35 d45 3 51612560D2 113 800224 6311 67053 5112 8023 540 河南 甘肃与青海并为一新类G7 G6 G5 G3 G4 G6 d71 d 3 4 5 1 max d13 d14 d15 13 80d72 d 3 4 5 2 max d23 d24 d25 24 63712D3 70113 800224 6311 670d78 max d71 d72 24 6378D4 70824 630 G8 G1 G2 中位数法 Medianclustering 用两位类的中位数间的距离作为两类的距离 Gt Gl Gm 重心法 用两类的重心间的距离作为两类的距离 组间平均链锁法 Between groupslinkage 定义两个小类之间的距离为所有样本对间的平均距离 利用了所有样本对距离的信息 组内平均链锁法 Within groupslinkage 对所有样本对的距离求平均值 包括小类之间的样本对 小类内的样本对 离差平方和法 Ward smethodword 使小类内各样本的欧氏距离总平方和增加最小的两小类合并为一类 将q固定时 要选择使S达到极小的分类 一切可能的分法有 Ward寻找到一个局部最优解的方法 先将n个样本各成一类 然后每次缩小一类 每缩小一类离差平方和就要增大 选择使离差平方和S增加最小的两类合并 直至所有样本归为一类为止 例3 为了研究某年全国各地区农民家庭收支的分布规律 根据抽样调查资料进行分类处理 共抽取28个省 市 自治区的样本 每个样本有六个指标 分别为食品 衣着 燃料 住房 生活用品及其它 文化生活服务支出 原始资料见spssex ex512 第五节R型系统聚类法 一 最小系数法二 最大系数法三 中间系数法 对变量聚类 是一种降维的方法 用于在变量众多时寻找有代表性的变量 以便当用少量 有代表性的变量代替大变量时损失信息很少 第六节快速聚类 如果选择了N个数值型变量参与聚类分析 最后要求聚类数K 那么可以由系统首先选择K个观测量作为聚类的种子 也称初始类中心 凝聚点 按照距这几个类中心的距离最小原则把观测量分到各类中心所在的类中去 形成第一次迭代形成的K类 根据组成每一类的观测量计算各变量均值 每一类中的n个均值在N维空间中又形成K个点 这就是第二次迭代的类中心 按照这种方法依次迭代下去直到分类比较合理为止 凝聚点的选择 1 经验选择2 对样本人为或随机分类 以每类的重心作为凝聚点3 最小最大距离法 如果欲将n个样本点分为q类 先选取距离最大的两点xi1 xi2为前两个凝聚点 然后选取第3个凝聚点xi3 由于其余所有点与前两个凝聚点都有最短距离 在全部最短距离中选择最长距离 这个距离的两端一个是xi1或xi2 而另一个就是我们要选择的xi3 4 密度法 例4 有15个样品 每个样品有两个经相对化处理后的指标y1 y2 试用密度法先取凝聚点 距离以欧氏距离计算 球半径为0 3 数据见spssex ex513在SPSS中计算出距离矩阵 归纳出各样本的密度为 凝聚点为样本6 12 1 13 初始分类 1 人为地分类2 选择凝聚点后 将与其最近的凝聚点归并3 选择凝聚点后 每个凝聚点自成一类 将样本依次归入其距离最近的凝聚点那一类 并立即计算该类的重心 以代替原来的凝聚点 再计算下一个样本的归类 4 先对样本数据标准化 然后计算统计量 这个数接近几 就归入第几类 快速聚类步骤 1 选择分析变量2 指定聚类数目3 选择k个样本作为凝聚点4 按照距初始类中心最小的原则将各观察量分到聚类中心所在的类中去 形成第一步迭代的k类5 计算每类中所有变量的均值 作为第二次迭代的中心6 重复3 4步 直至指定的迭代次数或达到终止的条件例5 仍以例3的数据资料 进行快速聚类 分为4类 例5 仍以例3的数据资料 进行快速聚类 分为4类 SPSS 聚类方法的选择 between groupslinkage 组间连接within groupslinkage 组内连接nearestneighbor 最近邻法furthestneighbor 最远邻法centroidclustering 重心聚类法medianclustering 中位数法Ward smethod 离差平方和法 对距离的测度方法选择 Euclideandistance 欧氏距离squaredEuclideandistance 欧氏距离平方cosine 相似性测度Pearsoncorrelation 皮尔逊相关Chebychev 切比雪夫距离block 绝对距离Minkowski 明考斯基距离customized 自定义选择统计表 Dendrogram 树形图Icicle 冰柱图 推荐阅读 数量经济技术经济研究2003 7 中国可持续发展问题特征研究暨中等发达国家可持续发展模式的聚类分析 有问题 请提问
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!