《SPSS的聚类分析》PPT课件.ppt

上传人:sh****n 文档编号:8633455 上传时间:2020-03-30 格式:PPT 页数:28 大小:651.81KB
返回 下载 相关 举报
《SPSS的聚类分析》PPT课件.ppt_第1页
第1页 / 共28页
《SPSS的聚类分析》PPT课件.ppt_第2页
第2页 / 共28页
《SPSS的聚类分析》PPT课件.ppt_第3页
第3页 / 共28页
点击查看更多>>
资源描述
2020年3月30日星期一 1 第九章SPSS的聚类分析 2020年3月30日星期一 2 9 1聚类分析的一般问题 9 1 1聚类分析的意义聚类分析是统计学中研究 物以类聚 问题的多元统计分析方法 聚类分析是一种建立分类的多元统计分析方法 它能够将一批样本 或变量 数据根据其诸多特征 按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类 产生多个分类结果 类内部的个体在特征上具有相似性 不同类间个体特征的差异性较大 2020年3月30日星期一 3 例如 学校里有些同学经常在一起 关系比较密切 而他们与另一些同学却很少来往 关系比较疏远 究其原因可能会发现 经常在一起的同学的家庭情况 性格 学习成绩 课余爱好等方面有许多共同之处 而关系比较疏远的同学在这些方面有较大的差异性 为了研究家庭情况 性格 学习成绩 课余爱好等是否会成为划分学生小群体的主要决定因素 可以从有关这些方面的数据入手 进行客观分组 然后比较所得的分组是否与实际相吻合 对学生的客观分组就可采用聚类分析方法 2020年3月30日星期一 4 9 1 2聚类分析中 亲疏程度 的度量方法1 定距型变量个体间距离的计算方式欧式距离 Euclideandistance 平方欧式距离 SquaredEuclideandistance 切比雪夫 Chebychev 距离Block距离明考斯基 Minkowski 距离夹角余弦 Cosine 距离用户自定义 Customized 距离 2020年3月30日星期一 5 2 计数变量个体间距离的计算方式卡方 Chi Squaremeasure 距离Phi方 Phi Squaremeasure 距离3 二值 Binary 变量个体间距离的计算方式简单匹配系数 SimpleMatching 雅科比系数 Jaccard 注 聚类分析的几点说明所选择的变量应符合聚类的要求各变量的变量值不应有数量级上的差异各变量间不应有较强的线性相关关系 2020年3月30日星期一 6 9 2层次聚类 9 2 1层次聚类的两种类型和两种方式层次聚类又称系统聚类 简单地讲是指聚类过程是按照一定层次进行的 层次聚类有两种类型 分别是Q型聚类和R型聚类 层次聚类的聚类方式又有两种 分别是凝聚方式聚类和分解方式聚类 2020年3月30日星期一 7 Q型聚类 对样本进行聚类 使具有相似特征的样本聚集在一起 使差异性大的样本分离开来 R型聚类 对变量进行聚类 使具有相似性的变量聚集在一起 差异性大的变量分离开来 可在相似变量中选择少数具有代表性的变量参与其他分析 实现减少变量个数 达到变量降维的目的 2020年3月30日星期一 8 凝聚方式聚类 其过程是 首先 每个个体自成一类 然后 按照某种方法度量所有个体间的亲疏程度 并将其中最 亲密 的个体聚成一小类 形成n 1个类 接下来 再次度量剩余个体和小类间的亲疏程度 并将当前最亲密的个体或小类再聚到一类 重复上述过程 直到所有个体聚成一个大类为止 可见 这种聚类方式对n个个体通过n 1步可凝聚成一大类 分解方式聚类 其过程是 首先 所有个体都属一大类 然后 按照某种方法度量所有个体间的亲疏程度 将大类中彼此间最 疏远 的个体分离出去 形成两类 接下来 再次度量类中剩余个体间的亲疏程度 并将最疏远的个体再分离出去 重复上述过程 不断进行类分解 直到所有个体自成一类为止 可见 这种聚类方式对包含n个个体的大类通过n 1步可分解成n个个体 SPSS中的层次聚类采用的是凝聚方式 2020年3月30日星期一 9 9 2 2个体与小类 小类与小类间 亲疏程度 的度量方法SPSS中提供了多种度量个体与小类 小类与小类间 亲疏程度 的方法 与个体间 亲疏程度 的测度方法类似 应首先定义个体与小类 小类与小类的距离 距离小的关系亲密 距离大的关系疏远 这里的距离是在个体间距离的基础上定义的 常见的距离有 2020年3月30日星期一 10 最近邻居 NearestNeighbor 距离 个体与小类中每个个体距离的最小值 最远邻居 FurthestNeighbor 距离 个体与小类中每个个体距离的最大值 组间平均链锁 Between groupslinkage 距离 个体与小类中每个个体距离的平均值 组内平均链锁 Within groupslinkage 距离 个体与小类中每个个体距离以及小类内各个体间距离的平均值 重心 Centroidclustering 距离 个体与小类的重心点的距离 离差平方和法 Ward smethod 聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类 2020年3月30日星期一 11 9 2 3层次聚类的基本操作1 选择菜单Analyze Classify HierarchicalCluster 出现窗口 2020年3月30日星期一 12 2 把参与层次聚类分析的变量选到Variable s 框中 3 把一个字符型变量作为标记变量选到LabelCasesby框中 它将大大增强聚类分析结果的可读性 4 在Cluster框中选择聚类类型 其中Cases表示进行Q型聚类 默认类型 Variables表示进行R型聚类 5 在Display框中选择输出内容 其中Statistics表示输出聚类分析的相关统计量 Plot表示输出聚类分析的相关图形 2020年3月30日星期一 13 6 单击Method按钮指定距离的计算方法 2020年3月30日星期一 14 Measure框中给出的是不同变量类型下的个体距离的计算方法 其中Interval框中的方法适用于连续型定距变量 Counts框中的方法适用于计数型变量 Binary框中的方法适用于二值变量 ClusterMethod框中给出的是计算个体与小类 小类与小类间距离的方法 7 如果参与聚类分析的变量存在数量级上的差异 应在TransformValues框中的Standardize选项中选择消除数量级差的方法 并指定处理是针对变量的还是针对样本的 Byvariable表示针对变量 适于Q型聚类分析 Bycase表示针对样本 适于R型聚类分析 2020年3月30日星期一 15 8 单击Statistics按钮指定输出哪些统计量 2020年3月30日星期一 16 Agglomerationschedule表示输出聚类分析的凝聚状态表 Proximitymatrix表示输出个体间的距离矩阵 ClusterMembership框中 None表示不输出样本所属类 SingleSolution表示指定输出当分成n类时各样本所属类 是单一解 Rangeofsolution表示指定输出当分成m至n类 m小于等于n 时各样本所属类 是多个解 2020年3月30日星期一 17 9 单击Plot按钮指定输出哪种聚类分析图 2020年3月30日星期一 18 Dendrogram选项表示表示输出聚类分析树形图 在Icicle框中指定输出冰挂图 其中 Allclusters表示输出聚类分析每个阶段的冰挂图 Specifiedrangeofclusters表示只输出某个阶段的冰挂图 输入从第几步开始 到第几步结束 中间间隔几步 在Orientation框中指定如何显示冰挂图 其中 Vertical表示纵向显示 Horizontal表示横向水平显示 树形图以躺倒树的形式展现了聚类分析中的每一次类合并的情况 SPSS自动将各类间的距离映射到0 25之间 并将凝聚过程近似地表示在图上 2020年3月30日星期一 19 10 单击Save按钮可以将聚类分析的结果以变量的形式保存到数据编辑窗口中 生成的变量名为clun m 如clu2 1 其中n表示类数 如2 m表示是第m次分析 如1 由于不同的距离计算方法会产生不同的聚类分析结果 即使聚成n类 同一样本的类归属也会因计算方法的不同而不同 因此实际分析中应反复尝试以最终得到符合实际的合理解 并保存于SPSS变量中 2020年3月30日星期一 20 9 2 4层次聚类的应用举例1 利用对5个商厦的评分做聚类分析 2 例 31个省市自治区小康和现代化指数的层次聚类分析 利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析 其中个体距离采用欧式距离 类间距离采用平均组间链锁距离 由于数据不存在数量级上的差异 因此无需进行标准化处理 2020年3月30日星期一 21 9 3K Means聚类 9 3 1K Means聚类分析的核心步骤K Means聚类也称快速聚类 仍将数据看成k维空间上的点 仍以距离作为测度个体 亲疏程度 的指标 并通过牺牲多个解为代价换得高的执行效率 其核心步骤是 第一 指定聚类数目K第二 确定K个初始类中心SPSS中初始类中心的指定方式有两种 一是用户指定方式 二是系统指定方式 2020年3月30日星期一 22 第三 根据距离最近原则进行分类依次计算每个样本数据点到K个类中心点的欧式距离 并按距K个类中心点距离最短的原则将所有样本分成K类 第四 重新确定K个类中心中心点的确定原则是 依次计算各类中k个变量的均值 并以均值点作为K个类的中心点 第五 判断是否已满足中止聚类分析的条件条件有两个 一是迭代次数 SPSS默认为10 二是类中心点偏移程度 即新确定的类中心点距上个类中心点的最大偏移量小于指定的量 SPSS默认为0 02 时中止聚类 2020年3月30日星期一 23 9 3 2K Means聚类分析的操作步骤1 选择选项Analyze Classify K MeansCluster 打开主窗口 2020年3月30日星期一 24 2 选定参与K Means聚类的变量放入Variables框中 3 选择一个字符型变量作为标记变量放入LabelCases框中 增加分析结果的可读性 4 在NumberofClusters框中输入聚类数目 该数应小于样本数 5 如果用户自行指定初始类中心点 则单击Centers按钮 并在Readinitialfrom框后给出存放初始类中心的SPSS数据文件名 否则本步可略去 2020年3月30日星期一 25 6 在Method框中指定聚类过程是否调整类中心点 其中 Iterateandclassify表示在聚类分析的每一步都重新确定类中心点 SPSS默认 Classifyonly表示聚类分析过程中类中心点始终为初始类中心点 此时仅进行一次迭代 7 单击Iterate按钮确定中止聚类的条件 在Maximumiterations框后输入最大迭代次数 在Convergencecriterion框后输入类中心的偏移量 另外 Userunningmeans选项 选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点 此时类中心点与样本分配的前后顺序有关 不选该项表示只有当完成了所有样本的类分配后再计算类中心 该方式可节省运算时间 通常不选中该选项 2020年3月30日星期一 26 8 单击Save按钮将聚类分析的部分结果以SPSS变量的形式保存到数据编辑窗口中 其中Clustermembership表示保存样本所属类的类号 Distancefromclustercenter表示保存样本距各自类中心点的距离 9 单击Option按钮确定输出哪些相关分析结果和缺失值的处理方式 Statistics框中 Initialclustercenters表示输出初始类中心点 ANOVAtable表示以聚类分析产生的类为控制变量 以k个变量为观测变量进行单因素方差分析 并输出各个变量的方差分析表 Clusterinformationforeachcase表示输出样本分类信息及距所属类中心点的距离 至此完成了K Means聚类分析的全部操作 2020年3月30日星期一 27 9 3 3K Means聚类分析应用举例 用2001年全国31个省市自治区各类小康好人现代化指数的数据 对地区进行K Means聚类分析 要求分成3类 初始类中心点由SPSS自行确定 2020年3月30日星期一 28
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!