spss聚类分析结果解释ppt课件

上传人:钟*** 文档编号:5022926 上传时间:2020-01-18 格式:PPT 页数:83 大小:1.85MB
返回 下载 相关 举报
spss聚类分析结果解释ppt课件_第1页
第1页 / 共83页
spss聚类分析结果解释ppt课件_第2页
第2页 / 共83页
spss聚类分析结果解释ppt课件_第3页
第3页 / 共83页
点击查看更多>>
资源描述
第14章聚类分析与判别分析 介绍 1 聚类分析2 判别分析分类学是人类认识世界的基础科学 聚类分析和判别分析是研究事物分类的基本方法 广泛地应用于自然科学 社会科学 工农业生产的各个领域 1 14 1 1聚类分析 根据事物本身的特性研究个体分类的方法 原则是同一类中的个体有较大的相似性 不同类中的个体差异很大 根据分类对象的不同 分为样品 观测量 聚类和变量聚类两种 样品聚类 对观测量 Case 进行聚类 不同的目的选用不同的指标作为分类的依据 如选拔运动员与分课外活动小组 变量聚类 找出彼此独立且有代表性的自变量 而又不丢失大部分信息 在生产活动中不乏有变量聚类的实例 如 衣服号码 身长 胸围 裤长 腰围 鞋的号码 变量聚类使批量生产成为可能 2 14 1 2判别分析 判别分析是根据表明事物特点的变量值和它们所属的类 求出判别函数 根据判别函数对未知所属类别的事物进行分类的一种分析方法 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断 如动物学家对动物如何分类的研究和某个动物属于哪一类 目 纲的判断 不同 判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值 并且已知各个体的分类 训练样本 3 14 1 3聚类分析与判别分析的SPSS过程 在Analyze Classify下 K MeansCluster 观测量快速聚类分析过程HierarchicalCluster 分层聚类 进行观测量聚类和变量聚类的过程Discriminant 进行判别分析的过程 4 14 2快速样本聚类过程 QuickCluster 使用k均值分类法对观测量进行聚类可使用系统的默认选项或自己设置选项 如分为几类 指定初始类中心 是否将聚类结果或中间数据数据存入数据文件等 快速聚类实例 P342 data14 01a 使用系统的默认值进行 对运动员的分类 分为4类 Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4比较有用的结果 聚类结果形成的最后四类中心点 FinalClusterCenters 和每类的观测量数目 NumberofCasesineachCluster 但不知每个运动员究竟属于哪一类 这就要用到Save选项 5 14 2快速样本聚类过程 QuickCluster 中的选项 使用快速聚类的选择项 类中心数据的输入与输出 Centers选项输出数据选择项 Save选项聚类方法选择项 Method选项聚类何时停止选择项 Iterate选项输出统计量选择项 Option选项 6 14 2指定初始类中心的聚类方法例题P343 数据同上 data14 01a 以四个四类成绩突出者的数据为初始聚类中心 种子 进行聚类 类中心数据文件data14 01b 但缺一列Cluster 不能直接使用 要修改 对运动员的分类 还是分为4类 Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4Center Readinitialfrom data14 01bSave Clustermembership和DistancefromClusterCenter比较有用的结果 可将结果与前面没有初始类中心比较 聚类结果形成的最后四类中心点 FinalClusterCenters 每类的观测量数目 NumberofCasesineachCluster 在数据文件中的两个新变量qc1 1 每个观测量最终被分配到哪一类 和qc1 2 观测量与所属类中心点的距离 7 14 3分层聚类 HierarchicalCluster 分层聚类方法 分解法 先视为一大类 再分成几类凝聚法 先视每个为一类 再合并为几大类可用于观测量 样本 聚类 Q型 和变量聚类 R型 一般分为两步 自动 可从Paste的语句知道 P359 Proximities 先对数据进行的预处理 标准化和计算距离等 Cluster 然后进行聚类分析两种统计图 树形图 Dendrogram 和冰柱图 Icicle 各类型数据的标准化 距离和相似性计算P348 354定距变量 分类变量 二值变量标准化方法p353 ZScores Range 1to1 Range0to1等 8 14 3 4用分层聚类法进行观测量聚类实例P358 对20种啤酒进行分类 data14 02 变量包括 Beername 啤酒名称 calorie 热量 sodium 钠含量 alcohol 酒精含量 cost 价格 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和价格LabelCaseBy BeernameCluster Case Q聚类Display 选中Statistics 单击StatisticsAgglomerationSchedule凝聚状态表Proximitymatrix 距离矩阵Clustermembership Singlesolution 4显示分为4类时 各观测量所属的类Method Cluster FurthestNeighbor Measure Interval SquaredEuclideandistance TransformValue Range0 1 Byvariable 值 最小值 极差 Plots Dendrogram Icicle Specifiedrangeofcluster Start 1 Stop 4 by 1 Orientation Vertical纵向作图 Save ClusterMembership Singlesolution 4 比较有用的结果 根据需要进行分类 在数据文件中的分类新变量clu4 1等 9 14 3 5用分层聚类法进行变量聚类 变量聚类 是一种降维的方法 用于在变量众多时寻找有代表性的变量 以便在用少量 有代表性的变量代替大变量集时 损失信息很少 与进行观测量聚类雷同 不同点在于 选择Variable而非CaseSave选项失效 不建立的新变量 10 14 3 6变量聚类实例1P366 上面啤酒分类问题data14 02 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和价格Cluster Variable R聚类Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationTransformValues ZScore ByVariable Plots Dendrogram树型图Statistics Proximitymatrix 相关矩阵比较有用的结果 根据相关矩阵和树型图 可知calorie 热量 和alcohol 酒精含量 的相关系数最大 首先聚为一类 从整体上看 聚为三类是比较好的结果 至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量 可以根据专业知识或测度的难易程度决定 11 14 3 6变量聚类实例2P368 有10个测试项目 分别用变量X1 X10表示 50名学生参加测试 想从10个变量中选择几个典型指标 data14 03Analyze Classify HierarchicalCluster Variables X1 X10Cluster Variable R聚类Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationPlots Dendrogram树型图Statistics Proximitymatrix相关矩阵比较有用的结果 可以从树型图中看出聚类过程 具体聚为几类最为合理 根据专业知识来定 而每类中的典型指标的选择 可用p370的相关指数公式的计算 然后比较类中各个变量间的相关指数 哪个大 就选哪个变量作为此类的代表变量 12 14 4判别分析P374 判别分析的概念 是根据观测到的若干变量值 判断研究对象如何分类的方法 要先建立判别函数Y a1x1 a2x2 anxn 其中 Y为判别分数 判别值 x1x2 xn为反映研究对象特征的变量 a1a2 an为系数SPSS对于分为m类的研究对象 建立m个线性判别函数 对于每个个体进行判别时 把观测量的各变量值代入判别函数 得出判别分数 从而确定该个体属于哪一类 或计算属于各类的概率 从而判别该个体属于哪一类 还建立标准化和未标准化的典则判别函数 具体见下面吴喜之教授有关判别分析的讲义 13 补充 聚类分析与判别分析 以下的讲义是吴喜之教授有关聚类分析与判别分析的讲义 我觉得比书上讲得清楚 先是聚类分析一章再是判别分析一章 14 聚类分析 15 分类 俗语说 物以类聚 人以群分 但什么是分类的根据呢 比如 要想把中国的县分成若干类 就有很多种分类法 可以按照自然条件来分 比如考虑降水 土地 日照 湿度等各方面 也可以考虑收入 教育水准 医疗条件 基础设施等指标 既可以用某一项来分类 也可以同时考虑多项指标来分类 16 聚类分析 对于一个数据 人们既可以对变量 指标 进行分类 相当于对数据中的列分类 也可以对观测值 事件 样品 来分类 相当于对数据中的行分类 比如学生成绩数据就可以对学生按照理科或文科成绩 或者综合考虑各科成绩 分类 当然 并不一定事先假定有多少类 完全可以按照数据本身的规律来分类 本章要介绍的分类的方法称为聚类分析 clusteranalysis 对变量的聚类称为R型聚类 而对观测值聚类称为Q型聚类 这两种聚类在数学上是对称的 没有什么不同 17 饮料数据 drink sav 16种饮料的热量 咖啡因 钠及价格四种变量 18 如何度量远近 如果想要对100个学生进行分类 如果仅仅知道他们的数学成绩 则只好按照数学成绩来分类 这些成绩在直线上形成100个点 这样就可以把接近的点放到一类 如果还知道他们的物理成绩 这样数学和物理成绩就形成二维平面上的100个点 也可以按照距离远近来分类 三维或者更高维的情况也是类似 只不过三维以上的图形无法直观地画出来而已 在饮料数据中 每种饮料都有四个变量值 这就是四维空间点的问题了 19 两个距离概念 按照远近程度来聚类需要明确两个概念 一个是点和点之间的距离 一个是类和类之间的距离 点间距离有很多定义方式 最简单的是歐氏距离 还有其他的距离 当然还有一些和距离相反但起同样作用的概念 比如相似性等 两点越相似度越大 就相当于距离越短 由一个点组成的类是最基本的类 如果每一类都由一个点组成 那么点间的距离就是类间距离 但是如果某一类包含不止一个点 那么就要确定类间距离 类间距离是基于点间距离定义的 比如两类之间最近点之间的距离可以作为这两类之间的距离 也可以用两类中最远点之间的距离作为这两类之间的距离 当然也可以用各类的中心之间的距离来作为类间距离 在计算时 各种点间距离和类间距离的选择是通过统计软件的选项实现的 不同的选择的结果会不同 但一般不会差太多 20 向量x x1 xp 与y y1 yp 之间的距离或相似系数 欧氏距离 Euclidean 平方欧氏距离 SquaredEuclidean 夹角余弦 相似系数1 cosine Pearsoncorrelation 相似系数2 Chebychev Maxi xi yi Block 绝对距离 Si xi yi Minkowski 当变量的测量值相差悬殊时 要先进行标准化 如R为极差 s为标准差 则标准化的数据为每个观测值减去均值后再除以R或s 当观测值大于0时 有人采用Lance和Williams的距离 21 类Gp与类Gq之间的距离Dpq d xi xj 表示点xi Gp和xj Gq之间的距离 最短距离法 最长距离法 重心法 离差平方和 Wald 类平均法 中间距离 可变平均法 可变法等可参考各书 在用欧氏距离时 有统一的递推公式 假设Gr是从Gp和Gq合并而来 22 Lance和Williams给出 对欧氏距离 统一递推公式 D2 k r apD2 k p aqD2 k q bD2 p q g D2 k p D2 k q 前面方法的递推公式可选择参数而得 方法ai i p q bg最短距离 0 1 2最长距离 01 2重心ni nr apaq0类平均ni nr00离差平方和 ni nk nr nk nk nr nk 0中间距离1 2 1 40可变法 1 b 2b 1 0可变平均 1 b ni nrb 1 0 23 有了上面的点间距离和类间距离的概念 就可以介绍聚类的方法了 这里介绍两个简单的方法 24
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!