spss课件10聚类分析

上传人:hy****d 文档编号:243010042 上传时间:2024-09-13 格式:PPT 页数:28 大小:104.50KB
返回 下载 相关 举报
spss课件10聚类分析_第1页
第1页 / 共28页
spss课件10聚类分析_第2页
第2页 / 共28页
spss课件10聚类分析_第3页
第3页 / 共28页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第10章 聚类分析,10.1 聚类分析的一般问题,10.2 层次聚类,10.3 K-Means 聚类(快速聚类),1,例,对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。,应聘者,1,2,3,4,5,6,7,8,9,10,X,28,18,11,21,26,20,16,14,24,22,Y,29,23,22,23,29,23,22,23,29,27,Z,28,18,16,22,26,22,22,24,24,24,2,什么是聚类分析,聚类分析是统计学所研究的“物以类聚”问题的一种方法,它属于多元统计分析的范畴.,它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度,在没有先验知识的情况下自动进行分类,。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。,3,样品间亲疏程度的测度,研究样品或变量的亲疏程度的数量指标有两种,一种叫,相似系数,,性质越接近的变量或样品,它们的相似系数越接近于,1,或一,l,,而彼此无关的变量或样品它们的相似系数则越接近于,0,,相似的为一类,不相似的为不同类;另一种叫,距离,,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。,4,变量之间的聚类即,R型聚类分析,,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即,Q,型聚类分析,,则常用距离来测度样品之间的亲疏程度。,5,常用距离的算法,设 和,是第i和 j 个样品的观测值,则二者之间的距离,为:,欧氏距离,欧氏距离测度,6,聚类分析的几点说明,1.所选择的变量应符合聚类的要求,2.各变量的变量值不应有数量级的差异,消除数量级常用的方法是,标准化处理:,3.各变量间不应有较强的线性相关性,7,层次聚类法,层次聚类分析的基本思想是,在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把其中最亲密或称最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类之间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;再接下来,再度量剩余下的样本和小类(或小类和小类)间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;如此反复,直到所有的样本分别聚成一类为止。,8,由此可见,层次聚类方法中,度量数据之间的亲疏程度是极为关键的。要注意的是,这里并没有给定分类的标准,也没有给出所有数据分成几类,而要求比较客观地从数据自身出发进行分类。,层次聚类分析的结果是凝聚状态表、冰柱图和树形图。,连续变量的样本距离测度方法有欧氏距离,欧氏距离平方,切比雪夫距离,Block距离,明考夫斯基距离,夹角余弦距离,用户自定义距离等。,样本数据与小类、小类与小类间亲疏程度的度量方法有最短距离法,最长距离法,组间平均链锁法,组内平均链锁法,重心法,离差平方和法。,9,样本数据与小类、小类与小类之间的度量,1 、最短距离(Nearest Neighbor),x,21,x,12,x,22,x,11,10,最长距离(Furthest,Neighbor,),x,11,x,21,11,组间平均连接(Between-group Linkage),12,1 、组内平均连接法(Within-group Linkage),x,21,x,12,x,22,x,11,13,重心法(Centroid clustering):均值点的距离,14,用spss输出的凝聚状态表,15,冰柱图,16,K-Means 聚类(快速聚类),一、思想,层次聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时,则是一件非常繁重的工作,且聚类的计算速度也比较慢。比如在市场抽样调查中,有4万人就其对衣着的偏好作了回答,希望能迅速将他们分为几类。这时,采用层次聚类法就很困难,而快速聚类法就会显得方便,适用。,17,和层次聚类分析一致,快速聚类分析也以距离为样本间亲疏程度的标志。,但两者的不同点在于: 层次聚类可以对不同的聚类类数产生一系列的聚类解,而快速聚类只能产生固定类数的聚类解,类数需要用户事先指定。,18,快速聚类分析的计算过程,首先需要用户指定聚类成多少类(如k类),然后确定k个类的初始类中心。指定方式有两种:1)用户指定;2)系统指定。Spss系统会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始类中心。,计算所有样本数据点到k个类中心的欧氏距离,并按照距k个类中心点距离最短原则,把所有样本数据点分派到各中心点所在的类中,形成一个新的k类,完成一次迭代过程。,19,重新确定,k个类中心。 Spss计算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。,然后重复上面的两步计算过程,直到达到指定的迭代次数,或终止迭代的判断要求为止。,20,(a)空间的群点 (b) 任取两个聚核,(c) 第一次分类 (d) 求各类中心,21,(e) 第二次分类,22,可见,与层次聚类不同,快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。,23,用spss输出的结果,24,25,26,27,28,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!