spss课件10聚类分析

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第10章聚类分析,10.1 聚类分析的一般问题,10.2 层次聚类,10.3 K-Means 聚类(快速聚类),1,例,对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行分类。,应聘者,1,2,3,4,5,6,7,8,9,10,X,28,18,11,21,26,20,16,14,24,22,Y,29,23,22,23,29,23,22,23,29,27,Z,28,18,16,22,26,22,22,24,24,24,2,什么是聚类分析,聚类分析是统计学所研究的“物以类聚”问题的一种方法,它属于多元统计分析的范畴.,它是一种建立分类的方法,能够将一批样本数据(或变量)按照它们在性质上的亲疏程度,在没有先验知识的情况下自动进行分类,。这里,一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性。在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。,3,样品间亲疏程度的测度,研究样品或变量的亲疏程度的数量指标有两种，一种叫,相似系数,，性质越接近的变量或样品，它们的相似系数越接近于,1,或一,l,，而彼此无关的变量或样品它们的相似系数则越接近于,0,，相似的为一类，不相似的为不同类；另一种叫,距离,，它是将每一个样品看作p维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。,4,变量之间的聚类即,R型聚类分析,，常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即,Q,型聚类分析,，则常用距离来测度样品之间的亲疏程度。,5,常用距离的算法,设和,是第i和 j 个样品的观测值，则二者之间的距离,为：,欧氏距离,欧氏距离测度,6,聚类分析的几点说明,1.所选择的变量应符合聚类的要求,2.各变量的变量值不应有数量级的差异,消除数量级常用的方法是,标准化处理:,3.各变量间不应有较强的线性相关性,7,层次聚类法,层次聚类分析的基本思想是,在聚类分析的开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,并把其中最亲密或称最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类之间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;再接下来,再度量剩余下的样本和小类(或小类和小类)间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;如此反复,直到所有的样本分别聚成一类为止。,8,由此可见,层次聚类方法中,度量数据之间的亲疏程度是极为关键的。要注意的是,这里并没有给定分类的标准,也没有给出所有数据分成几类,而要求比较客观地从数据自身出发进行分类。,层次聚类分析的结果是凝聚状态表、冰柱图和树形图。,连续变量的样本距离测度方法有欧氏距离,欧氏距离平方,切比雪夫距离,Block距离,明考夫斯基距离,夹角余弦距离，用户自定义距离等。,样本数据与小类、小类与小类间亲疏程度的度量方法有最短距离法,最长距离法,组间平均链锁法,组内平均链锁法,重心法,离差平方和法。,9,样本数据与小类、小类与小类之间的度量,1 、最短距离（Nearest Neighbor),x,21,x,12,x,22,x,11,10,最长距离（Furthest,Neighbor,）,x,11,x,21,11,组间平均连接（Between-group Linkage),12,1 、组内平均连接法（Within-group Linkage),x,21,x,12,x,22,x,11,13,重心法（Centroid clustering):均值点的距离,14,用spss输出的凝聚状态表,15,冰柱图,16,K-Means 聚类(快速聚类),一、思想,层次聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时，则是一件非常繁重的工作，且聚类的计算速度也比较慢。比如在市场抽样调查中，有4万人就其对衣着的偏好作了回答，希望能迅速将他们分为几类。这时，采用层次聚类法就很困难，而快速聚类法就会显得方便，适用。,17,和层次聚类分析一致，快速聚类分析也以距离为样本间亲疏程度的标志。,但两者的不同点在于: 层次聚类可以对不同的聚类类数产生一系列的聚类解，而快速聚类只能产生固定类数的聚类解，类数需要用户事先指定。,18,快速聚类分析的计算过程,首先需要用户指定聚类成多少类（如k类）,然后确定k个类的初始类中心。指定方式有两种：1）用户指定；2）系统指定。Spss系统会根据样本数据的实际情况，选择k个有代表性的样本数据作为初始类中心。,计算所有样本数据点到k个类中心的欧氏距离，并按照距k个类中心点距离最短原则，把所有样本数据点分派到各中心点所在的类中，形成一个新的k类，完成一次迭代过程。,19,重新确定,k个类中心。 Spss计算每个类中各个变量的变量值均值，并以均值点作为新的类中心点。,然后重复上面的两步计算过程，直到达到指定的迭代次数，或终止迭代的判断要求为止。,20,（a）空间的群点 (b) 任取两个聚核,(c) 第一次分类 (d) 求各类中心,21,(e) 第二次分类,22,可见，与层次聚类不同，快速聚类是一个反复迭代的分类过程，在聚类过程中，样本所属的类会不断调整，直到最终达到稳定为止。,23,用spss输出的结果,24,25,26,27,28,

展开阅读全文

spss课件10聚类分析

最新文档