统计分析与方法-第七章聚类分析

资源描述

,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1,聚类分析,2,第五章把对象分类,聚类分析,3,分类,俗语说，物以类聚、人以群分。,当有一个分类指标时，分类比较容易。,但是当有多个指标，要进行分类就不是很容易了。,比如，要想把中国的县分成若干类，可以按照自然条件来分：考虑降水、土地、日照、湿度等各方面；,也可以考虑收入、教育水准、医疗条件、基础设施等指标；,4,聚类分析,由于不同的指标项对重要程度或依赖关系是相互不同的，所以也不能用平均的方法，因为这样会忽视相对重要程度的问题。,所以需要进行多元分类，即聚类分析。,最早的聚类分析是由考古学家在对考古分类中研究中发展起来的，同时又应用于昆虫的分类中，此后又广泛地应用在天气、生物等方面。,5,聚类分析,对于一个数据，人们既可以对变量（指标）进行分类,(,相当于对数据中的列分类,),，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。,对变量的聚类称为,R,型聚类，而对观测值聚类称为,Q,型聚类。这两种聚类在数学上是对称的，没有什么不同。,6,聚类中选择变量的要求,和聚类分析的目标密切相关,反映了要分类对象的特征,变量之间不应该高度相关。,7,如何聚类？,聚类分析就是要找出具有相近程度的点或类聚为一类；,如何衡量这个“相近程度”？,一种方法是用,相似系数,，性质越接近的样品，它们的相似系数的绝对值越接近,1,，而彼此无关的样品，它们的相似系数的绝对值越接近于零。比较相似的样品归为一类，不怎么相似的样品归为不同的类。,另一种方法是将一个样品看作,p,维空间的一个点，并在,空间定义距离,，距离越近的点归为一类，距离较远的点归为不同的类。,8,距离和相似系数,9,距离,什么是距离？,首先我们,看样本数,据：,一般满足以下四个条件时，就称为聚例：,10,常用距离,明氏距离,Minkowski,距离：,当,q=1,时：,当,q=2,时：,当,q=,时：,11,明氏距离的缺点,距离的大小与个指标的观测单位有关，具有一定的人为性。,例如：对体重和身高进行测量，采用不同单位，其距离测量的结果不同。以欧氏距离为例。,12,当长度,=cm,时：,13,当长度,=mm,时：,改进的方法：对数据进行标准化，然后再计算距离。,14,采用明氏距离需要注意的是：,一定要采用相同量纲的变量。如果各变量的量纲不同，或当各变量的量纲相同但各变量的测量值相差悬殊时，不能直接采用明氏距离。,需要先对数据进行标准化处理，然后再用标准化处理后的数据计算距离。,最常用的标准化处理方法是,：,15,对指标标准化的方法,16,明氏距离的缺点,另一个缺点：它没有考虑到指标之间的相关性。,改进的方法是：采用,马氏距离,马氏距离是,1936,年由印度数学家：马哈拉比斯由协方差矩阵计算构造的距离。,17,相似系数,研究样品之间的关系，除了用距离表示外，还有相似系数，顾名思义，相似系数是描写样品之间相似程度的一个量，常用的相似系数有：,夹角余弦,相关系数,18,相似系数,夹角余弦,cosine,尽管图中,AB,和,CD,长度不一样，但形,状相似。当长度不,是主要矛盾时，就,可利用夹角余弦这,样的相似系数。,19,夹角余弦,cosine,20,相关系数,21,22,聚类分析内容,系统聚类法,有序样品聚类法,动态聚类法,模糊聚类法,图论聚类法,聚类预报法等。,本章主要介绍常用的系统聚类法。,23,系统聚类法,24,系统聚类法的基本思想,先将每个研究对象,(,样品或指标,),各自看成一类。,然后根据对象间的相似度量，将,h,类中最相似的两类合并，组成一个新类，这样得到,h-1,类，再在这,h-1,类中找出最相似的两类合并，得到,h-2,类，如此下去，直至将所有的对象并成一个大类为止。,当然，真的合并成一个类就失去了聚类的意义，所以上面的聚类过程应该在某个类水平数（即未合并的类数）停下来，最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。,25,系统聚类法的步骤,可选择适当的距离，计算距离,把每个样品看成一类，构造,n,个类,合并最近的两类为一新类,计算新类与当前各类的距离,判断,画聚类图,根据实际情况，确定类和类的个数,仅有一个类,不是仅有一个类,采用系统聚类法,26,系统聚类法,正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。,例如可以定义类与类之间的距离为两类之间最近样品的距离，或者定义为两类之间最远样品的距离，也可以定义为两类重心之间的距离等等。,类与类之间用不同的方法定义距离，就产生了不同的系统聚类方法。,27,八种系统聚类方法,最短距离法,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法,离差平方和法,系统聚类分析尽管方法很多，但归类的步骤基本上是一样的，所不同的仅是类与类之间的距离有不同的定义方法，从而得到不同的计算距离的公式。这些公式在形式上不大一样，但最后可将它们统一为一个公式，对上机计算带来很大的方便。,28,系统聚类法,最短距离法,Nearest Neighbor,G1 G2 G3 G4 G5,G1,G2,G3,G4,G5,0,1 0,2.5,1.5,0,6,5,3.5 0,8,7,5.5 2 0,G6 G3 G4 G5,G6,G3,G4,G5,0,1.5,0,5,3.5 0,7,3. 5 3.5 0,29,系统聚类法,最长距离法,Furthest Neighbor,G1 G2 G3 G4 G5,G1,G2,G3,G4,G5,0,1 0,2.5,1.5 0,6,5 3.5 0,8,7 5.5 2 0,G6 G3 G4 G5,G6,G3,G4,G5,0,2.5,0,6,3.5 0,8,3. 5 3.5 0,30,系统聚类法,重心法,Centroid Clustering,类平均法,Between-groups Linkage,31,系统聚类法,离差平方和法,Words Method,Words,法的基本思想是来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和应当较大。,具体方法,：,先将,n,个样品各自成一类，然后每次缩小一类；,每缩小一类离差平方和就要增大，选择使离差平方和增加最小的两类合并，直到所有的样品归为一类为止。,32,系统聚类法,中样品的离差平方和为：,33,系统聚类法,如有五个样品：,1,，,2,，,3.5,，,7,，,9,第一步：将五个样品各自分成一类，显然这时的类内离差平方和,S=0,；,第二步：将一切可能的任意两样品合并，计算所增加的离差平方和：,如,34,G,1,G,2,G,3,G,4,G,5,G,1,G,2,G,3,G,4,G,5,0,0.5 0,3.125 1.123 0,18 12.5 6.125 0,32 24.5 12.125 2 0,此外，还有中间距离法、类内平均法等。,35,SPSS,中的聚类分析与过程,36,例,9.1,饮料数据（,drink.sav,）,16,种饮料的热量、咖啡因、钠及价格四种变量,37,SPSS,中的聚类分析,Spss,中的聚类功能常用的有两种：,快速聚类（迭代过程）：,K-Means Cluster,分层聚类：,Hierarchical,38,Hierarchical Cluster,聚类,分层聚类由两种方法：分解法和凝聚法。,分层聚类的功能：即可进行样品的聚类，也可进行变量的聚类。,分层聚类的原理：即我们前面介绍过的系统聚类方法的原理和过程。,39,Hierarchical Cluster,聚类,分层聚类的中要进行以下的选择：,数据的标准化,测度方法的选择,：距离方法的选择或相似性、关联程度的选择。,聚类方法的选择,：即以什么方法聚类，,spss,中提供了,7,中方法可进行选择。,输出图形的选择：树形图或冰柱图。,40,41,欧氏平方距离、类平均法聚类,快速聚类法聚类,42,欧氏平方距离、最短距离法聚类,欧氏平方距离、最长距离法聚类,43,欧氏平方距离、重心法聚类,欧氏平方距离、,Words,法聚类,44,聚类分析在市场细分中的应用,要对消费者购物的态度进行分类，在前期研究的基础上，确定,6,个态度变量。每个消费者要对有关购物态度的,6,个观点进行评价：,1,表示非常不同意，,7,表示非常同意。,V1,购物很有趣,V2,购物不利于我的预算,V3,购物总是与上饭店吃饭联系在一起,V4,购物时我尽量买的最好,V5,我对购物不感兴趣,V6,购物时多比较价格可以节省很多钱,（,SPSS,文件：购物态度聚类分析,）,45,1,类：,1,、,3,、,6,、,7,、,8,、,12,、,15,、,17,2,类：,2,、,5,、,9,、,11,、,13,、,20,3,类：,4,、,10,、,14,、,16,、,18,、,19,46,第,1,类消费者对于,V1,和,V3,的评价相对较高，而对,V5,评价较低，因此可以称其为“热情的消费者”。,V1,购物很有趣,V3,购物总是与上饭店吃饭联系在一起,V5,我对购物不感兴趣,47,第,2,类消费者正好与第,1,类相反,对于,V1,和,V3,的评价相对较低，而对,V5,评价较高，因此可以称其为“冷淡的消费者”。,V1,购物很有趣,V3,购物总是与上饭店吃饭联系在一起,V5,我对购物不感兴趣,48,第,3,类消费者对于,V2,、,V4,和,V6,的评价相对较高，因此可以称其为“经济型消费者”。,V2,购物不利于我的预算,V4,购物时我尽量买的最好,V6,购物时多比较价格可以节省很多钱,49,K-Means Cluster,原理,首先,，选择,n,个数值型变量参与聚类分析，最后要求的,聚类数为,k,个,；,其次,，,由系统选择,k,个,(,聚类的类数）,观测量,（也可由用户指定）,作为聚类的种子,。,第三,，按照距离这些类中心的,距离最小的原则,把所有观测量（样品）分派到各类重心所在的类中去。,第四,，这样每类中可能由若干个样品，计算每个类中各个变量的均值，以此作为第二次迭代的中心；,第五,，然后根据这个中心重复第三、第四步，直到中心的迭代标准达到要求时，聚类过程结束。,50,K-Means Methods,-,快速聚类,51,K-Means Methods,52,K-Means Methods,53,K-Means Cluster,聚类过程,由,AnalyzeClassify,K-Means Cluster,将个变量放入,Variable,；,输入最后聚类的个数；,54,55,56,57,快速聚类法与层次聚类法应用区别,层次聚类法的聚类过程是单方向的，一旦某个样品（,case,）进入某一类，就不可能从该类出来，再归入其他的类。,而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小，对于不合适的初始分类可以进行反复调整,.,58,快速聚类法与层次聚类法应用区别,在聚类分析发展的早期，层次聚类法应用普遍，其中尤以组间类平均法和离差平方和法应用最广。,后来快速聚类方法逐步被人们接受，应用日益增多。现在是两者相结合，取长补短。,首先使用层次聚类法确定分类数，检查是否有奇异值，去除奇异值后，对剩下的案例重新进行分类，把用层次聚类法得到的各个类的重心，作为迭代法的初始分类中心，对样本进行重新调整。,59,练习,各地区的不同类型的房屋销售情况聚类分析。,数据文件：,各省不同类型房屋销售情况,.sav,。,变量为：,别墅公寓,经济适用房,办公楼,商业用房,其他,60,61,62,

展开阅读全文

统计分析与方法-第七章 聚类分析

最新文档

统计分析与方法-第七章聚类分析