第九章SPSS的聚类

上传人:奇*** 文档编号:251210395 上传时间:2024-11-06 格式:PPT 页数:39 大小:210.50KB
返回 下载 相关 举报
第九章SPSS的聚类_第1页
第1页 / 共39页
第九章SPSS的聚类_第2页
第2页 / 共39页
第九章SPSS的聚类_第3页
第3页 / 共39页
点击查看更多>>
资源描述
Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,1-,*,第八章,SPSS,的聚类分析,聚类分析概述,(一)概念,(1),聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法.,例如:细分市场、消费行为划分,聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“,亲疏”程度,在,没有先验知识,的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.,聚类分析概述,两类:(001 002)(003 004 005)三类:(001 002)(003)(004 005),(2)例如,聚类分析概述,(3)总结,上述分类的原则:依据学生成绩的差距,差距较小的为一类,分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果.,(4),SPSS,中的聚类方法,分层聚类,K-MEANS,快速聚类,聚类分析概述,(二)特点,聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据只有原始数据,可能事先没有任何有关类别的信息可参考,严格地,聚类分析并不是纯粹的统计技术,不象其他多元分析,需要从样本去推断总体,一般不涉及统计量分布,也不需显著性检验,聚类分析更象是一种建立假设的方法,而对相关假设的检验还需要借助其他统计方法,聚类分析概述,(三)注意,聚类分析主要用于探索性研究,其分析结果可提供多个可能的解,最终解的选择需要研究者的主观判断和后续分析,聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终解都可能产生实质性的影响,不管实际数据中是否存在不同的类别,利用聚类分析都能得到分成若干类别的解,分层聚类,(一)思路:聚类过程具有一定的层次性,以合并(凝聚)的方式聚类(,SPSS,采用),首先,每个个体自成一类,其次,将最“亲密”的个体聚成一小类,然后,将最“亲密”的小类或个体再聚成一类,重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止,可见,随着聚类的进行,类内的“亲密”性在逐渐减低,一旦个案(变量)被聚为一类,以后分类结果不会改变,分层聚类,(一)思路,以分解的方式聚类,首先,所有个体都属于一类,其次,将大类中最“疏远”的小类或个体分离出去,然后,分别将小类中最“疏远”的小类或个体再分离出去,重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止,可见,随着聚类的进行,类内的亲密性在逐渐增强,分层聚类,(二)“亲疏”程度的衡量,(1)衡量指标,相似性:数据间相似程度的度量,距离:数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类,(2)衡量对象,个体间距离,个体和小类间、小类和小类间的距离,分层聚类,(三)定距数据个体间的距离,把每个个案数据看成是,k,维空间上的点,在点和点之间定义某种距离.一般适用于定距数据,欧氏距离(,EUCLID),平方欧氏距离(,SEUCLID,),马氏距离(,BLOCK,),切比雪夫距离(,CHEBYCHEV),明考斯基绝对值幂距离(,POWER),分层聚类,结论:由于3.61距离最小,因此(004,005)首先聚成一类,个体距离矩阵,(三)定距数据个体间的距离,欧氏距离举例,分层聚类,(四)品质数据个体间的距离,简单匹配(,simple matching),系数:适用二值变量。,样本,j,样本,i,1 0,1,a b,0 c d,a,为样本,i,与样本,j,在所有变量上同时取1的个数;,d,为同时取0的个数,特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。,分层聚类,(四)品质数据个体间的距离,简单匹配(,simple matching),系数:适用二值变量,姓名 手机上网 无线音乐 选某门课程,张三,1,1,1,李四 1 1 0,王五 0 0 1,(张三,李四):,a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3,(,张三,王五):,a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3,张三距李四近,分层聚类,(四)品质数据个体间的距离,雅科比(,Jaccard),系数:适用二值变量,样本,j,样本,i,1 0,1,a b,0 c d,a,为样本,i,与样本,j,在所有变量上同时取1的个数;,d,为同时取0的个数,特点:排除同时不拥有某特征的情况;,取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化,分层聚类,(四)品质数据个体间的距离,雅科比(,Jaccard,),系数:适用二值变量,姓名,手机上网无线音乐 手机报,张三,1,(0),1(0),1,(0),李四 1(0)1(0)0(1),王五 0(1)0(1)1(0),(张三,李四)1:,a=2 b=1 c=0 d=0,d(x,y)=1/(1+2)=1/3,(张三,李四)2:,a=0 b=0 c=1 d=2,d(x,y)=1/(1+2)=1/3,(,相同,),(张三,李四)1:,a=2 b=1 c=0 d=0,J(x,y)=1/(1+2)=1/3,(,Jaccard),(张三,李四)2:,a=0 b=0 c=1 d=2,J(x,y)=1/1=1,(,不相同,),(,Jaccard),分层聚类,(四)品质数据个体间的距离,Jaccard,系数举例:根据临床表现研究病人是否有类似的病,姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4,张三 男,1 0 1 0 0 0,李四 女 1 0 1 0 1 0,王五 男 1 1 0 0 0 0,.,结论:张三和李四最有可能得类似的病;李四和王五不太有可能,分层聚类,(四)个体和小类、类和类间的距离,最短距离法(,nearest neighbor):,两类间的距离定义为两类中距离最近的两个个案之间的距离,最长距离法(,furthest neighbor):,两类间的距离定义为两类中距离最远的两个个案之间的距离,以上易受极端值影响,平均链锁法,两类之间的距离定义为两类个案之间距离的平均值。包括:,组间平均链锁法(,between-groups linkage):,只考虑两类间个案的距离,较多采用,组内平均链锁法(,within,-groups linage),:,考虑所有个案间的距离,分层聚类,以最短距离法为例的聚类过程:,分层聚类,(五)说明,聚类分析包括:个案聚类和变量聚类两种。,聚类分析中的变量选择问题,聚类结果仅是所选定变量所具数据特点的反应.,变量应和聚类分析的目标密切相关(如;客户消费行为用通话时长、通话时段、通话类型、通话流向等),变量之间不应具有高度相关性,否则相当于给这些变量进行了加权,聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。,分层聚类,(六)基本操作步骤,1.基本操作,A.,菜单选项:,analyze-classify-hierachical cluster,B.,选择参与聚类分析的变量入,variables,框,C.,选择一字符型变量作为个案的标记变量,(,label cases),D.,选择个案聚类还是变量聚类,分层聚类,(六)基本操作步骤,2.选择距离计算方法(,method,选项),cluster method:,计算类间距离的方法,measure:,计算样本距离的方法,transform values:,对数据进行标准化处理,by variable:,以,变量为单位标准化,适于个案聚类,by case:,以,个案为单位标准化,适于变量聚类,分层聚类,(七)进一步的工作,1.数据输出(,statistics,选项),agglomeration schedule:,凝聚状态表(默认),distance matrix:,样本的距离矩阵,cluster membership:,类成员,none:,不输出类成员(默认),single solution:,聚成,n,类时各样本的归属,range of solutions:,聚成,mn,类时各样本的归属,(,mnclassify-k means cluster,B.,选定参加快速聚类分析的变量到,variables,框,C.,确定快速聚类的类数,(,number of clusters).,类数应小于个案总数,D.,选择聚类方法(,method):,默认,iterate and classify,,即:,在聚类的每一步都重新计算新的类中心,E.,确定聚类终止条件(,iterate),K-means,快速聚类,(四)其他,1.保存快速聚类的结果(,save),cluster membership:,将各个案所属类的类号保存到,qcl_,1,变量中,distance from cluster center:,将各样本距所属类中心,的距离保存到,qcl_2,变量中.,K-means,快速聚类,(四)其他,2.输出选项(,option),initial cluster centers:,输出,初始类中心点,ANOVA table:,输出各类的方差分析表,cluster information for each case:,输出每个样本的分类结果和距离,K-means,快速聚类,(四)其他,3.,use,running means,项:,选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果与个案的先后次序有关.,不选中:表示完成了所有个案的依次分配后再计算类中心。省时,。,K-means,快速聚类,(四)其他,4.用户指定类中心(,center),read initial from:,若不指定则系统自动确定初始类中心。指定则从某.,sav,文件中读入初始类中心数据(应设一个名为,Cluster_,的变量名),。,Write final as:,在分析的最后将各类中心写入某,.,sav,文件,聚类分析其他,(一)聚类解的可信性(一般性),如果一个聚类解重复出现在从同一总体抽出的不同样本中,则以认为该聚类解具有可信性,样本分成两组分别聚类比较.,对同一批数据采用不同的方法反复聚类,聚类分析其他,(二)聚类方法的选择,没有明确答案,层次聚类方法易受异常值的影响.应尽量剔除异常值对聚类结果的影响,快速聚类方法受异常值的影响较小,对不合适的初始分类能够迭代调整,两种聚类方法结合使用.,通过小规模分层聚类确定分类数目,为快速聚类提供帮助;,通过反复的分层聚类,发现并排除异常值;,通过快速聚类进行大规模聚类,某电信公司电话流向聚类,第一类:省内长途,业务量最大,第二类:与该地区业务来往较多的省份。,北京:首都,湖南:地缘、人缘相接,重庆:人员交流多,第三类:与该地区业务来往仅次于第二类,第四类:业务来往少的省区,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 各类标准


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!