聚类分析的思路和方法

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2024/11/26,1,聚类分析,Cluster Analysis,2,什么是聚类分析？,聚类分析是根据“物以类聚”的道理，对样本或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样本，要求能合理地按各自的特性进行合理的分类，没有任何模式可供参考或依循，即在没有先验知识的情况下进行的。,3,聚类分析的基本思想,基本思想是认为研究的样本或变量之间存在着程度不同的相似性（亲疏关系）。,根据一批样本的多个观测指标，找出一些能够度量样本或变量之间相似程度的统计量，以这些统计量作为分类的依据，把一些相似程度较大的样本（或指标）聚合为一类，把另外一些相似程度较大的样本（或指标）聚合为一类，直到把所有的样本（或指标）都聚合完毕，形成一个由小到大的分类系统。,4,聚类分析无处不在,谁经常光顾商店，谁买什么东西，买多少？,按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类,这样商店可以,识别顾客购买模式（如喜欢一大早来买酸奶和鲜肉，习惯周末时一次性大采购）,刻画不同的客户群的特征,5,聚类分析无处不在,挖掘有价值的客户，并制定相应的促销策略：,如，对经常购买酸奶的客户,对累计消费达到,12,个月的老客户,针对潜在客户派发广告，比在大街上乱发传单命中率更高，成本更低！,6,聚类分析无处不在,谁是银行信用卡的黄金客户？,利用储蓄额、刷卡消费金额、诚信度等变量对客户分类，找出“黄金客户”！,这样银行可以,制定更具吸引力的服务，留住客户！比如：,一定额度和期限的免息透支服务！,赠送百盛的贵宾打折卡！,在他或她生日的时候送上一个小蛋糕！,7,聚类的应用领域,经济领域：,帮助市场分析人员从客户数据库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。,谁喜欢打国际长途，在什么时间，打到那里？,对住宅区进行聚类，确定自动提款机,ATM,的安放位置,股票市场板块分析，找出最具活力的板块龙头股,企业信用等级分类,生物学领域,推导植物和动物的分类；,对基因分类，获得对种群的认识,数据挖掘领域,作为其他数学算法的预处理步骤，获得数据分布状况，集中对特定的类做进一步的研究,8,例,对,10,位应聘者做智能检验。,3,项指标,X,，,Y,和,Z,分别表示数学推理能力、空间想象能力和语言理解能力。得分如下，选择合适的统计方法对应聘者进行分类。,应聘者,1,2,3,4,5,6,7,8,9,10,X,28,18,11,21,26,20,16,14,24,22,Y,29,23,22,23,29,23,22,23,29,27,Z,28,18,16,22,26,22,22,24,24,24,9,10,11,聚类分析根据一批样本的许多观测指标，按照一定的数学公式具体地计算一些样本或一些指标的相似程度，把相似的样本或指标归为一类，把不相似的归为一类。,12,样本或变量间亲疏程度的测度,研究样本或变量的亲疏程度的数量指标有两种：,一种叫,相似系数,，性质越接近的变量或样本，它们的相似系数越接近于,1,或一,l,，而彼此无关的变量或样本它们的相似系数则越接近于,0,，相似的为一类，不相似的为不同类。,另一种叫,距离,，它是将每一个样本看作,p,维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。,13,设有,n,个样本单位，每个样本测得,p,项指标（变量），原始资料矩阵为：,14,定比变量的聚类统计量：距离统计量,绝对距离,欧式距离,明考斯基距离,兰氏距离,马氏距离,切氏距离,15,1.,绝对距离（,Block,距离）,2.,欧氏距离,(Euclidean distance),16,3.,明考斯基距离,(Minkowski),4.,兰氏距离,5.,马氏距离,6.,切比雪夫距离,(Chebychev),17,18,1.,相关系数,2.,夹角余弦,定比变量的聚类统计量：相似系数统计量,19,计数变量,(Count),（离散变量）的聚类统计量,对于计数变量或离散变量，可用于度量样本（或变量）之间的相似性或不相似性程度的统计量主要有卡方测度（,Chi-square measure,）和,Phi,方测度（,Phi-square measure,）。,20,二值,(Binary),变量的聚类统计量,21,聚类的类型,根据聚类对象的不同，分为,Q,型聚类和,R,型聚类,。,Q,型聚类：样本之间的聚类即,Q,型聚类分析，则常用,距离,来测度样本之间的亲疏程度。,R,型聚类：变量之间的聚类即,R,型聚类分析，常用,相似系数,来测度变量之间的亲疏程度。,22,聚类的类型,根据聚类方法的不同分为系统聚类和,K,均值聚类。,系统聚类：又称为层次聚类（,hierarchical cluster,），是指聚类过程是按照一定层次进行的。,K,均值聚类（,K-means Cluster,）,23,层次聚类,基本思想：,在聚类分析的开始，每个样本（或变量）自成一类；然后，按照某种方法度量所有样本（或变量）之间的亲疏程度，并把最相似的样本（或变量）首先聚成一小类；接下来，度量剩余的样本（或变量）和小类间的亲疏程度，并将当前最接近的样本（或变量）与小类聚成一类；再接下来，再度量剩余的样本（或变量）和小类间的亲疏程度，并将当前最接近的样本（或变量）与小类聚成一类；如此反复，直到所有样本（或变量）聚成一类为止。,24,系统聚类法不仅需要度量个体与个体之间的距离，还要度量类与类之间的距离。类间距离被度量出来之后，距离最小的两个小类将首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。,25,类间距离的度量方法,最短距离法,(Nearest Neighbor),最长距离法,(Further Neighbor),组间平均连接法,(Between-group linkage),组内平均连接法,(Within-group linkage),重心法,(Centroid clustering),中位数法,(Median clustering),离差平方和法,(Wards method),26,最短距离法,(Nearest Neighbor),以两类中距离最近的两个个体之间的距离作为类间距离。,27,x,21,x,12,x,22,x,11,28,最长距离法,(Further Neighbor),以两类中距离最远的两个个体之间的距离作为类间距离。,29,x,11,x,21,30,组间平均连接法,(Between-group linkage),以两类个体两两之间距离的平均数作为类间距离。,31,组间平均连接法（,Between-group Linkage),32,组内平均连接法,(Within-group linkage),将两类个体合并为一类后，以合并后类中所有个体之间的平均距离作为类间距离。,33,组内平均连接法（,Within-group Linkage),x,21,x,12,x,22,x,11,34,重心法,(Centroid clustering),以两类变量均值（重心）之间的距离作为类间距离。,35,重心距离：均值点的距离,36,中位数法,(Median clustering),以两类变量中位数之间的距离作为类间距离。,37,离差平方和法,(Wards method),离差平方和法是由,Ward,提出的，因此也称为,Ward,方法。具体做法是，先将,n,个个体各自成一类，然后每次减少一类，随着类与类的不断聚合，类内的离差平方和必然不断增大，选择使离差平方和增加最小的两类合并，直到所有的个体归为一类为止。,38,主要步骤,1.,选择变量,（,1,）和聚类分析的目的密切相关,（,2,）反映要分类变量的特征,（,3,）在不同研究对象上的值有明显的差异,（,4,）变量之间不能高度相关,2.,数据变换处理,为了消除各指标量纲的影响，需要对原始数据进行必要的变换处理。,39,3.,计算聚类统计量,聚类统计量是根据变换以后的数据计算得到的一个新数据，它用于表明各样本或变量间的关系密切程度。常用的统计量有距离和相似系数两大类。,40,4.,聚类,主要涉及两个问题：,（,1,）选择聚类的方法,（,2,）确定形成的类数,41,5.,聚类结果的解释和证实,对聚类结果进行解释是希望对各个类的特征进行准确的描述，给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析，通常的做法是计算各类在各聚类变量上的均值，对均值进行比较，还可以解释各类产生的原因。,42,k-,均值聚类,K-means Cluster,K-,均值聚类也叫快速聚类,要求事先确定分类数,运算速度快（特别是对于大样本）,43,k-,均值聚类,K-means Cluster,系统首先选择,k,个聚类中心，根据其他观测值与聚类中心的距离远近，将所有的观测值分成,k,类；再将,k,个类的中心（均值）作为新的聚类中心，重新按照距离进行分类；,，这样一直迭代下去，直到达到指定的迭代次数或达到中止迭代的判据要求时，聚类过程结束。,44,聚类分析终止的条件,迭代次数：当目前的迭代次数等于指定的迭代次数（,SPSS,默认为,10,）时终止迭代。,类中心点偏移程度：新确定的类中心点距上个类中心点的最大偏移量小于等于指定的量（,SPSS,默认为,0,）时终止聚类。,45,例子,1,：,31,个省区小康和现代化指数的聚类分析,利用,2001,年全国,31,个省市自治区各类小康和现代化指数的数据，对地区进行聚类分析。,数据中包括,6,类指数：综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数,。,46,系统聚类,47,Agglomeration schedule,：输出聚类过程表,Proximity matrix,：输出各个体之间的距离矩阵,Cluster Membership,：每个个体类别归属表,48,Dendrogram,：聚类树形图,Icicle,：冰柱图,49,50,51,52,53,54,如果分为,3,类,第,1,类：北京、上海、天津,第,2,类：江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林,第,3,类：其余省区,55,输出各组的统计信息,在数据文件中保存分类信息,DataSplit file,56,57,58,K,均值聚类,Iterate and classify,：不断计算新的类中心，替换旧的类中心。,Classify only,：根据初始类中心进行聚类，不改变类中心。,59,60,61,62,63,64,例子,2,：土壤样本聚类分析,有,20,个土壤样本，利用含沙量、淤泥含量、粘土含量、有机物、,pH,值,5,个变量的数据对这,20,个土壤样本进行分类。,65,系统聚类,66,67,68,69,70,71,72,73,K,均值聚类,74,75,76,77,78,79,R,型聚类的例子,裁判为运动员打分,

展开阅读全文

聚类分析的思路和方法

最新文档