资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,聚类分析,6.1 引言,6.2 距离和相似系数,6.3 系统聚类法,6.4 动态聚类法,11/18/2024,1,聚类分析9/22/20231,6.1 引言,11/18/2024,2,6.1 引言9/22/20232,什么是聚类,聚类(Clustering)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。,11/18/2024,3,什么是聚类9/22/20233,什么是聚类,早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物,11/18/2024,4,什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来,聚类分析无处不在,谁经常光顾商店,谁买什么东西,买多少?,按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类,这样商店可以.,识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购),刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样),11/18/2024,5,聚类分析无处不在谁经常光顾商店,谁买什么东西,买多少?9/2,什么情况下需要聚类,为什么这样分类?,因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。,11/18/2024,6,什么情况下需要聚类为什么这样分类?9/22/20236,聚类分析无处不在,挖掘有价值的客户,并制定相应的促销策略:,如,对经常购买酸奶的客户,对累计消费达到12个月的老客户,针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,11/18/2024,7,聚类分析无处不在挖掘有价值的客户,并制定相应的促销策略:9/,聚类分析无处不在,谁是银行信用卡的黄金客户?,利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!,这样银行可以,制定更吸引的服务,留住客户!比如:,一定额度和期限的免息透资服务!,百盛的贵宾打折卡!,在他或她生日的时候送上一个小蛋糕!,11/18/2024,8,聚类分析无处不在谁是银行信用卡的黄金客户?9/22/2023,聚类的应用领域,经济领域:,帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。,谁喜欢打国际长途,在什么时间,打到那里?,对住宅区进行聚类,确定自动提款机ATM的安放位置,股票市场板块分析,找出最具活力的板块龙头股,企业信用等级分类,生物学领域,推导植物和动物的分类;,对基因分类,获得对种群的认识,数据挖掘领域,作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究,11/18/2024,9,聚类的应用领域经济领域:9/22/20239,有贡献的研究领域,数据挖掘,聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等,统计学,主要集中在基于距离的聚类分析,发现球状类,机器学习,无指导学习(聚类不依赖预先定义的类,不等同于分类),空间数据技术,生物学,市场营销学,11/18/2024,10,有贡献的研究领域数据挖掘9/22/202310,什么情况下需要聚类,以上分析,没有大量的数据去支持,Data Mining就什么都挖不出来。,大量的数据不等于大量的垃圾,我们需要针对客户市场细分所需要的资料。如需要知道白金持卡人和金卡持卡人的流动率,各自平均消费水平有多少,等;,聚类分析可以辅助企业进行客户细分,但是Data mining的客户细分不等同于商业领域的细分,看不懂结果,也可能造成企业管理层无法对结果善加利用。,11/18/2024,11,什么情况下需要聚类以上分析,没有大量的数据去支持,Data,聚类分析原理介绍,聚类分析中“类”的特征:,聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分,聚类的数目和结构都没有事先假定,11/18/2024,12,聚类分析原理介绍聚类分析中“类”的特征:9/22/20231,聚类分析原理介绍,聚类方法的目的是寻找数据中:,潜在的,自然分组结构,a structure of “natural” grouping,感兴趣的,关系,relationship,11/18/2024,13,聚类分析原理介绍聚类方法的目的是寻找数据中:9/22/202,聚类分析原理介绍,什么是自然分组结构Natural grouping ?,我们看看以下的例子:,有16张牌,如何将他们分为,一组一组的牌呢?,A,K,Q,J,11/18/2024,14,聚类分析原理介绍什么是自然分组结构Natural group,聚类分析原理介绍,分成四组,每组里,花色相同,组与组之间花色相异,A,K,Q,J,花色相同的牌为一副,Individual suits,11/18/2024,15,聚类分析原理介绍分成四组AKQJ花色相同的牌为一副9/22/,聚类分析原理介绍,分成四组,符号相同,的牌为一组,A,K,Q,J,符号相同的的牌,Like face cards,11/18/2024,16,聚类分析原理介绍分成四组AKQJ符号相同的的牌9/22/20,聚类分析原理介绍,分成两组,颜色相同,的牌为一组,A,K,Q,J,颜色相同的配对,Black and red suits,11/18/2024,17,聚类分析原理介绍分成两组AKQJ颜色相同的配对9/22/20,聚类分析原理介绍,分成两组,大小程度相近,的牌分到一组,A,K,Q,J,大配对和小配对,Major and minor suits,11/18/2024,18,聚类分析原理介绍分成两组AKQJ大配对和小配对9/22/20,聚类分析原理介绍,这个例子告诉我们,分组的意义在于我们怎么定义并度量,“相似性”,Similar,因此衍生出一系列度量相似性的算法,A,K,Q,J,大配对和小配对,Major and minor suits,11/18/2024,19,聚类分析原理介绍这个例子告诉我们,分组的意义在于我们怎么定义,6.2 距离和相似系数,相似性度量:距离和相似系数。,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。,样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。,11/18/2024,20,6.2 距离和相似系数相似性度量:距离和相似系数。9/2,变量的测量尺度,通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。,间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。,有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。,名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。,本章主要讨论具有间隔尺度变量的样品聚类分析方法。,11/18/2024,21,变量的测量尺度通常变量按测量尺度的不同可以分为间隔、有序和名,11/18/2024,22,9/22/202322,距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有,当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令,其中 和 分别为第 个变量的样本均值和样本方差。,11/18/2024,23,距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有9/,二、相似系数,聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。,变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。,相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。,聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。,11/18/2024,24,二、相似系数聚类分析方法不仅用来对样品进行分类,而且可用来对,相似系数一般需满足的条件,(1) ,当且仅当 和 是常数;,(2) ,对一切 ;,(3) ,对一切 。,11/18/2024,25,相似系数一般需满足的条件(1) ,当且,最常用的两个相似系数,11/18/2024,26,最常用的两个相似系数9/22/202326,11/18/2024,27,9/22/202327,相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。,由距离来构造相似系数总是可能的,如令,这里 为第 个样品与第 个样品的距离,显然 满足定义相似系数的三个条件,故可作为相似系数。,距离必须满足定义距离的四个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵 为非负定时,如令,则 满足距离定义的四个条件。,11/18/2024,28,相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间,6.3 系统聚类法,系统聚类法是聚类分析诸方法中用得最多的一种。,基本思想是:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。,11/18/2024,29,6.3 系统聚类法系统聚类法是聚类分析诸方法中用得最多的,常用的系统聚类方法,一、最短距离法,二、最长距离法,三、中间距离法,四、类平均法,五、重心法,六、离差平方和法(Ward方法),11/18/2024,30,常用的系统聚类方法一、最短距离法 9/22/202330,一、最短距离法,定义类与类之间的距离为两类最近样品间的距离,即,11/18/2024,31,一、最短距离法定义类与类之间的距离为两类最近样品间的距离,即,最短距离法的聚类步骤,(1) 规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。,(2) 选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即,(3) 计算新类 与任一类 之间距离的递推公式为,11/18/2024,32,最短距离法的聚类步骤(1) 规定样品之间的距离,计算 个,最短距离法的聚类步骤,在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。,(4) 对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。,如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。,11/18/2024,33,最短距离法的聚类步骤在 中, 和 所,11/18/2024,34,9/22/202334,11/18/2024,35,9/22/202335,11/18/2024,36,9/22/202336,二、最长距离法,类与类之间的距离定义为两类最远样品间的距离,即,11/18/2024,37,二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即,最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。,递推公式:,最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。,11/18/2024,38,最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推,11/18/2024,39,9/22/202339,三、中间距离法,类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。,11/18/2024,40,三、中间距离法类与类之间的距离既不取两类最近样品间的距离,也,11/18/2024,41,9/22/202341,11/18/2024,42,9/22/202342,11/18/2024,43,9/22/202343,11/18/2024,44,9/22/202344,11/18/2024,45,9/22/202345,11/18/2024,46,9/22/202346,11/18/2024,47,9/22/202347,11/18/2024,48,9/22/202348,11/18/2024,49,9/22/202349,11/18/2024,50,9/22/202350,以上我们对例6.3.1采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。从下面例子中可以看到这一点。,11/18/2024,51,9/22/202351,11/18/2024,52,9/22/202352,11/18/2024,53,9/22/202353,11/18/2024,54,9/22/202354,11/18/2024,55,9/22/202355,从这三个树形图来看,只有Ward方法较好地符合了我们的实际聚类要求,它将31个地区分为以下三类:,第类:北京、浙江、上海和广东。这些都是我国经济最发达、城镇居民消费水平最高的沿海地区。,第类:天津、江苏、云南、重庆、河北、新疆、山东、湖北、四川、湖南、福建、广西、海南和西藏。这些地区在我国基本上属于经济发展水平和城镇居民消费水平中等的地区。,第类:山西、甘肃、内蒙古、辽宁、黑龙江、吉林、青海、宁夏、安徽、贵州、河南、陕西和江西。这些地区在我国基本上属于经济较落后地区,城镇居民的消费水平也是较低的。,如果分为五类,则广东和西藏将各自为一类。,11/18/2024,56,从这三个树形图来看,只有Ward方法较好地符合了我们的实际聚,单调性,令 是系统聚类法中第 次并类时的距离,如果一种系统聚类法能满足 ,则称它具有单调性。这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。,最短距离法、最长距离法、可变法、类平均法、可变类平均法和离差平方和法都具有单调性,但中间距离法和重心法不具有单调性。,11/18/2024,57,单调性令 是系统聚类法中第 次并类时的距离,如果一种,类的个数,如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之,如果无论怎样分都很难分成明显分开的若干类,则类个数的确定就比较困难了。,确定类个数的常用方法有:,1.给定一个阈值T。,2.观测样品的散点图。,3.使用统计量。包括: 统计量,半偏 统计量,,伪 统计量和伪 统计量。,11/18/2024,58,类的个数如果能够分成若干个很分开的类,则类的个数就比较容易确,6.4 动态聚类法,动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。,动态聚类法有许多种方法,本节中,只讨论一种比较流行的动态聚类法k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。,11/18/2024,59,6.4 动态聚类法动态聚类法的基本思想是,选择一批凝聚点,k均值法的基本步骤,(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。,(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。,(3)重复步骤(2),直至所有的样品都不能再分配为止。,11/18/2024,60,k均值法的基本步骤(1)选择k个样品作为初始凝聚点,或者将所,最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。,11/18/2024,61,最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。,11/18/2024,62,9/22/202362,11/18/2024,63,9/22/202363,例6.4.2,对例6.3.3使用k均值法进行聚类,聚类前对各变量作标准化变换,聚类结果如下:,第类:北京、上海和浙江。,第类:广东。,第类:天津、江苏、福建、山东、湖南、广西、 重庆、四川和云南。,第类:河北、山西、内蒙古、辽宁、吉林、黑龙 江、安徽、江西、河南、湖北、海南、贵 州、陕西、甘肃、青海、宁夏和新疆。,第类:西藏。,11/18/2024,64,例6.4.2对例6.3.3使用k均值法进行聚类,聚类前对各变,案例分析参见航空业客户细分,11/18/2024,65,案例分析参见航空业客户细分9/22/202365,参考资料,应用多元统计分析,高惠璇,北京大学出版社。,11/18/2024,66,参考资料应用多元统计分析,高惠璇,北京大学出版社。9/22/,END,11/18/2024,67,END9/22/202367,
展开阅读全文