资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,中国人民大学六西格玛质量管理研究中心,*,2024/11/19,中国人民大学六西格玛质量管理研究中心,1,第三章 聚类分析,3.1,聚类分析的思想,3.2,相似性度量,3.3,类和类的特征,3,.4,系统聚类法,3,.5,模糊聚类分析,3,.6 K-,均值聚类和有序样本聚类,3,.7,计算步骤与上机实现,3,.8,社会经济案例研究,2023/10/7中国人民大学六西格玛质量管理研究中心1第三,2024/11/19,中国人民大学六西格玛质量管理研究中心,2,第三章 聚类分析,人们往往会碰到通过划分同种属性的对象很好地解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。如果没有一种客观的方法,基于在总体内区分群体的战略选择,比如市场细分将不可能,其他领域也会遇到类似的问题,研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。,为此最常用的技巧是聚类分析,聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心2第三,2024/11/19,中国人民大学六西格玛质量管理研究中心,3,3.1,聚类分析的思想,3.1.1,导言,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心33,2024/11/19,中国人民大学六西格玛质量管理研究中心,4,3.1,聚类分析的思想,目录 上页 下页 返回 结束,我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,,。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。,2023/10/7中国人民大学六西格玛质量管理研究中心43,2024/11/19,中国人民大学六西格玛质量管理研究中心,5,3.1,聚类分析的思想,目录 上页 下页 返回 结束,在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。过去人们主要靠经验和专业知识,作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。,2023/10/7中国人民大学六西格玛质量管理研究中心53,2024/11/19,中国人民大学六西格玛质量管理研究中心,6,3.1,聚类分析的思想,目录 上页 下页 返回 结束,为了克服定性分类时存在的不足,数学这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。,对样品的分类常称为,Q,型聚类分析,对变量的分类常称为,R,型聚类分析。,与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。,2023/10/7中国人民大学六西格玛质量管理研究中心63,2024/11/19,中国人民大学六西格玛质量管理研究中心,7,3.1,聚类分析的思想,目录 上页 下页 返回 结束,3.1.2,聚类的目的,在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。,【,例,3.1】,若我们需要将下列,11,户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表,3.1,。在表中,,“,标准工资收入,”,、,“,职工奖金,”,、,“,职工津贴,”,、,“,性别,”,、,“,就业身份,”,等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如,“,子女个数,”,、,“,政治面貌,”,等,指标如何选择取决于聚类的目的。,2023/10/7中国人民大学六西格玛质量管理研究中心73,2024/11/19,中国人民大学六西格玛质量管理研究中心,8,3.1,聚类分析的思想,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心83,2024/11/19,中国人民大学六西格玛质量管理研究中心,9,3.1,聚类分析的思想,目录 上页 下页 返回 结束,例,3.1,中的,8,个指标,前,6,个是定量的,后,2,个是定性的。如果分得更细一些,指标的类型有三种尺度,间隔尺度。变量用连续的量来表示。,有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。,名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。,不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。,2023/10/7中国人民大学六西格玛质量管理研究中心93,2024/11/19,中国人民大学六西格玛质量管理研究中心,10,3.1,聚类分析的思想,目录 上页 下页 返回 结束,聚类分析根据实际的需要可能有两个方向,一是对样品(如例,3.1,中的户主),一是对指标聚类。,第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在,3.2,中,我们将给类一些待探讨的定义。,聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:,(1),系统聚类法。,(2),模糊聚类法。,(3) K-,均值法。,(4),有序样品的聚类。,(5),分解法。,(6),加入法。,2023/10/7中国人民大学六西格玛质量管理研究中心10,2024/11/19,中国人民大学六西格玛质量管理研究中心,11,3.2,相似性度量,目录 上页 下页 返回 结束,从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。,当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。,2023/10/7中国人民大学六西格玛质量管理研究中心11,2024/11/19,中国人民大学六西格玛质量管理研究中心,12,3.2,相似性度量,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心12,2024/11/19,中国人民大学六西格玛质量管理研究中心,13,3.2,相似性度量,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心13,2024/11/19,中国人民大学六西格玛质量管理研究中心,14,3.2,相似性度量,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心14,2024/11/19,中国人民大学六西格玛质量管理研究中心,15,3.2,相似性度量,目录 上页 下页 返回 结束,(,1,)当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离,即兰氏距离。,(,2,)一种改进的距离就是在前面曾讨论过的马氏距离,它对一切线性变换是不变的,不受指标量纲的影响。它对指标的相关性也作了考虑,我们仅用一个例子来说明。,2023/10/7中国人民大学六西格玛质量管理研究中心15,2024/11/19,中国人民大学六西格玛质量管理研究中心,16,3.2,相似性度量,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心16,2024/11/19,中国人民大学六西格玛质量管理研究中心,17,3.2,相似性度量,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心17,2024/11/19,中国人民大学六西格玛质量管理研究中心,18,3.2,相似性度量,目录 上页 下页 返回 结束,以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。,2023/10/7中国人民大学六西格玛质量管理研究中心18,2024/11/19,中国人民大学六西格玛质量管理研究中心,19,3.2,相似性度量,目录 上页 下页 返回 结束,定义距离的较灵活的思想方法。,【,例,3.3】,欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表,3.3,列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的,1,,,2,,,,,10,的拼法,希望计算这,11,种语言之间的距离。,2023/10/7中国人民大学六西格玛质量管理研究中心19,2024/11/19,中国人民大学六西格玛质量管理研究中心,20,3.2,相似性度量,目录 上页 下页 返回 结束,显然,此例无法直接用上述公式来计算距离,仔细观察表,3.3,,发现前三种文字(英、挪、丹)很相似,尤其每个单词的第一个字母,于是产生一种定义距离的办法:用两种语言的,10,个数词中的第一个字母不相同的个数来定义两种语言之间的距离,例如英语和挪威语中只有,1,和,8,的第一个字母不同,故它们之间的距离为,2,。十一种语言之间两两的距离列于表,3.4,中。,2023/10/7中国人民大学六西格玛质量管理研究中心20,2024/11/19,中国人民大学六西格玛质量管理研究中心,21,3.2,相似性度量,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心21,2024/11/19,中国人民大学六西格玛质量管理研究中心,22,3.2,相似性度量,目录 上页 下页 返回 结束,对于间隔尺度,常用的相似系数有:,(1),夹角余弦。这是受相似形的启发而来,图,3.1,中的曲线,AB,和,CD,尽管长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使,AB,和,CD,呈现出比较密切的关系。而夹角余弦适合这一要求。,2023/10/7中国人民大学六西格玛质量管理研究中心22,2024/11/19,中国人民大学六西格玛质量管理研究中心,23,3.2,相似性度量,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心23,2024/11/19,中国人民大学六西格玛质量管理研究中心,24,3.2,相似性度量,目录 上页 下页 返回 结束,(2),相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。,有时指标之间也可用距离来描述它们的接近程度。实际上距离和相似系数之间可以互相转化,,2023/10/7中国人民大学六西格玛质量管理研究中心24,2024/11/19,中国人民大学六西格玛质量管理研究中心,25, 3.3,类和类的特征,目录 上页 下页 返回 结束,目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。给类下一个严格的定义,决非易事。,下面给出类的,适用于不同的场合,几个定义。,2023/10/7中国人民大学六西格玛质量管理研究中心25,2024/11/19,中国人民大学六西格玛质量管理研究中心,26, 3.3,类和类的特征,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心26,2024/11/19,中国人民大学六西格玛质量管理研究中心,27, 3.3,类和类的特征,目录 上页 下页 返回 结束,易见,定义,3.1,的要求是最高的,凡符合它的类,一定也是后三种定义的类。此外,凡符合定义,3.2,的类,也一定是定义,3.3,的类。,2023/10/7中国人民大学六西格玛质量管理研究中心27,2024/11/19,中国人民大学六西格玛质量管理研究中心,28, 3.3,类和类的特征,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心28,2024/11/19,中国人民大学六西格玛质量管理研究中心,29, 3.3,类和类的特征,目录 上页 下页 返回 结束,在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。,2023/10/7中国人民大学六西格玛质量管理研究中心29,2024/11/19,中国人民大学六西格玛质量管理研究中心,30, 3.3,类和类的特征,目录 上页 下页 返回 结束,(1),最短距离法。,(nearest neighbor,或,single linkage method),2023/10/7中国人民大学六西格玛质量管理研究中心30,2024/11/19,中国人民大学六西格玛质量管理研究中心,31, 3.3,类和类的特征,目录 上页 下页 返回 结束,(2),最长距离法(,farthest neighbor,或,complete linkage method,)。,2023/10/7中国人民大学六西格玛质量管理研究中心31,2024/11/19,中国人民大学六西格玛质量管理研究中心,32, 3.3,类和类的特征,目录 上页 下页 返回 结束,(3),类平均法,(group average method),。,2023/10/7中国人民大学六西格玛质量管理研究中心32,2024/11/19,中国人民大学六西格玛质量管理研究中心,33, 3.3,类和类的特征,目录 上页 下页 返回 结束,(4),重心法,(Centroid method),。,(5),离差平方和法(,Sum of Squares method,)。,2023/10/7中国人民大学六西格玛质量管理研究中心33,2024/11/19,中国人民大学六西格玛质量管理研究中心,34,3.4,系统聚类法,目录 上页 下页 返回 结束,系统聚类法,(hierarchical clustering method),在聚类分析中诸方法中用的最多,包含下列步骤:,2023/10/7中国人民大学六西格玛质量管理研究中心34,2024/11/19,中国人民大学六西格玛质量管理研究中心,35,3.4,系统聚类法,目录 上页 下页 返回 结束,不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。,【,例,3.4】,为了研究辽宁等,5,省份,2000,年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表,3.5,。资料来源,10,2023/10/7中国人民大学六西格玛质量管理研究中心35,2024/11/19,中国人民大学六西格玛质量管理研究中心,36,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心36,2024/11/19,中国人民大学六西格玛质量管理研究中心,37,3.4,系统聚类法,目录 上页 下页 返回 结束,3.4.1,最短距离法和最长距离法,所谓最短距离法就是类与类之间的距离采用,(3.12),的系统聚类方法。,2023/10/7中国人民大学六西格玛质量管理研究中心37,2024/11/19,中国人民大学六西格玛质量管理研究中心,38,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心38,2024/11/19,中国人民大学六西格玛质量管理研究中心,39,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心39,2024/11/19,中国人民大学六西格玛质量管理研究中心,40,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心40,2024/11/19,中国人民大学六西格玛质量管理研究中心,41,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心41,2024/11/19,中国人民大学六西格玛质量管理研究中心,42,3.4,系统聚类法,目录 上页 下页 返回 结束,所谓最长距离法是类与类之间的距离采用(,3.13,)的系统聚类法。选择最大的距离作为新类与其他类之间的距离,然后将类间距离最小的两类进行合并,一直合并到只有一类为止。,上述两方法中,主要的不同是计算新类与其他类的距离的递推公式不同。,2023/10/7中国人民大学六西格玛质量管理研究中心42,2024/11/19,中国人民大学六西格玛质量管理研究中心,43,3.4,系统聚类法,目录 上页 下页 返回 结束,最短距离法也可用于对指标的分类,分类时可以用距离也可以用相似系数。但用相似系数时应找最大的元素并类,计算新类与其他类的距离应使用公式,(3.19),。,最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所有距离中的最短者,两类合并以后,它与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样品都被聚在一类中,在树状聚类图中,会看到一个延伸的链状结构,所以最短距离法的聚类效果并不好,实际中不提倡使用。,2023/10/7中国人民大学六西格玛质量管理研究中心43,2024/11/19,中国人民大学六西格玛质量管理研究中心,44,3.4,系统聚类法,目录 上页 下页 返回 结束,最长距离法克服了最短距离法链接聚合的缺陷,两类合并以后与其他类的距离是原来两个类中的距离最大者,加大了合并后的类与其他类的距离。,本例中最短距离法与最长距离法得到的结果是相同的。,2023/10/7中国人民大学六西格玛质量管理研究中心44,2024/11/19,中国人民大学六西格玛质量管理研究中心,45,3.4,系统聚类法,目录 上页 下页 返回 结束,3.4.2,重心法和类平均法,从物理的观点看,一个类用它的重心(该类样品的均值)做代表比较合理,类与类之间的距离就用重心之间的距离来代表。,2023/10/7中国人民大学六西格玛质量管理研究中心45,2024/11/19,中国人民大学六西格玛质量管理研究中心,46,3.4,系统聚类法,目录 上页 下页 返回 结束,重心法虽有很好的代表性,但并未充分利用各样本的信息,有人建议将两类之间的距离平方定义为这两类元素两两之间的平均平方距离,即类平均法。,类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式,一种是组间联结法(,Between-groups linkage,),另一种是组内联结法(,Within-groups linkage,)。组间联结法在计算距离时只考虑两类之间样品之间距离的平均,组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。,2023/10/7中国人民大学六西格玛质量管理研究中心46,2024/11/19,中国人民大学六西格玛质量管理研究中心,47,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心47,2024/11/19,中国人民大学六西格玛质量管理研究中心,48,3.4,系统聚类法,目录 上页 下页 返回 结束,3.4.3,离差平方和法(或称,Ward,方法),离差平方和方法是由,Ward,提出来的,许多资料上称做,Ward,法。他的思想是来于方差分析,如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。,2023/10/7中国人民大学六西格玛质量管理研究中心48,2024/11/19,中国人民大学六西格玛质量管理研究中心,49,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心49,2024/11/19,中国人民大学六西格玛质量管理研究中心,50,3.4,系统聚类法,目录 上页 下页 返回 结束,离差平方和法放弃了在一切分类中求的极小值的要求,而是设计出某种规格:找到一个局部最优解,,Ward,法就是找局部最优解的一个方法。,其思想是先将,n,个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为一类为止。,2023/10/7中国人民大学六西格玛质量管理研究中心50,2024/11/19,中国人民大学六西格玛质量管理研究中心,51,3.4,系统聚类法,目录 上页 下页 返回 结束,3.4.4,分类数的确定,如何选择分类数是各种聚类方法中的主要问题之一。,在,K,均值聚类法中聚类之前需要指定分类数,谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。,确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。,实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。,2023/10/7中国人民大学六西格玛质量管理研究中心51,2024/11/19,中国人民大学六西格玛质量管理研究中心,52,3.4,系统聚类法,目录 上页 下页 返回 结束,Demir-men,曾提出了根据树状结构图来分类的准则:,准则,1,:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。,准则,2,:各类所包含的元素都不要过分地多。,准则,3,:分类的数目应该符合使用的目的。,准则,4,:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。,系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。,如果以,y,轴为聚合系数,,x,轴表示分类数,画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。,2023/10/7中国人民大学六西格玛质量管理研究中心52,2024/11/19,中国人民大学六西格玛质量管理研究中心,53,3.4,系统聚类法,目录 上页 下页 返回 结束,3.4.5,系统聚类法的统一,上面介绍的五种系统聚类法,并类的原则和步骤是完全一样的,所不同的是类与类之间的距离有不同的定义,从而得到不同的递推公式,如果能将它们统一为一个公式,将大大有利于编制计算机程序。,Lance,和,Williams,于,1967,年给出了一个统一的公式,2023/10/7中国人民大学六西格玛质量管理研究中心53,2024/11/19,中国人民大学六西格玛质量管理研究中心,54,3.4,系统聚类法,目录 上页 下页 返回 结束,一般而言,不同的方法聚类的结果不完全相同。最短距离法适用于条形的类。最长距离法、重心法、类平均法、离差平方和法适用于椭圆形的类。,.,2023/10/7中国人民大学六西格玛质量管理研究中心54,2024/11/19,中国人民大学六西格玛质量管理研究中心,55,3.4,系统聚类法,目录 上页 下页 返回 结束,由于上述的聚类方法得到的结果是不完全相同的。于是产生一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。,2023/10/7中国人民大学六西格玛质量管理研究中心55,2024/11/19,中国人民大学六西格玛质量管理研究中心,56,3.4,系统聚类法,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心56,2024/11/19,中国人民大学六西格玛质量管理研究中心,57,3.4,系统聚类法,目录 上页 下页 返回 结束,关系统聚类法的性质,还可从其他角度提出了比较优与劣的原则。将,n,个样品,欲分为,k,类,有人定义一个分类函数(或叫损失函数),然后寻找这个函数的最优解,在某些条件下,最短距离法的解是最优的,而系统聚类法的其他方法都不具有这个性质(参见,6,、,7,),故最短距离法在实际中也很被推崇。系统聚类法的各种方法的比较仍是值得研究的一个课题,例如,有人用随机模拟作了研究,发现最长距离法不可取。,2023/10/7中国人民大学六西格玛质量管理研究中心57,2024/11/19,中国人民大学六西格玛质量管理研究中心,58, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,模糊集的理论是二十世纪六十年代中期美国的自动控制专家查德,(L.A.Zadeh),教授首先提出的。模糊集的理论已广泛应用于许多领域,将模糊集概念用到聚类分析中便产生了模糊聚类分析。,3.5.1,模糊聚类的几个基本概念,1.,特征函数,2023/10/7中国人民大学六西格玛质量管理研究中心58,2024/11/19,中国人民大学六西格玛质量管理研究中心,59, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,2.,隶属函数,。,当我们要了解某企业完成年计划利润程度的大小时,仅用特征函数就不够了。模糊数学把它推广到,0,,,1,闭区间,即用,0,和,1,之间的一个数去度量它。这个数就叫隶属度。,当用函数来表示隶属度的变化规律时,就叫做隶属函数。,3.,模糊矩阵的运算法则。,2023/10/7中国人民大学六西格玛质量管理研究中心59,2024/11/19,中国人民大学六西格玛质量管理研究中心,60, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,3.5.2,模糊分类关系,1.,乘积空间,2.,分类关系,2023/10/7中国人民大学六西格玛质量管理研究中心60,2024/11/19,中国人民大学六西格玛质量管理研究中心,61, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,模糊聚类分析的实质就是根据研究对象本身的属性而构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。,2023/10/7中国人民大学六西格玛质量管理研究中心61,2024/11/19,中国人民大学六西格玛质量管理研究中心,62, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心62,2024/11/19,中国人民大学六西格玛质量管理研究中心,63, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心63,2024/11/19,中国人民大学六西格玛质量管理研究中心,64, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,3.5.3,模糊聚类分析计算步骤,1.,对原始数据进行变换。变换方法通常有标准化变换、极差变换、对数变换等。,2023/10/7中国人民大学六西格玛质量管理研究中心64,2024/11/19,中国人民大学六西格玛质量管理研究中心,65, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心65,2024/11/19,中国人民大学六西格玛质量管理研究中心,66, 3.5,模糊聚类分析,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心66,2024/11/19,中国人民大学六西格玛质量管理研究中心,67, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,3.6.1,K-,均值法,(,快速聚类法,),非谱系聚类法是把样品(而不是变量)聚集成,K,个类的集合。类的个数,K,可以预先给定,或者在聚类过程中确定。非谱系方法可应用于比系统聚类法大得多的数据组。,非谱系聚类法或者一开始就对元素分组,或者从一个构成各类核心的“种子”集合开始。选择好的初始构形,将能免除系统的偏差。一种方法是从所有项目中随机地选择“种子”点或者随机地把元素分成若干个初始类。,2023/10/7中国人民大学六西格玛质量管理研究中心67,2024/11/19,中国人民大学六西格玛质量管理研究中心,68, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,K-,均值法,又叫快速聚类法,是,Macqueen,于,1967,年提出的,其思想是把每个样品聚集到其最近形心(均值)类中去。在它的最简单说明中,这个过程由下列三步所组成:,把样品粗略分成,K,个初始类;,进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值);,重复第,2,步,直到各类无元素进出。,2023/10/7中国人民大学六西格玛质量管理研究中心68,2024/11/19,中国人民大学六西格玛质量管理研究中心,69, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,若不在一开始就粗略地把样品分到,K,个预先指定的类(第,1,步),那我们也可以指定,K,个最初形心(种子点),然后进行第,2,步。,样品的最终聚类在某种程度上依赖于最初的划分,或种子点的选择。,为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。见,11,2023/10/7中国人民大学六西格玛质量管理研究中心69,2024/11/19,中国人民大学六西格玛质量管理研究中心,70, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,3.6.2,有序样品的聚类,在前几节的讨论中,分类的样品是相互独立的,分类时彼此是平等的。但在有些实际问题中,要研究的现象与时间的顺序密切相关。例如我们想要研究,从,1949,年到,2003,年以来,国民收入可以划分为几个阶段,阶段的划分必须以年份顺序为依据,总的想法是要将国民收入接近的年份划分到一个段内,要完成类似这样的问题的研究,用前几节分类的方法显然是不行了。,2023/10/7中国人民大学六西格玛质量管理研究中心70,2024/11/19,中国人民大学六西格玛质量管理研究中心,71, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,对于这类有序样品的分类,实质上是需要找出一些分点,将它们划分成几个分段,每个分段看作一类,称这种分类为分割。显然,分点在不同位置可以得到不同的分割。这样就存在一个如何决定分点,使达到所谓最优分割的问题。即要求一个分割能使各段内部样品间的差异最小,而各段之间样品的差异最大。这就是决定分割点的依据。,2023/10/7中国人民大学六西格玛质量管理研究中心71,2024/11/19,中国人民大学六西格玛质量管理研究中心,72, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,1,、可能的分类数目,2023/10/7中国人民大学六西格玛质量管理研究中心72,2024/11/19,中国人民大学六西格玛质量管理研究中心,73, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,2,、最优分割法,2023/10/7中国人民大学六西格玛质量管理研究中心73,2024/11/19,中国人民大学六西格玛质量管理研究中心,74, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心74,2024/11/19,中国人民大学六西格玛质量管理研究中心,75, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心75,2024/11/19,中国人民大学六西格玛质量管理研究中心,76, 3.6,K-,均值聚类和有序样品的聚类,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心76,2024/11/19,中国人民大学六西格玛质量管理研究中心,77,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,本书以,SPSS15.0,和,S-Plus2000,两种软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下:,分析所需要研究的问题,确定聚类分析所需要的多元变量;,选择对样品聚类还是对指标聚类;,选择合适的聚类方法;,选择所需的输出结果。,我们将实现过程用逻辑框图表示为图,3.8,。,2023/10/7中国人民大学六西格玛质量管理研究中心77,2024/11/19,中国人民大学六西格玛质量管理研究中心,78,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心78,2024/11/19,中国人民大学六西格玛质量管理研究中心,79,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,3.7.1,系统聚类法,用,SPSS,软件自带的数据文件,World95.sav,来做一个实例分析。,为了研究亚洲国家的经济发展水平和文化教育水平,以便于对亚洲国家进行分类研究,这里我们进行聚类分析(在,World95.sav,数据中筛选出亚洲国家,使用,DataSelect CasesIf condition is satisfied,中选入,region=3,)。,详细步骤如下:,(1),打开数据。使用菜单中,FileOpen,命令,然后选中要分析的数据,World95.sav,。,2023/10/7中国人民大学六西格玛质量管理研究中心79,2024/11/19,中国人民大学六西格玛质量管理研究中心,80,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,(2),在菜单中的选项中选择,AnalyzeClassify,命令,,Classify,命令下有两个聚类分析命令,一是,K-means cluster,(,K,-,均值聚类),二是,Hierarchical cluster,(系统聚类法)。这里我们选择系统聚类法。,(3),在系统聚类法中,我们看到,Cluster,下有两个选项,,Cases,(样品聚类或,Q,型聚类)和,Variables (,变量聚类或,R,型聚类,),。这里我们选择对样品进行聚类。,(4) Display,下面有两个选项,分别是,Statistics (,统计量,),、,Plots,(输出图形),我们可以选择所需要输出的统计量和图形。,2023/10/7中国人民大学六西格玛质量管理研究中心80,2024/11/19,中国人民大学六西格玛质量管理研究中心,81,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,(5),在系统聚类法中底下有四个按纽,分别是,Statistics,、,Plots,、,Method,、,Save,。,(,a,)在,Statistics,中,有,Agglomeration schedule,(每一阶段聚类的结果),,Proximity matrix,(样品间的相似性矩阵)。由,Cluster membership,可以指定聚类的个数,,none,选项不指定聚类个数,,Single solution,指定一个确定类的个数,,Range of solution,指定类的个数的范围(如从分,3,类到分,5,类)。,(b),在,Plots,中,有,Dendrogram,(谱系聚类图,也称树状聚类图)、,Icicle(,冰柱图,),、,Orientation,指冰柱图的方向(,Horizontal,水平方向、,Vertical,垂直方向)。,(c),在,Method,中,,Cluster,可以选择聚类方法,,Measure,中可以选择计算的距离。,(d),在,Save,中,可以选择保存聚类结果。,选好每个选项后,点,“,OK,”,就可以执行了。,2023/10/7中国人民大学六西格玛质量管理研究中心81,2024/11/19,中国人民大学六西格玛质量管理研究中心,82,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,在这个数据文件中,我们选择的变量,(Variables(s),有,Urban,(城市人口比例),,Lifeexpf,(女性平均寿命)、,Lifeexpm,(男性平均寿命)、,Literacy,(有读写能力的人所占比例)、,Gdp_cap,(人均国内生产总值),以,Country,(国家或地区)来标识,(Label Cases),本例中的,17,个亚洲国家或地区,并以其他,5,个变量进行,Q,型聚类分析,即对国家进行聚类。,这里我们将原始变量标准化(在,Method,选项下,Transform Values,的,Standardize,空白框内,选择,Z Scores,),在,Statistics,选项中选择,Agglomeration Schedule,,聚类方法选择组内联结法,(Within-group linkage),,计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下:,2023/10/7中国人民大学六西格玛质量管理研究中心82,2024/11/19,中国人民大学六西格玛质量管理研究中心,83,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心83,2024/11/19,中国人民大学六西格玛质量管理研究中心,84,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心84,2024/11/19,中国人民大学六西格玛质量管理研究中心,85,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,将表,3-8,的聚合系数利用,Excel,作出聚合系数随分类数变化曲线,如图,3-13.,2023/10/7中国人民大学六西格玛质量管理研究中心85,2024/11/19,中国人民大学六西格玛质量管理研究中心,86,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心86,2024/11/19,中国人民大学六西格玛质量管理研究中心,87,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,输出结果中,表,3.9,表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择,Pearson,相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,,Bangladesh,(孟加拉国)与,Cambodia,(柬埔寨)的距离是最小的,因此它们最先聚为一类。,图,3.9,是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选,3,,每个样品右边都有一列,X,,如果某个样品右边的,X,个数少于,3,,那么它和前面多于,3,个,X,的样品聚为一类,如此下去,直到找到全部三类为止。例如,,Hong Kong,右边的列只有两个,X,那么它就与,Japan,和,Singapore,聚为一类了,而,China,右边的列只有一个,X,,那么从,Taiwan,到,China,又被聚为一类,后面样品聚为另一类。,2023/10/7中国人民大学六西格玛质量管理研究中心87,2024/11/19,中国人民大学六西格玛质量管理研究中心,88,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,表,3.10,是反映每一阶段聚类的结果,,Coefficients,表示聚合系数,第,2,列和第,3,列表示聚合的类,比如第一阶段时(,Stage=1,)第,2,个样品,Bangladesh,(孟加拉国)与第三个样品,Cambodia,(柬埔寨)聚为一类,注意这时有,16,类(,17-1=16,)。因此某阶段的分类数等于总的样品数减去这个阶段的序号。,图,3.10,是聚合系数随分类数变化的曲线。由图可以看出,当分类数为,3,或,4,时,曲线变得比较平缓,这个分类数也符合我们分类的目的。,2023/10/7中国人民大学六西格玛质量管理研究中心88,2024/11/19,中国人民大学六西格玛质量管理研究中心,89,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,图,3.11,是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为,3,,就从距离为,10,的地方往下切,得到分类结果如下。,1,:孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦,;,2,:香港、新加坡、日本,;,3,:泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜,。我们可以从经济发展水平和文化教育水平来理解所作的分类。第,2,类应该是亚洲国家中经济发达程度最高的国家或地区,第,1,类的经济水平和文教水平都比较低,第,3,类国家的经济水平和文教水平居中。,2023/10/7中国人民大学六西格玛质量管理研究中心89,2024/11/19,中国人民大学六西格玛质量管理研究中心,90,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,3.7.2,快速聚类法(,K-means cluster,)。,同样我们使用上面的数据文件,World95.sav,,从中筛选出亚洲国家,试图将亚洲国家按经济和文教水平分为,3,类。可以使用快速聚类法对样品进行聚类。,我们使用的变量有,Country,(国家或地区)、,Urban,(城市人口比例),,Lifeexpf,(女性平均寿命)、,Lifeexpm,(男性平均寿命)、,Literacy,(有读写能力的人所占比例)、,Gdp_cap,(人均国内生产总值),以,Country,来标识本例中的,17,个亚洲国家或地区,并以其他,5,个变量进行,Q,型聚类分析,即对国家进行聚类。,2023/10/7中国人民大学六西格玛质量管理研究中心90,2024/11/19,中国人民大学六西格玛质量管理研究中心,91,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,在,SPSS,软件中选择,AnalyzeClassifyK-Means Cluster,。进入,K-,均值聚类对话框以后,将上面,5,个变量选入,Variable,,将,Country,用于标识,(Label cases by),。将分类数,(Number of clusters),定为,3,。我们可以在,Option,选项中选择,Initial cluster center,(最初分类重心),,ANOVA(,方差分析表,),,,Cluster information for each case,(每个样品的分类信息)。得到如下分类结果:,2023/10/7中国人民大学六西格玛质量管理研究中心91,2024/11/19,中国人民大学六西格玛质量管理研究中心,92,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心92,2024/11/19,中国人民大学六西格玛质量管理研究中心,93,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,2023/10/7中国人民大学六西格玛质量管理研究中心93,2024/11/19,中国人民大学六西格玛质量管理研究中心,94,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,输出结果中表,3.9,表示最初各类的重心,也就是种子点。表,3.10,是样品的分类情况。这里我们看到快速聚类法将亚洲国家或地区分为这样,3,类。,1,:阿富汗、孟加拉国、柬埔寨、中国、印度、印度尼西亚、马来西亚、朝鲜、巴基斯坦、泰国、越南,。,2,:香港、日本、新加坡,。,3,:韩国、台湾,。我们也可以对分类结果做分析。第,1,类国家或地区经济和文教卫生水平较低。第,2,类国家或地区是亚洲国家或地区中的佼佼者,其经济发达程度和文教卫生水平都是很高的。第,3,类国家或地区处于两者中间。这个结果可以结合表,3.13,(最后各类的重心)来分析,我们看到第,2,类的人均,GDP,比另外两组要高。,表,3.12,是方差分析表,但是应当注意值只能作为描述所用,而不能根据该值判断各类均值是否有显著差异。通过方差分析表我们可以看出,有,4,个变量对分类贡献显著。,2023/10/7中国人民大学六西格玛质量管理研究中心94,2024/11/19,中国人民大学六西格玛质量管理研究中心,95,3.7,计算步骤与上机实践,目录 上页 下页 返回 结束,三、模糊聚类法,继续使用上面的例子,希望将亚洲国家或地区分成,3,类进行分析研究。这里我们使用,S-Plus2000,软件。,进入,S-Plus,软件以后,首先打开上述数据文件,可以用,FileImport DataFrom File,,然后选择数据形式为*,.sav(SPSS,数据,),。打开数据后,使用,StatisticsCluster Analysis Fuzzy Partitioning,实现模糊聚类分析。,在,Variables,中选择,Urban,(城市人口比例),,Lifeexpf,(女性平均寿命)、,Lifeexpm,(男性平均寿命)、,Literacy,(有读写能力的人所占比例)、,Gdp_cap,(人均国内生产总值)进行,Q,型聚类分析,即对国家或地区进行聚类。在,Option,选项中指定类的个数为,3,。选择好变量以后,点,“,OK,”,就可以得到结果。我们还选择了,Plot,选项中的,Cluster Plot,(分类图)和,Silhouette Plo
展开阅读全文