聚类分析详解课件

上传人:91274****mpsvz 文档编号:242900617 上传时间:2024-09-11 格式:PPT 页数:65 大小:2.82MB
返回 下载 相关 举报
聚类分析详解课件_第1页
第1页 / 共65页
聚类分析详解课件_第2页
第2页 / 共65页
聚类分析详解课件_第3页
第3页 / 共65页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,-,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,-,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,-,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,-,*,聚类分析,报告人:,-,主要内容,引言,聚类分析原理,聚类分析的种类,聚类分析应注意的问题,聚类分析应用,聚类分析工具及案例分析,-,引言,“物以类聚,人以群分”,市场营销中的市场细分和客户细分问题。可从客户分类入手,根据客户的年龄、职业、收入、消费金额、消费频率、喜好等方面进行单变量或者多变量的客户分组。,不足:,客户群划分带有明显的主观色彩,需要有丰富的行业经验才能做到比较合理和理想的客户细分。主要表现在,同一客户细分段中的客户在某些方面并不相似,而不同客户细分段中的客户在某些特征方面却又很相似。,解决方法:,从数据自身出发,充分利用数据进行客户的客观分组,使诸多有相似性的客户被分在同一组,而不相似的客户被区分到另一组中。这时便可采用聚类分析方法。,-,主要内容,引言,聚类分析原理,聚类分析的种类,聚类分析应注意的问题,聚类分析应用,聚类分析工具及案例分析,-,聚类分析定义,聚类:,聚类(,clustering,)是对大量未知标注的数据集,按数据的,内在相似性,将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,其过程被称为聚类。,-,聚类分析定义,聚类分析定义:,聚类分析是将,样品,或,变量,按照他们性质上的,亲疏程度,进行分类的多元统计分析方法。进行聚类分析时,用来描述物品或变量的亲疏程度通常有两个途径:,一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点、类与类之间的距离,用点与点间,距离,来描述样品或变量的亲疏程度;,二是计算样品或变量的,相似系数,,用相似系数来描述样品或变量之间的亲疏程度。,-,聚类分析特点,聚类分析是一种建立分类的多元统计分析方法,它能将一批样本(或变量)数据根据其诸多特征,按照在性质上的,亲疏程度,在,没有先验知识,的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。,-,聚类分析特点,编号,购物环境,服务质量,A,商厦,73,68,B,商厦,66,64,C,商厦,84,82,D,商厦,91,88,E,商厦,94,90,把商厦分成两类:,把商厦分为三类:,没有指定分类标准,大家为什么会这么分呢?,从数据出发,根据性质上的,亲疏程度,进行分类!,A,、,B,为一类,,C,、,D,、,E,为一类,A,、,B,为一类,,C,为一类,,D,、,E,为一类,-,聚类分析特点,编号,购物环境,服务质量,A,商厦,73,68,B,商厦,66,64,C,商厦,84,82,D,商厦,91,88,E,商厦,94,90,把商厦分成两类:,把商厦分为三类:,没有指定分类标准,大家为什么会这么分呢?,从数据出发,根据性质上的,亲疏程度,进行分类!,A,、,B,为一类,,C,、,D,、,E,为一类,A,、,B,为一类,,C,为一类,,D,、,E,为一类,样本,变量,-,亲疏程度的度量方法,亲疏程度的度量也叫相似性度量,方法主要有两个:,(,1,),距离,常用来度量,样品,之间的相似性;,(,2,),相似系数,常用来度量,变量,之间的相似性。,编号,购物环境,服务质量,A,商厦,73,68,B,商厦,66,64,C,商厦,84,82,D,商厦,91,88,E,商厦,94,90,样本,变量,-,距离,-,距离,欧氏(,Euclidean,)距离,平方欧氏(,Squared Euclidean,)距离,明氏(明科夫斯基,Minkowski,)距离,切比雪夫(,Chebychev,)距离,兰氏(,Lance,和,Willianms,)距离,马氏(,Mahalanobis,)距离,斜交空间距离,其他,详细定义请参考教材:,信息分析方法与应用,王伟军,清华大学出版社,SPSS,统计分析方法及应用,薛薇,电子工业出版社,-,距离,编号,购物环境,服务质量,A,商厦,73,68,B,商厦,66,64,-,距离,编号,购物环境,服务质量,A,商厦,73,68,B,商厦,66,64,E,商厦,94,90,-,相似系数,-,相似系数,-,相似系数,编号,购物环境,服务质量,A,商厦,73,68,B,商厦,66,64,-,参考教材:,应用多元统计分析,高惠璇,北京大学出版社,相似系数,-,主要内容,引言,聚类分析原理,聚类分析的种类,聚类分析应注意的问题,聚类分析应用,聚类分析工具及案例分析,-,聚类分析的种类,(,1,)系统聚类法,(也叫分层聚类或层次聚类),(,2,)动态聚类法,(也叫快速聚类),(,3,)模糊聚类法,(,4,)图论聚类法,-,系统聚类法,对比,-,常用的系统聚类方法,一、最短距离法,二、最长距离法,三、中间距离法,四、类平均法,五、重心法,六、离差平方和法,(Ward,方法,),-,一、最短距离法,定义类与类之间的距离为两类最近样品间的距离,即,详细步奏和实例,-,最短距离法的聚类步骤,(1),规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。,(2),选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即,(3),计算新类 与任一类 之间距离的递推公式为,-,最短距离法的聚类步骤,在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由(,6.3.2,)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。,(4),对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。,如果某一步 中最小的元素不止一个,则称此现象为结,(tie),,对应这些最小元素的类可以任选一对合并或同时合并。,-,-,-,28,-,二、最长距离法,类与类之间的距离定义为两类最远样品间的距离,即,详细步奏和实例,-,最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。,递推公式:,最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。,最长距离法的聚类步奏,-,-,三、中间距离法,类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。,-,-,-,-,-,-,-,-,-,-,-,以上我们对例,6.3.1,采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。从下面例子中可以看到这一点。,-,动态聚类法(快速聚类),动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数,k,可以事先指定,也可以在聚类过程中确定。选择初始凝聚点,(,或给出初始分类,),的一种简单方法是采用随机抽选,(,或随机分割,),样品的方法。,动态聚类法有许多种方法,一种比较流行的动态聚类法,k,均值法。,对比,-,k,均值法的基本步骤,(1),选择,k,个样品作为初始凝聚点,或者将所有样品分成,k,个初始类,然后将这,k,个类的重心,(,均值,),作为初始凝聚点。,(2),对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。,(3),重复步骤,(2),,直至所有的样品都不能再分配为止。,最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。,-,k,均值法的基本步骤,选择凝聚点,初始分类,分类是否合理,修改分类,最终分类,否,是,-,-,-,-,主要内容,引言,聚类分析原理,聚类分析的种类,聚类分析应注意的问题,聚类分析应用,聚类分析工具及案例分析,-,聚类分析应注意的问题,(,1,)所选择的变量应符合聚类的要求,如果希望依照学校的科研情况对高校进行分类,那么可以选择参加科研的人数、年投入经费、立项课题数、支出经费、科研成果数、获奖数等变量,而不应选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不符合聚类的要求,分类的结果也就无法真实地反映科研分类的情况。,-,聚类分析应注意的问题,(,2,)各变量的变量值不应该有数量级上的差异,聚类分析是以各种距离来度量个体间“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。,数据变换方法:,中心化变换,规格化变换,标准化变化,对数变换,平方根变化等,参考教材:,信息分析方法与应用,王伟军,清华大学出版社,-,聚类分析应注意的问题,(,3,)各变量间不应有较强的线性相关关系,聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离时同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量。,-,主要内容,引言,聚类分析原理,聚类分析的种类,聚类分析应注意的问题,聚类分析应用,聚类分析工具及案例分析,-,聚类分析的应用,经济领域:,帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。,谁喜欢打国际长途,在什么时间,打到那里?,对住宅区进行聚类,确定自动提款机,ATM,的安放位置,股票市场板块分析,找出最具活力的板块龙头股,企业信用等级分类,生物学领域,推导植物和动物的分类;,对基因分类,获得对种群的认识,数据挖掘领域,作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究,-,主要内容,引言,聚类分析原理,聚类分析的种类,聚类分析应注意的问题,聚类分析应用,聚类分析工具及案例分析,-,聚类分析工具及案例分析,SPSS,IBM SPSS Modeler,(以前叫,Clementine,,商业化软件),SAS(SAS Enterprise Miner),商业数学软件,MATLAB,数据挖掘软件,WEKA,(免费的,非商业化),IBM DB2 Intelligent Miner,其他(如,DBMiner,、,See5,等),国内常用的分析工具是,SPSS,以,SPSS,分析工具为例,对“某年,20,个代表性地区农村居民家庭平均每人生活消费现金支出”进行聚类分析。,-,农村居民家庭平均每人生活消费现金支出,-,系统聚类分析,最短距离法,-,系统聚类分析案例,最短距离法,-,聚类表,谱系图,-,最短距离法谱系图,最长距离法谱系图,-,动态聚类分析案例,-,-,谢谢大家!请大家批评指正!,-,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!