聚类分析详解PPT课件

上传人:辰*** 文档编号:102469033 上传时间:2022-06-07 格式:PPTX 页数:65 大小:2.50MB
返回 下载 相关 举报
聚类分析详解PPT课件_第1页
第1页 / 共65页
聚类分析详解PPT课件_第2页
第2页 / 共65页
聚类分析详解PPT课件_第3页
第3页 / 共65页
点击查看更多>>
资源描述
主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析第1页/共65页引言 “物以类聚,人以群分” 市场营销中的市场细分和客户细分问题。可从客户分类入手,根据客户的年龄、职业、收入、消费金额、消费频率、喜好等方面进行单变量或者多变量的客户分组。 不足:客户群划分带有明显的主观色彩,需要有丰富的行业经验才能做到比较合理和理想的客户细分。主要表现在,同一客户细分段中的客户在某些方面并不相似,而不同客户细分段中的客户在某些特征方面却又很相似。 解决方法:从数据自身出发,充分利用数据进行客户的客观分组,使诸多有相似性的客户被分在同一组,而不相似的客户被区分到另一组中。这时便可采用聚类分析方法。第2页/共65页主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析第3页/共65页聚类分析定义 聚类: 聚类(clustering)是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,其过程被称为聚类。第4页/共65页聚类分析定义 聚类分析定义: 聚类分析是将样品或变量按照他们性质上的亲疏程度进行分类的多元统计分析方法。进行聚类分析时,用来描述物品或变量的亲疏程度通常有两个途径: 一是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点、类与类之间的距离,用点与点间距离来描述样品或变量的亲疏程度; 二是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。第5页/共65页聚类分析特点 聚类分析是一种建立分类的多元统计分析方法,它能将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。第6页/共65页聚类分析特点编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490 把商厦分成两类: 把商厦分为三类: 没有指定分类标准,大家为什么会这么分呢? 从数据出发,根据性质上的亲疏程度亲疏程度进行分类!A、B为一类,C、D、E为一类A、B为一类,C为一类,D、E为一类第7页/共65页聚类分析特点编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490 把商厦分成两类: 把商厦分为三类: 没有指定分类标准,大家为什么会这么分呢? 从数据出发,根据性质上的亲疏程度亲疏程度进行分类!A、B为一类,C、D、E为一类A、B为一类,C为一类,D、E为一类样本样本变量变量第8页/共65页亲疏程度的度量方法亲疏程度的度量也叫相似性度量,方法主要有两个:(1) 距离常用来度量样品之间的相似性;(2)相似系数常用来度量变量之间的相似性。编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490样本样本变量变量第9页/共65页距离第10页/共65页距离欧氏(Euclidean)距离平方欧氏(Squared Euclidean)距离明氏(明科夫斯基 Minkowski)距离切比雪夫(Chebychev)距离兰氏(Lance和Willianms)距离马氏(Mahalanobis)距离斜交空间距离其他详细定义请参考教材:信息分析方法与应用王伟军,清华大学出版社SPSS统计分析方法及应用薛薇,电子工业出版社第11页/共65页距离编号购物环境服务质量A商厦7368B商厦6664第12页/共65页距离编号购物环境服务质量A商厦7368B商厦6664E商厦9490第13页/共65页1ijc , (0)ijxaxb ab1ijc , i jijjicc, i j相似系数第14页/共65页1ijc , (0)ijxaxb ab1ijc , i jijjicc, i j相似系数第15页/共65页相似系数编号购物环境服务质量A商厦7368B商厦6664第16页/共65页参考教材:应用多元统计分析高惠璇,北京大学出版社相似系数第17页/共65页主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析第18页/共65页聚类分析的种类(1)系统聚类法(也叫分层聚类或层次聚类)(2)动态聚类法(也叫快速聚类)(3)模糊聚类法(4)图论聚类法 第19页/共65页系统聚类法对比第20页/共65页常用的系统聚类方法 一、最短距离法 二、最长距离法 三、中间距离法 四、类平均法 五、重心法 六、离差平方和法(Ward方法) 第21页/共65页一、最短距离法 定义类与类之间的距离为两类最近样品间的距离,即,minKLKLiji Gj GDd详细步奏和实例详细步奏和实例第22页/共65页最短距离法的聚类步骤 (1) 规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。 (2) 选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即 (3) 计算新类 与任一类 之间距离的递推公式为n 0D 0DKLDKGLGMGMKLGGGMGJG,minminmin, minmin,MJKJLJMJijijiji Gj Gi Gj Gi Gj GKJLJDdddDD第23页/共65页最短距离法的聚类步骤 在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由()式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。 (4) 对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。 如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。 0DMGKGLG 1D 1D 0D 2D mD第24页/共65页第25页/共65页第26页/共65页27第27页/共65页二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即,maxKLKLiji Gj GDd详细步奏和实例详细步奏和实例第28页/共65页 最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。 递推公式: 最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。max,MJKJLJDDD最长距离法的聚类步奏第29页/共65页第30页/共65页三、中间距离法 类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。第31页/共65页第32页/共65页第33页/共65页第34页/共65页第35页/共65页第36页/共65页第37页/共65页第38页/共65页第39页/共65页第40页/共65页第41页/共65页 以上我们对例采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。从下面例子中可以看到这一点。第42页/共65页动态聚类法(快速聚类) 动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。 动态聚类法有许多种方法,一种比较流行的动态聚类法k均值法。对比第43页/共65页k均值法的基本步骤 (1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。 最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。第44页/共65页k均值法的基本步骤选择凝聚点初始分类分类是否合理修改分类最终分类否是第45页/共65页第46页/共65页第47页/共65页第48页/共65页主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析第49页/共65页聚类分析应注意的问题 (1)所选择的变量应符合聚类的要求 如果希望依照学校的科研情况对高校进行分类,那么可以选择参加科研的人数、年投入经费、立项课题数、支出经费、科研成果数、获奖数等变量,而不应选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不符合聚类的要求,分类的结果也就无法真实地反映科研分类的情况。第50页/共65页聚类分析应注意的问题 (2)各变量的变量值不应该有数量级上的差异 聚类分析是以各种距离来度量个体间“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。 数据变换方法: 中心化变换 规格化变换 标准化变化 对数变换 平方根变化等参考教材:信息分析方法与应用王伟军,清华大学出版社第51页/共65页聚类分析应注意的问题 (3)各变量间不应有较强的线性相关关系 聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离时同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终的聚类结果偏向该类变量。第52页/共65页主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析第53页/共65页聚类分析的应用经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究第54页/共65页主要内容 引言 聚类分析原理 聚类分析的种类 聚类分析应注意的问题 聚类分析应用 聚类分析工具及案例分析第55页/共65页聚类分析工具及案例分析SPSSIBM SPSS Modeler(以前叫Clementine,商业化软件)SAS(SAS Enterprise Miner)商业数学软件MATLAB数据挖掘软件WEKA(免费的,非商业化)IBM DB2 Intelligent Miner其他(如DBMiner、See5等)国内常用的分析工具是SPSS以SPSS分析工具为例,对“某年20个代表性地区农村居民家庭平均每人生活消费现金支出”进行聚类分析。第56页/共65页农村居民家庭平均每人生活消费现金支出第57页/共65页系统聚类分析 最短距离法第58页/共65页系统聚类分析案例 最短距离法第59页/共65页聚类表聚类表谱系图谱系图第60页/共65页最短距离法谱系图最短距离法谱系图最长距离法谱系图最长距离法谱系图第61页/共65页动态聚类分析案例第62页/共65页第63页/共65页 谢谢大家!请大家批评指正!第64页/共65页感谢您的观看!第65页/共65页
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!