4.5聚类分析

上传人:门**** 文档编号:242971191 上传时间:2024-09-13 格式:PPT 页数:53 大小:506.72KB
返回 下载 相关 举报
4.5聚类分析_第1页
第1页 / 共53页
4.5聚类分析_第2页
第2页 / 共53页
4.5聚类分析_第3页
第3页 / 共53页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,4.5,聚类分析与,方差分析,一、,聚类分析,(cluster analysis),1,、聚类分析,(Cluster Analysis),简介,聚类分析,是直接比较各事物之间的,性质,,将性质,相近,的归为一类,将性质差别较大的归入不同的类的分析技术。,现实,情形,QQ,分组,衣物放置,朋友,同学,网友,有助于快速判断,2,、聚类对象,聚类的目的,待分析对象,根据亲疏程度,分类,提取特征指标,Q,型聚类:对,样本,进行分类,R,型聚类:对指标,(,变量,),进行分类,两种聚类,Q,型聚类:对,样本,进行分类,作用:,能,利用多个变量对样本进行分类;,分类,结果直观,聚类谱系图能明确、清楚地表达其数值分类结果;,所得,结果比传统的定性分类方法更细致、全面、合理。,R,型聚类:对指标,(,变量,),进行分类,作用:,了解变量间及变量组合间的亲疏关系;,根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或,Q,型聚类分析。,3,、聚类过程与方法,构造关系矩阵,数据预处理,确定最佳分类,标准化,亲疏关系的描述,聚类,根据不同方法进行分类,类别数,1,2,3,4,例,1,、,下表给出了,1982,年全国,28,个省、市、自治区农民家庭收支,情况(这里节选,6,个地区,全部数据见附,1.,), 有,六个指标,,利用,调查资料进行聚类分析,为经济发展决策提供依据。,地区,食品,衣着,燃料,住房,生活用品,文化生活,北京,196,44,9.7,60.54,49.01,9.04,上海,221,39,13,115.65,50.82,5.89,广东,183,21,18,42,37,12,四川,138,21,11,18,16,4.4,贵州,122,22,13,14,12,4.6,云南,124,20,8.9,14,16,3,思考,1,:指标单位若不同,应如何,处理?,思考,2,:如何,衡量样本的相似性?,思考,1,:指标单位若不同,应如何,处理?,思考,2,:如何,衡量样本的相似性?,若指标单位不同,应消除量纲的影响,例如可采用办法:标准分数,(z score),直观:,距离,夹角,夹角余弦,为简化,取两个指标,做平面图,思考,2,:如何,衡量样本的相似性?,直观:,相关系数,夹角余弦,所有指标一起考虑,如何处理?,分类思想:,距离(或相似度)相近的划分为同一类。,为了便于后面的说明,作如下假设:,均值,表示为,标准差,表示为,所有,样本,表示为,极差,表示为,(,1,)数据预处理,Z Scores:标准化变换,指标变量的量纲不同或数量级相差很大,为了使这些数据能放到一起加以比较,常需做变换。,下面给出两种常见数据预处理方法。,Range 0 to 1,(,极差正规化变换 / 规格化变换,),作用,:变换后的数据最小为0,最大为1,其余在区间0,1内,极差为1,无量纲。,作用,:变换后的数据均值为0,标准差为1,消去了量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。这是最常用的方法。,3,、聚类过程与方法,构造关系矩阵,数据预处理,确定最佳分类,标准化,亲疏关系的描述,聚类,根据不同方法进行分类,类别数,1,2,3,4,(,2,)构造关系矩阵,描述变量或样本的亲疏程度的数量指标有两种,:,相似系数,性质越接近的样品,相似系数越接近于1或-1;彼此无关的样品相似系数则接近于0,聚类时相似的样品聚为一类,距离,将每一个样品看作m维空间的一个点,在这m维空间中定义距离,距离较近的点归为一类。,相似系数与距离有40多种,但常用的只是少数,构造,关系,矩阵的常用测度,1,.,Euclidean distance:,欧氏距离,(二阶,Minkowski,距离),用途,:,聚类分析中用得最广泛的距离,但与各变量的量纲有关,未考虑指标间的相关性,也未考虑各变量方差的不同,*,Squared Eucidean distance:,平方欧氏距离,构造,关系,矩阵的常用测度,2,. Block,:绝对值距离(一阶,Minkowski,度量),(又称,Manhattan,度量或网格度量、 马,氏距离、广义欧氏距离),用途,:,计算两个向量的绝对值距离。,构造,关系,矩阵的常用测度,3,. Cosine,:夹角余弦,(,相似性测度,),用途,:,计算两个向量在原点处的夹角余弦。,当两夹角为,0o,时,取值为,1,,说明极相似;当夹角为,90o,时,取值为,0,,说明两者不相关。取值范围:,01,构造,关系,矩阵的常用测度,4,. Pearson correlation,:皮尔逊相关系数,(简单相关系数),用途,:,计算两个向量的皮尔逊相关系数。,3,、聚类过程与方法,构造关系矩阵,数据预处理,确定最佳分类,标准化,亲疏关系的描述,聚类,根据不同方法进行分类,类别数,1,2,3,4,(,3,)选择聚类方法,确定了样品或变量间的距离或相似系数后,就要对样品或变量进行分类。,分类的一种方法是系统聚类法(又称谱系聚类);另一种方法是调优法(如动态聚类法就属于这种类型)。此外还有模糊聚类、图论聚类、聚类预报等多种方法。,我们主要介绍系统聚类法,(,实际应用中使用最多,),。,系统聚类法的基本思想,令,n,个样品,自成一类,,计算出,相似性测度,;,此时类间距离与样品间距离是等价的,把测度最小的两个,类合并,;,然后按照某种聚类方法计算,类间的距离,,再按,最小距离准则,并类;,这样,每次减少一类,,持续下去直到所有样品都,归为一类为止,。,聚类过程可做成聚类谱系图(,Hierarchical diagram)。,常见类间距离的计算方法,Between-groups linkage,组间平均,距离连接法,用,D,(,p,q,),表示类,p,和类,q,之间的距离,方法简述,:,将两个类所有的,样本对,(样本对的两个成员分属于不同的类)的,平均距离,作为两类的距离,合并距离最近或相关系数最大的两类。此方法利用了两个类中所有的样本信息。,Between-groups linkage,组间平均,距离连接法,特点:非最大距离,也非最小距离,思考,:除了用平均值作为特征值外,还可采用什么特征值?,Nearest neighbor,最近邻法(最短距离法),方法简述,:用两类中所有样本对的距离的最小值作为两类的距离,合并最近或最相似的两项。,特点,:样品有链接聚合的趋势,这是其缺点,不适合一般数据的分类处理,除去特殊数据外,不提倡用这种方法。,Furthest neighbor,最远邻法(最长距离法),方法简述,:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法。,Median clustering,中位数法,方法简述,:以用两类中所有样本对的距离中位数作为两类间的距离。,特点,:图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。,Centroid clustering,重心聚类法,方法简述,:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值。,特点,:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。,Within-groups linkage,组内平均连接法,方法简述,:两类合并为一类后,合并后的类中所有项之间的平均距离最小,包括两个类之间的样本对以及两个类内的样本对。,Wards method,离差平方和法,方法简述,:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大。,特点,:实际应用中分类效果较好,应用较广;,要求样品间的距离必须是欧氏距离,。,续例,1,、,对,1982,年,6,个地区,农民,家庭收支,情况,进行聚类分析。,地区,食品,衣着,燃料,住房,生活用品,文化生活,北京,196,44,9.7,60.54,49.01,9.04,上海,221,39,13,115.65,50.82,5.89,广东,183,21,18,42,37,12,四川,138,21,11,18,16,4.4,贵州,122,22,13,14,12,4.6,云南,124,20,8.9,14,16,3,这里,6,个变量都以元为单位,量纲相同且数量级相差不大,可以不用做标准化处理。,方法:,样本间距离,采用,平方欧氏距离,;,类间距离,采用组间平均距离连接法,此时,距离越小越相似!,5,、,6,最相似,类间距离,采用组间平均距离连接法,5.,贵州,6.,云南,4.,四川,293.04,219.37,均值,256.205,类间距离,采用组间平均距离连接法,图表阅读说明,: 以,stage 2,为例,地区,5,在,stage 1,中出现过,;,stage 2,这里的类,下一次将在第,5,步再次参与聚类,衔接地区是地区,4,类似进行下去,可得聚类谱系图(树状图),3,、聚类过程与方法,构造关系矩阵,数据预处理,确定最佳分类,标准化,亲疏关系的描述,聚类,根据不同方法进行分类,类别数,1,2,3,4,(,4,)谱系分类的确定,经过系统聚类法处理后,得到聚类树状谱系图,,Demirmen(1972),提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分类的准则:,任何类都必须在临近各类中是突出的,即各类重心间距离必须极大,确定的类中,各类所包含的元素都不要过分地多,分类的数目必须符合实用目的,若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类,28,个地区聚类图,二、方差分析,(ANOVA),(Analysis of Variance),1,、方差分析,(ANOVA),引例,例,2,、,某电器公司用四种不同配料方案生产出四批元件,在每一批元件中取出若干个分别装在整机中作寿命试验,得到如下数据,(,单位:小时,),元件,A1,1600,1610,1650,1680,1700,1720,1800,A2,1580,1640,1640,1700,1750,A3,1460,1550,1600,1620,1640,1660,1740,1820,A4,1510,1520,1530,1570,1600,1680,考察用不同的配料方案所生产的元件,其使用寿命有没有显著差异?,方差分析示例,思考,1,:这类分析有何作用?,找出影响较大的因素,进行优化。,思考,2,:如何找出影响因素?,可先尝试探索性分析,如下图,思考,3,:产生数据差异的原因?,数据差异,配料不同,思考,4,:同一配料方案下,(,条件相同,),,寿命仍有差异的原因?,即 条件不同,随机因素,数据差异,配料不同,随机因素,条件误差,随机误差,误差分解,条件误差,随机误差,条件变化,对考察指标,(,元件寿命,),影响不显著,条件误差,随机误差,条件变化,对考察指标,(,元件寿命,),有 显著影响,方差分析的,基本思想,:,数据差异,条件误差,随机误差,误差分解,2,、单因素方差分析,只考察一个因素的变化对试验指标的影响,称为,单因素方差分析,。,通常,在单因子试验中,记因子为,A,设其有,s,个水平,记为,A,1, A,2, A,s,。,在每一水平下考察的指标可以看成一个总体 ,现有,s,个水平,故有,s,个总体, 假定:,每一总体均为正态总体,记为,N,(,i,i,2,),,,i,1, 2, s,;,各总体的方差相同,:,1,2,=,2,2,=,s,2,=,2,;,从每一总体中抽取的样本是相互独立的, 即所有的试验结果,x,ij,都相互独立。,要比较各水平下的均值是否相同,即要对如下的一个假设进行检验,:,H,0,:,1,=,2,=,=,s,(,2.1,),备择假设为,H,1,:,1,2,s,不全相等,在不会引起误解的情况下,,H,1,通常可省略不写。,离差平方和分解,单因素方差分析中可将试验数据列成如下形式:,因子水平,试 验 数 据,和,平均,A,1,x,11,x,12,x,1n1,T,1,A,2,x,21,x,22,x,2,n2,T,2,A,s,x,s,1,x,s,2,x,sns,T,s,T,样本组均值,样本总均值,数据间是有差异的。数据 与总平均 间的偏差可用,表示,它可分解为二个偏差之和,组内离差,(,偏差,),组间离差,(,偏差,),反映组内数据与组内平均的随机误差,反映第,i,个水平的效应,在统计学中,常用离差平方和来度量若干个数据分散的程度,记,总离差平方和,组内离差平方和,组间离差平方和,可证:,离差平方和分解,由抽样分布定理:,方差分析由来:,统计量由方差之比构造,离差平方和的统计性质及显著性检验,分析:,若因素,A,的变化对试验的影响显著,则分子应比分母大得多,从而统计量,F,的值较大;,若因素对试验结果的影响不显著,则分子与分母相差不多甚至比分母小,从而统计量,F,的值较小。,由此得原假设,(2.1),中,H,0,的拒绝域为:,H,0,:,1,=,2,=,=,s,单因素方差分析表,方差来源,平方和,自由度,均方和,F,比,显著性,因素,A,S,A,s-1,误差,S,E,n-s,总和,S,T,n-1,应用,:实际中,显著性水平通常取为,0.05,和,0.01.,当,F,F,0.05,(,s,-1,n,-,s,),,因素,A,影响不显著;,当,F,0.05,(,s,-1,n,-,s,) ,F,F,0.01,(,s,-1,n,-,s,),,因素,A,影响显著;,当,F,F,0.01,(,s,-1,n,-,s,),,因素,A,影响特别显著。,续例,2,、,对例,2,中的观测值,检验四种不同的配料方案所生产元件的寿命是否有显著的差异?,这里,F,=2.149,,,F,0.05,(3,22)=3.05,,,F,0.01,(3,22)=4.82,故,配料方案对所生产元件的寿命,无显著影响。,方差分析引例,软件结果:,sig=0.123,,大于,0.05,,无显著影响,(sig,越小,影响越显著,),总结:,方差分析的步骤,1.,建立假设,H,0,:,1,=,2,=,3,=.,H,1,:?总体均数,不全相等,2.,确定显著性水平,用,表示,,常取,0.05,。,3.,计算统计量,F,4.,求,概率值,P,5.,做出推论:统计学结论和专业结论。,3,、两因素方差分析,略,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!