资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,K-Means&Fuzzy C-Means,报告人:马宝秋,聚类(,Clustering,),“物以类聚,人以群分”,是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息,聚类(,Clustering,),聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(,Subset,),这样让在同一个子集中的成员对象都有相似的一些属性,其他分析算法的一个预处理步骤,在这一过程中没有监督,因此是一种无监督的分类,聚类(,Clustering,),聚类分析的算法可以分为:,划分法(分割式)(,Partitioning Methods,),层次法(阶层式)(,Hierarchical Methods,),基于密度的方法(,Density-based Methods,),基于网格的方法(,Grid-based Methods,),基于模型的方法(,Model-Based Methods,),聚类(,Clustering,),-,层次法,这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止,聚类,数据,1,数据,2,数据,4,数据,5,数据,3,具体又可分为“自底向上”和“自顶向下”两种方案。,聚类(,Clustering,),-,基于密度的方法,基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的,这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点,聚类(,Clustering,),-,基于网格的方法,这种方法首先将数据空间划分成为有限个单元(,Cell,)的网格结构,所有的处理都是以单个的单元为对象的,这么处理的一个突出的优点就是处理速度很快,聚类(,Clustering,),-,基于模型的方法,基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集,它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的,聚类(,Clustering,),-,划分法,给定一个有,N,个元组或者纪录的数据集,构造,K,(,K,0,决定聚类中心起始位置,C,j,(0),,,0 0,决定聚类中心起始位置,C,j,(0),,,0 j K,for t=1,.,t,max,(,A,),for j=1,.,N,计算隶属度矩阵,(,B,),for i=1,.,K,更新,聚类中心点,.,(,C,),计算收敛准则,若 成立则停止运算,否则进行下一轮迭代,Fuzzy C,-,M,eans,实现步骤,使用,Fuzzy C-Means,聚类法,同样地需事先确定聚类的数目,与,K-Means,聚类法最大的差异在于,Fuzzy C-Means,聚类法加入了模糊的概念,使得每一输入向量不再仅隶属于某一特定的聚类,而是以其隶属程度来表现(,Soft Clustering,),使用,Fuzzy C-Means,聚类法,运算量较大,参数,m,的优选仍有待于进一步的研究,易于陷入局部最小,对初始值有一定敏感,谢谢,!,敬请批评指正,我的疑问,m,=1,时,与,K-Means,的区别,?,初始聚类中心,m=2,ep=0.3,迭代,8,次,迭代,37,次,ep=0.01,
展开阅读全文