Clustering聚类分析

上传人:gb****c 文档编号:243022303 上传时间:2024-09-14 格式:PPT 页数:26 大小:177KB
返回 下载 相关 举报
Clustering聚类分析_第1页
第1页 / 共26页
Clustering聚类分析_第2页
第2页 / 共26页
Clustering聚类分析_第3页
第3页 / 共26页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Clustering聚类分析,2013.8.7,1,聚类,分类,相似的归为一类,不相似的归入不同类,未知类,仅依靠对象的相似度,2,应用,生物学,经济学,3,应用,文档分类,文档,向量,1、分量 表示第i个词条的频率,2、分量 为0或1,表示是否引用第i篇文档,4,应用,社交网络,5,对象间的比较,相似度,例:,距离(不相似度),例:,欧几里得距离,6,距离函数的选择,根据数据的情况选择,例:将图中的点按连边情况分类,点表示成邻接矩阵的行,a=(0,1,0,1,0,1,),b=(0,1,1,0,1,0,),7,研究顾客的行为,D种商品,N个顾客,K种顾客类型,KN,每种类型的顾客购买物品的情况满足一种概率分布,8,研究顾客的行为,顾客1:2种蔬菜,3种水果,1种海鲜,0种零食,,顾客2:1种蔬菜,3种水果,1种海鲜,1种零食,顾客3:4种蔬菜,0种水果,3种海鲜,2种零食,顾客4:0种蔬菜,0种水果,0种海鲜,4种零食,顾客5:3种蔬菜,1种水果,5种海鲜,1种零食,可能的结果:,1,2 3,5 4,顾客1,( 2 , 3 , 1 , 0 ),蔬菜 水果 海鲜 零食,9,判断标准,每个类中,所有对象间的距离之和,每个类中,所有对象到“中心”的距离之和,k-median criterion,每个类中,所有对象到“中心”的距离平方之和,k-means criterion,通过最小化这些值得到最优的划分,10,判断标准的选择,根据分类的目标,依靠经验,例:距离的平方和,1、异常点的误差被放大,得到更多关注,2、数学计算上的优势,11,最优化判断标准,通常是NP-Hard,多项式算法,并非精确的最优解,而是相对优的解或者局部的最优解,12,算法一,判断标准:k-center criterion,最小化任意点到所分的类中心的最大距离,基本思想:,存在k个半径为r的球体覆盖所有点, 存在最大距离为r的划分,13,算法一,步骤,每次选取一个未被覆盖的,数据,点作为一个类的中心,作半径为r的球体,覆盖某些点。重复k次得到k个类。,14,算法一,不靠谱?有点,但是:,若存在最大距离为r/2的划分,这个算法一定能找到最大距离不超过r的划分。,证明:反证法,假设无法找到最大距离为r的划分,至少一个点不在k个半径为r的球体中,存在k+1个点两两的距离大于r,k个半径为r/2的球体无法覆盖这k+1个点,不存在最大距离为r/2的划分(矛盾),15,类中心,要求类中心必须是数据点,类的划分有限,可穷举,类中心可以是空间中的任意点(使距离函数最小的点),结果精确,某些判断标准下,类中心具有特殊性质,16,算法二,判断标准:k-means criterion,将d维的点集 划分到k个聚类 中,最小化所有点到所分的类中心(c)的距离平方之和。,minimize,17,算法二,最好的中心是类中所有点的重心,证明:,设x为一个类的中心,类中有 m个点。则距离的平方和可以表示为,定值,0,x=c时最小,18,算法二,初始情况:选取k个点作为k个类的中心,操作一:将每个数据点归入最近的中心所在类,操作二:对每个类,将类的中心更新为类中所有数据点的重心,终止条件:重复两个操作直到距离的平方和逼近局部最优,19,算法二,例子:,n=9,k=3,20,算法二,例子:,n=9,k=3,21,算法二,例子:,n=9,k=3,22,算法二,终止条件,算法一定会向局部最优解收敛,因为重复的两个操作都在不断优化距离平方和,操作一,操作二,设置误差标准以逼近局部最优解,23,算法二,初始情况,初始时对于k个点的选法不同,也会使收敛的结果不同,因此无法得到全局最优解。,但近似的最优解也能成为理想的划分。,24,参考材料,Computer Science Theory for the Information Age John Hopcroft,,Ravindran Kannan,25,谢谢!,26,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!