数据挖掘06-聚类课件

上传人:沈*** 文档编号:253050608 上传时间:2024-11-28 格式:PPT 页数:27 大小:1.60MB
返回 下载 相关 举报
数据挖掘06-聚类课件_第1页
第1页 / 共27页
数据挖掘06-聚类课件_第2页
第2页 / 共27页
数据挖掘06-聚类课件_第3页
第3页 / 共27页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第五章 聚类分析,生物信息学平台,2,内容,一、聚类分析的功能,二、聚类分析的方法,三、聚类分析的应用,3,一、聚类分析的功能,聚类:将数据集划归为不同组别,作用:,获得数据的分布规律,进一步分析,数据预处理,为分类、关联规则等作准备,4,一、聚类分析的功能,与分类相同:,聚类的依据:特征属性,聚类过程:相似程度高的聚为一类,与分类不同:,无监督的学习,验证更复杂,聚类结果的质量,相似性,6,相似性度量(数值型),例,1,:,相似性判断:,式,5.1,原始数据,结论:,1,、,2,相似程度高,这一结论可信吗?,一、聚类分析的功能,7,一、聚类分析的功能,相似性度量,例,1,:,问题:年龄、血压范围、数量级不同,应,归一化:,0,1,结论:,1,、,3,相似程度高,8,一、聚类分析的功能,相似性度量,例,1,:,10,一、聚类分析的功能,相似性度量(分类型),二值:式,5.10/5.12,对称型(男、女),非对称型(阳性,1,、阴性,0,),例:,Xi=0, 0, 1, 1, 0, 1, 0, 1,Xj=0, 1, 1, 0, 0, 1, 0, 0,对称型:,D=3/8, S,5/8,非对称型:,D=3/5, S,2/5,(忽略特征值均为,0,的属性),11,一、聚类分析的功能,相似性度量(二值型,-,对称),例,2,:,式,5.10,式,5.11,结论:,1,、,2,相似程度高,13,相似性度量,排序型:转为数值型后,式,5.16,,计算相似性,例,4,:,结论:,相似程度最高, 最不相似,大小说明相似程度不一样,可定量衡量,一、聚类分析的功能,15,一、聚类分析的功能,相似性度量,(,混合型,式,5.17),例,5.1,:,相似程度最高,16,聚类方法,划分法,k,-,均值算法,k,-,中心点算法,分层,凝聚型分层聚类,分裂型分层聚类,基于密度的方法,基于网格的方法,基于模型的方法,二、聚类分析的方法,18,k,-,均值算法,随机,选择若干样本作为初始的簇的质心,(平均点),;,repeat,计算对象与各个簇的质心的距离,将对象划分到距离其最近的簇;,重新计算每个新簇的均值;,until,簇的质心不再变化,。,二、聚类分析的方法,19,k,-,均值算法,二、聚类分析的方法,20,二、聚类分析的方法,聚类过程,例(同分类):,12,个样本,有两个特征属性,f1,、,f2,,,类别未知,要分成两类,21,二、聚类分析的方法,聚类过程,例(同分类):,随机放入,A,、,B,两类,:,1,4,8A,0,3,7,9,10B,0,初始,求聚类中心(均值),:,C,A0,(4.67, 5),C,B0,(6.75, 6.25),22,二、聚类分析的方法,聚类过程,各样本到聚类中心的距离,迭代,,C,A1,(4.17, 3.33),C,B1,(9, 7),不断逼近的过程,细微的调整、优化,24,二、聚类分析的方法,聚类过程,特征属性可用数值描述,上例中,f1, f2,值在同一数量级中。,若不在同一数量级、相差较大,要进行怎样的预处理?否则,会有怎样的困难?,25,三、聚类分析的应用,应用实例,:,聚类在基因表达谱知识挖掘中的应用,目的,对两个公共的基因表达数据集进行研究,以发现大规模基因表达谱蕴含的信息,研究目标变为,DM,的问题:聚类,数据采集:,CNS,数据集:,NCI60,数据集,:,26,数据预处理,数据挖掘建立模型,贝叶斯聚类,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!