相似性概念与聚类分析.ppt

上传人:zhu****ei 文档编号:3487210 上传时间:2019-12-16 格式:PPT 页数:56 大小:2.68MB
返回 下载 相关 举报
相似性概念与聚类分析.ppt_第1页
第1页 / 共56页
相似性概念与聚类分析.ppt_第2页
第2页 / 共56页
相似性概念与聚类分析.ppt_第3页
第3页 / 共56页
点击查看更多>>
资源描述
相似性,概念与聚类分析,于剑北京交通大学计算机学院.Email:jianyu,机器学习的目的之一:概念,人们学习的目的是学习知识,因此,机器学习的一个自然期望是:从数据中学习到知识什么是知识的最基本单位:概念,Conceptsarethegluethatholdsourmentalworldtogether。Citedfrompage1inthebookentiled“Thebigbookofconcepts”,writtenbyM.L.Murphy,2002,MIT,经典概念的定义:(PlatoandAristotle)概念的内涵:必要而且充分条件(命题描述,命题可以是复合命题)概念的外延:给出论域中符合该概念的所有样例符合排中率(lawoftheexcludedmiddle)要么符合这个概念,要么不符合这个概念这种经典的概念形式称为定义法,什么是概念?,概念与数据分析,数据分析的一个重要的应用就是从数据中学习到概念(语义).,CitedfromC.Rother,V.Kolmogorov,andA.Blake,GrabCut:Interactiveforegroundextractionusingiteratedgraphcuts,ACMTrans.Graph.,vol.23,pp.309314,2004,相应的机器学习问题(I),已知:既定概念和该既定概念外延的一个有限子集(即:标定样本)期望:学习既定概念的内涵定义机器学习:分类,回归等技术可以归为此类问题,即所谓的有监督学习,相应的机器学习问题(II),已知:样本集,但其中的样本属于哪一个概念未知(未标定样本)期望:学习出与人类认知相符的概念.最好得到概念的内涵表示,否则,也希望得到概念的外延子集.机器学习:聚类分析可以归为此类问题,无监督学习,本次演讲的重点,如何从未标定的数据集中提取概念,即聚类分析,Outline,概念的形成(GestaltTheory)概念的非经典定义聚类分析类的复杂性讨论未来展望,概念的形成,可分为实体类别(naturalkinds)与抽象类别(abstractkinds)MaxWertheimer(1923)说:“我站在窗前,看到的是房屋,树,天空.”不可能认到一个一个的像素点这种程度.提出了实体类别的组织原则,概念的形成格式塔理论与样本的概念归属,格式塔学派整体上认识视觉,提供了根据二维数据形成概念的基本依据邻近律相似律连续律封闭律对称律,概念的形成相似律LawofSimilarity,概念的形成Lawofproximity邻近律,概念的形成Gestalt准则的推广性,封闭律,连续律,对称律在高维空间的推广挑战性高,比如对称性:二维与三维不同.相似律和近邻律的推广性受数据空间维数的影响相对较小,因此对于概念的研究来说,似更为重要.另外,封闭律,连续律在概念不重叠和相切的情形下可以由相似律和近邻律来反映,概念“游戏”内包含的对象不包含共有的特性马术,游泳,下棋,网球等都属于游戏,概念的非经典定义经典概念的颠覆,Wittgenstein,L.(1958).PhilosophicalInvestigations(G.E.M.Anscombe,Trans.).USA:BlackwellPublishing.,LudwigWittgenstein,概念的非经典定义EleanorRoschs的发现,上个世纪70年代,EleanorRosch的工作在认知科学领域彻底终结了经典概念的定义-“Thebigbookofconcepts”,writtenbyM.L.Murphy,2002,MIT典型样本与非典型样本,概念的非经典定义ExamplesofitemsstudiedbyRoschNormanR.Draper(1987).EmpiricalModel-BuildingandResponseSurfaces.Wiley.pp.p.424.ISBN0471810339“thereisnosingleclusteringalgorithmthathasbeenshowntodominateotheralgorithmsacrossallapplicationdomains”A.K.Jain,2009,PRL,2009,相似性的二值表示,一个是在得到相似性得到以后,如何判断对象与类别之间的关系。一般假设相似性与一个理想相似性是一一对应的.所谓的理想相似性是指其值与0或者1很接近s(i,k)=e(i,k)+(i,k),其中,e(i,k)取值为0或者1,相似性的二值表示定理,Texasclustering(Yu,HaoandZhou),由此而来,我们得到新的基于相似度的聚类算法,未来展望,类的表示(概念的表示)数据的表示(特征空间)如何结合领域知识聚类算法:semi-supervisedclustering现有算法的性能客观评估,谢谢.,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!