资源描述
相似性,概念与聚类分析,于剑北京交通大学计算机学院.Email:jianyu,机器学习的目的之一:概念,人们学习的目的是学习知识,因此,机器学习的一个自然期望是:从数据中学习到知识什么是知识的最基本单位:概念,Conceptsarethegluethatholdsourmentalworldtogether。Citedfrompage1inthebookentiled“Thebigbookofconcepts”,writtenbyM.L.Murphy,2002,MIT,经典概念的定义:(PlatoandAristotle)概念的内涵:必要而且充分条件(命题描述,命题可以是复合命题)概念的外延:给出论域中符合该概念的所有样例符合排中率(lawoftheexcludedmiddle)要么符合这个概念,要么不符合这个概念这种经典的概念形式称为定义法,什么是概念?,概念与数据分析,数据分析的一个重要的应用就是从数据中学习到概念(语义).,CitedfromC.Rother,V.Kolmogorov,andA.Blake,GrabCut:Interactiveforegroundextractionusingiteratedgraphcuts,ACMTrans.Graph.,vol.23,pp.309314,2004,相应的机器学习问题(I),已知:既定概念和该既定概念外延的一个有限子集(即:标定样本)期望:学习既定概念的内涵定义机器学习:分类,回归等技术可以归为此类问题,即所谓的有监督学习,相应的机器学习问题(II),已知:样本集,但其中的样本属于哪一个概念未知(未标定样本)期望:学习出与人类认知相符的概念.最好得到概念的内涵表示,否则,也希望得到概念的外延子集.机器学习:聚类分析可以归为此类问题,无监督学习,本次演讲的重点,如何从未标定的数据集中提取概念,即聚类分析,Outline,概念的形成(GestaltTheory)概念的非经典定义聚类分析类的复杂性讨论未来展望,概念的形成,可分为实体类别(naturalkinds)与抽象类别(abstractkinds)MaxWertheimer(1923)说:“我站在窗前,看到的是房屋,树,天空.”不可能认到一个一个的像素点这种程度.提出了实体类别的组织原则,概念的形成格式塔理论与样本的概念归属,格式塔学派整体上认识视觉,提供了根据二维数据形成概念的基本依据邻近律相似律连续律封闭律对称律,概念的形成相似律LawofSimilarity,概念的形成Lawofproximity邻近律,概念的形成Gestalt准则的推广性,封闭律,连续律,对称律在高维空间的推广挑战性高,比如对称性:二维与三维不同.相似律和近邻律的推广性受数据空间维数的影响相对较小,因此对于概念的研究来说,似更为重要.另外,封闭律,连续律在概念不重叠和相切的情形下可以由相似律和近邻律来反映,概念“游戏”内包含的对象不包含共有的特性马术,游泳,下棋,网球等都属于游戏,概念的非经典定义经典概念的颠覆,Wittgenstein,L.(1958).PhilosophicalInvestigations(G.E.M.Anscombe,Trans.).USA:BlackwellPublishing.,LudwigWittgenstein,概念的非经典定义EleanorRoschs的发现,上个世纪70年代,EleanorRosch的工作在认知科学领域彻底终结了经典概念的定义-“Thebigbookofconcepts”,writtenbyM.L.Murphy,2002,MIT典型样本与非典型样本,概念的非经典定义ExamplesofitemsstudiedbyRoschNormanR.Draper(1987).EmpiricalModel-BuildingandResponseSurfaces.Wiley.pp.p.424.ISBN0471810339“thereisnosingleclusteringalgorithmthathasbeenshowntodominateotheralgorithmsacrossallapplicationdomains”A.K.Jain,2009,PRL,2009,相似性的二值表示,一个是在得到相似性得到以后,如何判断对象与类别之间的关系。一般假设相似性与一个理想相似性是一一对应的.所谓的理想相似性是指其值与0或者1很接近s(i,k)=e(i,k)+(i,k),其中,e(i,k)取值为0或者1,相似性的二值表示定理,Texasclustering(Yu,HaoandZhou),由此而来,我们得到新的基于相似度的聚类算法,未来展望,类的表示(概念的表示)数据的表示(特征空间)如何结合领域知识聚类算法:semi-supervisedclustering现有算法的性能客观评估,谢谢.,
展开阅读全文