资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,十大数据挖掘算法及各自优势,国际权,威,威的学,术,术组织theIEEEInternational ConferenceonDataMining,(,(ICDM,),)2006,年,年12,月,月评选,出,出了数,据,据挖掘,领,领域的,十,十大经,典,典算法,:,:C4,.,.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Naive Bayes,andCART.,不仅仅,是,是选中,的,的十大,算,算法,,其,其实参,加,加评选,的,的18,种,种算法,,,,实际,上,上随便,拿,拿出一,种,种来都,可,可以称,得,得上是,经,经典算,法,法,它,们,们在数,据,据挖掘,领,领域都,产,产生了,极,极为深,远,远的影,响,响。,SIAM SDM,(,(美国,计,计算机,学,学会下,属,属知识,发,发现会,议,议),ACMKDD(美,国,国计算,机,机学会,下,下属数,据,据挖掘,会,会议),IEEE ICDM,(,(国际,电,电器与,电,电子工,程,程师学,会,会下属,数,数据挖,掘,掘会议,),),1.C4.5,C4.5算法,是,是机器,学,学习算,法,法中的,一,一种分,类,类决策,树,树算法,其核,心,心算法,是,是ID3算法,.,.C4.5,算,算法继,承,承了ID3算,法,法的优,点,点,并,在,在以下,几,几方面,对,对ID3算法,进,进行了,改,改进:,1),用,用信息,增,增益率,来,来选择,属,属性,,克,克服了,用,用信息,增,增益选,择,择属性,时,时偏向,选,选择取,值,值多的,属,属性的,不,不足;,2),在,在树构,造,造过程,中,中进行,剪,剪枝;,3),能,能够完,成,成对连,续,续属性,的,的离散,化,化处理,;,;,4),能,能够对,不,不完整,数,数据进,行,行处理,。,。,C4.5算法,有,有如下,优,优点:,产,产生的,分,分类规,则,则易于,理,理解,,准,准确率,较,较高。,其,其缺点,是,是:在,构,构造树,的,的过程,中,中,需,要,要对数,据,据集进,行,行多次,的,的顺序,扫,扫描和,排,排序,,因,因而导,致,致算法,的,的低效,。,。,2.Thek-meansalgorithm,即,即K,-,-Means,算,算法,k-means algorithm算,法,法是一,个,个聚类,算,算法,,把,把n的,对,对象根,据,据他们,的,的属性,分,分为k,个,个分割,,,,k,n,。,。,它与处,理,理混合,正,正态分,布,布的最,大,大期望,算,算法很,相,相似,,因,因为他,们,们都试,图,图找到,数,数据中,自,自然聚,类,类的中,心,心。它,假,假设对,象,象属性,来,来自于,空,空间向,量,量,并,且,且目标,是,是使各,个,个群组,内,内部的,均,均方误,差,差总和,最,最小。,3.Support vectormachines,支持向,量,量机,,英,英文为Support VectorMachine,简,称,称SV,机,机(论,文,文中一,般,般简称SVM,),)。它,是,是一种,監,監督式,學,學習的,方,方法,,它,它广泛,的,的应用,于,于统计,分,分类以,及,及回归,分,分析中,。,。,支持向,量,量机将,向,向量映,射,射到一,个,个更高,维,维的空,间,间里,,在,在这个,空,空间里,建,建立有,一,一个最,大,大间隔,超,超平面,。,。在分,开,开数据,的,的超平,面,面的两,边,边建有,两,两个互,相,相平行,的,的超平,面,面。分,隔,隔超平,面,面使两,个,个平行,超,超平面,的,的距离,最,最大化,。,。假定,平,平行超,平,平面间,的,的距离,或,或差距,越,越大,,分,分类器,的,的总误,差,差越小,。,。,一个极,好,好的指,南,南是C,.,.J.C Burges的,模式,识,识别支,持,持向量,机,机指南,。vanderWalt,和,和 Barnard,将,将支,持,持向量,机,机和其,他,他分类,器,器进行,了,了比较,。,。,4.TheApriorialgorithm,Apriori算法,(,(频繁,项,项集)是一,种,种最有,影,影响的,挖,挖掘布,尔,尔关联,规,规则频,繁,繁项集,的,的算法,。,。其核心,是,是基于,两,两阶段,频,频集思,想,想的递,推,推算法,。,。,该关联,规,规则在,分,分类上,属,属于单,维,维、单,层,层、布,尔,尔关联,规,规则。,在这里,,,,所有,支,支持度,大,大于最,小,小支持,度,度的项,集,集称为,频,频繁项,集,集,简,称,称频集,。,。,5.,最,最大期,望,望(EM)算,法,法,在统计,计,计算中,,,,最大,期,期望(EM,ExpectationMaximization,),)算法,是,是在概,率,率(probabilistic,),)模型,中,中寻找,参,参数最,大,大似然,估,估计的,算,算法,,其,其中概,率,率模型,依,依赖于,无,无法观,测,测的隐,藏,藏变量,(,(Latent Variabl,),)。,最大期,望,望经常,用,用在机,器,器学习,和,和计算,机,机视觉,的,的数据,集,集聚(Data Clustering,),)领域,。,。,6.PageRank,PageRank是Google,算,算法的,重,重要内,容,容。2001,年,年9月,被,被授予,美,美国专,利,利,专,利,利人是Google,创,创始人,之,之一拉,里,里佩,奇,奇(Larry Page,),)。因,此,此,PageRank里的page不是,指,指网页,,,,而是,指,指佩奇,,,,即这,个,个等级,方,方法是,以,以佩奇,来,来命名,的,的。,PageRank根,据,据网站,的,的外部,链,链接和,内,内部链,接,接的数,量,量和质,量,量俩衡,量,量网站,的,的价值,。,。PageRank,背,背后的,概,概念是,,,,每个,到,到页面,的,的链接,都,都是对,该,该页面,的,的一次,投,投票,,被,被链接,的,的越多,,,,就意,味,味着被,其,其他网,站,站投票,越,越多。,这个就,是,是所谓,的,的“链,接,接流行,度,度”,衡量,多,多少人,愿,愿意将,他,他们的,网,网站和,你,你的网,站,站挂钩,。,。PageRank,这,这个概,念,念引自,学,学术中,一,一篇论,文,文的被,引,引述的,频,频度,即被,别,别人引,述,述的次,数,数越多,,,,一般,判,判断这,篇,篇论文,的,的权威,性,性就越,高,高。,7.AdaBoost,Adaboost是,一,一种迭,代,代算法,,,,其核,心,心思想,是,是针对,同,同一个,训,训练集,训,训练不,同,同的分,类,类器(,弱,弱分类,器,器),,然,然后把,这,这些弱,分,分类器,集,集合起,来,来,构,成,成一个,更,更强的,最,最终分,类,类器,(,(强分,类,类器),。,。,其算法,本,本身是,通,通过改,变,变数据,分,分布来,实,实现的,,,,它根,据,据每次,训,训练集,之,之中每,个,个样本,的,的分类,是,是否正,确,确,以,及,及上次,的,的总体,分,分类的,准,准确率,,,,来确,定,定每个,样,样本的,权,权值。,将,将修改,过,过权值,的,的新数,据,据集送,给,给下层,分,分类器,进,进行训,练,练,最,后,后将每,次,次训练,得,得到的,分,分类器,最,最后融,合,合起来,,,,作为,最,最后的,决,决策分,类,类器。,8.kNN,:,:k,-,-nearestneighborclassification,K最近,邻,邻(k,-,-NearestNeighbor,KNN,),)分类,算,算法,,是,是一个,理,理论上,比,比较成,熟,熟的方,法,法,也,是,是最简,单,单的机,器,器学习,算,算法之,一,一。,该方法,的,的思路,是,是:如,果,果一个,样,样本在,特,特征空,间,间中的k个最,相,相似(,即,即特征,空,空间中,最,最邻近,),)的样,本,本中的,大,大多数,属,属于某,一,一个类,别,别,则,该,该样本,也,也属于,这,这个类,别,别。,绿色圆,要,要被决,定,定赋予,哪,哪个类,,,,是红,色,色三角,形,形还是,蓝,蓝色四,方,方形?,如果K,=,=3,,由,由于红,色,色三角,形,形所占,比,比例为2/3,,,,绿色,圆,圆将被,赋,赋予红,色,色三角,形,形那个,类,类,如果K,=,=5,,由,由于蓝,色,色四方,形,形比例,为,为3/5,因,此,此绿色,圆,圆被赋,予,予蓝色,四,四方形,类,类。,9.NaiveBayes,在众多,的,的分类,模,模型中,,,,应用,最,最为广,泛,泛的两,种,种分类,模,模型是,决,决策树,模,模型(DecisionTree Model)和,朴,朴素贝,叶,叶斯模,型,型(Naive Bayesian Model,NBC),。,。,朴素贝,叶,叶斯模,型,型发源,于,于古典,数,数学理,论,论,有,着,着坚实,的,的数学,基,基础,,以,以及稳,定,定的分,类,类效率,。,。同时,,,,NBC模型,所,所需估,计,计的参,数,数很少,,,,对缺,失,失数据,不,不太敏,感,感,算,法,法也比,较,较简单,。,。,10.CART:,分,分类,与,与回归,树,树,CART,ClassificationandRegressionTrees。,在分类,树,树下面,有,有两个,关,关键的,思,思想。,第一个,是,是关于,递,递归地,划,划分自,变,变量空,间,间的想,法,法;第,二,二个想,法,法是用,验,验证数,据,据进行,剪,剪枝。,HITS,也是一,个,个连接,分,分析算,法,法,它,是,是由IBM首,先,先提出,的,的。在HITS,每,个,个节点,(,(网页,),)都有,一,一个重,要,要度和,权,权威度,(,(Hubsandauthorities,我也,忘,忘了具,体,体的翻,译,译是什,么,么了),。,。通过,反,反复通,过,过权威,度,度来求,重,重要度,,,,通过,重,重要度,来,来求权,威,威度得,到,到最后,的,的权威,度,度和重,要,要度。,BIRCH,也是一,种,种聚类,算,算法,,其,其全称,是,是BalancedIterative Reducing andClustering using Hierarchies。BIRCH也是,只,只是看,了,了理论,没,没具体,实,实现过,。,。是一,个,个综合,的,的层次,聚,聚类特,征,征(ClusteringFeature,CF,),)和聚,类,类特征,树,树(CF Tree,),)两个,概,概念,,用,用于概,括,括聚类,描,描述。,聚类特,征,征树概,括,括了聚,类,类的有,用,用信息,,,,并且,占,占用空,间,间较元,数,数据集,合,合小得,多,多,可,以,以存放,在,在内存,中,中,从,而,而可以,提,提高算,法,法在大,型,型数据,集,集合上,的,的聚类,速,速度及,可,可伸缩,性,性。,GSP,全称为GeneralizedSequential Pattern,(,(广义,序,序贯模,式,式),,是,是一种,序,序列挖,掘,掘算法,。,。对于,序,序列挖,掘,掘没有,仔,仔细看,过,过,应,该,该是基,于,于关联,规,规则的,吧,吧!,GSP,类,类似于Apriori算法,,,,采用,冗,冗余候,选,选模式,的,的剪除,策,策略和,特,特殊的,数,数据结,构,构-,-,-,哈,哈希树,来,来实现,候,候选模,式,式的快,速,速访存,。,。,PrefixSpan,一个类,似,似Apriori的,序,序列挖,掘,掘算法,。,。,Finding reduct,粗糙集,约,约减算,法,法。,gSpan,图挖掘,
展开阅读全文