资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2017-4-20,#,全国高校标准教材,云计算,姊妹篇,剖析大数据核心技术和实战应用,大数据,刘鹏主编张燕张重生张志立 副主编,BIG DATA,刘 鹏,教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长,、中国大数据技术与应用联盟副,理事长。,主持完成科研项目,25,项,发表论文,80,余篇,出版专业书籍,15,本。获部级科技进步二等奖,4,项、三等奖,4,项。主编的,云计算,被全国高校普遍采用,被引用量排名中国计算机图书第一名。创办了知名的中国云计算(,)和中国大数据(,)网站。,曾率队夺得,2002 PennySort,国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。,荣获“全军十大学习成才标兵”(排名第一)、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。,3.1,数据挖掘概述,全国高,校,校标准,教,教材云计算姊妹篇,,,,剖析,大,大数据,核,核心技,术,术和实,战,战应用,第三章数据挖掘算法,3.2,分类,3.3,聚类,3.1,数据挖掘概述,3.5,预测规模,习题,3.6,数据挖掘算法综合应用,3.4,关联规则,of,65,3,3.4关联规,则,则,关联规,则,则是数,据,据挖掘,中,中最活,跃,跃的研,究,究方法,之,之一,,是,是指搜,索,索业务,系,系统中,的,的所有,细,细节或,事,事务,,找,找出所,有,有能把,一,一组事,件,件或数,据,据项与,另,另一组,事,事件或,数,数据项,联,联系起,来,来的规,则,则,以,获,获得存,在,在于数,据,据库中,的,的不为,人,人知的,或,或不能,确,确定的,信,信息,,它,它侧重,于,于确定,数,数据中,不,不同领,域,域之间,的,的联系,,,,也是,在,在无指,导,导学习,系,系统中,挖,挖掘本,地,地模式,的,的最普,通,通形式,。,。,More,应用市,场,场:市场货篮分,析,析、交,叉,叉销售,(,(CrossingSale)、部,分,分分类,(,(Partial Classification)、金,融,融服务,(,(FinancialService),以,及,及通信,、,、互联,网,网、电子商,务,务,第三章,数,数据,挖,挖掘算,法,法,of,65,4,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,一般来,说,说,关,联,联规则,挖,挖掘是,指,指从一,个,个大型,的,的数据,集,集(Dataset)发现,有,有趣的,关,关联(Association)或相,关,关关系,(,(Correlation),即,从,从数据,集,集中识,别,别出频,繁,繁出现,的,的属性,值,值集(Sets of AttributeValues),也,称,称为频,繁,繁项集,(,(FrequentItemsets,频繁,集,集),,然,然后利,用,用这些,频,频繁项,集,集创建,描,描述关,联,联关系,的,的规则,的,的过程,。,。,3.4,.,.1关联规则的,概,概念,关联规,则,则挖掘问题:,发现所有的,频,频繁项,集,集是形,成,成关联,规,规则的,基,基础。,通,通过用,户,户给定,的,的最小,支,支持度,,,,寻找,所,所有支,持,持度大,于,于或等,于,于Minsupport的频繁,项,项集。,通过用,户,户给定,的,的最小,可,可信度,,,,在每,个,个最大,频,频繁项,集,集中,,寻,寻找可,信,信度不,小,小于Minconfidence的关联,规,规则。,发现频,繁,繁项集,生成关,联,联规则,如何迅,速,速高效,地,地发现,所,所有频,繁,繁项集,,,,是关,联,联规则,挖,挖掘的,核,核心问,题,题,也,是,是衡量,关,关联规,则,则挖掘,算,算法效,率,率的重,要,要标准,。,。,of,65,5,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.2频繁项集的,产,产生及,其,其经典,算,算法,格结构,(,(Lattice Structure)常常,被,被用来,枚,枚举所,有,有可能,的,的项集,。,。,图,3-10,项集的格,of,65,6,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.2频繁项集的,产,产生及,其,其经典,算,算法,格结构,(,(Lattice Structure)常常,被,被用来,枚,枚举所,有,有可能,的,的项集,。,。,查找频繁项目集,经典的查找策略,基于精简,集的,查找策略,基于最大频繁,项集的,查找策略,按照挖掘的策略不同,经典的挖掘完全频繁项集方法,基于广度优先搜索策略的关联规则算法,基于深度优先搜索,策略,的算法,Apriori,算法,、,DHP,算法,FP-Growth,算法,、,ECLAT,算法,COFI,算法,与,经典,查找不同,方法,基于精简集的方法,基于最大频繁项目集的方法,A-close,算法,MAFIA,算法,、,GenMax,算法,DepthProject,算法,of,65,7,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.2频繁项集的,产,产生及,其,其经典,算,算法,1Apriori算法,Apriori算法基,于,于频繁,项,项集性,质,质的先,验,验知识,,,,使用,由,由下至,上,上逐层,搜,搜索的,迭,迭代方,法,法,即,从,从频繁1项集开,始,始,采,用,用频繁k项集搜,索,索频繁k+1项集,,直,直到不,能,能找到,包,包含更,多,多项的,频,频繁项,集,集为止,。,。,Apriori算法由,以,以下步,骤,骤组成,,,,其中,的,的核心,步,步骤是,连,连接步,和,和剪枝,步,步:,生成频,繁,繁1项集L1,连接步,剪枝步,生成频,繁,繁k项集Lk,重复步,骤,骤(2)(4),直,到,到不能,产,产生新,的,的频繁,项,项集的,集,集合为,止,止,算,法,法中止,。,。,性能瓶,颈,颈,Apriori算法是,一,一个多,趟,趟搜索,算,算法,可能产,生,生庞大,的,的候选,项,项集,of,65,8,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.2频繁项集的,产,产生及,其,其经典,算,算法,2FP-Growth算法,频繁模,式,式树增,长,长算法,(,(FrequentPattern TreeGrowth)采用分而治,之,之的基,本,本思想,,,,将数,据,据库中,的,的频繁,项,项集压,缩,缩到一,棵,棵频繁,模,模式树,中,中,同,时,时保持,项,项集之,间,间的关,联,联关系,。,。然后,将,将这棵,压,压缩后,的,的频繁,模,模式树,分,分成一,些,些条件,子,子树,,每,每个条,件,件子树,对,对应一,个,个频繁,项,项,从,而,而获得,频,频繁项,集,集,最,后,后进行,关,关联规,则,则挖掘。,FP-Growth算法由,以,以下步,骤,骤组成,:,:,扫描事,务,务数据,库,库D,生成,频,频繁1项集L1,将频繁1项集L1按照支,持,持度递,减,减顺序,排,排序,,得,得到排,序,序后的,项,项集L1,构造FP树,通过后,缀,缀模式,与,与条件FP树产生,的,的频繁,模,模式连,接,接实现,模,模式增,长,长,1,2,3,4,图3-11FP树的构,造,造,of,65,9,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.2频繁项集的,产,产生及,其,其经典,算,算法,3辛普,森,森悖论,虽然关,联,联规则,挖,挖掘可,以,以发现,项,项目之,间,间的有,趣,趣关系,在某些,情,情况下,,,,隐藏,的,的变量,可,可能会,导,导致观,察,察到的,一,一对变,量,量之间,的,的联系,消,消失或,逆,逆转方,向,向,这,种,种现象,就,就是所,谓,谓的辛,普,普森悖,论,论(SimpsonsParadox)。,为了避,免,免辛普,森,森悖论,的,的出现,,,,就需,要,要斟酌,各,各个分,组,组的权,重,重,并,以,以一定,的,的系数,去,去消除,以,以分组,数,数据基,数,数差异,所,所造成,的,的影响,。,。同时,必,必须了,解,解清楚,情,情况,,是,是否存,在,在潜在,因,因素,,综,综合考,虑,虑。,of,65,10,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.3分类技术,分类技,术,术或分,类,类法(Classification)是一,种,种根据,输,输入样,本,本集建,立,立类别,模,模型,,并,并按照,类,类别模,型,型对未,知,知样本,类,类标号,进,进行标,记,记的方,法,法。,根据所,采,采用的,分,分类模,型,型不同,基于决,策,策树模,型,型的数,据,据分类,基于统,计,计模型,的,的数据,分,分类,基于神,经,经网络,模,模型的,数,数据分,类,类,基于案,例,例推理,的,的数据,分,分类,基于实,例,例的数,据,据分类,1决策,树,树,决策树,就,就是通,过,过一系,列,列规则,对,对数据,进,进行分,类,类的过,程,程。,决策树,分,分类算,法,法通常,分,分为两,个,个步骤,:,:构造,决,决策树,和,和修剪,决,决策树,。,。,of,65,11,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.3分类技术,构造决,策,策树,修剪决,策,策树,根据实际需,求,求及所,处,处理数,据,据的特,性,性,选,择,择类别,标,标识属,性,性和决,策,策树的,决,决策属,性,性集,在决策,属,属性集,中,中选择,最,最有分,类,类标识,能,能力的,属,属性作,为,为决策,树,树的当,前,前决策,节,节点,根据当,前,前决策,节,节点属,性,性取值,的,的不同,,,,将训,练,练样本,数,数据集,划,划分为,若,若干子,集,集,子集中的所有元组都属于同一类。,该子集是已遍历了所有决策属性后得到的。,子集中的所有剩余决策属性取值完全相同,已不能根据这些决策属性进一步划分子集。,针对上一步中得到的每一个子集,重复,进行,以上,两,个步骤,直到最后的子集符合约束的,3,个条件之一,根据符合条,件,件不同,生,生成叶,子,子节点,对决策,树,树进行,修,修剪,,除,除去不,必,必要的,分,分枝,,同,同时也,能,能使决,策,策树得,到,到简化,。,。,常用的,决,决策树,修,修剪策,略,略,基于代,价,价复杂,度,度的修,剪,剪,悲观修,剪,剪,最小描,述,述长度修剪,按照修,剪,剪的先,后,后顺序,先剪枝,(,(Pre,-,-pruning),后剪枝,(,(Post-pruning),of,65,12,3.4关联规,则,则,第三章,数,数据,挖,挖掘算,法,法,3.4,.,.3分类技术,2k-最近邻,最临近分类基于类比学习,是一种基于实例的学习,它使用具体的训练实例进行预测,而不必维护源自数据的抽象(或模型)。它采用,n,维数,值属性描述训练样本,每个样本代表,n,维,空间的一个点,即所有的训练样本都存放在,n,维,空间中。若给定一个未知样本,,k-,最近邻分类法搜索模式空间,计算该测试样本与训练集中其他样本的邻近度,找出最接近未知样本的,k,个,训练样本,这,k,个训练样本,就是未知样本的,k,个,“近邻”。其中的“邻近度”一般采用欧几里得距离定义:两个,点,和,的,Euclid,距离,是,。,最近邻,分,分类是,基,基于要,求,求的或,懒,懒散的,学,学习法,,,,即它,存,存放所,有,有的训,练,练样本,,,,并且,直,直到新,的,的(未,标,标记的,),)样本,需,需要分,类,类时才,建,建立分,类,类。其,优,优点是,可,可以生,成,成任意,形,形状的,决,决策边,界,界,能,提,提供更,加,加灵活,的,的模型,表,表示。,of,65,13,3.4关联规,则
展开阅读全文