资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,分类和预测,分类VS.,预,预测,分类和,预,预测是,两,两种数,据,据分析,形,形式,,用,用于提,取,取描述,重,重要数,据,据类或,预,预测未,来,来的数,据,据趋势,的,的模,型,型,分类:,预测类,对,对象的,分,分类标,号,号(或,离,离散值,),),根据训,练,练数据,集,集和类,标,标号属,性,性,构,建,建模型,来,来分类,现,现有数,据,据,并,用,用来分,类,类新数,据,据,预测:,建立连,续,续函数,值,值模型,比如预,测,测空缺,值,值,或,者,者预测,顾,顾客在,计,计算机,设,设备上,的,的花费,典型应,用,用,欺诈检,测,测、市,场,场定位,、,、性能,预,预测、,医,医疗诊,断,断,分类和,预,预测-,-,-示,例,例,分类,银行贷,款,款员需,要,要分析,数,数据,,来,来弄清,哪,哪些贷,款,款申请,者,者是安,全,全的,,哪,哪些是,有,有风险,的,的(将,贷,贷款申,请,请者分,为,为“安,全,全”和,“,“有风,险,险”两,类,类),我们需,要,要构造,一,一个分,类,类器来,预,预测类,属,属编号,,,,比如,预,预测顾,客,客属类,预测,银行贷,款,款员需,要,要预测,贷,贷给某,个,个顾客,多,多少钱,是,是安全,的,的,构造一,个,个预测,器,器,预,测,测一个,连,连续值,函,函数或,有,有序值,,,,常用,方,方法是,回,回归分,析,析,数据分,类,类一个两,步,步过程(1),第一步,,,,也成,为,为学习步,目标,是,是建立,描,描述预,先,先定义,的,的数据,类,类或概,念,念集的,分,分类器,分类算,法,法通过,分,分析或,从,从训练,集,集“学,习,习”来,构,构造分,类,类器。,训练集,由,由数据,库,库元组,(,(用n维属性,向,向量表,示,示)和,他,他们相,对,对应的,类,类编号,组,组成;,假,假定每,个,个元组,属,属于一,个,个预定,义,义的类,训练元,组,组:训练,数,数据集,中,中的单,个,个元组,学习模,型,型可以,用,用分类,规,规则、,决,决策树,或,或数学,公,公式的,形,形式提,供,供,数据分,类,类一个两,步,步过程(2),第二步,,,,使用,模,模型,,对,对将来,的,的或未,知,知的对,象,象进行,分,分类,首先评,估,估模型,的,的预测,准,准确率,对每个,测,测试样,本,本,将,已,已知的,类,类标号,和,和该样,本,本的学,习,习模型,类,类预测,比,比较,模型在,给,给定测,试,试集上,的,的准确,率,率是正,确,确被模,型,型分类,的,的测试,样,样本的,百,百分比,测试集,要,要独立,于,于训练,样,样本集,,,,否则,会,会出现,“,“过分,拟,拟合”,的,的情况,第一步建立模,型,型,训练数,据集,分类算,法,法,IFrank=,professor,ORyears,6,THEN tenured,=,=,yes,分类规则,第二步用模型,进,进行分,类,类,分类规则,测试集,未知数据,(Jeff,Professor,4),Tenured?,监督学,习,习VS.无监督,学,学习,监督学,习,习(用,于,于分类,),),模型的,学,学习在,被,被告知,每,每个训,练,练样本,属,属于哪,个,个类的,“,“指导,”,”下进,行,行,新数据,使,使用训,练,练数据,集,集中得,到,到的规,则,则进行,分,分类,无监督,学,学习(,用,用于聚,类,类),每个训,练,练样本,的,的类编,号,号是未,知,知的,,要,要学习,的,的类集,合,合或数,量,量也可,能,能是事,先,先未知,的,的,通过一,系,系列的,度,度量、,观,观察来,建,建立数,据,据中的,类,类编号,或,或进行,聚,聚类,数据预,测,测的两,步,步过程,数据预,测,测也是,一,一个两,步,步的过,程,程,类,似,似于前,面,面描述,的,的数据,分,分类,对于预,测,测,没,有,有“类,标,标号属,性,性”,要预测,的,的属性,是,是连续,值,值,而,不,不是离,散,散值,,该,该属性,可,可简称,“,“预测,属,属性”,E.g,.,.银行贷,款,款员需,要,要预测,贷,贷给某,个,个顾客,多,多少钱,是,是安全,的,的,预测器,可,可以看,作,作一个,映,映射或,函,函数y=f,(,(X),其中X是输入,;,;y是输出,,,,是一,个,个连续,或,或有序,的,的值,与分类,类,类似,,准,准确率,的,的预测,,,,也要,使,使用单,独,独的测,试,试集,准备分,类,类和预,测,测的数,据,据,通过对,数,数据进,行,行预处,理,理,可,以,以提高,分,分类和,预,预测过,程,程的准,确,确性、,有,有效性,和,和可伸,缩,缩性,数据清,理,理,消除或,减,减少噪,声,声,处,理,理空缺,值,值,从,而,而减少,学,学习时,的,的混乱,相关分,析,析,数据中,的,的有些,属,属性可,能,能与当,前,前任务,不,不相关,;,;也有,些,些属性,可,可能是,冗,冗余的,;,;删除,这,这些属,性,性可以,加,加快学,习,习步骤,,,,使学,习,习结果,更,更精确,数据变,换,换与归,约,约,数据可,以,以通过,规,规范化,进,进行变,换,换,将,所,所给属,性,性的所,有,有值按,比,比例进,行,行缩放,,,,使其,落,落入一,个,个较小,的,的指定,区,区间,,例,例0.0,1.0,(ANN和设计,距,距离的,度,度量方,法,法中常,用,用),可以将,数,数据概,化,化到较,高,高层概,念,念,比较分,类,类方法,使用下,列,列标准,比,比较分,类,类和预,测,测方法,预测的,准,准确率,:,:模型,正,正确预,测,测新数,据,据的类,编,编号的,能,能力,速度:,产,产生和,使,使用模,型,型的计,算,算花销,健壮性,:,:给定,噪,噪声数,据,据或有,空,空缺值,的,的数据,,,,模型,正,正确预,测,测的能,力,力,可伸缩,性,性:对,大,大量数,据,据,有,效,效的构,建,建分类,器,器或预,测,测器的,能,能力,可解释,性,性:学,习,习模型,提,提供的,理,理解和,洞,洞察的,层,层次,用决策,树,树归纳,分,分类(1),什么是,决,决策树,?,?,类似于,流,流程图,的,的树结,构,构,每个内,部,部节点,表,表示在,一,一个属,性,性上的,测,测试,每个分,枝,枝代表,一,一个测,试,试输出,每个树,叶,叶节点,存,存放一,个,个类编,号,号,age,?,?,student?,creditrating?,no,yes,fair,excellent,youth,senior,no,no,yes,yes,yes,Middle,aged,决策树,:,:Buys_computer,用决策,树,树归纳,分,分类,(,(2),使用决,策,策树分,类,类,给定一,个,个类标,号,号未知,的,的元组X,在决,策,策树上,测,测试元,组,组的属,性,性值,,跟,跟踪一,条,条由根,到,到叶节,点,点的路,径,径,叶,节,节点存,放,放该元,组,组的类,预,预测。,决策树,容,容易转,换,换为分,类,类规则,决策树,的,的生成,由,由两个,阶,阶段组,成,成,决策树,构,构建,使用属,性,性选择,度,度量来,选,选择将,元,元组最,好,好的划,分,分为不,同,同的类,的,的属性,递归的,通,通过选,定,定的属,性,性,来,划,划分样,本,本(,必,必须是,离,离散值,),),树剪枝,决策树,建,建立时,,,,许多,分,分枝反,映,映的是,训,训练数,据,据中的,噪,噪声和,离,离群点,点,点,树,剪,剪枝试,图,图识别,并,并剪去,这,这种分,枝,枝,以,提,提高对,未,未知数,据,据分类,的,的准确,性,性,决策树,归,归纳策,略,略(1),输入,数据划,分,分D是训练,元,元组和,对,对应类,标,标号的,集,集合,attribute,_,_list,候选属,性,性的集,合,合,Attribute,_,_selection_method,指定,选,选择属,性,性的启,发,发性过,程,程,算法步,骤,骤,树以代,表,表训练,样,样本的,单,单个节,点,点(N)开始,如果样,本,本都在,同,同一个,类,类,则,该,该节点,成,成为树,叶,叶,并,用,用该类,标,标记,否则,,算,算法调,用,用Attribute,_,_selection_method,选择,能,能够最,好,好的将,样,样本分,类,类的属,性,性;确,定,定“分,裂,裂准则,”,”,指,出,出“分,裂,裂点”,或,或“分,裂,裂子集,”,”。,P189图6-3,决策树,归,归纳策,略,略(2),对测试,属,属性每,个,个已知,的,的值,,创,创建一,个,个分支,,,,并以,此,此划分,元,元组,算法使,用,用同样,的,的过程,,,,递归,的,的形成,每,每个划,分,分上的,元,元组决,策,策树。,一,一旦一,个,个属性,出,出现在,一,一个节,点,点上,,就,就不在,该,该节点,的,的任何,子,子节点,上,上出现,递归划,分,分步骤,停,停止的,条,条件,划分D(在N节点提,供,供)的,所,所有元,组,组属于,同,同一类,没有剩,余,余属性,可,可以用,来,来进一,步,步划分,元,元组使用多,数,数表决,没有剩,余,余的样,本,本,给定分,支,支没有,元,元组,,则,则以D中多数,类,类创建,一,一个树,叶,叶,P189图6-3,属性选,择,择度量,属性选,择,择度量,是,是一种,选,选择分,裂,裂准则,,,,将给,定,定类标,号,号的训,练,练元组,最,最好的,进,进行划,分,分的方,法,法,理想情,况,况,每,个,个划分,都,都是“,纯,纯”的,,,,即落,在,在给定,划,划分内,的,的元组,都,都属于,相,相同的,类,类,属性选,择,择度量,又,又称为,分,分裂准,则,则,常用的,属,属性选,择,择度量,信息增,益,益,增益率,Gini指标,信息增,益,益(1),S是一个训练样,本,本的集合,,,,该样,本,本中每,个,个集合,的,的类编号已知。,每,每个样,本,本为一,个,个元组。有个,属,属性用,来,来判定,某,某个训,练,练样本,的,的类编,号,号,假设S中有m个类,,总,总共s个训练,样,样本,,每,每个类Ci有si个样本(i1,2,3.,.,.m),那么,任,任意一,个,个样本,属,属于类Ci的概率,是,是si/s,那么,用,用来分,类,类一个,给,给定样,本,本的期望信,息,息是:,信息增,益,益(2),一个有v个值的,属,属性Aa1,a2,.,.,.,av可以将S分成v个子集S1,S2,.,.,.,Sv,其中Sj包含S中属性A上的值,为,为aj的样本,。,。假设Sj包含类Ci的sij个样本,。,。根据A的这种,划,划分的,期,期望信,息,息称为A的熵,A上该划,分,分的获,得,得的信,息,息增益,定,定义为,:,:,具有高,信,信息增,益,益的属,性,性,是,给,给定集,合,合中具,有,有高区,分,分度的,属,属性。,所,所以可,以,以通过,计,计算S中样本,的,的每个,属,属性的,信,信息增,益,益,来,得,得到一,个,个属性,的,的相关,性,性的排,序,序。,age,income,student,credit_rating,buys_computer,youth,high,no,fair,no,youth,high,no,excellent,no,middle
展开阅读全文