资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第6章 机器学习与知识发现,6.1 机器学习概述,6.2 符号学习,6.3 神经网络学习,6.4 知识发现与数据挖掘,6.1,机,机器,学,学习,概,概述,6.1.1,机,机器,学,学习,的,的概,念,念,心理,学,学中,对,对学,习,习的,解,解释,是,是:,学,学习,是,是指,(,(人,或,或动,物,物),依,依靠,经,经验,的,的获,得,得而,使,使行,为,为持,久,久变,化,化的,过,过程,。,。,Simon认,为,为:,如,如果,一,一个,系,系统,能,能够,通,通过,执,执行,某,某种,过,过程,而,而改,进,进它,的,的性,能,能,,这,这就,是,是学,习,习。,Minsky,认,认为,:,:学,习,习是,在,在人,们,们头,脑,脑中,(,(心,理,理内,部,部),进,进行,有,有用,的,的变,化,化。,TomM.Mitchell在,机,器,器学,习,习,一,一书,中,中对,学,学习,的,的定,义,义是,:,:对,于,于某,类,类任,务,务T,和,和性,能,能度P,,如,如果,一,一个,计,计算,机,机程,序,序在T上,以,以P,衡,衡量,的,的性,能,能随,着,着经,验,验E,而,而自,我,我完,善,善,,那,那么,,,,我,们,们称,这,这个,计,计算,机,机程,序,序从,经,经验E中,学,学习,。,。,当前,关,关于,机,机器,学,学习,的,的许,多,多文,献,献中,也,也大,都,都认,为,为:,学,学习,是,是系,统,统积,累,累经,验,验以,改,改善,其,其自,身,身性,能,能的,过,过程,。,。,总之,:,学,学习,与,与经,验,验有,关,关;,学,学习,可,可以,改,改善,系,系统,性,性能,;,;,学,学习,是,是一,个,个有,反,反馈,的,的信,息,息处,理,理与,控,控制,过,过程,。,。因,为,为经,验,验是,在,在系,统,统与,环,环境,的,的交,互,互过,程,程中,产,产生,的,的,,而,而经,验,验中,应,应该,包,包含,系,系统,输,输入,、,、响,应,应和,效,效果,等,等信,息,息。,因,因此,经,经验,的,的积,累,累、,性,性能,的,的完,善,善正,是,是通,过,过重,复,复这,一,一过,程,程而,实,实现,的,的。,6.1.2,机,机器,学,学习,的,的原,理,理,图9-1,机,机器,学,学习,原,原理1,图9-2,机,机器,学,学习,原,原理2,图9-3,机,机器,学,学习,原,原理3,图 9-4 机器,学,学习原理4,图 9-5 机器,学,学习原理5,6.1.3 机器,学,学习的分,类,类,1.,基于学习,策,策略的分,类,类,(1)模,拟,拟人脑的,机,机器学习,符号学习,:模拟人,脑,脑的宏观,心,心理级学,习,习过程,,以,以认知心,理,理学原理,为,为基础,,以,以符号数,据,据为输入,,,,以符号,运,运算为方,法,法,用推,理,理过程在,图,图或状态,空,空间中搜,索,索,学习,的,的目标为,概,概念或规,则,则等。符,号,号学习的,典,典型方法,有,有:记忆,学,学习、示,例,例学习、,演,演绎学习,、,、类比学,习,习、解释,学,学习等。,神经网络,学,学习(或,连,连接学习,):模拟,人,人脑的微,观,观生理级,学,学习过程,,,,以脑和,神,神经科学,原,原理为基,础,础,以人,工,工神经网,络,络为函数,结,结构模型,,,,以数值,数,数据为输,入,入,以数,值,值运算为,方,方法,用,迭,迭代过程,在,在系数向,量,量空间中,搜,搜索,学,习,习的目标,为,为函数。,典,典型的连,接,接学习有,权,权值修正,学,学习、拓,扑,扑结构学,习,习。,(,2)直,接,接采用,数,数学方,法,法的机,器,器学习,主要,有,有统计,机,机器学,习,习。,2.,基于学,习,习方法,的,的分类,(1),归,归纳学,习,习, 符,号,号归纳,学,学习:,典,典型的,符,符号归,纳,纳学习,有,有示例,学,学习,,决,决策树,学,学习。, 函数归,纳,纳学习(发,现,现学习):,典,典型的函数,归,归纳学习有,神,神经网络学,习,习、示例学,习,习,发现学,习,习,统计学,习,习。,(2)演绎,学,学习,(3)类比,学,学习:典型,的,的类比学习,有,有案例(范,例,例)学习。,(4)分析,学,学习:典型,的,的分析学习,有,有案例(范,例,例)学习、,解,解释学习。,3.,基于学习方,式,式的分类,(1),有导师学习,(,(监督学习,),):,输入数据中,有,有导师信号,,,,以概率函,数,数、代数函,数,数或人工神,经,经网络为基,函,函数模型,,采,采用迭代计,算,算方法,学,习,习结果为函,数,数。,(2),无导师学习,(,(非监督学,习,习):,输入数据中,无,无导师信号,,,,采用聚类,方,方法,学习,结,结果为类别,。,。典型的无,导,导师学习有,发,发现学习、,聚,聚类、竞争,学,学习等。,(3),强化学习(,增,增强学习),:,:,以环境反馈,(,(奖/惩信,号,号)作为输,入,入,以统计,和,和动态规划,技,技术为指导,的,的一种学习,方,方法。,4.,基于数据形,式,式的分类,(1),结构化学习,:以结构化,数,数据为输入,,,,以数值计,算,算或符号推,演,演为方法。,典,典型的结构,化,化学习有神,经,经网络学习,、,、统计学习,、,、决策树学,习,习、规则学,习,习。,(2),非结构化学,习,习,:以非结构,化,化数据为输,入,入,典型的,非,非结构化学,习,习有类比学,习,习、案例学,习,习、解释学,习,习、文本挖,掘,掘、图像挖,掘,掘、Web,挖,挖掘等。,5.,基,于,于,学,学,习,习,目,目,标,标,的,的,分,分,类,类,(1,),),概,念,念,学,学,习,习,:,即,即,学,学,习,习,的,的,目,目,标,标,和,和,结,结,果,果,为,为,概,概,念,念,,,,,或,或,者,者,说,说,是,是,为,为,了,了,获,获,得,得,概,概,念,念,的,的,一,一,种,种,学,学,习,习,。,。,典,典,型,型,的,的,概,概,念,念,学,学,习,习,有,有,示,示,例,例,学,学,习,习,。,。,(2),规则学习,:即学习的目标,和,和结果为规则,,或,或者说是为了获,得,得规则的一种学,习,习。典型的规则,学,学习有决策树学,习,习。,(3),函数学习,:即学习的目标,和,和结果为规则,,或,或者说是为了获,得,得函数的一种学,习,习。典型的函数,学,学习有神经网络,学,学习。,(4),类别学习,:即学习的目标,和,和结果为对象类,,,,或者说是为了,获,获得类别的一种,学,学习。典型的类,别,别学习有聚类分,析,析。,(5),贝叶斯网络学习,:即学习的目标,和,和结果是贝叶斯,网,网络,或者说是,为,为了获得贝叶斯,网,网络的一种学习,。,。其又可分为结,构,构学习和参数学,习,习。,6.2 符号学,习,习,6.2.1 记,忆,忆学习,记忆学习方法简,单,单, 但学习系,统,统需要几种能力,:,: ,(1) 能实现,有,有组织的存储信,息,息。,(2) 能进行,信,信息综合。,(3) 能控制,检,检索方向。 当,存,存储对象愈多时, 其中可能有,多,多个对象与给定,的,的,6.2.2 示,例,例学习,示例学习也称实,例,例学习, 它是,一,一种归纳学习。,示,示例学习是从若,干,干实例(包括正,例,例和反例)中归,纳,纳出一般概念或,规,规则的学习方法,。,。,图 9-6 第,一,一个拱桥的语义,网,网络,图 9-7 第,二,二个拱桥的语义,网,网络,图 9-8 学,习,习程序归纳出的,语,语义网络,图 9-9 拱,桥,桥概念的语义网,络,络,例 9.1,假设示例空间中,有,有桥牌中同花概念的两个示,例,例:,示例1:,花色(c1,梅,花,花)花色(c2,梅花)花,色,色(c3,梅花)花色(c4,,,,梅花)同花(c1,c2,c3,c4),示例2:,花色(c1,红,桃,桃)花色(c2,红桃)花,色,色(c3,红桃)花色(c4,,,,红桃)同花(c1,c2,c3,c4),关于同花的一般,性,性规则:,花色(c1,x)花色(c2,,,,x)花色(c3,x)花,色,色(c4,x),同花(c1,c2,c3,c4),对于这个问题可,采,采用通常的曲线,拟,拟合技术,归纳,出,出规则:,(x,y,2x+3y+1),即,z2x3y,1,例9.2 假设,示,示例空间存放有,如,如下的三个示例,:,:,示例1:(0,2,7),示例2:(6,-1,10),示例3:(-1,,,,-5,-10),这是三个3维向,量,量,表示空间中,的,的三个点。现要,求,求求出过这三点,的,的曲线。,6.2.3 决,策,策树学习,1,什么是决策树,决策树(decision tree)也称判,定,定树,它是由对,象,象的若干属性、,属,属性值和有关决,策,策组成的一棵树,。,。其中的节点为,属,属性(一般为语,言,言变量),分枝,为,为相应的属性值,(,(一般为语言值,),)。从同一节点,出,出发的各个分枝,之,之间是逻辑“或,”,”关系;根节点,为,为对象的某一个,属,属性;从根节点,到,到每一个叶子节,点,点的所有节点和,边,边,按顺序串连,成,成一条分枝路径,,,,位于同一条分,枝,枝路径上的各个,“,“属性-值”对,之,之间是逻辑“与,”,”关系,叶子节,点,点为这个与关系,的,的对应结果,即,决,决策。,决策树示意图,例,9.3 下,图所示是机场指,挥,挥台关于飞机起,飞,飞的简单决策树,。,。,例,9.4,下,图是一个描述“,兔,兔子”概念的决,策,策树。,2.,怎样学习决策树,决策树学习的基,本,本方法和步骤:,首先,选取一个,属,属性,按这个属,性,性的不同取值对,实,实例集进行分类,;,;并以该属性作,为,为根节点,以这,个,个属性的诸取值,作,作为根节点的分,枝,枝,进行画树。,然后,考察所得,的,的每一个子类,,看,看其中的实例的,结,结论是否完全相,同,同。如果完全相,同,同,则以这个相,同,同的结论作为相,应,应分枝路径末端,的,的叶子节点;否,则,则,选取一个非,父,父节点的属性,,按,按这个属性的不,同,同取值对该子集,进,进行分类,并以,该,该属性作为节点,,,,以这个属性的,诸,诸取值作为节点,的,的分枝,继续进,行,行画树。,如此继续,直到,所,所分的子集全都,满,满足:实例结论,完,完全相同,而得,到,到所有的叶子节,点,点为止。,决策树学习举例,设表9.1 所,示,示的是某保险公,司,司的汽车驾驶保,险,险类别划分的部,分,分事例。我们将,这,这张表作为一个,实,实例集,用决策,树,树学习来归纳该,保,保险公司的汽车,驾,驾驶保险类别划,分,分规则。,表,9.1,汽车驾驶保险类别划分实例集,将实例集简记为,S=(1,C), (2,C), (3,C), (4,B), (5,A), (6,A), (7,C), (8,B), (9,A), (10,A), (11,B), (12,B),其中每个元组表,示,示一个实例,前,面,面的数字为实例,序,序号,后面的字,母,母为实例的决策,项,项保险类别。,用 “,小,小”、“中”、,“,“大”,分别代表,“21”、“,21且25,”,”、“25”,这三个年龄段。,对于S,我们按,属,属性“性别”的,不,不同取值将其分,类,类。由表9.1,可,可见,这时S,应,应被分类为两个,子,子集:,S1= (3,C), (4,B), (7,C), (8,B), (11,B), (12,B),S2=(1,C), (2,C), (5,A), (6,A), (9,A), (10,A),于是,我们得到,以,以性别作为根节,点,点的部分决策树,(,(见下图)。,决策,树,树生,成,成过,程,程,决策,树,树生,成,成过,程,程,决策,树,树生,成,成过,程,程,最后,生,生成,的,的,决策,树,树,由决,策,策树,所,所得,的,的规,则,则集,:,女,女性,且,且年,龄,龄在25,岁,岁以,上,上,,则,则给,予,予A,类,类保,险,险;,女,女性,且,且年,龄,龄在21,岁,岁到25,岁,岁之,间,间,,则,则给,予,予A,类,类保,险,险;,女,女性,且,且年,龄,龄在21,岁,岁以,下,下,,则,则给,予,予C,类,类保,险,险;,男,男性,且,且年,龄,龄在25,岁,岁以,上,上,,则,则给,予,予B,类,类保,险,险;,男,男性,且,且年,龄,龄在21,岁,岁到25,岁,岁之,间,间且,未,未婚,,,,则,给,给予C类,保,保险,;,;,男,男性,且,且年,龄,龄在21,岁,岁到25,岁,岁之,间,间且,已,已婚,,,,则,给,给予B类,保,保险,;,;,男,男性,且,且年,龄,龄在21,岁,岁以,下,下且,未,未婚,,,,则,给,给予C类,保,保险,;,;,男,男性,且,且年,龄,龄在21,岁,岁以,下,下且,已,已婚,,,,则,给,给予B类,保,保险,。,。,3.,ID3算,法,法,ID3算,法,法是,一,一个,经,经典,的,的决,策,策树,学,学习,算,算法,,,,由Quinlan于1979,年,年提,出,出。ID3算,法,法的,基,基本,思,思想,是,是,,以,以信,息,息熵,为,为度,量,量,,用,用于,决,决策,树,树节,点,点的,属,属性,选,选择,,,,每,次,次优,先,先选,取,取信,息,息量,最,最多,的,的属,性,性,,亦,亦即,能,能使,熵,熵值,变,变成,最,最小,的,的属,性,性,,以,以构,造,造一,棵,棵熵,值,值下,降,降最,快,快的,决,决策,树,树,,到,到叶,子,子节,点,点处,的,的熵,值,值为0。,此,此时,,,,每,个,个叶,子,子节,点,点对,应,应的,实,实例,集,集中,的,的实,例,例属,于,于同,一,一类,。,。,(1,),),信息,熵,熵和,条,条件,熵,熵,设,S,是一个实例,集,集(,S,也可以是子,实,实例集),A,为,S,中实例的一,个,个属性。,H,(,S,)和,H,(,S,|,A,)分别称为,实,实例集,S,的信息熵和,条,条件熵,其,其计算公式,如,如下,:,其中,i,(,i,=1, 2, ,n,)为S中各,实,实例所有可,能,能的结论;lb即log2。,其中,a,k,(,k,=1, 2, ,m,)为属性,A,的取值,Sak,为按属性,A,对实例集,S,进行分类时,所,所得诸子类,中,中与属性值,ak,对应的那个,子,子类。,(2),基于条件熵,的,的属性选择,按性别划分,实例集,S,被分为两个,子,子类,:,S,男,=(3,C), (4,B),(7,C), (8,B),(11,B), (12,B),S,女,=(1,C), (2,C),(5,A), (6,A),(9,A), (10,A),从而, 对,子,子集,S,男,而言,对子集,S,女,而言,于是,由公式,(9-1),有,:,又,将以上,3,式代入公式,(9-2),得,:,用同样的方,法,法可求得,:,可见, 条,件,件熵,H,(,S,|性别)为,最,最小,所以,应取“性,别,别”这一属,性,性对实例集,进,进行分类,即,即以“性,别,别”作为决,策,策树的根节,点,点。,6.3 神,经,经网络学习,6.3.1,生,生物神经,元,元,生物神经元,的,的基本结构,6.3.2,人,人工神经,元,元,人工神经元,结,结构模型,人工神经元,的,的输入、,输,输出关系可,描,描述为:,神经元特性,函,函数,1. 阈值,型,型,2. S型,3. 分段,线,线性型,神经元特性,函,函数,6.3.3,神,神经网络,1. 分层,前,前向网络2. 反,馈,馈前向网络,3. 互连,前,前向网络4. 广泛,互,互连网络,神经网络,结构模型,神经网络至,少,少可以实现,如,如下功能,:,数学上,的,的映射逼近,数据聚,类,类、压缩,通,通过自组织,方,方式对所选,输,输入模,式,式聚类,优化计,算,算和组合优,化,化问题求解,模式分,类,类,概率密,度,度函数的估,计,计,6.3.4,神,神经网络,学,学习,1. 学习,规,规则,Hebb规,则,则,:,最基本的误,差,差修正规则,即,学习规则,:,步1 选择,一,一组初始权,值,值,W,ij,(0)。,步2 计算,某,某一输入模,式,式对应的实,际,际输出与期,望,望输出的误,差,差。,步3 用下,式,式更新权值(阈值可视,为,为输入恒为-1的一个,权,权值),W,ij,(,t,1)=,W,ij,(,t,),d,j,y,j,(,t,),x,i,(,t,),步4 返,回,回步2,,直,直到对所,有,有训练模,式,式网络输,出,出均能满,足,足要求。,2. 学,习,习方法分,类,类,表 9.2 神经网络学习方法的常见分类,9.3.5BP网络及其,学,学习举例,BP(Back-Propagation)网络的特,点,点:,(1) BP,网,网络的拓扑结,构,构为分层前向,网,网络。,(2) 神经,元,元的特性函数,为,为Sigmoid型(S型)函数, 一,般,般取为,(3) 输入,为,为连续信号量(实数)。,(4) 学习,方,方式为有导师,学,学习。,(5) 学习,算,算法为推广的,学习规则,称,称为误差反向,传,传播算法,简,简称BP学习,算,算法。,BP学习算法,:,: ,步1 初始化,网,网络权值、,阈,阈值及有关参,数,数。,步2 计算总,误,误差,其中,y,kj,为输出层节点,j,对第,k,个样本的输入,对,对应的输出(,称,称为期望输出,),),,y,kj,为节点,j,的实际输出。,步3 对样本,集,集中各个样本,依,依次重复以下,过,过程,然后转,步,步2。,首先,取一样,本,本数据输入网,络,络,然后按如,下,下公式向前计,算,算各层节点(,记,记为,j,)的输出:,其次,从输出,层,层节点到输入,层,层节点以反向,顺,顺序,对各连,接,接权值,w,ij,按下面的公式,进,进行修正:,对于输出节点,对于中间节点,例 9.5,设,设计一个BP,网,网络, 对下,表,表所示的样本,数,数据进行学习, 使学成的,网,网络能解决类,似,似的模式分类,问,问题。,输入,输出,x,1,x,2,x,3,y,1,y,2,y,3,0.3 0.8 0.1,0.7 0.1 0.3,0.6 0.6 0.6,1 0 0,0 1 0,0 0 1,BP网络举例,6.4 知识,发,发现与数据挖,掘,掘,6.4.1,知,知识发现的一,般,般过程,1.,数据准备,2.,数据挖掘,3.,解释和评价,4.,知识表示,6.4.2,知,知识发现的对,象,象,1. 数据库,2. 数据仓,库,库,数据仓库的基,本,本特征:, 数据仓库,的,的数据是面向,主,主题的;, 数据仓库,的,的数据是集成,的,的;, 数据仓库,的,的数据是稳定,的,的;, 数据仓库,的,的数据是随时,间,间不断变化的,。,。,3.,Web信息,4.,图像和视频数,据,据,6.4.3,知,知识发现的任,务,务,1.,数据总结,2.,概念描述,3.,分类,(classification),4.,聚类,(clustering),5.,相关性分析,6.,偏差分析,7.,建模,6.4.4,知,知识发现的方,法,法,1.,统计方法,2.,机器学习方法,3.,粗糙集及模糊,集,集,4.,智能计算方法,5.,可视化,
展开阅读全文