资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,80,Chapter 2,Bayesian Decision Theory,贝叶斯决策论,要点:,重点掌,握,握贝叶,斯,斯决策,论,论、最,小,小误差,率,率分类,规,规则、,分,分类器,与,与判别,函,函数、,正,正态密,度,度、正,态,态分布,的,的判别,函,函数,了解贝,叶,叶斯决,策,策论,(,离散性,特,特征,),在不知,道,道更多,信,信息的,情,情况下,,,,每次,出,出现鲈,鱼,鱼的先,验,验概率,为,为,,,,而鲑,鱼,鱼的先,验,验概率,为,为,,,,其中,先验概,率,率反映,了,了在鱼,没,没有出,现,现之前,,,,我们,拥,拥有可,能,能出现,鱼,鱼的类,别,别的先,验,验知识,。,。,例如:,对,对于鲑,鱼,鱼与鲈,鱼,鱼的,2,类问题,,,,如果,用,用,表示类,别,别状态,,,,那么,当,当,时是鲈,鱼,鱼,当,时,时是,鲑,鲑鱼。,由,由于每,次,次出现,的,的类别,不,不确定,,,,可以,假,假设,是一个,用,用概率,来,来描述,的,的随机,变,变量。,2.1,引,言,言,贝叶斯,决,决策是,统,统计模,式,式识别,的,的基本,方,方法,采用概,率,率的形,式,式来描,述,述,它,的,的前提,是,是,:,(1).,各类别,的,的总体,概,概率分,布,布是已,知,知的,.,(2).,要决策,分,分类的,类,类别数,是,是一定,的,的,.,利用类,条,条件概,率,率密度,:,及,描述了,两,两种鱼,类,类外观,上,上光泽,度,度的差,异,异。,其中,,x,为光泽,度,度指标,。,。,类条件,概,概率密,度,度为类,别,别状态,为,为,时的,x,的概率,密,密度函,数,数,仅根据,先,先验信,息,息的判,定,定准则,若,则事件,成,成立,;,反之,则,成,成立,。,。,错误的,概,概率是,它,它们之,中,中较小,的,的那个,.,但通常,不,不这样,做,做!,注,:,假定的,类,类条件,概,概率密,度,度函数,图,图,显示了,模,模式处,于,于类别时观察,某,某,个特定,特,特征值,x,的概率,密,密度,.,如果,x,代表了,鱼,鱼的长,度,度,那么这,两,两条曲,线,线可,描述两,种,种鱼的,长,长度区,别,别,.,概率函,数,数已归,一,一化,因此每,条,条曲线,下,下的面,积,积为,1,贝,叶,叶,斯,斯,公,公,式,式,:,处,于,于,类,类,别,别,并,并,具,具,有,有,特,特,征,征,值,值,x,的,模,模,式,式,的,的,联,联,合,合,概,概,率,率,密,密,度,度,可,可,写,写,成,成,两,两,种,种,形,形,式,式,:,:,其,中,中,称,称,为,为,状,状,态,态,的,的,后,后,验,验,概,概,率,率,.,混,合,合,概,概,率,率,密,密,度,度,函,函,数,数,:,于,是,是,,,,,可,可,以,以,导,导,出,出,贝,叶,叶,斯,斯,公,公,式,式,:,(,1,),在,先,先,验,验,概,概,率,率,及,及,图,图,2-1,给,出,出,的,的,后,后,验,验,概,概,率,率,图,图,.,此,情,情,况,况,下,下,假,定,定,一,一,个,模,模,式,式,具,具,有,有,特,特,征,征,值,值,那,么,么,它,它,属,属,于,于,类,类,的,的,概,概,率,率,约,约,为,为,0.08,属,于,于,的,的,概,概,率,率,约,为,为,0.92.,在,每,每,个,个,x,处,的,的,后,后,验,验,概,概,率,率,之,之,和,和,为,为,1.0,基,于,于,后,后,验,验,概,概,率,率,的,的,决,决,策,策,准,准,则,则,(x,表示观察,值,值,),若类别判定,若,类,类别,判,判定,决策后所,导,导致的错,误,误率,若判定,若判定,最小化错,误,误概率条,件,件下的,贝叶斯决,策,策规则,为了追求,最,最小的错,误,误率,采,取,取如下判,定,定准则:,若,则判定类,别,别为,;,反之,判,为,为,。,。,可以证明,依从这样,的,的准则可,以,以获得最,小,小错误率,:,:,我们称该,准,准则为“,贝,贝叶斯决,策,策准则”,。,。,平均错误,率,率,:,根据,贝叶斯公,式,式,由于,p(x),为标量,,则,则可以采,用,用等价,判定准则,:,:,若,则判定类,别,别为,;,反之,判,为,为,。,。,2.2,贝叶斯决,策,策论,-,连续性特,征,征,允许利用,多,多于一个,的,的特征,允许多于,两,两种类别,状,状态的情,形,形,允许有其,它,它行为而,不,不仅是判,定,定类别。,引入损失,函,函数代替,误,误差概率,。,。,概 述,令,1,2,c,表示一系,列,列类别状,态,态。,令,1, ,2,a,表示一系,列,列可能采,取,取的行动,(,(或决策,),)。,令 ,(,i,| ,j,),表示当实,际,际状态为,j,时,采取,i,的行为会,带,带来的风,险,险。那么,,,,特征,x,与行动,i,相关联的,损,损失为,:,因此,,称,称为条,件,件风险。,考察损失,函,函数对判,定,定准则的,影,影响,借助,可,可,以,以提供一,个,个总风险,的,的优化过,程,程,即遇,到,到特征,x,,我们可,以,以选择最,小,小化风险,的,的行为来,使,使预期的,损,损失达到,最,最小。,假设对于,特,特征,x,,决策的,行,行为是,,,,则总,风,风险可表,示,示为:,为了最小,化,化总风险,,,,对所有,计,计算,条,条件风险,选择行为,i,,使得,最小化。,最,最小化后,的,的总风险,值,值称为贝叶斯风,险,险,记为,,它是可,获,获得的最,优,优结果。,(12),两类分类,问,问题,行为,1,对应类别,判,判决,1,,,2,则对应,2,。为了简,化,化符号,,令,令,那么可得,两,两种行为,的,的损失函,数,数,决策,按照贝叶,斯,斯决策规,则,则,为了,使,使得条件,风,风险最小,如果,则,则判为,相反,则,判,判为,结合贝叶,斯,斯公式,,用,用先验概,率,率与条件,密,密度来表,示,示,后验概率,,,,等价规,则,则为,如果,则判为,否,否则,,,,判决为,用后验概,率,率来表示,,,,等价规,则,则为,如果,则判为,否,否则,,判,判决为,通常:,?,?,决策,等价规则,为,为,如果,则判为,;,;否则,判,决,决为,注意公式,(18),的右边是,与,与,x,无关的常,数,数,因此,可,可以视为,左,左边的似,然,然比超过,某,某个阈值,,,,则判为,(,18,),左图说明,,,,如果,引入一个,0-1,损失,或分类损,失,失,那么,判别边界,将,将由阈值,决定;而,如,如果,损失函数,将,将模式,判,判为,的,的,惩,惩罚大于,反,反过来情,况,况,将得,到,到较大的,阈,阈值,使,使得,R,1,变小,当损失,函,函数简,化,化到所,谓,谓的“,对,对称损,失,失”或,“,“,0-1,损失”,函数,这个损,失,失函数,将,将,0,损失赋,给,给一个,正,正确的,判,判决,,而,而将一,个单位,损,损失赋,给,给任何,一,一种错,误,误判决,,,,因此,所,所有误,判,判都是,等价的,。,。与这,个,个损失,函,函数对,应,应的风,险,险就是平均误,差,差概率。,2.3,最小误,差,差率分,类,类,对于,若,则判定,类,类别为,;,反之,,判,判为,。,。,因此,最小化,风,风险,就是最,大,大化后,验,验概率,即最小,误,误差率,的,的分类,准,准则。,2.3.1,极小极,大,大化准,则,则(先,验,验概率,未,未知情,形,形),有时我,们,们需要,设,设计在,整,整个先,验,验概率,范,范围内,都,都能很,好,好操作,的,的,分类器,。,。一种,合,合理的,设,设计方,法,法就是使先验,概,概率取,任,任何一,种,种,值时所,引,引起的,总,总风险,的,的最坏,情,情况尽,可,可能小,,,,也就,是,是说最,小,小,化最大,可,可能的,风,风险。,我们以,R,1,表示分,类,类器判,为,为,1,时的特,征,征空间,的,的区域,,,,同样,的,的,有,R,2,和,2,,总风,险,险的形,式,式可表,示,示为,判为,1,判为,2,结合公,式,式,与,与,可以得,到,到,等式表,明,明一旦,判,判别边,界,界确定,后,后,总,风,风险与,成,成,线形关,系,系。如,果,果能找,到,到一个,边,边界使,比,比例为,0,,那么,风,风险将,与,与先验,概,概率独,立,立。这,就,就是极小极,大,大化求,解,解。,风险,作业,:,计算,2.3.2Neyman-Pearson,准则,最小化某个约,束,束的风,险,险(资,源,源有限,的,的情形,),)。,对某个,给,给定的,i,,最小化在,约,约束条件,的,的总,风,风险。,例如:将鲈,鱼,鱼误判为鲑,鱼,鱼的误差率,不,不得超过,1%,。,2.4,分类器与判,别,别函数,2.4.1,多类情况,有许多方式,来,来表述模式,分,分类器,用,的,的最多的是,一,一种,判别函数,若,若对于,所,所有的,都,都有,则分类器将,这,这个特征向,量,量,x,判给,上图为包含,d,个输入,c,个判别函数,的,的系统。确,定,定哪个判别,函,函数值,最大,并相,应,应地对输入,作,作分类。,不同情况下,的,的分类器的,表,表示方式,一般风险的,情,情况下为,最小误差概,率,率情况下,其它一些较,常,常见的形式,尽管判别函,数,数可写成各,种,种不同的形,式,式,但是判,决,决规则是相,同,同的。,每种判决规,则,则都是将特,征,征空间划分,c,个判决区域,,,,,如果对于所,有,有的,,,,,有,有,那,那,么,么,x,属于,。,。,要,要求我,们将,x,分给,。,。此区域由,判,判决边界来,分,分割,其判,决,决边界即判,决,决,空间中使判,决,决函数值最,大,大的曲面。,如,如图,在这个二维,的,的两类问题,的,的分类器中,,,,概率密度,为,为高斯分布,。,。判别边界,由,由两个双曲,面,面构成,因,此,此判决区域,R,2,并非是简单,连,连通的。椭,圆,圆轮廓线标,记,记出,1/e,乘以概率密,度,度的峰值。,则如果,,,,则将,x,判给,,,,否则给,。,。,2.4.2,两类情况(,二,二分分类器,-dichotomizer,),对于二分分,类,类器,可以,定,定义一个简,单,单判别函数,最小误差概,率,率情况下,或:,2.5,正,态,态,密,密,度,度,单,变,变,量,量,密,密,度,度,函,函,数,数,单,变,变,量,量,正,正,态,态,分,分,布,布,容,易,易,计,计,算,算,其,其,期,期,望,望,值,值,与,与,方,方,差,差,单,变,变,量,量,正,正,态,态,分,分,布,布,大,大,约,约,有,有,95%,的,区,区,域,域,在,在,范,范,围,围,内,内,,,,,如,如,图,图,此,分,分,布,布,的,的,峰,峰,值,值,为,为,正,态,态,分,分,布,布,与,与,熵,熵,之,之,间,间,的,的,关,关,系,系,熵,的,的,定,定,义,义,单,位,位,为,为,奈,奈,特,特,;,若,换,换,为,为,单,位,位,为,为,比,比,特,特,。,。,熵,熵,是,是,一,一,个,个,非,非,负,负,的,的,量,量,用,来,来,描,描,述,述,一,一,种,种,分,分,布,布,中,中,随,随,机,机,选,选,取,取,的,的,样,样,本,本,点,点,的,的,不,不,确,确,定,定,性,性,。,。,可,可,以,以,证,明,明,正,正,态,态,分,分,布,布,在,在,所,所,有,有,具,具,有,有,给,给,定,定,均,均,值,值,和,和,方,方,差,差,的,的,分,分,布,布,中,中,具,具,有,有,最,最,大,大,熵,。,。,并,并,且,且,,,,,如,如,中,中,心,心,极,极,限,限,定,定,理,理,所,所,述,述,,,,,大,大,量,量,的,的,小,小,的,的,,,,,独,独,立,立,的,的,随,随,机,机,分,布,布,的,的,总,总,和,和,等,等,效,效,为,为,高,高,斯,斯,分,分,布,布,。,。,多,元,元,密,密,度,度,函,函,数,数,多,元,元,正,正,态,态,密,密,度,度,其,中,中,x,是,一,一,个,个,d,维,列,列,向,向,量,量,,,,是,d,维,均,均,值,值,向,向,量,量,,,,,是,是,的,协,协,方,方,差,差,矩,矩,阵,阵,,,,,和,和,分,分,别,别,是,是,其,其,行,行,列,列,式,式,的,的,值,值,和,和,逆,逆,。,。,形,式,式,上,上,有,有,:,:,协,方,方,差,差,矩,矩,阵,阵,通,通,常,常,是,是,对,对,称,称,的,的,且,且,半,半,正,正,定,定,。,。,我,我,们,们,将,将,严,严,格,格,限,限,定,定,是,正,正,定,定,的,的,。,。,对,对,角,角,线,线,元,元,素,素,是,是,相,相,应,应,的,的,方,方,差,差,;,非对角线元素,是,是,和,和,的,的协方差。,如,如果 和,统,统计,独,独立,则,。,。如果所,有,有的非,对 角线元素为,0,,那么,p(x),变成了,x,中各元素的单变,量,量正态密度函数,的,的 内积。,服从正态分布的,随,随机变量的线性,组,组合,不管这些,随,随机变量是独立,还是非独立的,,也,也是一个正态分,布,布。,(,这是个非常有用,的,的结论),特别地,如果,,,,,A,是一,d*k,的矩阵且,是,是,一,k,维向量,则,白化,(,Whitening,),变换,F,:,其列向量是,S,的正交特征向量,.,L:,与特征值对应的,对,对角矩阵,.,白化,(,Whitening,),变换,2.6,正态分布的判别,函,函数,最小误差概率分,类,类可通过判别函,数,数获得,如果已知,那么,其中:,情况,1,:,这种情况发生在,各,各特征统计独立,,,,且每个特征具,有,有相同的,方差时。此时的,协,协方差阵是对角,阵,阵,仅仅是,与,与单,位,位阵,I,的乘积。几何上,它,它与样本落于相,等,等大小的超球体,聚,聚类中的,情况相对应,第,i,类的聚类以均值,向,向量,为,为中心。,省略掉其它无关,紧,紧要的附加常量,,,,可得到简单的,判,判决函数,展开后我们得到,省略附加常量,,等,等价于线性判决,函,函数,其中,且,称为第,i,个方向的阈值或,者,者偏置。,使用线性判别函,数,数的分类器称为,“,“线性机器”。,这,这类分类器有许,多,多有趣的理论性,质,质,其中一些将,在,在第,5,章中详细讨论。,此,此处只需注意到,一,一个线性机器的,判,判定面是一些超,平,平面,它们是由,两,两类问题中可获,得,得最大后验概率,的,的线性方程,来,来确定。,在以上的例子中,,,,该方程可写为,其中,且,此方程定义了一,个,个通过,x,0,且与向量,w,正交的超平面。,由,由于,,,,,将,R,i,与,R,j,分开的超平面与,两,两中心点的连线,垂,垂直。若,则,则上式,右边第二项为零,,,,因此超平面垂,直,直平分两中心点,的,的连线。如图,如果两种分布的,协,协方差矩阵相等,且,且与单位阵成比,例,例,那么它们呈,d,维球状分布,其,判,判决边界是一个,d-1,维归一化超平面,,,,垂直于两个中,心,心的连线。在这,些,些一维,二维及,三,三维的例子中,,是,是假设在,的,的情况下,来,来显示,和,和判决,边界的。,如果所有,c,类的先验概率,相,相等,那么,项,项就成,了,了另一可省略,的附加常量。此,种,种情况下,最优,判,判决规则可简单,陈,陈述如下:,为将某特征向量,x,归类,通过测量,每,每一个,x,到,c,个均值向量中的,每一个欧氏距离,,,,并将,x,归为离它最近的,那,那一类中。这样,一,一个分类,器被称为 “最小距离分类器”。如果每个均,值,值向量被看成是,其,其所属模,式类的一个理想,原,原型或模板,那,么,么本质上是一个模板匹配技术。,如图:随着先验,概,概率的改变,判,决,决边界也随之改,变,变;对于差别较,大,大的离散先验概,率,率而言,判决边,界,界不会落于这些,一,一维,二维 及三维,球,球状高斯分步的,中,中心点之间。,情况,2,:,第二类简单的情,况,况是所有类的协,方,方差阵都相等,,但,但各自的均值向,量,量,是任意的。几何,上,上,这种情况对,应,应于样本落在相,同,同大小和相同形,状,状,的超椭球体聚类,中,中,第,i,类的聚类中心在,向,向量,附,附近。此时的,判,判决,函数,可,可从,简化,为,为,将二,次,次型,展,展开,后,后,,可,可再,次,次得,到,到线,性,性判,决,决函,数,数,其中,由于,判,判决,函,函数,是,是线,性,性的,,,,判,决,决边,界,界同,样,样是,超,超平,面,面,其中,且,如果,先,先验,概,概率,相,相等,,,,其,判,判决,面,面与,均,均值,连,连线,相,相交,于,于中,点,点;,若,若不,等,,最,最优,边,边界,超,超平,面,面将,远,远离,可,可能,性,性较,大,大的,均,均值,。,。如,图,图,相等,但,但非,对,对称,的,的高,斯,斯分,布,布概,率,率密,度,度(,由,由二,维,维平,面,面和,三,三维,椭,椭球,面,面表,示,示),及,及判,决,决区,域,域。,判,判决,超,超平,面,面未,必,必和,均,均值,连,连线,垂,垂直,正,正交,。,。,情况,3,:,在一般的多,元,元正态分布,的,的情况下,,每,每一类的协,方,方差是不同,,,,其,判决函数显,然,然也是二次,型,型,其中,在两类问题,中,中,其对应,的,的判决面是,超,超二次曲面,。,。,任意高斯分,布,布导致一般,超,超二次曲面,的,的贝叶斯判,决,决边界。反,之,之,,给定任意超,二,二次曲面,,就,就能求出两,个,个高斯分布,,,,其贝叶斯,判,判别,边界就是该,超,超二次曲面,。,。它们的方,差,差由常概率,密,密度的围线,表,表示,P42,例,1,P42,例,3,2.9,贝叶斯决策,论,论,-,离散特征,到目前为止,所,所讨论的特,征,征向量,x,可以为,d,维欧氏空间,中,中的任意一,点,点。但,是,是,在,许,许多实际应,用,用中,,x,中的元素可,能,能是二进制,,,,三进制或,者,者更高的离,散,散整数值,,以,以至于,x,可以被认为,是,是,m,个离散值,中,中的一个。,在,在这种情况,下,下,,变,变,得,得奇异化,,积,积分形式,转变为求和,形,形式,其它方面与,连,连续的情况,基,基本相同,,这,这里不一一,赘,赘述,。,概率密度函,数,数,换,换,成,成 概率分,布,布函数,考虑两类问,题,题,其中特,征,征向量的元,素,素为二值的,,,,并且条件,独,独立。,令,,,,,其,其中,可,可,能,能为,0,或,1,,且,2.9.1,独立的二值,特,特征,且,假设条件独,立,立,可将,x,元素的概率,写,写为,,,,,即,即,且,那么似然比,为,为,由公式,得,得判决函数,若,判,判别为,;,;否,则,则为,注意判决函,数,数对,是,是线,性,性的,可改,写,写为,其中,且,g(x),可以看作是,x,的各分量的,加,加权组合。,注意权重,W,i,的意义。,特征独立的,条,条件产生线,性,性分类器,,而,而如果特征,不,不独立将产,生,生复杂的分,类,类器。,Example:,三维二值特,征,征的贝叶斯,决,决策,Example:,三维二值特,征,征的贝叶斯,决,决策,2.7,误差概率和,误,误差积分,二分分类器,:,考虑以非最,优,优方式将空,间,间分成两个,区,区域,R,i,与,R,j,则误差概率,为,为,:,上式的值与,判,判决点的取,值,值有关,.,多类情况,正确分类的,概,概率,贝叶斯分类,器,器通过选择,对,对所有,x,使得被积函,数,数最大化的,区,区域使正确,分,分类的概率,最,最大化。,没有其他分,类,类方法能产,生,生更小的分,类,类概率。,2.8,正态密度的,错,错误上界,在高斯函数,的,的情况下,整个误差率,计,计算过程相,当,当复杂。,特别是高维,情,情形。,判决区域可,能,能不连续。,在两类情况,下,下,一般错,误,误积分公式,可,可近似的给,出,出一个误差,率,率的上界。,Chernoff 界,习题,36,,作业!,其中,:,Chernoff Bound,0.66,Bhattacharyya Bound,0.5,Bhattacharyya Bound,Example:,在高斯分布,下,下的错误率,的,的界,Example:,在高斯分布,下,下的错误率,的,的界,Bhattacharyya,界,k,(1/2),= 4.,06,P,(,error,),x,*|,x,in,w,2,),一次虚警,:,P,(,x,x,*|,x,in,w,1,),一次漏检,:,P,(,x,x,*|,x,in,w,2,),一次正确拒,绝,绝,:,P,(,x,x*|x,1,),丢失特征举,例,例,:,2.10,丢失特征和,噪,噪声特征,丢失特征,考虑训练集,数,数据未受损,,,,测试集数,据,据受损情形,。,。,丢失特征情,形,形下的决策,:,:,其中,:,是判别函数,噪声特征,假设用,x,t,来表示观,测,测到的,x,b,特征量的,真,真实值。,2.11,贝叶斯置,信,信网,用有向无,环,环图来表,示,示事件的,因,因果依赖,关,关系的网,络,络图。,Example:,鱼分类置,信,信网,2.12,复合贝叶,斯,斯决策论,及,及上下文,以鱼分类,为,为例,来,看,看上下文,关,关系;,复合判决,与,与序贯复,合,合判决;,2.12,复合贝叶,斯,斯决策论,及,及上下文,本章小结,贝叶斯决,策,策的基本,思,思想非常,简,简单。为,了,了最小化,风,风险,总,是,是选择那,些,些能,够最小化,条,条件风险,的,的行为。,贝,贝叶斯公,式,式允许我,们,们通过先,验,验概率,和条件密,度,度,来,来计,算,算后验概,率,率。,若内在的,分,分布为多,元,元的高斯,分,分布,判,别,别边界将,是,是超二次,型,型,其形,状,状与,位置取决,于,于先验概,率,率及该分,布,布的均值,与,与协方差,。,。,演讲完毕,,,,谢谢观,看,看!,
展开阅读全文