哈工大 模式识别第2章

上传人:小** 文档编号:243049898 上传时间:2024-09-14 格式:PPT 页数:121 大小:1.48MB
返回 下载 相关 举报
哈工大 模式识别第2章_第1页
第1页 / 共121页
哈工大 模式识别第2章_第2页
第2页 / 共121页
哈工大 模式识别第2章_第3页
第3页 / 共121页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,2,章,贝叶斯决策理论,学习指南,主要内容是说明分类识别中为什么会有错分类,在何种情况下会出现错分类?错分类的可能性会有多大?在理论上指明了怎样才能使错分类最少?,不同的错分类造成的危害是不同的为此引入了一种“风险”与“损失”概念,希望做到使风险最小。要着重理解“风险”与“损失”的概念,以及在引入“风险”概念后的处理方法。,理解这一章的关键是要正确理解先验概率,类概率密度函数,后验概率这三种概率,对这三种概率的定义、相互关系要搞清楚。,Bayes,公式正是体现这三者关系的式子,要透彻掌握。,学习目标,本章是模式识别的重要理论基础,它用概率论的概念分析造成错分类和识别错误的根源,并说明与哪些量有关系。,不同的错误分类造成的损失会不相同,那么有没有可能对危害大的错分类实行控制。对于这两方面的概念要求理解透彻。,将分类与计算某种函数联系起来,并在此基础上定义了一些术语,如判别函数、决策面,(,分界面,),,决策域等,要正确掌握其含义。,涉及设计一个分类器的最基本方法,设计准则函数,并使所设计的分类器达到准则函数的极值,即最优解,要理解这一最基本的做法。,重,点,1,、 机器自动识别出现错分类的条件,错分类的可能性如何计算,如何实现使错分类出现可能性最小,基于最小错误率的,Bayes,决策理论,2,、 如何减小危害大的错分类情况,基于最小错误风险的,Bayes,决策理论,3,、 模式识别的基本计算框架,制定准则函数,实现准则函数极值化的分类器设计方法,4,、 正态分布条件下的分类器设计,5,、 判别函数、决策面、决策方程等术语的概念,6,、,Bayes,决策理论的理论意义与在实践中所遇到的困难,难 点,1,、 三种概率:先验概率、类概率密度函数、后验概率的定义,2,、 三种概率之间的关系,Bayes,公式,3,、 描述随机变量分布的一些定义,如期望值、方差、尤其是协方差、协方差矩阵,其定义、计算方法及内在含义,透彻掌握其含义才会做到灵活运用。,2.1,引 言,模式识别是一种分类问题,即根据识别对象所呈现的观察值,将其分到某个类别中去。,统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器的设计起指导作用。,贝叶斯决策理论是统计模式识别中的一个基本方法。,物理对象的描述,-,特征及特征空间,假设一个待识别的物理对象用其,d,个属性观察值描述,称之为,d,个特征,每个观察值即是一个特征。,这,d,个特征组成一个,d,维的向量,叫特征向量。记为,x,= ,x,1,x,2,x,d,T,d,维待征所有可能的取值范围则组成了一个,d,维的特征空间。,例:鲈鱼,特征:长度:,L=030 cm,宽度:,W=10 cm25 cm,亮度:,G=010,特征向量:,A=(L,,,W,,,G),A,的各分量所占的三维空间就是对鲈鱼 进行度量的特征空间,。,几种常用的决策规则,不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响。,最有代表性的是:,基于最小错误率的贝叶斯决策,基于最小风险的贝叶斯决策,在限定一类错误率条件下使另一类错误率为最小的两类别决策,(,Neyman-pearson,准则,),最小最大决策,2.2,基于最小错误率的贝叶斯决策,分类识别中为什么会有错分类?,当某一特征向量值,X,只为某一类物体所特有,即,对其作出决策是容易的,也不会出什么差错,问题在于出现模棱两可的情况,任何决策都存在判错的可能性。,基于最小错误率的贝叶斯决策,基本思想,分类准则:使错误率为最小,称之为基于最小错误率的贝叶斯决策,条件概率,P(*|#),是条件概率的通用符号,即在某条件,#,下出现某个事件*的概率,P(,K,|X):X,出现条件下,样本为,K,类的概率,P(*|#),与,P(*),不同,例,:*,表示待识别的目标是敌人的导弹,#,表示目前处于战争状态,则,P(*|#),与,P(*),不同含义不同,几个重要概念,先验概率,P(1),及,P(2),条件概率密度函数,p(x|,i,),后验概率,P(,i,|X,),先验概率、后验概率、概率密度函数,假设总共有,c,类物体,用,i,(i=1,2,c),标记每个类别,,x,= ,x,1,x,2,x,d,T,,是,d,维特征空间上的某一点,则,P(,i,),是,先验概率,p(x,|,i,),是,i,类发生时的,条件概率密度函数,P(,i,|x,),表示,后验概率,贝叶斯决策理论,贝叶斯决策理论前提,各类别总体的概率分布是已知的,;,要决策分类的概率分布是已知的。,贝叶斯决策理论方法所讨论的问题是:,已知,:,总共有,c,类物体,以及先验概率,P(,i,),及类条件概率密度函数,p(x|,i,),问题,:,如何对某一样本按其特征向量分类的问题。,基于最小错误率的贝叶斯决策,例,:癌细胞的识别,假设每个要识别的细胞已作过预处理,并抽取出了,d,个特征描述量,用一个,d,维的特征向量,X,表示,,识别的目的是要依据该,X,向量将细胞划分为正常细胞或者异常细胞。,这里我们用,表示是正常细胞,而,则属于异常细胞。,先验概率,P(1),和,P(2),含义,:,每种细胞占全部细胞的比例,P(1)+P(2)=1,一般情况下正常细胞占比例大,即,P(1)P(2),先验概率,根据,先验概率决定,这种分类决策没有意义,表明由先验概率所提供的信息太少,概率密度函数,利用对细胞作病理分析所观测到的信息,也就是所抽取到的,d,维观测向量。,为简单起见,我们假定只用其一个特征进行分类,即,d=1,得到两类的类条件概率密度函数分布,p(x|1),是正常细胞的属性分布,p(x|2),是异常细胞的属性分布,类条件概率密度函数,后验概率,我们的问题,:,当观测向量为,X,值时,应该把该细胞分为哪个类别呢?,最小错误率的贝叶斯决策,该细胞属于正常细胞的概率,P(1|x),该细胞属于异常细胞的概率,P(2|x),它属于各类的概率又是多少呢,? (,后验概率,),Bayes,公式,根据,先验概率,和,概率密度函数,可以计算出,后验概率,先验概率,后验概率,概率密度函数之间关系,后验概率,类条件概率和后验概率,后验概率,: P(1|x),和,P(,|x),同一条件,x,下,比较,1,与,2,出现的概率,两类,1,和,2,,则有,P(1|x)+P(2|x)=1,如,P(1|x) P(2|x),则可以下结论,在,x,条件下,事件,1,出现的可能性大,类条件概率,: P(x|1),和,P(x|2),是在不同条件下讨论的问题,即使只有两类,1,与,2,,,P(x|1)+P(x|2)1,P(x|1),与,P(x|2),两者没有联系,为什么后验概率要利用,Bayes,公式从先验概率和类条件概率密度函数计算获得 ?,计算概率都要拥有大量数据,估计,先验概率,与,类条件概率密度函数,时都可搜集到大量样本,对某一特定事件,(,如,x),要搜集大量样本是不太容易,只能借助,Bayes,公式来计算得到,基于最小错误概率的贝叶斯决策,基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的,1,、后验概率,如果,则,(3),用比值的方式表示,-,似然比,则:,(2),如用先验概率及类条件概率密度函数表示,则有,则:,(4),对数似然比(似然比处理器),则:,例,2.1,假设在某地区切片细胞中正常,(1),和异常,(,),两类的先验概率分别为,P(1)=0.9,,,P(2)=0.1,。现有一待识别细胞呈现出状态,x,,由其类条件概率密度分布曲线查得,p(x|1)=0.2,,,p(x|,)=0.4,,试对细胞,x,进行分类。解:利用贝叶斯公式,分别计算出状态为,x,时,1,与,的后验概率,因此判定该细胞为正常细胞比较合理,最大后验概率即是最小错误率的证明,平均错误率,以,P(e,),表示,P(e,x,),:错误决策为,e,观测值为,x,的联合概率密度,P(e|x,),:观测值为,x,时的条件错误概率密度函数,P(x,),:,x,值出现的概率,分析两类别问题,按贝叶斯决策规则,当,P(w2|x),P(w1|x),时决策为,w2,。,显然这个决策意味着,对观测值,x,有,P(w1|x),概率的错误率。,上例中所作的,w1,决策,实际上包含有,P(w2|x)=0.182,的错误概率,(,正确率只有,0.818),两类别问题,当,p(w2|x),p(w1|x),时决策为,w2,,对观测值,x,有,P(w1|x),概率的错误率,则:,如果我们把作出,w1,决策的所有观测值区域称为,R1,,则在,R1,区内的每个,x,值,条件错误概率为,p(w2|x),。,另一个区,R2,中的,x,条件错误概率为,p(w1|x),。,在,R1,区内任一个,x,值都有,P(w2|x),P(w1|x),,,在,R2,区内任一个,x,值都有,P(w1|x),P(w2|x),错误率在每个,x,值处都取小者,因而平均错误率,P(e,),也必然达到最小,因而,按最大后验概率作出的决策,其平均错误率为最小。,C,类别情况,则,:,也可写成先验概率与条件概率密度形式:,则,:,多类别决策过程中的错误率计算:,1,、把特征空间分割成,R1,,,R2,,,,,Rc,,,C,个区域,2,、在每个区域,Ri,统计将所有其它类错误划为该区域对应的类的概率,则每个区域共有,c-1,项错误率,总共有,c(c-1),项 。(计算复杂),正确率:,所以:,P(e,)=1-P(c),(,可见:每次决策,正确率最大,即:,P(C,)最大,所以,错误率最小),2.3,基于最小风险的贝叶斯决策,基本思想,使错误率最小并不一定是一个普遍适用的最佳选择。,癌细胞分类,两种错误,:,癌细胞正常细胞,正常细胞癌细胞,两种错误的代价,(,损失,),不同,宁可扩大一些总的错误率,但也要使总的损失减少。,引进一个与损失有关联的,更为广泛的概念,风险。,在作出决策时,要考虑所承担的风险。,基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。,基于最小风险的贝叶斯决策,最小错误率贝叶斯决策规则,实际上,,C,类中的每一类都有一定的样本的特征向量取值,X,,只不过可能性大小不同而已。,若引入风险(或损失):,表示,: X,本属于,j,类,但作出决策,j,时所造成的损失(风险),分类准则是使风险最小:,则:本属于第,j,类,但决策为第,i,类的风险为,因此,若取值为,X,的样本决策为第,i,类的平均风险为:,两类情况举例,:,有没有癌细胞,1,表示正常,,2,表示异常,P(1|X),与,P(2|X),分别表示了两种可能性的大小,X,是癌细胞,(2),,但被判作正常,(1),,则会有损失,这种损失表示为,:,2,(1),【,漏警,】,X,确实是正常,(1),,却被判定为异常,(2),,则损失表示成,:,1,(2),【,虚警,】,另外为了使式子写的更方便,我们也可以定义,1,(1),和,2,(2),是指正确判断也可有损失,两种决策,X,被判正常,(,1),的代价,(,损失,),X,被判癌细胞,(,2),的代价,(,损失,),作出哪一种决策就要看是,R1(X),小还是,R2(X),小,这就是基于最小风险的贝叶斯决策的基本出发点,一般情况:多类,(1),自然状态与状态空间。,自然状态:指待识别对象的类别,:,i,状态空间,:由所有自然状态所组成的空间,=1,,,2,,,,,c,(2),决策与决策空间。,对分类问题所作的判决,称之为决策,,i,。,由所有决策组成的空间称为决策空间。,A=1, 2,.,a,决策不仅包括根据观测值将样本划归哪一类别,(,状态,),,还可包括其它决策,如“拒绝”等,因此决策空间内决策总数,a,可以不等于类别数,c,(3),损失函数,(i|j,) (,或写成,(i,j,),。,它明确表示对自然状态,j,,作出决策,i,时所造成的损失。,就是前面我们引用过的,(4),观测值,X,条件下的期望损失,R(i|X,),i=1,2,a,Ri,:称为条件风险。,最小风险贝叶斯决策规则,最小风险贝叶斯决策规则可写成:,所有样本的期望风险,R,(平均风险),(,1,)根据贝叶斯公式计算后验概率,(,2,)利用后验概率及损失函数计算条件风险,(,3,)按条件风险最小进行决策。,若:,则:,最小风险贝叶斯决策的步骤,48,例,2.2,在例,2.1,条件的基础上,假设在某地区切片细胞中正常,(1),和异常,(,),两类的先验概率分别为,P(1)=0.9,,,P(2)=0.1,。现有一待识别细胞呈现出状态,x,,由其类条件概率密度分布曲线查得,p(x|1)=0.2,,,p(x|,)=0.4,11,=0,,,12,=6,21,=1,,,22,=0,(,ij,表示,(,i,|,j,),的简写,),按最小风险贝叶斯决策进行分类。,解:已知条件为,P(1),0.9, P(12),0.1,p(X|1),0.2, p(X|12),0.r,11,0, 12,6, 21,1, 22,0,根据,2.1,的计算结果可知后验概率为,P(1|X),0.818,P(12|X),0.182,再计算出条件风险,作出决策,由于,R(1|X),R(2|X),即决策为,2,的条件风险小于决策为,1,的条件风险,,因此应采取决策行动,2,即判待识别的细胞,X,为,2,类,异常细胞。,两种决策方法之间的关系,基于最小错误率的决策是基于最小风险决策的特例,设损失函数为,正确决策,没有损失,;,错误决策,:,损失为,1. -0-1,损失,条件风险为,可见:最小错误率的决策是,0-1,损失函数下的最小风险决策,两类时的似然比,最小错误率决策与最小风险决策的错误率,2.4,在限定一类错误率条件下使另一类错误率为最小的两类别决策,两类别问题中可能出现两种错误分类,平均错误率,P(e,),称:,P,1,(e),,,P,2,(e),为两类错误率,因,P(W1),,,P(W2),确定,实际中,有时要求某一类的错误率不得大于某个常数,,如,P,2,(e)=,0,为一个很小的常数,,而,使,另一类错误率,P,1,(e),最小。,也称,Neyman,-Pearson,决策规则,可看成在,P,2(,e)=,0,条件下,求,P,1,(e),极小值的条件极值问题。,求条件极值的拉格朗日乘子法,其中,为拉格朗日乘子,目的是求,的极小值,分别对边界,t(,即,R1,区域,),和,求导,并令,可得,先由(,1,)求边界,t,,再由(,2,)求,决策规则,若:,p,(X|,2,)0,,则判,X,属于,1,g(x,)10,)时,,h(x,),服从正态分布,则可计算,h(x,),的均值和方差:,(,ij,ij,易统计得到),负对数似然比:,类条件概率密度:,错误率的计算同,1,(正态分布且协方差阵相等),二、错误率上界,Chernoff,界限(,t,似然比门限),Bhattacharyya,界限,当两类的分布都是正态分布时:,问题,贝叶斯决策理论,需要已知:,(,1,)先验概率;(,2,)类条件概率密度,分类器设计问题转化为概率密度估计问题。,能否不用概率密度等,直接用样本设计分类器?,判别函数与概率密度无关。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!