贝叶斯分类器讲义

上传人:沈*** 文档编号:244558793 上传时间:2024-10-05 格式:PPT 页数:38 大小:653.50KB
返回 下载 相关 举报
贝叶斯分类器讲义_第1页
第1页 / 共38页
贝叶斯分类器讲义_第2页
第2页 / 共38页
贝叶斯分类器讲义_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,贝叶斯分类器,一、分类器的概念,分 类,特征提取,特征:对象的特殊属性,特征向量:特征的描述参数,方法:列出特征表用排除方法计算不同特征的相对概率,然后选取,良好的特征的特点:可区别性、可靠性、独立性、数量少,分类器的设计,逻辑结构:(分类规则)相似程度,分类规则的数学基础:(阈值规则)特征空间,分类器的训练,基本方法:用一组已知的对象来训练分类器,目的的区分:1. 分类错误的总量最少,2. 对不同的错误分类采用适当的加权使分类器的整个“风险”达到最低,偏差:分类错误,分类器的性能测试,已知类别的测试集;已知对象特征PDF的测试集,PDF的获取:画出参数的直方图,并计算均值和方差,再规划到算法面积,需要的话再做一次平滑,就可将这个直方图作为相应的PDF设计,独立每一类的测试集,使用循环的方法,特征选择,特征选择可以看作是一个(从最差的开始)不断删去无用特征并组合有关联特征的过程,直至特征的数目减少至易于驾驭的程度,同时分类器的性能仍然满足要求为止。例如,从一个具有M个特征的特征集中挑选出较少的N个特征时,要使采用这N个特征的分类器的性能最好。,特征方差,类间距离,降维,二、概率论基本知识,概率论基本知识,确定事件:概念是确定的,发生也是确定的;,随机事件:概念是确定的,发生是不确定的;,模糊事件:概念本身就不确定。,联合概率和条件概率,联合概率,:设,A,,,B,是两个随机事件,,A,和,B,同时发生的概率称为联合概率,记为:,P(AB),;,条件概率,:在,B,事件发生的条件下,,A,事件发生的概率称为条件概率,记为:,P(A|B),P(A|B) = P(AB) / P(B),;,乘法定理,:,P(AB) = P(B)P(A|B) = P(A)P(B|A),。,概率密度函数,概率分布函数,:设,X,为连续型随机变量,定义分布函数;,F(x) = P(X,x),;,概率密度函数:,给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(ab)有 P(aXb) = f(x)dx, (积分下限是a,上限是b),,,则称f(x)为X的概率密度函数,。,样本空间的划分,全概率公式,说明:,全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果。,贝叶斯公式,Bayes,公式的意义,Bayes,公式,其意义是:假设导致事件,A,发生的“原因”有,B,i,(i=1,2,n),个。它们互不相容。,现已知事件,A,确已经发生,了,若要估计它是由“原因”,B,i,所导致的概率,则可用,Bayes,公式求出,.,即可从结果分析原因,.,三、贝叶斯分类器,确定性分类和随机性统计分类,以两类分类问题来讨论,设有两个类别,1,和,2,,理想情况, ,1,和,2,决定了特征空间中的两个决策区域。,确定性分类:,我们任取一个样本,x,,当它位于,1,的决策区域时,我们判别,x,1,;,当它位于,2,的决策区域时,我们判别,x,1,。也可以说:当,x,位于,1,的决策区域时,它属于,1,的概率为1,属于,2,的概率为0。,随机性统计分类:,如我们任取一个样本,x,,当它位于,1,的决策区域时,它属于,1,的概率为,小于1,属于,2,的概率大于0,确定性分类问题就变成了依照概率判决规则进行决策的统计判别问题。,贝叶斯分类原理,先验概率、后验概率和类(条件)概率密度:,先验概率,:,根据大量样本情况的统计,在整个特征空间中,任取一个特征向量x,它属于类,j,的概率为P(,j,),也就是说,在样本集中,属于类,j,的样本数量于总样本数量的比值为P(,j,)。我们称P(,j,)为先验概率。,显然,有: P(1) P(2) P(c)1,如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于,类,j,的样例数|,j,|比上总样例数|D|来,近似,即,由以往的数据分析得到,的,概率,叫做,先验概率,.,后验概率:,当我们获得了某个样本的特征向量x,则在x条件下样本属于类,j,的概率P(,j,|x)称为后验概率。,在得到信息之后再重新加以修正的概率叫做后验概率,,后验概率就是我们要做统计判别的依据。,类(条件)概率密度:,P(x|,j,)是指当已知类别为,j,的条件下,看到样本x出现的概率。,若设x = ,,,则P(x|,j,)= P(a,1,a,2,a,m,|,j,),后验概率的获得:,后验概率是无法直接得到的,因此需要根据推理计算由已知的概率分布情况获得。,根据贝叶斯公式可得:,其中:,p(x| j)为类j所确定的决策区域中,特征向量x出现的概率密度,称为类条件概率密度。,P(x)为全概率密度,可由全概率公式计算得到。,贝叶斯分类原理:,根据已知各类别在整个样本空间中的出现的先验概率,以及某个类别空间中特征向量X出现的类条件概率密度,计算在特征向量X出现的条件下,样本属于各类的概率,把样本分类到概率大的一类中。,利用贝叶斯方法分类的条件:,各类别总体的概率分布是已知的;,要分类的类别数是一定的,;,癌细胞识别,两类别问题细胞正常与异常,若仅利用先验概率进行分类,统计的角度得出的两类细胞的出现概率,无法实现正常与异常细胞的分类目的,先验概率提供的信息太少,要结合样本观测信息,为此需要利用类条件概率,例:细胞识别问题,1,正常细胞,,2,癌细胞,经大量统计获先验概率,P,(,1,),P,(,2,)。,对任一细胞样本x观察:有细胞光密度特征 ,有类条件概率密度:,P(x/ ) =1,2,。,可以把先验概率转化为后验概率,,利用后验概率可对未知细胞x进行识别 。,最小错误率贝叶斯分类:,用j和j分别表示两种不同的类型,用P(,1,)和P(,2,)分别表示各自的先验概率,用p(x|,1,)和p(x|,2,)分别表示两个类概率密度。根据全概率公式,样本x出现的全概率密度为:,根据贝叶斯公式,在样本x出现的条件下,两个类型的后验概率分别为:,这样,我们就规定样本x归属于后验概率较高的那种类型,即,利用贝叶斯公式,可以得到最小错误率贝叶斯判别规则的等价形式:,上述两个公式,也可以推广到多类,即j=1,2,.c。,例,:某地区细胞识别;,P,(,1,)=0,.9,,P,(,2,)=0.1 未知细胞,x,,,先从类条件概率密度分布曲线上查到:,问该细胞属于正常细胞还是异常细胞?,解,:先计算后验概率:,P,(,x,/ ,1,)=0.2,,,P,(,x,/ ,2,)=0.4,最小风险贝叶斯分类:,最小错误率贝叶斯分类只考虑分类错误的概率最小,但是,每次分类错误带来的损失是不一样的,例如:,要判断某人是正常(,1,)还是肺病患者(,2,),于是在判断中可能出现以下情况:,第一类,判对(正常正常) ,11,;,第二类,判错(正常肺病) ,21,;,第三类,判对(肺病肺病) ,22,;,第四类,判错(肺病正常) ,12,。,第二类和第四类属于分类错误。,显然,第四类错误带来的损失大于第二类错误带来的损失。,为评估分类错误的风险,引入以下概念:,决策,i,:,表示把模式x判决为,i,类的一次行动。,决策空间:,所有决策,i,的集合。,损失函数:,表示模式x本来属于,j,类而采取的决策为,i,时所带来的损失,这样就可以得到风险矩阵。,条件风险(也叫条件期望损失):,对未知x采取一个判决行动,i,(x)所冒的风险(或所付出的代价),对于特定的,x,采取决策,i,的期望损失,风险矩阵:,1,2,j,c,1,2,i,a,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,(,i,j,),(,1,1,),(,1,2,),(,1,j,),(,1,c,),(,2,1,),(,2,2,),(,2,j,),(,2,c,),(,i,1,),(,i,2,),(,i,c,),(,a,1,),(,a,2,),(,a,j,),(,a,c,),状态,损失,决策,最小风险贝叶斯判别规则:,判别步骤,:,(1)在给定样本x,且已知,P(,j,)和p(x| ,j,),j=1,2,c。根据贝叶斯公式计算出后验概率,(2)利用计算出的后验概率和风险矩阵计算出采取,i,的条件风险R(,i,|x),(3),按照判别规则,比较各种决策的条件风险,把样本归属于条件风险最小的那一种判决。,最小错误率和最小风险两种判别规则的关系:,设损失函数为0-1函数:,条件风险为:,表示对x采取决策,i,的条件错误概率.,所以在0-1损失函数下,使,的最小风险贝叶斯分类就等价于,的最小错误率贝叶斯分类,所以,最小错误率贝叶斯决策就是在0-1损失函数条件下的最小风险贝叶斯分类,即,前者是后者的特例。,最大似然比贝叶斯分类:,最大似然比判别规则也是一种贝叶斯分类方法,它是把模式样本归属于这样的类型,i,:,类型,i,分别与其它类型,j,(j=1,2,c,,ji,)的似然比均大于相应的门限值,而其他类型,j,(j=1,2,c,,ji,)分别与类型,i,的似然比均小于相应的门限值。,由最小错误率判别规则,,在两类问题中若,则,,将上式转换为:,定义似然比: 判别门限:,最大似然比判别规则为:,由最小风险判别规则,,在两类问题中若,根据条件风险公式:,若 ,有,由贝叶斯公式 可得:,定义判别门限:,所以 ,有,讨论多类问题:,定义:,似然比,判别门限,则最大似然比贝叶斯分类的判别规则可以表达为:,若 L,ij,ij,,则,x,i,,i、j=1,2,.c,j,i,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!