资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,模式识别,贝叶斯决策理论,马勤勇,mqy_,一 最简单的贝叶斯分类算法,还使用前面的例子:鲈鱼,(sea bass),和鲑鱼,(salmon),。,使用一个特征亮度对这两种鱼进行表示。,新来了一条鱼特征是,x(,亮度,),,怎么根据特征,x,确定它到底是鲈鱼,1,还是鲑鱼,2,?,已知数据:鲈鱼类标号,1,,鲑鱼类标号,2,。鲈鱼总数量占所有鱼总数量的比率为,P(,1,),,鲑鱼总数量占所有鱼总数量的比率为,P(,2,),。由鲈鱼的分布得知这条鱼的亮度,x,在分类为鲈鱼时出现的概率为,p(x|,1,),由鲑鱼的分布得知这条鱼的亮度,x,在分类为鲑鱼时出现的概率为,p(x|,2,),。,如何求解?可以求出,x,属于鲈鱼,1,的概率,P(,1,|x),和,x,属于鲑鱼,2,的概率,P(,2,|x),。如果,P(,1,|x)P(,2,|x),,就认为,x,是鲈鱼。现在的问题是如何求,P(,1,|x),和,P(,2,|x),。,有一个概率公式:,从而推出:,换一种写法:,这就是著名的贝叶斯公式。其中,P(,j,),叫做先验概率,就是类别出现的可能性;,p(x|,j,),叫条件概率,就是在,j,时,x,出现的可能性;,p(,j,|x,),叫后验概率;,p(x,),是该样例出现的可能性。,因此:,对于上面的问题:,如果,p(,1,|x)p(,2,|x),,那么就认为,x,属于,1,,即这条鱼是鲈鱼。同理于:,这几个基本数据都已经给出了,因此可以计算出不等式的结果。,如果,p(,1,|x),g,j,(x,),,那么认为,x,属于第,i,个类别,i,。,比如令,g,i,(x,)=-,R(,i,|x,),。,上面是一个不等式关系,如果不等式两边都乘以相同的正数,或加上相同的树,或取自然对数。那么不等式的关系是不变的。因此不考虑损失时的贝叶斯判别函数:,可以写成:,四 正态分布,贝叶斯公式中的,p(x|,j,),是条件概率,代表在类别为,j,时,,x,的概率。比如在,j,为鲈鱼时,一个特定亮度,x,的概率。条件概率分布中常见的一个分布是高斯分布,(,正态分布,),。,正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家,Moivre,于,1733,年首次提出的,但由于德国数学家,Gauss(Carl,Friedrich Gauss,,,17771855),率先将其应用于天文学家研究,故正态分布又叫高斯分布。,高斯分布的形状是钟形曲线。,很多随机变量的概率分布都可以近似地用正态分布来描述。例如:,同一种生物体的身长、体重等指标;,百度高个吧投票的身高分布:,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;,同一种种子的重量;,测量同一物体的误差;,某个地区的年降水量;,学生的智力水平,包括学习能力,实际动手能力等呈正态分布。,单变量正态分布的概率密度函数:,其中,是均值,,是标准差。,均值就是所有数的平均数,就是把所有数都加起来再除以个数,2,方差就是把每个数减去它们的平均数再平方,把这些平方加起来再除以个数。方差表示统计数据的离散程度。,经常可以把上面的公式简写成:,p(x)N(,2,),。,多变量正态分布的概率密度函数:,其中,是,d,维平均向量。,是,d*d,的协方差矩阵。,|,是它的行列式,,-1,是它的转置。,经常可以把上面的公式简写成:,p(x)N(,),。,五 正态分布下的判别函数,将多变量正态分布公式带入下面的判别函数:,得到:,将单变量正态分布公式带入下面的判别函数:,得到:,1.,i,=,2,I,当所有变量都相互独立,且每个变量的方差都是,2,的时候,所有的协方差矩阵都相等:,i,=,2,I,。,此时,判别函数简化成了:,此时判别函数就变成了一个线性判别函数。,当,p(,i,),与,p(,j,),相等的时候,一二三维高斯分布:,如下求分割线,x,的位置:,当,p(,i,),与,p(,j,),不相等的时候,一二三维高斯分布:,2.,i,=,当所有类别的协方差矩阵,i,都相等的时候,说明所有类别的正态分布具有同样的形状。,此时,判别函数又可以简化成一个线性判别函数器。,3.,i,不固定,此时基本就没有什么可化简的了。,
展开阅读全文