模式识别-4-概率密度函数的估计

上传人:pia****nwu 文档编号:252964426 上传时间:2024-11-26 格式:PPT 页数:50 大小:664.50KB
返回 下载 相关 举报
模式识别-4-概率密度函数的估计_第1页
第1页 / 共50页
模式识别-4-概率密度函数的估计_第2页
第2页 / 共50页
模式识别-4-概率密度函数的估计_第3页
第3页 / 共50页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四章 概率密度函数的估计,概率密度估计的基础知识,参数估计理论,极大似然估计(,MLE,),贝叶斯估计(或称最大后验估计),贝叶斯学习,非参数估计理论,密度估计,Parzen,窗估计,K,近邻估计,(,KNE,),4-1 概率密度估计的基础知识,贝叶斯分类器中只要知道先验概率、条件概率或后验概概率 P(,i,),P(x/,i,), P(,i,/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(,i,),P(x/,i,), P(,i,/x),一参数估计与非参数估计,参数估计:,先假定研究的问题具有某种数学模型,如正态分布,二项分布,再用已知类别的学习样本估计里面的参数。,非参数估计:,不假定数学模型,直接用已知类别的学习样本的先验知识直接估计数学模型。,二监督参数估计与非监督参数估计,监督参数估计,:样本所属的类别及类条件总体概率概率密度函数的形式已知,而表征概率密度函数的某些参数是未知的。,目的在于,:由已知类别的样本集对总体分布的某些参数进行统计推断,此种情况下的估计问题称为监督参数估计。,非监督参数估计,:已知总体概率密度函数形式但未知样本所属类别,要求推断出概率密度函数的某些参数,称这种推断方法为非监督情况下的参数估计。,注,:监督与非监督是针对样本所属类别是已知还是未知而言的。,三. 参数估计得基本概念,1. 统计量,:样本中包含着总体的信息,总希望通过样本集把有关信息抽取出来。也就是说,针对不同要求构造出样本的某种函数,该函数称为统计量。,2. 参数空间,:在参数估计中,总假设总体概率密度函数的形式已知,而未知的仅是分布中的参数,将未知参数记为 ,于是将总体分布未知参数 的全部可容许值组成的集合称为参数空间,记为 。,3. 点估计、估计量和估计值,:点估计问题就是构造一个统计量 作为参数 的估计 ,在统计学中称 为 的估计量。若 是属于类别 的几个样本观察值,代入统计量d就得到对于第i类的 的具体数值,该数值就称为 的估计值。,4. 区间估计,:除点估计外,还有另一类估计问题,要求用区间 作为 可能取值范围得一种估计 ,此区间称为置信区间,该类估计问题称为区间估计。,5. 参数估计方法,:参数估计是统计学的经典问题,解决方法很多,在此只考虑两种常用方法:一种是最大似然估计方法,另一种是贝叶斯估计方法。,(1),最大似然估计:,把参数看作是确定而未知的,最好的估计值是在获得实际观察样本的最大的条件下得到的。,(2),贝叶斯估计:,把未知的参数当作具有某种分布的随机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。,6. 参数估计的评价,:评价一个估计的“好坏”,不能按一次抽样结果得到的估计值与参数真值 的偏差大小来确定,而必须从平均和方差的角度出发进行分析,即关于估计量性质的定义。,4-2参数估计理论,一极大似然估计,假定:,待估参数是确定的未知量,按类别把样本分成M类X,1,,X,2,,X,3,, X,M,其中第i类的样本共N个,X,i,= (X,1,X,2, X,N,),T,并且是独立从总体中抽取的, X,i,中的样本不包含 (ij)的信息,所以可以对每一,类样本独立进行处理。, 第i类的待估参数,根据以上四条假定,我们下边就可以只利用第i类学习样,本来估计第i类的概率密度,其它类的概率密度由其它类,的学习样本来估计。,1.一般原则:,第i类样本的类条件概率密度:,P(X,i,/,i,)= P(X,i,/,i,i,) = P(X,i,/,i,),原属于i类的学习样本为X,i,=(X,1, X,2,X,N,),T,i=1,2,M,求,i,的极大似然估计就是把P(X,i,/,i,)看成,i,的函数,求,出使它极大时的,i,值。,学习样本独立从总体样本集中抽取的,N个学习样本出现概率的乘积,取对数 :,对,i,求导,并令它为0:,有时上式是多解的, 上图有5个解,只有一个解最大即.,P(X,i,/,i,),2.,多维正态分布情况, 已知,未知,估计,服从正态分布,所以在正态分布时,代入上式得,所以,有,这说明未知均值的极大似然估计正好是训练样本的算术平均。, ,,均未知,A.,一维情况:n=1对于每个学习样本只有一个特征的简单情况:,(n=1),由上式得,即学习样本的算术平均,样本方差,讨论,:,1.,正态总体均值的极大似然估计即为学习样本的算术平均,2.,正态总体方差的极大似然估计与样本的方差不同,当,N,较大的时候,二者的差别不大。,B,多维情况:,n,个特征(推导过程,作为练习),估计值:,结论,:,的估计即为学习样本的算术平均,估计的协方差矩阵是矩阵 的算术,平均(,n,n,阵列,,n,n,个值,),二. 贝叶斯估计,极大似然估计是把待估的参数看作固定的未知量,而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量,通过对第i类学习样本X,i,的观察,通过贝叶斯准则将概率密度分布,P(X,i,/),转化为后验概率,P(/X,i,),,进而求使得后验概率分布最大的参数估计,也称最大后验估计。,估计步骤,:,确定的先验分布P(),待估参数为随机变量。, 用第i类样本x,i,=(x,1, x,2,. x,N,),T,求出样本的联合概率密度分布P(x,i,|),它是的函数。,利用贝叶斯公式,求的后验概率,下面以正态分布的均值估计为例说明贝叶斯估计的过程:,一维正态分布,:已知,2,估计,假设概率密度服从正态分布,P(X|,)=N(,2,), P(,)=N(,0,0,2,),第i类学习样本x,i,=(x,1, x,2,. x,N,),T, i=1,2,M,第i类概率密度P(x|,i,x,i,)=P(x|x,i,),所以由贝叶斯公式,则可得后验概率:,因为N个样本是,独立抽取,的,所以上式可以写成,其中,为,比例因子,只与x有关,与,无关, P(X,k,|,)=N(,2,),P(u)=N(,0,0,2,),其中a,a包含了所有与,无关的因子,P(,| X,i,)是u的二次函数的指数函数,P(,| X,i,)仍然是一个正态函数, P(,|X,i,)=N(,N,N,2,),另外后验概率可以直接写成正态形式:,比较以上两个式子,对应的系数应该相等,解以上两式得,将,N, 代入P(,|X,i,)可以得到后验概率,再用公式,对,的估计为,若令P(,)=N(,0, ,0,2,)=N(0,1),即为标准正态分布 ,且总体分布的方差 也为1,则,此时估计 与极大似然估计相似,只是分母不同。,三贝叶斯学习,1.贝叶斯学习的概念,:通过已有的概率分布和观测数据推理求出,的后验概率之后,直接去推导总体分布,即,当观察一个样本时,N=1就会有一个,的估计值的修正值;,当观察N=4时,对,进行修正,向真正的,靠近;,当观察N=9时,对,进行修正,向真正的,靠的更近;,当观察N个样本后,N,就反映了观察到N个样本后对,的最好推测,而,N,2,反映了这种推测的不确定性。N, ,N,2,N,2,随观察样本增加而单调减小,且当N,N,2,0,;,当N,P(,|x,i,)越来越尖峰突起,于是,N, P(,|x,i,) 函数,即收敛于一个以真实参数为中心的 函数,这个过程成为,贝叶斯学习,。,2类概率密度的估计,在求出u的后验概率P(,|x,i,)后,可以直接利用式,推断,类条件概率密度,。,即P(x|x,i,) P(x|,i,,x,i,),一维正态:已知,2,,,未知,的后验概率为,结论:,把第,i,类的先验概率,P(,i,),与第,i,类概率密度,P(x|x,i,),相乘可以得到第,i,类的后验概率,P(,i,|x,),,,根据后验概率可以分类。,对于正态分布,P(x|x,i,),,,用样本估计出来的,N,代替原来的,,,用 代替原来的方差 即可。,把估计值,N,作为,的实际值,,那么使方差由原来的 变为,使方差增大;也就是说:用,的估计值,N,代替真实值,,将引起不确定性增加。,多维正态,( 已知,,估计,),设P(x|,)=N(,) P(,)=N(,0,0,).,根据Bayes公式,仿上面步骤可以得到:,N,N,有以下关系,其中a与,无关,这就是在多维情况下,对,的估计。, 4-3 非参数估计,参数估计要求密度函数的形式已知,但这种假定有时并不成,立,常见的一些函数形式很难拟合实际的概率密度,经典的密,度函数都是单峰的,而在许多实际情况中却是多峰的,因此用,非参数估计。,非参数估计,:直接用已知类别样本去估计总体密度分布,方法有:,用样本直接去估计类概率密度p(x|,i,)以此来设计分类器,如窗口估计,用学习样本直接估计后验概率p(,i,|x)作为分类准则,来设计分类器,如K,N,近邻法。,1.,密度估计原理,:一个随机变量X落在区域R的概率为P,P(X)为P(X)在R内的变化值,P(X)就是要求的总体概率密度,R,P(x),假设有N个样本X=(X,1, X,2, X,N,),T,都是按照P(X)从总体中独,立抽取的, 若N个样本中有k个落入在R内的概率符合二项分布,其中,,P,是样本X落入R内的概率,P,k,是k个样本落入R内的概率,数学期望:E(k)=k=N,P,对概率P的估计: 。 是P的一个比较好的估计,设P(x)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上,几乎没有变化时,则,其中 是R包围的体积,条件密度的估计: (V足够小),讨论: 当V固定的时候N增加, k也增加,当 时,只反映了P(x)的空间平均估计,而反映不出空间的变化, N固定,体积变小,当 时,k=0时,时,所以起伏比较大,噪声比较大,需要对V进行改进.,对体积V进行改进:,为了估计X点的密度,我们构造一串包括X的区域序列: R,1,R,2,.R,N,。,对R,1,采用一个样本进行估计,,对R,2,采用二个样本进行估计,,.,设V,N,是R,N,的体积,K,N,是N个样本落入V,N,的样本数则:,密度的第N次估计:,其中:V,N,是R,N,的体积,K,N,是N个样本落入V,N,的样本数,P,N,(x)是P(x)的第N次估计,若P,N,(x)收敛于P(x)应满足三个条件:, ,当N时,V,N,,N,V,N,0,这时虽然样本数多,但由于V,N,,落入V,N,内的样本K,N,也减小,所以空间变化才反映出来;, ,N ,K,N, ,N与K,N,同向变化;, ,K,N,的变化远小于N的变化。 因此尽管在R内落入了很多的样本,但同总数N比较, 仍然是很小的一部分。,如何选择V,N,满足以上条件:,使体积V,N,以N的某个函数减小,如 (h为常数),,窗口法,。,使K,N,作为N的某个函数,例,V,N,的选择使R,N,正好包含K,N,个近邻,V,1,K,1,,V,2,K,2,,V,R,K,R,K,N,近邻法,2.Parzen窗口估计,假设R,N,为一个d维的超立方体,h,N,为超立方体的长度,超立方体体积为: ,,d=1,窗口为一线段 d=2,窗口为一平面,d=3,窗口为一立方体 d3,窗口为一超立方体,窗口的选择:,方窗函数,指数窗函数,正态窗函数,(u),(u),(u),h,N,正态窗函数,(u),是以原点x为中心的超立方体。,在x,i,落入方窗时,则有,在V,N,内为1,不在V,N,内为0,落入V,N,的样本数为所有为1者之和,密度估计,讨论:, 每个样本对估计所起的作用依赖于它到x的距离,即,| x-x,i,|h,N,/2时, x,i,在V,N,内为1,否则为0。, 称为 的窗函数,取0,1两种值,但有,时可以取0, 0.1, 0.2,多种数值,例如随x,i,离x接近的程度,,取值由0, 0.1, 0.2,到1。, 要求估计的P,N,(x)应满足:,为满足这两个条件,要求窗函数满足:, 窗长度h,N,对P,N,(x)的影响,若h,N,太大, P,N,(x)是P(x)的一个平坦, 分辨率低的估计, 有平均误差,若h,N,太小, P,N,(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差,为了使这些误差不严重, h,N,应很好选择。,例1:对于一个二类( ,1,,,2,)识别问题,随机抽取,1,类的6个样本X=(x,1,,x,2,,. x,6,),1,=(x,1,,x,2,,. x,6,),=(x,1,=3.2,x,2,=3.6,x,3,=3,x,4,=6,x,5,=2.5,x,6,=1.1),估计P(x|,1,)即P,N,(x),解:选正态窗函数,0,1,2,3,4,5,6,x,6,x,5,x,3,x,1,x,2,x,4,x,x是一维的,上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中,心的丘形曲线(正态曲线),而P,N,(x)则是这些曲线之和。,由图看出,每个样本对估计的贡献与样本间,的距离有关,样本越多,,P,N,(x),越准确。,例2:设待估计的P(x)是个均值为0,方差为1的正态密度,函数。若随机地抽取X样本中的1个、 16个、 256个作为,学习样本x,i,试用窗口法估计P,N,(x)。,解:设窗口函数为正态的, 1,,0,h,N,:窗长度,N为样本数,h,1,为选定可调节的参数。,用 窗法估计单一正态分布的实验,N,=,N,=256,N,=16,N,=1,讨论,:,由图看出, P,N,(x)随N, h,1,的变化情况,当N1时,,P,N,(x)是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。,当N16及N=256时,h,1,0.25 曲线起伏很大,噪声大,h,1,1 起伏减小,h,1,4 曲线平坦,平均误差,当,N时,,P,N,(x)收敛于一平滑的正态曲线,,估计曲线较好。,例3:,待估的密度函数为两个均匀,分布密度的混合密度,解:此为多峰情况的估计,设窗函数为正态,-2.5x-2,0x2,其它,x,-2.5,-2,1,0.25,0,2,P(x),N,=,N,=256,N,=16,N,=1,用 窗法估计两个均匀分布的实验,当N=1、16、256、,时的,P,N,(x),估计如图所示,当N1时,,P,N,(x) 实际是窗函数。,当N16及N=256时,h,1,0.25 曲线起伏大;h,1,1 曲线起伏减小,h,1,4 曲线平坦,当,N时,,曲线较好。,结论:,由上例知窗口法的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。,要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。,3. K,N,近邻估计:,在窗口法中存在一个问题是对h,N,的选择问题。若h,N,选太小,则大部分体积将是空的(即不包含样本),从而使P,N,(x)估计不稳定。若h,N,选太大,则P,N,(x)估计较平坦,反映不出总体分布的变化,而K,N,近邻法的思想是以x为中心建立空包,使V,直到捕捉到K,N,个样本为止,因此称其为K,N,-近邻估计。,V的改进体现为:样本密度大,V,N,;,样本密度小,V,N,;,P(x)的估计为:,使P,N,(x)收敛于P(x)的充分必要条件:, ,N与K,N,同相变化, ,K,N,的变化远小于N的变化,V,1,为N=1时的V,N,值,K,N,近邻估计对K,N,和V,N,都作了限制,K,N,近邻法作后验概率的估计,由K,N,近邻估计知N个已知类别样,本落入V,N,内为K,N,个样本的概率密度估计为:,N个样本落入V,N,内有K,N,个,K,N,个样本内有K,i,个样本属于,i,类,则联合概率密度:,根据Bayes公式可求出后验概率:,类别为,i,的后验概率就是落在V,N,内属于,i,的样,本k,i,与V,N,内总样本数K,N,的比值,K近邻分类准则:对于待分样本x,找出它的k个近邻,检查,它的类别,把x归于样本最多的那个类别。,K近邻分类的错误率随K,P,k,最低的错误率为Bayes分类。,P,*,P,K,4. 最近邻分类准则:,待分样本x,找一个离它最近的样本,把x归于最近的样本一类。,错误率:,M为类别数P(e)为Bayes估计的错误率,最近邻分类法则的错误率P比K近邻错误率还大,但最大,不会超过贝叶斯分类器错误率的二倍。,P,P(e),Bayes,K近邻,最近邻,作业,1.设总体概率分布密度为 , ,并设 ,分别用最大似然估计和贝叶斯估计计算 。已知 的先验分布为,2. 设对于一个二类( ,1,,,2,)识别问题,随机抽取,1,类的5个样本X=(x,1,,x,2,,. x,5,),即,1,=(x,1,,x,2,,. x,5,),x,1,=5.2,x,2,=5.6,x,3,=5,x,4,=8,x,5,=2.5,试用方窗函数、正态窗函数和指数窗函数,估计P(x|,1,),并讨论其性能。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!