资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七章 特征提取与选择,特征形成,特征提取,特征选择,目的,:,7.1,概 述,直接选择法,分支定界法;,用回归建模技术确定相关特征等方法。,变换,法,在使判据,J,max,的目标下,对,n,个原始特征进行变换,降维,,即对原,n,维特征空间进行坐标变换,然后再取子空间。主要方法有:,基于可分性判据的特征选择,基于误判概率的特征选择,离,散,K-L,变换法,(DKLT,),基于决策界的特征选择等方法。,7.2,类别可分性判据,(Class Separability Measures),准则,类别可分性判据,:,刻划特征对分类的贡献。,构造的可分性判据,J,ij,应满足下列要求:,(1),与误分概率,P(e),(,或误分概率的上界、下界,),有单调关系,,J,ij,最大值时,,P(e),最小。,(2),当特征相互独立时,判据有,可加性,,即,式中,x,k,,是对象不同种类特征的测量值,,J,ij,(),表示使用括号中特征时第,i,类与第,j,类的可分性判据函数。,(3),判据具有,“,距离,”,的某些特性:,J,ij,0,,,当,ij,时,J,ij,=0,,,当,i=j,时,J,ij,=J,ji,(,4),J,ij,对特征数目单调不减,,即加入新的特征后,判据值不减,所构造的可分性判据并不一定要求同时具有上述四个性质。,7.2.1,基于几何距离的可分性判据,可以用距离或离差测度,(,散度,),来构造类别可分性判据,(,一,),点与点的距离,在,n,维特征空间中,点 与 点之间的欧氏距离为,(,二,),点到点集的距离,点 到点集 之间的均方欧氏距离为,(,三,),类内及总体的均值矢量,设,N,个模式分属,c,类,则,各类的均值矢量分别为,所有,各类模式的总体均值矢量为,式中,P,i,为相应类的先验概率。当用统计量代替先验概率时,有,(,四,),类内距离,类内均方欧氏距离为类内均方距离也可定义为,(,五,),类内离差(散布)矩阵,(Scatter),类内离差矩阵定义为类内离差矩阵,S,Wi,的迹等于类内的均方欧氏距离,即类内离差矩阵表示各类模式在类的均值矢量周围的散布情况。,(,六,),两类之间的距离,当,式中的距离取欧氏距离时,有,(,七,),各类模式之间的总的均方距离,当,取欧氏距离时,(,八,),多类情况下总的类内、类间及总体离差(散布)矩阵,总的类内离差矩阵定义为,总的类间离差矩阵定义为,总体离差矩阵为,易导出,可分性判据 (类内紧,类间开,),可以证明,J,1,、,J,2,与,J,4,在任何非奇异线性变换下是不变的,,,J,3,与坐标系有关。,7.2.2,基于类的概率密度函数的可分性判据,用两类概密函数的,重迭程度,来度量可分性,构造基于类概密的可分性判据,J,p,,它,应满足:,(1),J,p,0,;,(2),当两类密度函数完全不重迭时,,J,p,=max,;,(3),当两类密度函数完全重合时,,J,p,=0,;,(4),相对两个概密具有,“,对称性,”,。,(a),(b),(,一,)Bhattacharyya,判据,(J,B,),在最小误分概率准则下,,误分概率,(,受相关定义与应用的启发,构造,B-,判据,),(,二,)Chernoff,判据,(J,C,),性质:,(1),对一切,0s1,,,Jc,0,;,(2),对,一切,0s1,的那个节点,则转入与当前节点左邻的,s,深度的那个节点,使该节点成为当前节点,按前面的方法沿它最右边的子树继续搜索。,在搜索过程中先要判该节点的,J,值是否比,B,值大。若不大于,B,值,该节点以下的各子节点,J,值均不会比,B,大,,故无需对该子树继续进行搜索,。,BAB,算法,7.7.2,最优搜索法,如果搜索到叶节点,且该叶节点代表的特征的可分性判据,JB,,则更新界值,即,B=J,;否则不更新界值。,到达叶节点后,要向上回溯。重复上述过程,直到,J,B,为止。而对应当前(最大)界值,B,的叶节点对应的,d,个特征组合就是所求的最优的选择。,BAB,算法效率高的原因,:,(1),在构造搜索树时,同一父节点的各子树的右边的边要比左边的少,即树的结构右边比左边简单;,(2),在同一级中按最小的,J,值从左到右挑选舍弃的特征,即节点的,J,值是,左小右大,,而搜索过程是从右至左进行的;,(3),因,J,的,单调性,,若树上某节点,A,的可分性判据值,J,A,B,,则,A,子树上各节点的,J,值都不会大于,B,,因此不需要搜索,A,子树。,从上可知,有很多特征组合不需计算仍能求得全局最优解。,
展开阅读全文