资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,特征选择和提取,特征选择和提取,1,特征选择和提取,特征选择和提取是模式识别中的一个关键问题,前面讨论分类器设计的时候,一直假定已给出了特征向量维数确定的样本集,其中各样本的每一维都是该样本的一个特征;,这些特征的选择是很重要的,它强烈地影响到分类器的设计及其性能;,假若对不同的类别,这些特征的差别很大,则比较容易设计出具有较好性能的分类器。,特征选择和提取特征选择和提取是模式识别中的一个关键问题,2,特征选择和提取,特征选择和提取是构造模式识别系统时的一个重要课题,在很多实际问题中,往往不容易找到那些最重要的特征,或受客观条件的限制,不能对它们进行有效的测量;,因此在测量时,由于人们心理上的作用,只要条件许可总希望把特征取得多一些;,另外,由于客观上的需要,为了突出某些有用信息,抑制无用信息,有意加上一些比值、指数或对数等组合计算特征;,如果将数目很多的测量值不做分析,全部直接用作分类特征,不但耗时,而且会影响到分类的效果,产生“特征维数灾难”问题。,特征选择和提取特征选择和提取是构造模式识别系统时的一个重要,3,特征选择和提取,为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征;,在保证一定分类精度的前提下,减少特征维数,即进行“降维”处理,使分类器实现快速、准确和高效的分类。,为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择。,应去掉模棱两可、不易判别的特征;,所提供的特征不要重复,即去掉那些相关性强且没有增加更多分类信息的特征。,特征选择和提取为了设计出效果好的分类器,通常需要对原始的测,4,特征选择和提取,说明,实际上,特征选择和提取这一任务应在设计分类器之前进行;,从通常的模式识别教学经验看,在讨论分类器设计之后讲述特征选择和提取,更有利于加深对该问题的理解。,特征选择和提取说明,5,特征选择和提取,所谓特征选择,就是从n个度量值集合x,1,x,2,x,n,中,按某一准则选取出供分类用的子集,作为降维(m维,mn)的分类特征;,所谓特征提取,就是使(x,1,x,2,x,n,)通过某种变换,产生m个特征(y,1,y,2,y,m,)(m,2,,故,最优2x1特征提取器此时的K-L变换式为:,特征提取,未知类别样本的K-L变换用总体样本的协方差矩阵C=E(x-,39,7.3 离散K-L变换,5.3.1 离散的有限K-L展开,展开式的形式,如果对c种模式类别,i,i=1,c,做离散正交展开,则对每一模式可分别写成:x,i,=,a,i,,其中矩阵 取决于所选用的正交函数。,对各个模式类别,正交函数都是相同的,但其展开系数向量a,i,则因类别的不同模式分布而异。,K-L展开式的性质,K-L展开式的根本性质是将随机向量x展开为另一组正交向量,j,的线性和,且其展开式系数,a,j,(即系数向量a的各个分量)具有不同的性质。,在此条件下,正交向量集,j,的确定,K-L展开式系数的计算步骤,7.3 离散K-L变换5.3.1 离散的有限K-L展开,40,7.3 离散K-L变换,5.3.2 按,K-L展开式选择特征,K-L展开式用于特征选择相当于一种线性变换。,若从K个特征向量中取出m个组成变换矩阵,,,即,=(,1,2,m,),m,2,m,n,=0,若首先采用前面的m个特征向量,便可使变换误差最小。此时的变换矩阵为,7.3 离散K-L变换5.3.2 按K-L展开式选择特征,43,7.3 离散K-L变换,5.3.2 按,K-L展开式选择特征,结论,K-L变换是在均方误差最小的意义下获得数据压缩的最佳变换,且不受模式分布的限制。对于一种类别的模式特征提取,它不存在特征分类问题,只是实现用低维的m个特征来表示原来高维的n个特征,使其误差最小,亦即使其整个模式分布结构尽可能保持不变。,7.3 离散K-L变换5.3.2 按K-L展开式选择特征,44,7.3 离散K-L变换,5.3.2 按,K-L展开式选择特征,结论,通过K-L变换能获得互不相关的新特征。若采用较大特征值对应的特征向量组成变换矩阵,则能对应地保留原模式中方差最大的特征成分,所以K-L变换起到了减小相关性、突出差异性的效果。在此情况下,K-L变换也称为主成分变换。,7.3 离散K-L变换5.3.2 按K-L展开式选择特征,45,7.3 离散K-L变换,5.3.2 按,K-L展开式选择特征,K-L变换实例,原始模式分布,特征提取,7.3 离散K-L变换5.3.2 按K-L展开式选择特征,46,作业,设有如下两类样本集,其出现的概率相等:,1,:(0 0 0),T,(1 0 0),T,(1 0 1),T,(1 1 0),T,2,:(0 0 1),T,(0 1 0),T,(0 1 1),T,(1 1 1),T,用K-L变换,分别把特征空间维数降到二维和一维,并画出样本在该空间中的位置。,作业设有如下两类样本集,其出现的概率相等:,47,
展开阅读全文