资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,消,防,给,水,模式识别理论及其应用简介,Pattern Recognition and its Application,消,防,给,水,模式识别计算过程示意图,消,防,给,水,有监督模式识别(判别分析),如果样本的类别数是已知的,先用一组已知,类别的化合物作为训练集,建立判别模型,,再用建立的模型根据相似性原则来对未知,样本进行识别,称为判别分析。判别分析,是在事先知道类别特征的情况下建立判别,模型对样本进行识别归属,是一种有监督,模式识别。,消,防,给,水,无监督模式识别(聚类分析),如果预先不知道样本的类别,要在学,习过程中根据样本的相似性对被识,别的样品进行识别分类和归类,称,为聚类分析。聚类分析是完全依靠,样本自然特性进行识别的方法,是,一种无监督模式识别。,消,防,给,水,常用术语,特征抽提(,Feature Extraction,),训练集(,Training Set,),预报集(,Prediction Set,),识别率(,Recognition Rate,),预报能力(,Predictive Ability,),留一法(,Leaving One Method,),消,防,给,水,注意事项,训练集的数据一定要可靠。,训练集的样本数目要足够多,样本数,m,与模,式空间维数,n,的比值至少应满足,m/n,3,,最好,m/n,10,。,模式空间特征的选择是成败的关键,要选取,与样本分类有关的特征,如果不能包括与分类,有关的主要特征,模式识别就不会有好的效果。,消,防,给,水,模式识别的数据预处理,消,防,给,水,消,防,给,水,消,防,给,水,特征抽提,消,防,给,水,模式间相似度的度量,消,防,给,水,消,防,给,水,马氏距离(,Mahalanobis Distance,),?,设,X,i,是从均值为,,协方差阵为,Z,的总体,G,中的样本,则它们的马氏距离为,D,ij,?,(,X,i,?,X,j,),Z,(,X,i,?,X,j,),T,?,1,?,而,X,i,与总体,G,的距离为它与均值,的距离,D,ij,?,(,X,i,?,?,),Z,(,X,i,?,?,),T,?,1,消,防,给,水,马氏距离(,Mahalanobis Distance,),其中,X,i,为样本,i,所有变量构成的,p,1,维向,量,,,Z,为,关,于,p,个,变,量,的,协,方,差,阵,(,p,p,维)。,当采用主成分得分向量,T,i,替代,X,i,时,由,于主成分向量正交,,Z,成为由其方差,(特征值)构成的对角阵,此时马氏,m,距离为,:,D,?,(,T,?,T,),2,/,?,ij,?,k,?,1,ik,jk,k,消,防,给,水,消,防,给,水,K-Nearest Neighbors Discrimination,Method,KNN,法的基本假设:,“,同类样本在模式空间,中相互较靠近,”,。,消,防,给,水,K,最近邻法考查未知样本点的,K,个近邻(,K,为单数整,数),若近邻某一类样本最多,则可将未知样本,判为该类。,为了进行定量判别,可先找出待分类样本的最近邻,,并事先约定最近邻区域中的训练集样本数。如果,只取一个最近邻样本点,即样本数为,则称,1NN,法;如果取个最近邻样本点,即样本数为,2,,,则称,2NN,法;如果样本数为,K,,则称,K,近邻法,简,称,KNN,法。,消,防,给,水,KNN,算法,计算未知样本点和所有训练集样本点之间的距离。,从最小距离开始计样本数,一直计到有,K,个样本数为,止,此时所对应的距离就为最近邻的最小距离。,如果在这个最小距离中,距某一类训练集中的样本,数多,距离又小,则可将待分类样本划到该类中。,优点:对数据结构无特殊要求,简单易行,不需要,训练过程。,缺点:未对训练点进行信息压缩,每判断一个点都,要将其对所有已知点的距离计算一遍,工作量较大。,消,防,给,水,简化的,KNN,法,类重心法,将训练集中每类样本点的重心求出,然,后判别未知样本点与各类重心的距离。,未知样本点距哪一类重心距离最近,,即未知样本属于哪一类。,例:有两种地层,用,7,种指标的分析数,据判别,先从已经准确判断的地层中,各取,9,个样本,测得的数据如下表:,消,防,给,水,消,防,给,水,将上表数据进行归一化处理后计算两,类的重心得:,C,1,=-0.0103,0.0402,-0.0246,0.0166,0.0313,-0.0246,-0.0174,C,2,=0.0103,-0.0402,0.0246,-0.0166,-0.0313,0.0246,0.0174,地层,I,、,II,的每一个矢量与,C,1,和,C,2,的距,离分别如表,a,和表,b,所示:,消,防,给,水,线性学习机法,Linear learning machine,LLM,作为模式识别中决策分类的一种方法,该,法希望通过某种方法,在模式空间中到,找到一个,判决面(此面叫做分类器),,,使不同类的模式点分别位于判别面的两,侧。未知模式的分类可根据它位于判别,面的哪一侧来定。若判别面是一个线性,超平面,,就叫线性分类器,。,消,防,给,水,消,防,给,水,消,防,给,水,例:现有甲状腺病人(记为类,1,)和正常,人(记为类,2,)各,10,例,分别测试,5,项,功能指标,测试结果见表,a,和表,b,所示。,以每一类的前,8,个,样本作为训练集,(表,a,),后,2,个作为测试集(表,b,)。,用,LLM,法对其进行判别。,消,防,给,水,消,防,给,水,消,防,给,水,消,防,给,水,消,防,给,水,消,防,给,水,基于主成分对近红外光谱进行,discrimination analysis,的方法原理,对建模样品的近红外光谱进行主成分分析,,将原来上千个波长点下的近红外吸光值,压缩为,m,个主成分得分来表示;,计算每一类样品在,主成分坐标系(即载荷,轴、特征向量,又叫主成分光谱),下的,类重心坐标;,求每个样品到每一类重心的马氏距离,距,哪一类马氏距离最小,该样品就归哪一,类。,消,防,给,水,无监督模式识别法,不需要训练集,对所研究的模式进行,适当分类的问题则需要用无监督模,式识别方法,这类模式识别方法又,叫,聚,类,分,析,法,(clustering,analysis,method),。,消,防,给,水,常用聚类分析方法有:,分级聚类分析法,Hierarchical clustering methods,最小(大)生成树法,Minimun,(,Max,),Spanning,Tree Method,K,均值聚类法,K-means Clustering Method,模糊聚类法,Fuzzy clustering method,PCA,投影分类法等等,消,防,给,水,1,基于,PCA,的聚类分析法,因为,t,X=USV,即,XV=US,亦即,XV=v,1,v,2,.,v,A,=US,可见矩阵,US=T(,亦称非标准化的得分矩阵,),的每一个元,素实际是每一个样本向量,x,i,t,(i=1,2,.,n),对荷载矩阵,V,中的每一相互正交的荷载矢量上的投影坐标(内积,本质上就是投影),它反映了样本与样本之间的相,互关系,;,同理可得,载荷矩阵的每一个元素实际是每,一个变量向量,x,j,(j=1,2,.,d),对得分矩阵中的每一相互,正交的得分矢量上的投影坐标,它反映了变量与变,量之间的相互关系。,主成分分析的数学,与几何意义示意图,消,防,给,水,Projection discrimination based on,principal component analysis,消,防,给,水,消,防,给,水,2,基于相似统计量的分类方法,(,1,),一次计算形成法,该法根据相似矩阵直接按相似性的大小连接成图。,首先选出最相似的一对样本,连接成组,并随时,把有关连接顺序、被连接的样品号和相似性水平,记入连接顺序表中,连接完一对样本后,再选择,相似性大的一对,如此依次进行,直到把所有点,都聚合为一群并得到一个连接顺序表,根据该表,作出分类谱系图。,消,防,给,水,i),若选出的一对样本在已形成的组中均未出,现过,则将它们形成一个独立的新组。,ii),若选出的一对样本中有一个在已经分好的,组中出现过,则把另一个样品加入该组中。,iii),若选出的两对样品都分别出现在两个组,中,则把这两个组合并为一个组。,iv),若选出的一对样品都在同一组中则不需再,分组。,消,防,给,水,消,防,给,水,消,防,给,水,某铜镍矿床样品的聚类分析谱系图,(,2,),最大生成树法,Largest Spanning Tree Method,消,防,给,水,消,防,给,水,上图点与点之间的数据叫作,路径强度,,表示两,样本点间的相似程度。如果一个路径的起点,与终点重合,称这条路径构成一个,回路,,对,于图中砍去某些边得到的树叫,生成树,。若某,生成树所有路径的强度都大于或等于其它生,成树的路径强度,则称此生成树为,最大生成,树。,只要找到相似关图的最大生成树,就可以根据,最大生成树进行模糊聚类分析,其分类准则,是:对于规定的阈值水平,?,,路径强度大于,?,的顶点可归为一类。,消,防,给,水,根据最大生成树进行聚类分析的方法如下:,(,1,)先连接路径强度最大的两点,然后连接路,径强度次大的两点;,(,2,)继续连接所剩下点的最大路径强度的两点,,直到所有的点都被连接;,(,3,)对连接所得到的树进行检查,找到最小路,径的边,将其割断就得到两类,如此继续分割,,直至类数已达到所要分的类数。,消,防,给,水,消,防,给,水,模式识别在分析化学中的应用,谱图解析,理想的谱图解析方法是彻底弄清各种,谱图产生的机理,从理论上完成从实,测谱图到化学成分、分子结构、化学,键等化学信息的变换。但实际上很难,完全做到这点。,谱图数据的急剧增加使得单凭少数有经,验的专家来做谱图解析已不能满足需,要。,消,防,给,水,计算机图谱解析技术:,(,1,)数据库图谱显示方法,将大量已,知化合物的图谱存入数据库,通过检,索的方祛来识别谱图。,(,2,)模式识别法,利用已知谱图作训,练集,对未知物的谱图作分类、鉴别,以至结构测定等等,(,例如近红外仪软,件中的定性分析软件)。,消,防,给,水,模式识别方法有某种,“,举一反三,”,的功能,,能从大量已知化合物图谱抽提具有较普遍意,义的规律,用来对未知化合物的谱图分类。,这使得模式识别方法在谱图解析、分析化学、,结构确定等方面有重要的实际意义。,迄今为止,质谱、原子光谱、红外光谱、核,磁共振谱、,射线谱、色谱、极谱等的谱图,识别都已用了模式识别方法,不同程度地收,到效果。这方面的研究工作是现代分析化学,的前沿课题之一。,消,防,给,水,(,3,)模式识别在核磁共振谱解析中的应用,用,1,H-NMR,谱,按,2.5Hz,区,段,(,总,频,率,范,围,0500Hz,)取,200,个模式向量的分量用于识,别分子结构。,用模拟的,NMR,谱演示线性分类法识别乙基、,正丙基和异丙基等基团。但用,99,个,NMR,谱,作线性判别函数分类时,因线性可分,预,报能力仅,45%,。改用,K,最近邻法则分类结,果大有改进,预报能力达,93%,。,
展开阅读全文