模式识别方法_装配图网

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,消,防,给,水,模式识别理论及其应用简介,Pattern Recognition and its Application,消,防,给,水,模式识别计算过程示意图,消,防,给,水,有监督模式识别（判别分析）,如果样本的类别数是已知的，先用一组已知,类别的化合物作为训练集，建立判别模型，,再用建立的模型根据相似性原则来对未知,样本进行识别，称为判别分析。判别分析,是在事先知道类别特征的情况下建立判别,模型对样本进行识别归属，是一种有监督,模式识别。,消,防,给,水,无监督模式识别（聚类分析）,如果预先不知道样本的类别，要在学,习过程中根据样本的相似性对被识,别的样品进行识别分类和归类，称,为聚类分析。聚类分析是完全依靠,样本自然特性进行识别的方法，是,一种无监督模式识别。,消,防,给,水,常用术语,特征抽提（,Feature Extraction,）,训练集（,Training Set,）,预报集（,Prediction Set,）,识别率（,Recognition Rate,）,预报能力（,Predictive Ability,）,留一法（,Leaving One Method,）,消,防,给,水,注意事项,训练集的数据一定要可靠。,训练集的样本数目要足够多，样本数,m,与模,式空间维数,n,的比值至少应满足,m/n,3,，最好,m/n,10,。,模式空间特征的选择是成败的关键，要选取,与样本分类有关的特征，如果不能包括与分类,有关的主要特征，模式识别就不会有好的效果。,消,防,给,水,模式识别的数据预处理,消,防,给,水,消,防,给,水,消,防,给,水,特征抽提,消,防,给,水,模式间相似度的度量,消,防,给,水,消,防,给,水,马氏距离（,Mahalanobis Distance,）,?,设,X,i,是从均值为,，协方差阵为,Z,的总体,G,中的样本，则它们的马氏距离为,D,ij,?,(,X,i,?,X,j,),Z,(,X,i,?,X,j,),T,?,1,?,而,X,i,与总体,G,的距离为它与均值,的距离,D,ij,?,(,X,i,?,?,),Z,(,X,i,?,?,),T,?,1,消,防,给,水,马氏距离（,Mahalanobis Distance,）,其中,X,i,为样本,i,所有变量构成的,p,1,维向,量,，,Z,为,关,于,p,个,变,量,的,协,方,差,阵,（,p,p,维）。,当采用主成分得分向量,T,i,替代,X,i,时，由,于主成分向量正交，,Z,成为由其方差,（特征值）构成的对角阵，此时马氏,m,距离为,：,D,?,(,T,?,T,),2,/,?,ij,?,k,?,1,ik,jk,k,消,防,给,水,消,防,给,水,K-Nearest Neighbors Discrimination,Method,KNN,法的基本假设：,“,同类样本在模式空间,中相互较靠近,”,。,消,防,给,水,K,最近邻法考查未知样本点的,K,个近邻（,K,为单数整,数），若近邻某一类样本最多，则可将未知样本,判为该类。,为了进行定量判别，可先找出待分类样本的最近邻，,并事先约定最近邻区域中的训练集样本数。如果,只取一个最近邻样本点，即样本数为，则称,1NN,法；如果取个最近邻样本点，即样本数为,2,，,则称,2NN,法；如果样本数为,K,，则称,K,近邻法，简,称,KNN,法。,消,防,给,水,KNN,算法,计算未知样本点和所有训练集样本点之间的距离。,从最小距离开始计样本数，一直计到有,K,个样本数为,止，此时所对应的距离就为最近邻的最小距离。,如果在这个最小距离中，距某一类训练集中的样本,数多，距离又小，则可将待分类样本划到该类中。,优点：对数据结构无特殊要求，简单易行，不需要,训练过程。,缺点：未对训练点进行信息压缩，每判断一个点都,要将其对所有已知点的距离计算一遍,工作量较大。,消,防,给,水,简化的,KNN,法,类重心法,将训练集中每类样本点的重心求出，然,后判别未知样本点与各类重心的距离。,未知样本点距哪一类重心距离最近，,即未知样本属于哪一类。,例：有两种地层，用,7,种指标的分析数,据判别，先从已经准确判断的地层中,各取,9,个样本，测得的数据如下表：,消,防,给,水,消,防,给,水,将上表数据进行归一化处理后计算两,类的重心得：,C,1,=-0.0103,0.0402,-0.0246,0.0166,0.0313,-0.0246,-0.0174,C,2,=0.0103,-0.0402,0.0246,-0.0166,-0.0313,0.0246,0.0174,地层,I,、,II,的每一个矢量与,C,1,和,C,2,的距,离分别如表,a,和表,b,所示：,消,防,给,水,线性学习机法,Linear learning machine,LLM,作为模式识别中决策分类的一种方法，该,法希望通过某种方法，在模式空间中到,找到一个,判决面（此面叫做分类器）,，,使不同类的模式点分别位于判别面的两,侧。未知模式的分类可根据它位于判别,面的哪一侧来定。若判别面是一个线性,超平面，,就叫线性分类器,。,消,防,给,水,消,防,给,水,消,防,给,水,例：现有甲状腺病人（记为类,1,）和正常,人（记为类,2,）各,10,例，分别测试,5,项,功能指标，测试结果见表,a,和表,b,所示。,以每一类的前,8,个,样本作为训练集,（表,a,），后,2,个作为测试集（表,b,）。,用,LLM,法对其进行判别。,消,防,给,水,消,防,给,水,消,防,给,水,消,防,给,水,消,防,给,水,消,防,给,水,基于主成分对近红外光谱进行,discrimination analysis,的方法原理,对建模样品的近红外光谱进行主成分分析，,将原来上千个波长点下的近红外吸光值,压缩为,m,个主成分得分来表示；,计算每一类样品在,主成分坐标系（即载荷,轴、特征向量，又叫主成分光谱）,下的,类重心坐标；,求每个样品到每一类重心的马氏距离，距,哪一类马氏距离最小，该样品就归哪一,类。,消,防,给,水,无监督模式识别法,不需要训练集，对所研究的模式进行,适当分类的问题则需要用无监督模,式识别方法，这类模式识别方法又,叫,聚,类,分,析,法,(clustering,analysis,method),。,消,防,给,水,常用聚类分析方法有：,分级聚类分析法,Hierarchical clustering methods,最小（大）生成树法,Minimun,（,Max,）,Spanning,Tree Method,K,均值聚类法,K-means Clustering Method,模糊聚类法,Fuzzy clustering method,PCA,投影分类法等等,消,防,给,水,1,基于,PCA,的聚类分析法,因为,t,X=USV,即,XV=US,亦即,XV=v,1,v,2,.,v,A,=US,可见矩阵,US=T(,亦称非标准化的得分矩阵,),的每一个元,素实际是每一个样本向量,x,i,t,(i=1,2,.,n),对荷载矩阵,V,中的每一相互正交的荷载矢量上的投影坐标（内积,本质上就是投影），它反映了样本与样本之间的相,互关系,;,同理可得，载荷矩阵的每一个元素实际是每,一个变量向量,x,j,(j=1,2,.,d),对得分矩阵中的每一相互,正交的得分矢量上的投影坐标，它反映了变量与变,量之间的相互关系。,主成分分析的数学,与几何意义示意图,消,防,给,水,Projection discrimination based on,principal component analysis,消,防,给,水,消,防,给,水,2,基于相似统计量的分类方法,（,1,）,一次计算形成法,该法根据相似矩阵直接按相似性的大小连接成图。,首先选出最相似的一对样本，连接成组，并随时,把有关连接顺序、被连接的样品号和相似性水平,记入连接顺序表中，连接完一对样本后，再选择,相似性大的一对，如此依次进行，直到把所有点,都聚合为一群并得到一个连接顺序表，根据该表,作出分类谱系图。,消,防,给,水,i),若选出的一对样本在已形成的组中均未出,现过，则将它们形成一个独立的新组。,ii),若选出的一对样本中有一个在已经分好的,组中出现过，则把另一个样品加入该组中。,iii),若选出的两对样品都分别出现在两个组,中，则把这两个组合并为一个组。,iv),若选出的一对样品都在同一组中则不需再,分组。,消,防,给,水,消,防,给,水,消,防,给,水,某铜镍矿床样品的聚类分析谱系图,（,2,）,最大生成树法,Largest Spanning Tree Method,消,防,给,水,消,防,给,水,上图点与点之间的数据叫作,路径强度,，表示两,样本点间的相似程度。如果一个路径的起点,与终点重合，称这条路径构成一个,回路,，对,于图中砍去某些边得到的树叫,生成树,。若某,生成树所有路径的强度都大于或等于其它生,成树的路径强度，则称此生成树为,最大生成,树。,只要找到相似关图的最大生成树，就可以根据,最大生成树进行模糊聚类分析，其分类准则,是：对于规定的阈值水平,?,，路径强度大于,?,的顶点可归为一类。,消,防,给,水,根据最大生成树进行聚类分析的方法如下：,（,1,）先连接路径强度最大的两点，然后连接路,径强度次大的两点；,（,2,）继续连接所剩下点的最大路径强度的两点，,直到所有的点都被连接；,（,3,）对连接所得到的树进行检查，找到最小路,径的边，将其割断就得到两类，如此继续分割，,直至类数已达到所要分的类数。,消,防,给,水,消,防,给,水,模式识别在分析化学中的应用,谱图解析,理想的谱图解析方法是彻底弄清各种,谱图产生的机理，从理论上完成从实,测谱图到化学成分、分子结构、化学,键等化学信息的变换。但实际上很难,完全做到这点。,谱图数据的急剧增加使得单凭少数有经,验的专家来做谱图解析已不能满足需,要。,消,防,给,水,计算机图谱解析技术：,（,1,）数据库图谱显示方法,将大量已,知化合物的图谱存入数据库，通过检,索的方祛来识别谱图。,（,2,）模式识别法,利用已知谱图作训,练集，对未知物的谱图作分类、鉴别,以至结构测定等等,(,例如近红外仪软,件中的定性分析软件）。,消,防,给,水,模式识别方法有某种,“,举一反三,”,的功能，,能从大量已知化合物图谱抽提具有较普遍意,义的规律，用来对未知化合物的谱图分类。,这使得模式识别方法在谱图解析、分析化学、,结构确定等方面有重要的实际意义。,迄今为止，质谱、原子光谱、红外光谱、核,磁共振谱、,射线谱、色谱、极谱等的谱图,识别都已用了模式识别方法，不同程度地收,到效果。这方面的研究工作是现代分析化学,的前沿课题之一。,消,防,给,水,（,3,）模式识别在核磁共振谱解析中的应用,用,1,H-NMR,谱,按,2.5Hz,区,段,（,总,频,率,范,围,0500Hz,）取,200,个模式向量的分量用于识,别分子结构。,用模拟的,NMR,谱演示线性分类法识别乙基、,正丙基和异丙基等基团。但用,99,个,NMR,谱,作线性判别函数分类时，因线性可分，预,报能力仅,45%,。改用,K,最近邻法则分类结,果大有改进，预报能力达,93%,。,

展开阅读全文

模式识别方法

最新文档