资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,模式识别与分类,导言,数据预处理,无监督方法,有监督方法,本章作业,模式识别与分类,导言,Clustering/Classification,统称,如下问题,人眼识别物,中医看舌苔/脉搏,图谱辨别化合物,低维与高维数据,一次观察的矢量表示,n为空间维数,变量数变量即特征各特征类型/量纲/大小相差大,模式识别与分类,数据预处理,值域调整,range scaling,自标度化,Autoscaling,均值0方差1模长,模式识别与分类,数据预处理,标准化,Normalization,模长为1,色谱面积归1,质谱最大为1,模式识别与分类,数据预处理,变换法,原变量相加/减/除等,组合法,模式识别与分类,数据预处理,特征的选择,偏差权重法,s大的变量更重要,Fisher比率法,F大的变量更重要,模式识别与分类,数据预处理,协方差矩阵,C,与相关矩阵,R,对于,n,为对象数,,p,为特征数,方差,j,=1,p,协方差,j,k,=1,p;jk,模式识别与分类,数据预处理,方差-协方差矩阵,简称协方差矩阵如下:,对称矩阵,模式识别与分类,数据预处理,相关矩阵如下:,其中,但对于,Autoscaling,后的数据,,s,=1。,C,即为,R,。,模式识别与分类,主成分分析PCA,因子分析FA,聚,类分析,clustering,无监督方法,模式识别与分类,PCA,得分score载荷loading,d,为主成分数,模式识别与分类,PCA,投影判别法,数据重构组成互不相关的新变量 取较少的主成分数(常为2),完成分类,模式识别与分类,PCA实例1,不同嫌疑人头发中元素的含量(g/g),样品CuMnClBrI,19.20.30 173012.0 3.6,212.40.39 93050.0 2.3,37.20.32 275065.3 3.4,410.20.36 15003.4 5.3,510.10.50 104039.2 1.9,66.50.20 249090.0 4.6,75.60.29 294088.0 5.6,811.80.42 86743.1 1.5,98.50.25 16205.2 6.2,原始数据,X,(95),autoscaling,计算,相关矩阵,计算,特征值,返回,模式识别与分类,方差百分数,主成分数的确定,指定 ,如90% 相应的,d,PCA实例1,头发样品中的特征值与方差,成分数 特征值, 方差% 累计方差%,1 3.352 67.05 67.05,2,1.182 23.65,90.70,3 0.285 5.70 96.40,4 0.135 2.70 99.10,5 0.045 0.90 100.00,特征值1,对于,相关矩阵,1的成分为主成分,Scree检验,nPC在2-3间斜率下降,因此,d=2,合适,模式识别与分类,得分图,主成分图形解释,PCA实例1,3个聚类分属三人,t,1对,t,2作图,t1,最重要,模式识别与分类,主成分图形解释,PCA实例1,载荷图,l,1对,l,2作图,特征,在主成分上的投影,各变量,的相关信息,夹角,越小,相关性越高,高度,相关的特征取1即可,载荷,大小是重要性的度量,位于,原点的载荷不重要,金属,间的相关性大于卤素间的Cu与Cl反性相关,l,1最重要,距原点距离越大,该特征权重越大,Cu,模式识别与分类,主成分图形解释,PCA实例1,相似系数或相关系数表,Cu,Cu 1.000 Mn,Mn 0.697 1.000 Cl,Cl -0.950 -0.692 1.000 Br,Br -0.530,-0.233,0.588 1.000,I -0.645 -0.749 0.581,-0.084,相似系数,相关系数,Br/I,接近正交,Cu/Cl,负相关,1:完全相同0:完全正交,自标度化的数据cos,=,r,模式识别与分类,得分图,主成分图形解释,PCA实例1,特征的选择,5个全取,取Cu/Br/I,仍能分类,效果略差,取Cu/Mn/Cl,分类效果差,l,2无效果,3,个,仅1个1,2.57,0.38,0.05,一维投影结果,原始数据,模式识别与分类,主成分图形解释,PCA实例1,双重图,biplot,t,1各元素均有贡献,t,2由Br和I表征,Cu/Mn/Cl/I将对象聚为2组Br将对象聚为另2组,模式识别与分类,PCA实例1,应用示例,烟叶硅烷化色谱,辽宁凤城烟叶不同部位烟叶的区分,下部,上部,中部,模式识别与分类,FA,用少数几个通用因子描述矩阵中的特征,抽象因子需经旋转变换成实因子,TTFA,包含d,个因子的特征参数,各因子对应1个起因,与对应因子相关的载荷分数,由,剩余p-d个和通用因子无关的特殊因子构成,如,噪声因子,模式识别与分类,FA,目标转换因子分析Target Transformation FA,变换矩阵,抽象载荷,目标,预测目标,均值相对偏差relative deviation估计两者的一致性,模式识别与分类,FA实例TTFA,多环芳烃HPLC-DAD数据,有3个重要因子,模式识别与分类,多环芳烃HPLC-DAD数据,FA实例TTFA,已知4物的纯光谱,但仅3个主因子,F补一列,模式识别与分类,多环芳烃HPLC-DAD数据,FA实例TTFA,283.331545.91126.4-58.497,102.72120.36217.71172.22,3.665-106.13-223.13-169.66,-63.573-628.81-435.2476.663,111.23112.88282.74274.61,38.03685.85873.30428.345,52.66370.73415.276-24.929,110.5432.7193.991310.645,14.72625.2127.38911.377,存在,不存在,模式识别与分类,聚类分析,无监督学习方法,根据相似性度量,物以类聚,分类,方法,是,把未知对象分配到,已存在类中,聚类分析步骤,n个样本n类,计算距离,最近,的2类,合并,继续合并,最近的2类,经n-1次合并,最后成1类,模式识别与分类,聚类分析,距离与相似性度量的方法,明氏Minkowski距离,欧氏Euclidean距离,曼哈顿Manhattan距离,city-block距离,模式识别与分类,聚类分析,距离与相似性度量的方法,马氏,Mahalanobis,距离,基于协方差矩阵,C,的向量运算,基于马氏距离的相似性量度,完全相似,S,ij,=1完全不相似,S,ij,=0,马氏距离可避免特征向量的相关性引起的失真无需对数据进行调整,模式识别与分类,聚类分析实例,6个血清样本的分级聚类,对象1、2距离最短,聚为新对象1*设其距离为0与其余各对象用平均法或新距离,模式识别与分类,聚类分析实例,6个血清样本的分级聚类,4,6,并4*,4*,5,并5*,1*,3,并3*,模式识别与分类,聚类分析实例,6个血清样本的分级聚类,1,2,3,1,2,3,4,6,5,1*,3*,4*,5*,欧氏距离,6个血清样本,实际上可分为两类,模式识别与分类,聚类分析,A、B聚后新距离的算法,加权均连,weighted average linkage,单连法(最近距离),single linkage,全连法(最远距离),complete linkage,其他方法,模式识别与分类,线性学习机LLM,K最近邻法KFA,SIMCA法,有监督方法,模式识别与分类,LLM,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,判别面,以分类(疾病判断)为例,存在一判别面,用垂直的法线(权)矢量,w,表示,与类1中,任一样本矢量的夹角,与类2中,线性判别函数,s,(标量),,,s,0,,,s,0,模式识别与分类,LLM,步骤,已知样本作训练得法线矢量,w,未知样本计算,s,并预测分类,初值,w,,可随机确定,第1个已知样本,计算,s,不符,下一个样本计算,s,继续调整,w,模式识别与分类,LLM实例,数据,初值,模式识别与分类,LLM实例,修正,w,不修正,须修正,以后还需修正1次,最终,判别,模式识别与分类,LLM实例,程序,clear;,close all;,Y= load(E:bkjshxjiazx.txt);Y(:,1)=;,n,p = size(Y);,cluster = Y(:,p);,cluster = cluster*(-2)+3*ones(n,1);,%let symbol of first cluster=1 and second cluster=-1,Y(:,p)=;,Y_std = Y(1:16,:); clu_std = cluster(1:16,:);,Y_unk = Y(17:20,:); clu_unk = cluster(17:20,:);,n_std,p = size(Y_std); n_unk,p = size(Y_unk);,Part I 数据准备,w = ones(1,p)*(-1);,% 给初值,w设为行矢量,for i = 1:n_std,s = w*Y_std(i,:); % s 是标量,if s*clu_std(i,1)0,c = (-2)*s/(Y_std(i,:)*Y_std(i,:);,w = w+c*Y_std(i,:);,end,end,Part II 训练确定w,for i = 1:n_unk,s = w*Y_unk(i,:);,fprintf( For unknown sample No.:%3.0ft,i);,if s*clu_unk(i,1)0,fprintf( the judgement is WRONG. n);,else,fprintf( the judgement is RIGHT. n);,end,end,Part III 判断未知样本,llm.m,初值不同,w也不同,作业1,重现TTFA法对PAH的HPLC-DAD数据进行,是否存在的判断。,作业2,20个香烟理化指标的测定数据,前10个样本为双喜,后10个为中华。,用,PCA,对样本分类,并评价各指标的重要性及相关性。,用,LLM,方法计算法向量,并对部分样本进行预报。,E:,bkjshxdataYancao.xls,
展开阅读全文