机器学习之降维—PCA-LDA课件

上传人:无*** 文档编号:241476239 上传时间:2024-06-28 格式:PPT 页数:68 大小:1.34MB
返回 下载 相关 举报
机器学习之降维—PCA-LDA课件_第1页
第1页 / 共68页
机器学习之降维—PCA-LDA课件_第2页
第2页 / 共68页
机器学习之降维—PCA-LDA课件_第3页
第3页 / 共68页
点击查看更多>>
资源描述
大家好大家好1Principal Component Analysis题目:主成分分析 PCA2预习内容(1)均值的概念和定义,期望用来表示什么?(2)方差的概念和定义,方差用来表示什么?(3)协方差和协方差矩阵的概念和定义,协方差的作用及意义?请大家掌握:方差的数学运算,期望的数学运算,协方差矩阵的数学运算,方阵的特征值与特征向量的求解方法31前言v假定你是一个公司的财务经理,掌握了公司的所有假定你是一个公司的财务经理,掌握了公司的所有数据,比如数据,比如固定资产、流动资金、每一笔借贷的数固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等利润、折旧、职工人数、职工的分工和教育程度等等等。v实例实例1 实例实例2v你必须要把各个方面作出你必须要把各个方面作出高度概括高度概括,用一两个指标用一两个指标简单明了地把情况说清楚。简单明了地把情况说清楚。4(1)(1)如何作主成分分析如何作主成分分析?当当分分析析中中所所选选择择的的变变量量具具有有不不同同的的量量纲纲,变量水平差异很大,应该怎样选择变量水平差异很大,应该怎样选择?在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:2.问题的提出问题的提出5各个变量之间差异很大6 (2 2)如何选择几个主成分。如何选择几个主成分。主主成成分分分分析析的的目目的的是是简简化化变变量量,一一般般情情况况下下主主成成分分的的个个数数应应该该小小于于原原始始变变量量的的个个数数。应应该该保保留留几几个个主主成成分分才才能能最最大大化化的的代代表表原原始始信息?信息?7 美美国国的的统统计计学学家家斯斯通通(Stone)(Stone)在在19471947年年关关于于国国民民经经济济的的研研究究是是一一项项十十分分著著名名的的工工作作。他他曾曾利利用用美美国国19291929一一19381938年年各各年年的的数数据据,得得到到了了1717个个反反映映国国民民收收入入与与支支出出的的变变量量要要素素,例例如如雇雇主主补补贴贴、消消费费资资料料和和生生产产资资料料、纯纯公公共共支支出出、净净增增库库存存、股股息息、利利息息、外外贸贸平平衡等等。衡等等。在进行主成分分析后,竟以在进行主成分分析后,竟以97.497.4的精度,用三的精度,用三个新变量就取代了原个新变量就取代了原1717个变量。个变量。实例实例1:经济分析经济分析8实例实例2:成绩数据成绩数据v100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史、英语的成绩如下表(部分)。史、英语的成绩如下表(部分)。9从本例可能提出的问题从本例可能提出的问题v目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量量来来表表示示呢呢?v这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信息信息呢?呢?v能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排序排序呢?呢?10PCAv多变量问题是经常会遇到的。多变量问题是经常会遇到的。变量太多,无疑会增加分析问变量太多,无疑会增加分析问题的难度与复杂性题的难度与复杂性.v在许多实际问题中,多个变量之间是具有一定的相关关系的。在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用因此,能否在各个变量之间相关关系研究的基础上,用较少较少的新变量代替原来较多的变量的新变量代替原来较多的变量,而且使这些较少的新变量,而且使这些较少的新变量尽尽可能多地保留原来较多的变量所反映的信息可能多地保留原来较多的变量所反映的信息?事实上,这种?事实上,这种想法是可以实现的想法是可以实现的.11 原理:主主成成分分分分析析就就是是试试图图在在力力保保数数据据信信息息丢丢失失最最少少的的原原则则下下,对对这这种种多多变变量量的的数数据据表表进进行行最最佳佳综综合合简简化化,也也就就是是说说,对对高高维维变量空间进行降维处理。变量空间进行降维处理。很很显显然然,识识辨辨系系统统在在一一个个低低维维空空间间要要比比在一个高维空间容易得多。在一个高维空间容易得多。PCA的目标就是找到这样的“主元”(即问题中的主元成分),最大程度的除冗余和噪音的干扰。12问题描述v如何确定PCA方法中,到底应该取几个主成分?请查阅文献并举例回答。HowtodefinethenumberofthecomponentsinPCA?Pleasefindthesolutionfromliterature.13v 先先假假定定数数据据只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标轴的两个坐标值;标轴的两个坐标值;v 如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在变变量量的的二二维维正正态态的的假假定定下下是可能的)是可能的).14主成分分析的几何解释平移、旋转坐标轴15主成分分析的几何解释平移、旋转坐标轴16主成分分析的几何解释平移、旋转坐标轴17主成分分析的几何解释平移、旋转坐标轴18v 椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维维到到一一维维的降维就自然完成了。的降维就自然完成了。19二维数据20进一步解释进一步解释PCAv当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量就描述了数据的次要变化。量就描述了数据的次要变化。v但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新变量和椭圆的长短轴平行。新变量和椭圆的长短轴平行。v如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降维就完成了。,降维就完成了。v椭椭圆圆(球球)的的长长短短轴轴相相差差得得越越大大,降降维维也也越越有有道道理。理。21主要内容v一、主成分的定义及导出v二、主成分的几何意义v三、主成分的性质和例子22一、主成分的定义及导出v设为一个维随机向量,。考虑如下的线性变换希望在约束条件下寻求向量,使得达到最大,就称为第一主成分。v设为的特征值,为相应的单位特征向量,且相互正交。则可求得第一主成分为它的方差具有最大值。?23最大化方差法:24v如果第一主成分所含信息不够多,还不足以代表原始的个变量,则需考虑再使用一个综合变量,为使所含的信息与不重叠,应要求我们在此条件和约束条件下寻求向量,使得达到最大,所求的称为第二主成分。求得的第二主成分为其方差为。v一般来说,的第主成分是指:在约束条件和下寻求,使得达到最大。第主成分为25二、主成分的几何意义v在几何上,表明了第主成分的方向,是在上的投影值(即投影长度),是这些值的方差,它反映了在上投影点的分散程度。v记,则主成分向量与原始向量有如下关系:该正交变换的几何意义是将中由构成的原维坐标轴作一正交旋转,一组正交单位向量表明了个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。26三、主成分的性质一、两个线性代数的结论一、两个线性代数的结论1、若A是p阶实对称阵,则一定可以找到正交阵U,使其中 是A的特征根。27 2、若上述矩阵的特征根所对应的单位特征向量为 则实对称阵 属于不同特征根所对应的特征向量是正交的,即有令283、均值4、方差为所有特征根之和 说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。协方差矩阵的对角线上的元素之和等于特征根之和。?29主成分选择v总方差中属于第主成分(或被所解释)的比例为称为主成分的贡献率。v第一主成分的贡献率最大,表明它解释原始变量的能力最强,而的解释能力依次递减。v主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。30v前个主成分的贡献率之和称为主成分的累计贡献率,它表明解释的能力。v通常取(相对于)较小的,使得累计贡献达到一个较高的百分比(如8090)。此时,可用来代替,从而达到降维的目的,而信息的损失却不多。31主成分的性质和例子323334主成分分析的步骤 第一步:由X的协方差阵x,求出其特征根,即解 方 程 ,可 得 特 征 根 。一、基于协方差矩阵35 第二步:求出分别所对应的特征向量U1,U2,Up,第三步:计算累积贡献率,给出恰当的主成分个数。第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。36课堂作业:实例参数v该实例符合三维高斯分布,具体参数如该实例符合三维高斯分布,具体参数如下:下:v均值向量:均值向量:=0,5,2Tv协方差矩阵协方差矩阵:37PCA实例软木塞数据集3839作业(1)给定Rock数据,请使用PCA方法,找出类marble和granite的主成分特征集合。40线性判别分析(LDA)Linear Discriminant Analysis41引入424344主要内容v一、LDA介绍v二、LDA基本思想v三、LDA目标v四、LDA与PCA区别v五、LDA的公式推导v六、LDA实例45介绍线性判别分析(LinearDiscriminantAnalysis,LDA),也叫做Fisher线性判别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,1936年由RonaldFisher首次提出,并在1996年由Belhumeur引入模式识别和人工智能领域。46基本思想线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。47可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的距离是最大的,而且每个类别内部点的离散程度是最小的(或者说聚集程度是最大的)。LDA的目标:48LDA的目标:我们分分类类的的目目标标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。49LDA与PCA区别:LDA与PCA(主成分分析)都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。50二分类LDA推导上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线上,LDA最求的目标是,给出一个标注了类别的数据集,投影到了一条直线之后,能够使得点尽量的按类别区分开,当k=2即二分类问题的时候,如下图所示:红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点,经过原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和蓝色的点被原点明显的分开了,这个数据只是随便画的,如果在高维的情况下,看起来会更好一点。下面我来推导一下二分类LDA问题的公式:51首先给定特征为d维的N个样例,其中有 个样例属于类别 ,另外 个样例属于类别 。现在我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够“清晰”地反映在低维数据上,也就是这一维就能决定每个样例的类别。假设这个最佳映射向量为w(d维),那么样例x(d维)到w上的投影可以表示为二分类LDA推导52假设用来区分二分类的直线(投影函数)为:LDA分类的一个目标是使得不同类别之间的距离越远越好,同一类别之中的距离越近越好,所以我们需要定义几个关键的值:二分类LDA推导53类别i的原始中心点(均值)为:类别i投影后的中心点为:我们首先发现,能够使投影后的两类样本均值点尽量间隔较远的就可能是最佳的,定量表示就是:二分类LDA推导54J(w)越大越好。但是只考虑J(w)行不行呢?样本点均匀分布在椭圆里,投影到横轴x1上时能够获得更大的中心点间距J(w),但是由于有重叠,x1不能分离样本点。投影到纵轴x2上,虽然J(w)较小,但是能够分离样本点。因此我们还需要考虑样本点之间的方差,方差越大,样本点越难以分离。我们使用另外一个度量值散列值(Scatter)。二分类LDA推导55对投影后的类求散列值,如下:从公式中可以看出,只是少除以样本数量的方差值,散列值的几何意义是样本点的密集程度,值越大,越分散,反之,值越大,越分散,反之,越集中。越集中。而我们想要的投影后的样本点的样子是:不同类别的样本点越分开越好,同类的越聚集越好,也就是均值点间距离越大越好,散列值越小越好。正好,我们可以使用J(w)和S(w)来度量。定义最终的度量公式:衡量类别i投影后,类别点之间的分散程度(方差)分子为两个类别各自的中心点的距离的平方二分类LDA推导56定义该协方差矩阵称为散列矩阵(Scatter matrices)。利用该定义,上式可简写为:类内离散度矩阵即:二分类LDA推导57展开分子:那么J(w)最终可以化简表示为:分母表示每一个类别内的方差之和,方差越大表示一个类别内的点越分散,分子为两个类别各自的中心点的距离的平方,我们最大化J(w)就可以求出最优的w二分类LDA推导58 在我们求导之前,需要对分母进行归一化,因为不做归一的话,w扩大任何倍,都成立,我们就无法确定w。这里这里w w并不是唯并不是唯一的,倘若一的,倘若w w对应对应J(w)J(w)的极大值点,则的极大值点,则a*wa*w仍旧可以达到仍旧可以达到J(w)J(w)的的极大值点。极大值点。即目标函数J(w)化简为等于其分子部分,且受约束。加入拉格朗日乘子并求导得到:二分类LDA推导59利用矩阵微积分,求导时可以简单地把 当做 看待。如果 可逆(非奇异),那么将求导后的结果两边都乘以 ,得二分类LDA推导60LDA多分类问题对于N(N2)分类的问题,就可以直接写出以下的结论:这同样是一个求特征值的问题,求出的第i大的特征向量,即为对应的Wi。61 Fisher线线性性判判别别方方法法(Fisherlineardiscriminantanalysis,简称FLD)使投影后的模式样本的类间散布矩阵最大而类内散布矩阵最小,也就是说,投影后保证模式样本在新的空间中有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性.62LDA的应用6364A=6566作业给出的Rock数据中区别花岗岩granite、闪长岩diorite和大理石marble的属性有18种,三类样本的数据共有92个,其中花岗岩类1有31个样本,大理石类2有51个样本,闪长岩类3有10个样本。请参考课件中的方法,用LDA解决Rock数据的3分类问题。67谢谢!68
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!