主成分分析法概念及例题

上传人:枕*** 文档编号:124457968 上传时间:2022-07-25 格式:DOC 页数:13 大小:197KB
返回 下载 相关 举报
主成分分析法概念及例题_第1页
第1页 / 共13页
主成分分析法概念及例题_第2页
第2页 / 共13页
主成分分析法概念及例题_第3页
第3页 / 共13页
点击查看更多>>
资源描述
主成分分析法出自 MBA智库百科()主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 目录显示 1 什么是主成分分析法 2 主成分分析的基本思想 3 主成分分析法的基本原理 4 主成分分析的重要作用 5 主成分分析法的计算环节 6 主成分分析法的应用分析 o 6.1 案例一:主成分分析法在啤酒风味评价分析中的应用1 6.1.1 1 材料与措施 6.1.2 2 主成分分析法的基本原理 6.1.3 3 主成分分析法在啤酒质量一致性评价中的应用 6.1.4 4 结论 7 参照文献编辑什么是主成分分析法 主成分分析也称主分量分析,旨在运用降维的思想,把多指标转化为少数几种综合指标。 在记录学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一种线性变换。这个变换把数据变换到一种新的坐标系统中,使得任何数据投影的第一大方差在第一种坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析常常用减少数据集的维数,同步保持数据集的对方差奉献最大的特性。这是通过保存低阶主成分,忽视高阶主成分做到的。这样低阶成分往往可以保存住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 编辑主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些波及的因素一般称为指标,在多元记录分析中也称为变量。由于每个变量都在不同限度上反映了所研究问题的某些信息,并且指标之间彼此有一定的有关性,因而所得的记录数据反映的信息在一定限度上有重叠。在用记录措施研究多变量问题时,变量太 多会增长计算量和增长分析问题的复杂性,人们但愿在进行定量分析的过程中,波及的变量较少,得到的信息量较多。主成分分析正是适应这一规定产生的,是解决此类题的抱负工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几种有代表性的综合指标,采用打分的措施来进行评估,故综合指标的选用是个重点和难点。如上所述,主成分分析法正是解决这一问题的抱负工具。由于评估所波及的众多变量之间既然有一定的有关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量有关矩阵内部构造 的关系研究,找出影响科普效果某一要素的几种综合指标,使综合指标为本来变量的线 性拟合。这样,综合指标不仅保存了原始变量的重要信息,且彼此间不有关,又比原始 变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主 要矛盾。 上述想法可进一步概述为:设某科普效果评估要素波及个指标,这指标构 成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不有关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有也许从主分量中选择重要成分,削除对这一要素影响单薄的部分,通过 对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表达原始变量之间不同的影响关系。由于这些基本关系很也许与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出某些重要成分,以便有效地运用大量记录数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,也许得到深层次的某些启发,把科普效果评估研究引向进一步。 例如,在对科普产品开发和运用这一要素的评估中,波及科普创作人数百万人、科 普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。通过主成分分析计算,最后拟定个或个主成分作为综合评价科普产品运用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 编辑主成分分析法的基本原理 主成分分析法是一种降维的记录措施,它借助于一种正交变换,将其分量有关的原随机向量转化成其分量不有关的新随机向量,这在代数上体现为将原随机向量的协方差阵变换成对角形阵,在几何上体现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维解决,使之能以一种较高的精度转换成低维变量系统,再通过构造合适的价值函数,进一步把低维系统转化成一维系统。 编辑主成分分析的重要作用 概括起来说,主成分分析重要由如下几种方面的作用。 1主成分分析能减少所研究的数据空间的维数。即用研究m维的Y空间替代p维的X空间(mp),而低维的Y空间替代 高维的x空间所损失的信息很少。即:使只有一种主成分Yl(即 m1)时,这个Yl仍是使用所有X变量(p个)得到的。例如要计算Yl的均值也得使用所有x的均值。在所选的前m个主成分中,如果某个Xi的系数所有近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的措施。 2有时可通过因子负荷aij的结论,弄清X变量间的某些关系。 3多维数据的一种图形表达措施。我们懂得当维数不小于3时便不能画出几何图形,多元记录研究的问题大都多于3个变量。要把研究的问题用图形表达出来是不也许的。然而,通过主成分分析后,我们可以选用前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类解决,可以由图形发现远离大多数样本点的离群点。 4由主成分分析法构造回归模型。即把各主成分作为新自变量替代本来自变量x做回归分析。 5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型自身易于做构造分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。 编辑主成分分析法的计算环节 1、原始指标数据的原则化采集p 维随机向量x = (x1,X2,.,Xp)T)n 个样品xi = (xi1,xi2,.,xip)T ,i=1,2,n, np,构造样本阵,对样本阵元进行如下原则化变换: 其中,得原则化阵Z。 2、对原则化阵Z 求有关系数矩阵 其中, 。 3、解样本有关矩阵R 的特性方程得p 个特性根,拟定主成分 按 拟定m 值,使信息的运用率达85%以上,对每个j, j=1,2,.,m, 解方程组Rb = jb得单位特性向量 。 4、将原则化后的指标变量转换为主成分 U1称为第一主成分,U2 称为第二主成分,Up 称为第p 主成分。 5 、对m 个主成分进行综合评价 对m 个主成分进行加权求和,即得最后评价值,权数为每个主成分的方差奉献率。 编辑主成分分析法的应用分析编辑案例一:主成分分析法在啤酒风味评价分析中的应用1啤酒是个多指标风味食品, 为了全面理解啤酒的风味, 啤酒公司开发了大量的检测措施用于分析啤酒的指标, 但是面对大量的指标数据, 大多数公司又感到茫然,不懂得如何运用这些大量的数据, 由上面的简介可知,在这种状况下,主成分分析法可以派上用场。近年来,科研人员为了获得对啤酒风味更好的理解, 多元记录技术的使用越来越多。这重要有如下两方面的因素:在啤酒领域里, 几乎没有一种问题可以使用单变量(单指标)就能反映事物的属性, 例如啤酒的好坏、一致性, 不能通过双乙酰一种指标阐明问题;另一种重要的因素就是, 近年来大量数学记录软件的不断浮现和个人电脑的普及增进了多元记录分析技术的应用。多元记录技术在啤酒风味研究中的一种重要任务就是找出啤酒风格和啤酒理化指标(风味成分指标也属于理化指标)之间的有关性。例如可以用多元记录技术来找出啤酒的风味指标和啤酒风味的关系或不同啤酒的风味差别性。 常常使用的多元记录技术有聚类分析、鉴别分析、主成分分析和回归分析等。其中主成分分析可以用于多指标产品, 主成分分析可以按照事物的相似性辨别产品, 成果可用一维、二维或三维平面坐标图标示, 特别直观。使用主成分分析法可以研究隐藏在不同变量背后的关系,并且根据这些变量可以获得主成分的背景解释。 鉴于主成分分析在啤酒风味质量应用中的强大作用, 本文简朴简介主成分分析的基本原理及其在啤酒一致性监控中的应用,以引起国内啤酒同行的广泛关注。 编辑1 材料与措施1.1 仪器 HP 6890 毛细管气相色谱仪 (美国安捷伦公司),FID 检测器, HP 7694E 顶空自动进样器, HP 气相色谱化学工作站。 1.2 分析措施 1.2.1 样品制备 啤酒于5 冷藏, 量取 5 mL 酒液于 20 mL 顶空瓶中, 添加2.0 g/L 正丁醇溶液 0.10 mL, 加密封垫及铝盖密封,振荡混匀以供顶空气相色谱测定。 1.2.2 色谱条件 毛细管色谱柱 (DB- WAXETR 30 m0.53 mm i.d,膜厚1.0 m);柱温:起始温度为 35 , 以 10 /min 程序升温至150 , 再以 20 /min 升温到180 , 并继续恒温5 min;进样口温度 150 ; 检测器温度 200 ; 载气为高纯氮气, 流速为5 mL/min;氢气 30 mL/min;空气400 mL/min;采用分流进样,分流比为11。 编辑2 主成分分析法的基本原理2.1 主成分分析法在啤酒研究中应用的必要性这里通过一种例子阐明, 主成分分析在啤酒研究中的必要性。如果有6 个啤酒样品,分别标为A- F,每个啤酒样品用3 个指标来描述。这些指标可以是仪器的分析数据、感官分析数据或两者都用。为了便于讨论,假设这3 个指标分别为苦味值(BU)、DMS和酒精浓度。为理解这6 个样品两两之间的相似性, 便于将这6 个样品进行分类,可以把这6 个样品画在三维空间中,见图1。显然在这个简朴的例子中, 这6 个样品倾向于形成两类, 即分别是A- C 和 D- F。通过所测的指标可以解释这种分类, 例如, 第一组(A- C)有较高的苦味值和较低的酒精浓度。这个例子中只波及到6 个样品和3 个指标。但是事实上, 样品数量和指标数量都会很大, 例如, 有20 个指标, 这时, 样品不能在20 维的坐标系中画出。为理解决多指标的样品的比较问题,可以使用主成分分析法。 2.2 主成分分析法的基本原理 主成分分析的第一步是将所有的指标数据进行原则化, 原则化的一般措施为: (xij xjmean) / j, 这里xij是样品j 的第 i 个指标, xjmean 和 j是第j 个指标的平均值和原则偏差, 通过原则化后, 每个变量的平均值变成0,原则偏差为1。原则化的好处是可以消除不同指标间的量纲差别和数量级间的差别。 第二步求出指标间的有关矩阵, 通过有关矩阵, 可以拟定具有高度有关性的指标, 这些指标间的协方差可以通过另一种变量替代, 这个变量叫作第一成分。去掉第一成分后, 计算残留有关阵, 通过残留有关阵, 第二组高度有关的变量也可以发现, 它们的协方差可以用第二成分替代, 第二成分和第一成分是正交的。第二成分对原始数据的奉献清除后, 可以提取第三成分。此过程始终继续, 直到原始数据的所有方差都被提取后结束。成果是原数据转化成了同样数量的新变量, 但是, 这些新变量之间是正交的。 因此, 每个样品的原始变量的原则化数据就被转换成一系列成分的计算值。每一种样品, 原始数据可以体现成新成分的线性组合值, 例如一种有9 个指标的数据集就可转换成: 是原始数据的原则化值。是原变量与新成分之间的有关限度的指标, 一般将其称为因子荷载。 通过计算机的主成分程序生成对方差的奉献率。一般而言, 原数据的总方差总是高度集中在前几种成分中。因此,在这个分析中,可以基于可以接受的最低方差奉献率,来选择几种数目较少的主成分。最后,可以用选择的几种主成分来重新计算所用的样品。重新计算的值叫做主成分得分。 由于原始数据阵的方差一般集中在前几种主成分中(一般为2 或 3 个), 因此样品的一系列原则化因子得分可以在二维的平面坐标中画出, 这样就可以根据样品的相似性来分类样品。此外, 还可以根据因子荷载对这种分类做出某种解释。 编辑3 主成分分析法在啤酒质量一致性评价中的应用3.1 主成分分析法在不同品牌啤酒风味差别性评价中的应用 啤酒是含酒精的饮料酒, 啤酒的风味是人们选择啤酒的重要影响因素。显然啤酒不同于同浓度的酒精水溶液, 重要是由于啤酒除了具有酒精外还具有数以百计的微量成分, 例如醛、醇及酯类等。对于啤酒生产公司来说, 把自己的啤酒和竞争啤酒的风味进行比较非常重要, 这样可以理解自己的啤酒和竞品的差别, 分析竞争啤酒受市场欢迎的因素, 以改善自己的产品, 或者找出自己啤酒的风格特点, 走差别化竞争之路。为了完毕此工作, 啤酒公司可以把自己的啤酒和竞争啤酒进行对比品评, 这是一种非常好的措施, 但是此措施很难从本质上找到与竞品的差别, 很难形成指引生产的定性定量措施。为理解决此问题, 啤酒公司可以对啤酒的风味成分进行分析, 理论上讲, 分析的成分越多, 获得的信息量越大, 但是, 很难从总体上进行对比分析, 这时, 可以通过主成分分析法, 提取重要的综合成分, 然后在平面坐标系中画图进行比较。 图2 是国内市场上重要啤酒的风味物质经主成分分析后的前两个主成分的平面坐标。分析的风味成分有乙醛、乙酸乙酯、异丁酯、乙酸异戊酯、异戊醇及己酸乙酯。分析的时间跨度为半年, 这些数据通过主成分分析法后, 提取前两个主成分, 这两个主成分可以反映所有信息的83.1 %, 提取较为完全, 这阐明这两个主成分替代原始的6 个风味成分反映的样品信息。百威啤酒、喜力啤酒和青岛啤酒是国内啤酒市场上的3 种出名品牌,同步这3 种啤酒的质量也是得到人们的承认的。 从图2 可看出, 尽管百威啤酒、喜力啤酒和青岛啤酒随着时间的变化每种啤酒的风味成分的含量有所波动, 但是, 每种啤酒还是各自成一团, 自成一类, 三者的中心犹如一种三角形的3 个顶点, 三者构成一种风味三角形。从图2 还可看出, 南方某品牌的啤酒有独自成型的特点, 即其不同于青岛啤酒、也不同喜力啤酒和百威啤酒的风格,事实上通过感官品尝也可以得到此结论。主成分分析法采用的分类是可以通过对主成分的分析做出解释的,图3 是前两个主成分的因子荷载图。 从图3 可以看出, 主成分 1 重要由乙酸乙酯、乙酸异戊酯和己酸乙酯决定, 这些酯含量高, 主成分1 就越大, 即主成分1 代表了啤酒的酯香, 酯香越浓, 主成分 1就越大。主成分2 重要由乙醛、异丁醇和异戊醇决定,这些成分可以代表啤酒的“酒劲”的大小, 这些成分含量越高,主成分2 就越大,即啤酒的酒味就越重。结合这种解释, 就可以对图2 中的分类做出分析, 其中百威啤酒是酒味适中和酯香相对较浓的“浓香型”啤酒, 喜力啤酒是酒味和酯香均较浓的“浓醇型”啤酒, 青岛啤酒是酒味较重, 而酯香较弱的“醇型”啤酒, 而某品牌的啤酒则是酒味和酯香均弱的“淡型”啤酒。 3.2 主成分分析法在同一品牌啤酒风味一致性评价中的应用 3.2.1 主成分分析法在同一品牌不同生产厂之间一致性评价中的应用 近十几年来, 国内啤酒行业发展非常快, 啤酒公司的规模越来越大, 诸多啤酒公司已经走出啤酒的“原产地”到异地建厂,进一步扩大公司的规模。对于某些啤酒公司来说, 新建厂面对的消费群体和建厂前面对的消费群体较为一致, 这时就规定新建厂生产的啤酒要与原厂生产的啤酒风格一致, 以免生产厂在切换时, 消费者不承认的状况发生。图4 是同一公司的3 个不同生产厂之间的同一品种啤酒的主成分分析图。 从图4 可以看出, 总的来说, 3 个生产厂生产的啤酒还是比较一致的, 由于3 个厂生产的同一品种的啤酒的波动范畴较小。从图4 还可以看出, 生产厂1 由于生产的历史长, 生产较稳定, 因此其波动较小(图中的圆圈);生产厂2 和生产厂3 的稳定性就稍差一点, 这是由于这两个厂都是新厂,有个磨合的过程。同步,生产厂2 和生产厂1 的风味较为一致, 生产厂 3 和生产厂1 的一致性就稍差,其中生产厂3 是最新的厂。 3.2.2 主成分分析在同毕生产厂啤酒一致性评价中的应用 同毕生产厂生产的同一品种的啤酒, 由于不同步间的水质、原辅料等的波动, 最后体目前产品风味的波动上。同一主成分分析也可以评价产品随时间的一致性。现以某一啤酒公司 年生产的某品种啤酒为例阐明主成分分析在产品风味一致性评价中的应用。要评价啤酒风味的一致性, 啤酒公司一方面要测定啤酒的风味指标,目前通过顶空-毛细管技术能测定大概10 种的风味物质,分别为乙醛、DMS、甲酸乙酯、乙酸乙酯、乙酸异丁酯、正丙醇、异丁醇、乙酸异戊酯、异戊醇和己酸乙酯。此前的某些记录技术例如记录过程控制(SPC)的控制图等只能阐明某一指标的波动状况, 而不能从总体上反映产品的波动性, 由于有些指标的波动, 不会引起产品风格的波动, 而主成分分析法, 是从总体上阐明产品的波动性,比控制图更能阐明产品的波动性。 图5 是某啤酒公司 年一年生产的某品种的啤酒的10 种风味指标的前两个主成分的平面坐标图,这两个主成分可反映产品约60 %的信息。图 5 中的第一种小椭圆是95 %的置信区, 即在这个椭圆外的点占5 %, 通过对该椭圆外的点进行跟进分析可以发现波动的因素, 并在后来的生产过程中加以避免, 以提高产品的一致性。 编辑4 结论4.1 主成分分析法, 可以消除各变量之间的共线性, 减少变量的个数,利于后续的分析。 4.2 使用主成分分析可以按照事物的相似性辨别产品, 成果可用一维、二维或三维平面坐标图标示, 特别直观。 4.3 将样品的数据通过主成分分析进行浓缩, 然后通过平面坐标可以实现从总体上对样品进行一致性的分析,一般的记录技术只能对某一指标进行评价。 4.4 静态顶空进样高效毛细管气相色谱分析啤酒香味组分技术结合, 主成分分析技术可以有效地应用于评价不同品牌啤酒风味的差别性、同一啤酒的风味一致性与均一性。 编辑参照文献1. 邵威平,李红,张五九.主成分分析法及其在啤酒风味评价.酿酒科技 年第 11 期(总第 161 期)
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!