第十二章主成分分析

上传人:无*** 文档编号:135424887 上传时间:2022-08-15 格式:DOC 页数:37 大小:2.63MB
返回 下载 相关 举报
第十二章主成分分析_第1页
第1页 / 共37页
第十二章主成分分析_第2页
第2页 / 共37页
第十二章主成分分析_第3页
第3页 / 共37页
点击查看更多>>
资源描述
1#0定义:若A是线性空间中的线性变换对应的矩阵,入是一个实数,若 存在一个非零向量二满足等式入乙或(A入1)=0则称入为A的一个特征值(根)(eigenvalue), 称为A的属于特征值入的 一个特征向童。上式有非零解的充要条件| AAI| = 0 记f(入)=|入lA|, f(入)叫A的特征多项式,其根叫做A的特征根 (值)对称矩阵的特征根都为实数。0若A是实对称矩阵(real symmetric matrix),则A的不同的特征值 对应的特征向量必正交IB0结论:设A为实对称矩阵,则存在正交矩阵U,使得:AU = U 入0 L 0 L 0 M L M0 L 入.入心=1.2丄小)称作矩阵A的特征根。U = (unu2丄叫)0一a s;右姑姓加:坦辣+干邕千n第十二* i 武令令析Principal Component Analysis (PCA)12 1 贞The basic idea of principal component analysis在经济实证问题的研究中,要考虔许多对某经济过程有影响的因素(称为指标或变量)-这时产生了这样的问题,一方面为了避免遗漏重要 的信息而考虎尽可能多的指标;另一方面随指标的增多既增加了问题的复 杂性,还造成信息的重叠,可能会抹杀了事物的真正的特征和内在的规律 性.为了解决这个问题,即产生了主成分分析的方法.0主成分分析的基本思想经济问题涉及的众多变量之间有一定的相关性,就必然存在着起支 配作用的共同因素.主成分分析就是根据这一点,通过对原始变量相关 矩阵内部结构关系的研究.找出影响某一经济过程的几个综合指标(主n主成分分析是利用降维的思想,把多指标转化为少数几个综合指 标,用较少的变童说明复杂的经济问题.因此.主成分分析是常用 的简化分析过程的统计分析方法.利用主成分分析得到的主成分与原始变丘之间有如下基本关系:U主成分的数目明显少于原始变量个数;U每个主成分为原始变童的线性组合;U综合指标不仅保留了原始变量绝大多数信息,彼此之间又不相 关,又比原始变童具有某些更优越的性质。3#yt = xt cosO +x2 sinO y2 = -Xj sinO + x2 cos0用矩阵形式表示为:U3U(cos 6sinO VxJ=UxIII I一 sin 6cose匕2I IrT cosO -sinO U =sinO cosO其中,U为正交矩阵,满足U =U UU = I5#旋转变换使得 样品点在轴 方向上的离散 程度最大.即 Y,的方差最 大在研究某 经济问题时, 即使不考虑变 量丫 2也无损大 局。另外.Yv 丫2还具有不相 关(正交)的 性质.将二维空间点的描述用丫1这个综合变量来代替,所损失的信息最 小,由此匕称为第一主成分.丫 2为第二主成分若忽略丫 2方向上的经 济信息,且损失的信息并不多。这样,二维空间降为一维空间了。二.主成分分析的基本理论The basic theory of principal component analysis希望线性变换后岭=uX的方差尽可能大,且丫之间相互独立.经济研究中经常见到的是关于个样品(企业、年份),卩个变量(经 济指标.因素)X】X2Xp(np)的问題,设随机向量X的均值为比协 方差为经原始统计资料整理的原始数据矩阵为:7线性变换后的方差尽可能大,则可以得到:var( Yj) = var( uX)=u var( X )ir =若取Y产CuX, C为任一不为0的常数,则有:var(E) = var(cM;X) = c”W因此,按照上述公式,丫的方差可以任意大。为避免上述情况发 生,对线性变换U必须作出相应的规定#u ukuk = 1 k = 1,2,L ,pu yj与i,j = i,2,-.,p)互不相关确定系数U,的原则:Principle: *是心,心丄,Xp的一切线性组合中方差最大者;2是与*不相 关的所有小,兀2丄线性组合中方差最大者;儿是与* y2Vp.,都不相关的心,*2丄,Xp的所有线性组合中方差最大者。由上述原则可知,力在总方差中占的比重最大.其余综合变量 丫2,%,*的方差依次递减。在具体经济分析时,我们只挑选前几个方差最大的主成分进行分 析,这样可以简化系统结构、抓住问题实质进行分析12. 3 i底今的爲斛方Ji及牧质The solving method of principal component and properties主成分分析的思想是在保留原始变量尽可能多的信息的前题下达 到降维的目的.而求解主成分的过程就是求出满足三个原则的原始变 量的线性组合的过程.对于随机变量X,X2,Xp而言,其协方差矩阵或相关矩阵(原始变 童标准化后的协方差矩阵)是对各变童的离散程度及变量之间的相关 程度的反映.保留原始信息就是要求生成的综合变童的方差尽可能多的接近原 始变童的方差总和.一般从原始变童出发求得的主成分与从相关矩阵 出发求得的主成分是有差异的下面分别就这两个不同的情况进行讨#E(X AX) = tr(AL)+u Au一.从协方差矩阵出发求解主成分设X=(x1,x2,-,xp )r是一个p维随机向量,力表示X的协方基矩阵 (covarianee matrix ), 表达式为:Cov(xtx)= Var (X)L = Cov(xx) =LLvar(xt) cov(x2 x,) L cov(xpxjcov(xbx2) var(x2) Lcov(xpx2)coy(x2xp) L var(xF)协方差矩阵的性质:当A, B为常数矩阵时.由定义推出:1 .Var (AX )= AVar (X )A = ALAl. Cov (AX .BY )= ACov (X,Y)B3设X为p维向量,它的期望值为kb协方差为E, A为pxp矩根据矩阵代数理论,若是正定的,可以证明:协方差阵E的非0特 征根入&入2事事入p0所对应的单位化的特征向量W,u2? .,up,分 别作为系数向童可以满足以上的要求.令U =( u1 u2 up),则有 UEU= (X)其中(入)是个对角矩阵.因此.记Y =UrX,则Y的分童可记为:* = u;x, y2 = u;x L ,yp =u;x根据UEU= (X)以及斗之间相互独立的条件,得出:var(j,) =Xf i = 7,L ,py(yi9yJ) = iiiiiJ=O ij依次是X的第一儿=心2 =;“丄,yp = upx这时,y的分童主成分,第二主成分第P主成分,并且满足,二 主成分的性质 The nature of principal components性质1 y的协方差阵为对角阵(diagonal matrix) A:性质1证明:由于y二Ux,根据协方差矩阵的性质得:a0L0 0入2L0A =X. X, L 0MMMM1zp00LIpcov( j) = coy(UxUx) = U coy(xyx)U = uru = a)二 a15 x,. = o性质2证明:由矩阵的、迹“的性质知,对于任意两个方阵A和B,有tr(AB) = tr(BA) 若假设A= U B= EU,则可得:Zr(A) = tr(UU) = tr(LUU) = Zr(E)pp即有: 儿= o f=l/=!即经过线性变换之后.两组变量X与丫的方差之和相尊。定义1称(k=1,2,-,p)为第k个主成分yk的方差贡献率.称为主成分*於,的累积贡献率。#利用主成分分析的目的是为了减少变童的个数,所以绝不用P个 主成分,而用znvp个主成分。m取多大,这是一个很实际的问题, 通常所取m使得累积贡献率达到85 %以上为宜,即#17选取主成分还可根据特征值的变化来确定特征值m=3时就可使所选主成分保持信息总量的比重达到85%以上.主成分序号碎石图中使得特征值变化曲线转为平缓的转折点所对应的主成分 序号确定作为合适的主成分数.用此方法确定的主成分数往往与计算 式确定的主成分数相一致.定义2 第k个主成分人与原来变量的相关系数p (yk,xj称作因子负V X因子负荷址是主 成分经济解释中 非常重要的解释 依据,由因子负 荷量在主成分中 的绝对值大小来 刻画该主成分的 主要经济意义及、其经济成因.丿性质3 主成分人与原始Xi的相关系数为:卩(力心)=阿/7 = 1,2,L、p性质3证明:p(z)d;議厂皿回cov( iikx,ex) = 1(;“ =) = e(Xkuk)= (e/iuk) = ukl第i个元素等于1 -s ym对原始变量x:的方差贡献率v即v产匸人吆/6心1,2丄,pi=i上式表达了第/个原变量Xj被提取了W个信息,由此判断我们提取的主 成分说明原始变童的能力.I#三、由相关矩阵R出发求解主成分.相关矩阵实际上是数据标准化之后的协方差矩阵将每个样品人进 行标准化变换,得到记原始变量X标准化后的矩阵为乙相关矩阵记为R (X)或COV (Z), 可以计算出:E(Z) = O1PnpPl21LPipMMMPipP2pL1R(X ) = cov( Z )=#19例12.1在企业经济效益的评价中,涉及的指标往往很多为了简化 系统结构,抓住经济效益评价中的主要问题.我们可由原始数据矩阵 出发求主成分在对我国部分省.市.自治区独立核算的工业企业的 经济效益评价中,涉及到9项指标,原始数据见表即样品数 n=28,变量数p=9解:首先将原始进行标准化处理。Xq= j(i = 1,2,L,汀=1,2丄,p)#然后,计算样本相关矩阵R=(rij).(假设Xq表示的是标准化的数据)V经计算得相关矩阵为:标准化散据的均值 为0.方差为1丄 f = l#下一步,求相关矩阵R的特征值及特征向量。用SPSS软件,可以求得 特征值.特征值贡献率.累积贡献率见下表。Total Varlanee ExplainedComponentInitial EigenvaluesTotal% of VarianceCumulative %16.15068.33268.33221.47316.36584.6983.6977.74992.4474.3183.53195.9785.1902.11298.0906.1161.28999.3797.029.32499.7038.024.27099.9739.002.027100.000Extractio6.1501.473Extraction Method: Principal Component Analysis.Sums of Squared Loadings68.33216.365VarianceCumulai一68.332取特征值大于等于1的作为主成分21#KMO和Bartlett的检验取样足够茂的Kaiser-Meyer-Olkin度量。.754RartlPtt的號形度检验近似卡方379.522df36Sig.000其中切是变量人与Xj简单相关系数,匕是偏相关系数。KMO值越接 近1,意味变量间的相关性越强.越适合进行主成分分析巴特利检验的是相关矩阵与单位矩阵的差异是否显著.拒绝原假设 意味着相关阵与单位阵差异显著,适合进行主成分分析.上表中显然拒 绝原假设.进一步.选择m(mp)个主成分.由于和y2的方差和占全部总方差的 比例84.7% ,故取两个主成分。由因子载荷矩阵可以更清楚地反映出 主成分与各原始变量的亲疏关系#0 特征向量的求法:Method for BgenvectorsaiJ = P(儿T)二朴屁=両Ji因子负荷矩阵中的元素州是主成分儿与原始变量(标准化)X|的相关系数 为:可以得出因子载荷矩阵A与正交矩阵U的关系是:X1 如 2 L %-阿5 庆5 L J心叫A =an an L almJ 入1“I2 J 入 2“22 LL L L LLLLLfpl pl Lpm因此得第一个特征向童:#23Component120.9310.3150.97S0.1630.931.3220.2320.8630.4330.5960.9230.2000.8970.2740.8710.0640.8990.154两个主戍分的特征向童Yi 丫? I0.3750.2590.3940.134 0. 3750.2650.0940.7110.1750.4910.372-0.1650.362 0.2260.3510.0530.3620.127|因此得到 两个主成 分的线性 组合为:Ij, = 0375X( + 0.394r2 + 0375x3 + 0.094r4 + 0.175xs+ 0372r6 + 0.362r7 + 0.35 Lrg + 0365r9y2 = -0.259tr, + 0.134r2 + 0.26Sr3 + 0.71 lx4 + 0.49 U5一 016“6 -225心 一 0.0520.127x9特征值相对应的特征向量 Eigenvalues corresponding eigenvectors23456780. 3750.260 0.0140.121 0.018-0. 2850.8040.0970. 2240. 3940.134-0.085 0.057-0.023 0. 302 0.023-0.374 0.8500.3750.2650. 1080.183-0.028-0. 100 0.229-0. 5810. 6480.0940.711 0.5220.0160.0300. 2350.2290.323-0.0220. 1750.4910.8030.0200.17701030. 0290.2070. 0220.372-0. 1650.2250.2360.349-0. 432-0.4290.4780. 1120.3620.2260.042 0.0460.5990. 6610.0350110 0.0890.351-0.0530.0830.755-0.4720. 2610.012-0.0390. 0450. 3630辺0.074 0.566 0.5130. 2440.2530.374-0.067主成分对应的特征向量#样品号y 得分界得分样品号屮得分y2得分11.1356271.996753150. 3969460.2989321.5064470.44204916 0.414350.0805463 0.19631-0.08054170.1430910.247414-0.815360.31687618 0.017560.3194195 1.200170.60356190.733471 1.0833160. 168561.044511200.0554450.5923617- 0.65065-0.6671221-0.568540.502858-0.419990. 57041322 0.904951.08640892.837911. 13591923-0.008531.97771 1101.590501 2.3126824 0.65494-0.33463111.761539-1.5007725-0.663361.440813120.029136-0.49326 1.374350.48823130.206626-0.4310327-1.23720.6938914 0.4798-1.0323628-0.62211-0.23546#25根据各样品的主成分得分(当主成分个数为2时),可在二维空间中描出各样品的分布情况.反映各个样品在主成分经济意义方面的情况m a Ort *o和i ri oc?L77 角&士.Q ,彼 n 疗0 JI ?lr M ks * *moFrO O、o 资金利 税率(H)侑售收 入利税 *(H)密金利 润(%)固定资 产产值 車(%)潦动资 金周转 天敷(%)万元产S值能耗|整为倒鼻厂家尺怕弓(万70/A- 年)1琉璃河16. 6826. 7531. M18 4053. 255528. 831752邯郸19. 7027. 5632. 9419. 2059. 25532. 92273大同15. 2023. 4032. 9816. 2446. 786541. 691. S34哈尔滨7. 29& 9721. 3047634. 396239. 21635华新29 4556. 4940 7443. M75. 326926. 682146湘乡32. 9342. 7847. 9833. K766. 465032 72607梯州25 3937. 8536. 7627. 5668. 186335. 792. 43K蛾罔15. 0519. 4927. 2114. 2156. 137635. 761759县19. 822M. 7833. 4120. 1759. 257139. 131S310永21. 1335. 2039. 1626. 5252. 476235. 0817311工*16. 7528. 7229. 6219. 2355. 765S30. 0815212抚顺15. S328. 0326. 4017. 4361. 196132. 751. 6013大连16. 5329. 7332. 4920. M50. 416937. 5713114江M22 2454 5931 0537. m67. 956332. 3315715江油12. 9220. 8225. 1212. 5451. 076639. 18183第二步:求出相关系数矩阵:Correlation MatrixZscort: H if资产利稅Zsoore: 资金利税 丰(%)Isoore KIP: 收入利税丰 (%)Zscore:资IJfdi%fscort:固定 资产产(ft丰Zscore: R标流动fscore:逆描 杯(万元产 值能徒(吨)Zsoort: 八苦功T产 率(力疋人年)Correiatior Zscore: 税(%1.000.849923.902.850312.489598Zicore:负金利税 (%.8491.000.690.988.860.107.595.265Zscore:们鲁收入, 税率(%).923.6901.000.774.611.366.342.531Zscore:勿金利润(.902.988.7741.000.856.121.596.329Zsco IM定资鬥 时(%).850.860.611.8561.000.084.6044WZscore:逆JHh(5 动贡佥陶转人救.312.107366.121.0841.000.343480Zicow ;” 元产tfifiEK (吨).489.595.342596.604.3431.000.226Zscore:个; 产淮(力力人年.598.265.531.329.493.480.2261.000Total Variance EmplanedCc moor entIriiiisl EiuenwliesEdracfiun Surns ufSqjd t?J LuadingsDtal%o(Varianc0Cumulate %Total% DfVariarceCumulative %1506I63.25763.2575.06163.25763.2572132016.50179.7581.32016.50179.758391710.21 D99.9691710.21089.963450B6.34596.3136.1962.45198.7646.0901.12999.9937008.10399.9968000.004100.000E)tacton Meihcd: Principal CompcnenlAnalysis.Component MatrixCompone nt123Zscore:固定资产利税 (x ).9了 0.037-.200Zscore:资金利税率 (z ).909-.342.048Zscore:销售收入利税率 (N ).851.158-.297Zscore:资金利513(%).941-.291-.010Zscore:固走资产产值率 (N ).897-.215-.007Zscore:逆:流动资金周 转天数(x).348.814.333Zscore:逹:万元产值能 耗(吨).653-.050.707Zscore:全囚万动生产率 (万元,人年).577.617-.274Extraction Method: Principal Component Analysis.a. 3 components extracted.W第三步:计算R的特征值及特征向量。I成分 特征向戢变量JiXixi/6.43133i0.03243-022024X20.4041084)297080.056401X30.3782790.139290.32573X40.418278-025204-0.00883X5.398520 J 88844).01098X60.15353037222山0.290954-0.0408807784p%0.255967CO.5349C031307特征值5.061.320.82贡献率U2Z6330.165累计贡献率0.632 64Q797410.89886第四步:确定和解释主成分;根据前面表知,前三个主成分包含原始 数据的信息总量已约90%,这说明用儿力必代表原来的8个指标评价 企业经济效益已有足够的把握。三个主成分的线性组合如下:主成分的经济意义由各线性组合中权数较大的几个指标的综合 意义来确定。y = 043134心 +0.4041 lx, + 037828心 + 0.41828x (+ 0.39853花 + 0.15353x6 + 0.29095x7 + 025597心j2 = 003244心-0.29708x2 + 0.13929x, - 0.25042x4 0.18884x5 +0.71002x3U/=! /=! /=!将标准化后的原始数据代入主成分式就可计算出各企业在三个综合因子 (主成分)的名次利用上式就可计算出各企业经济效益的综合得分, 由综合得分可排出企业经济效益的名次。因子得分及排序见、拓湘乡水泥厂的综合经济效益最好,是第一名;华新水泥厂的综合经 济效益为第二名;,哈尔滨水泥厂的综合经济效益最差。从影响企业经济效益的三个主要因子的得分看.哈尔滨水泥厂在 企业盈利能力方面差,是经济效益差的主要原因.华新水泥厂的盈利能 力最强,但这个厂的资金和人力利用效果最差,如果能够加快资金周 苕.进一步提高劳动生产率.保持自己强有力的盈利能力,该厂的经济 游从而更好,将会立足于全国重点水泥厂的歷前列水泥厂名盈利魏力方面竇金和人力利用方面产值能耗方面僚合效益评价Y帛分名次丫爪分名次百得分名次馀合得分名次班璃河O. 08970. 63541. 92910. 2396邯W0. 7252. 15520. 09270. 8325大W-1. 857130. 09464. 99414-1. 28813哈尔滨-4. 207150. 92230. 24262. 48215华新4. 1841-1. 744150. 26252. 3742湘乡3. 82622. 1891-0. 537122. 7361榜州1. 74440. 4835981131. 0893*启-1. 73612-0. 855124. 4501028712n县-0. 4348-0. 534111. 17215-0. 47910水0 5346-0. 0727-0. 34590. 2117工W-0. 4709-0. 07581. 2752-0. 1858抚顺-0. 715100. 422100. 97430. 4279大连1. 21711-1. 164134. 51411101611江南1. 8893-1. 488140. 4894O. 9924江油-2. 173140. 09564 2708-1. 39414有关主成分分析的应用说明:For PCA Application Note1.在一般的情况下,由协方差矩阵和相关系数矩阵出发求出的主 成分是不同的。对于不同度量和不同童级的数据,还是直接利用相关 系数矩阵求解主成分为宜.2. 主成分分析并不要求数据来源于正态总体。3. 主成分分析方法适用于变量之间存在较强的关联性的数据,如果 变童之间的相关性较弱,运用主成分分析后并不能起到降维的作用.一 般认为,当原始数据大部分变量的相关系数都小于0.3时,主成分分析 不能取得很好的效果。4. 主成分分析不能有效地剔除重叠的信息,但可以发现原始变童之 间存在共线性(某个特征值接近于0) 437
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!