主成分分析与_装配图网

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,主成分分析与因子分析,1,多变量大样本分析中，变量间存在共线性，增加了分析的复杂性。若分别分析各个指标，分析有可能是孤立的，而不是综合的；盲目地减少指标又有可能损失很多信息，得出错误结论。欲采用较少指标，反映原资料大部分信息，可采用主成分分析和因子分析。,2,主成分分析,3,概念,主成分分析(principal component analysis)是将分散在一组变量上的信息,集中到某几个综合指标(主成分)上的一种探索性统计分析方法。它利用降维的思想,将多个变量化为少数几个互不相关的主成分,从而描述数据集的内部结构。,4,主成分的几何意义,x1,x2,p1,p2,x1,5,对应m个变量的q个主成分如下:,6,其中( ),分别是变量相关阵的前q个特征根对应的特征向量。,的方差分别是q个特征根12q。( )是第i个变量在各个主成分上的载荷。而实际上载荷往往是指，它是第i个,变量在各个标准化主成分上的载荷。据此可用最小二乘法解得标准主成分得分。标准化主成分的方差为1。,7,PCA常用统计量：,.特征根,i,.各成分贡献率,.前各成分累计贡献率,.特征向量各成分表达式中标准化原始变量的系数向量，就是各成分的特征向量。,8,因子分析,9,一、因子分析模型,设X=(x,1, x,2, ,x,p,)为可观测的随机变量，且有,f=(f,1,f,2,f,m,)为公共（共性）因子（common factor），简称因子（factor）,10,e=(e,1,e,2,e,p,)为特殊因子（specific factor）,f和e均为不可直接观测的随机变量,=(,1,2,p,)为总体x的均值,A=(a,ij,),p*m,为因子负荷（载荷）（factor loading）矩阵,11,通常先对,x,作标准化处理，使其均值为零，方差为这样就有,假定（）,f,i,的均数为，方差为；,（）,e,i,的均数为，方差为,i,；,（）,f,i,与,e,i,相互独立,则称x为具有m个公共因子的因子模型,12,如果再满足（）f,i,与f,j,相互独立（ij），则称该因子模型为正交因子模型。,正交因子模型具有如下特性：,x的方差可表示为,设,13,（）h,i,2,是m个公共因子对第i个变量的贡献，称为第i个共同度（communality）或共性方差，公因子方差（common variance）,（）,i,称为特殊方差（specific variance），是不能由公共因子解释的部分,14,因子载荷（负荷）a,ij,是随机变量x,i,与公共因子f,j,的相关系数。,设,称g,j,2,为公共因子f,j,对x的“贡献”，是衡量公共因子f,j,重要性的一个指标。,15,二、因子分析的步骤,1.输入原始数据x,n*p,，计算样本均值和方差，进行标准化计算（处理）；,2.求样本相关系数矩阵R=(r,ij,),p*p,；,3.求相关系数矩阵的特征根,i,(,1,2,p,0),和相应的标准正交的特征向量l,i,；,16,4.确定公共因子数；,5.计算公共因子的共性方差h,i,2,;,6.对载荷矩阵进行旋转，以求能更好地解释公共因子；,7.对公共因子作出专业性的解释。,17,三、因子分析提取因子的方法,主成分法,（principal component factor）,18,每一个公共因子的载荷系数之平方和等于对应的特征根，即该公共因子的方差。,19,极大似然法（,maximum likelihood factor,）,假定原变量服从正态分布，公共因子和特殊因子也服从正态分布，构造因子负荷和特殊方差的似然函数，求其极大，得到唯一解。,20,主因子法（,principal factor,）,设原变量的相关矩阵为R=(r,ij,)，其逆矩阵为R,-1,=(r,ij,)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数，,i,=1/r,ii,。,则共同度的初始值为(h,i,),。,21,以(h,i,),2,代替相关矩阵中的对角线上的元素，得到约化相关矩阵R 。,R的前m个特征根及其对应的单位化特征向量,就是主因子解。,22,迭代主因子法,（,iterated principal factor,）,主因子的解很不稳定。因此，常以估计的共同度为初始值，构造新的约化矩阵，再计算其特征根及其特征向量，并由此再估计因子负荷及其各变量的共同度和特殊方差，再由此新估计的共同度为初始值继续迭代，直到解稳定为止。,23,因子载荷（负荷）a,ij,是随机变量x,i,与公共因子f,j,的相关系数。,设,称g,j,2,为公共因子f,j,对x的“贡献”，是衡量公共因子f,j,重要性的一个指标。,24,四、因子旋转,目的：使因子负荷两极分化，要么接近于0，要么接近于1。,常用的旋转方法：,25,（1）方差最大正交旋转,（,varimax orthogonal rotation,）,基本思想：使公共因子的相对负荷（l,ij,/h,i,2,）的方差之和最大，且保持原公共因子的正交性和公共方差总和不变。,可使每个因子上的具有最大载荷的变量数最小，因此可以简化对因子的解释。,26,（2）斜交旋转,（oblique rotation）,因子斜交旋转后，各因子负荷发生了较大变化，出现了两极分化。各因子间不再相互独立，而彼此相关。各因子对各变量的贡献的总和也发生了改变。,适用于大数据集的因子分析。,27,五、因子得分,Thomson法，即回归法,回归法得分是由Bayes思想导出的，得到的因子得分是有偏的，但计算结果误差较小。,28,Bartlett法,Bartlett因子得分是极大似然估计，也是加权最小二乘回归，得到的因子得分是无偏的，但计算结果误差较大。,因子得分可用于模型诊断，也可用作进一步分析的原始资料。,29,六、因子分析应用的注意事项,应用条件,（1）变量是计量的，能用线性相关系数（Pearson积叉相关系数）表示。,（2）总体的同质性,30,样本量,没有估计公式。至少要保证样本相关系数稳定可靠。,因子数目,一般认为，累积贡献要达到80%以上。但要注意Heywood现象。,31,谢谢,32,

展开阅读全文

主成分分析与

最新文档