数据分类与降维技术资料课件

上传人:痛*** 文档编号:241780921 上传时间:2024-07-23 格式:PPT 页数:83 大小:728KB
返回 下载 相关 举报
数据分类与降维技术资料课件_第1页
第1页 / 共83页
数据分类与降维技术资料课件_第2页
第2页 / 共83页
数据分类与降维技术资料课件_第3页
第3页 / 共83页
点击查看更多>>
资源描述
第八章第八章 数据分类与降维技术数据分类与降维技术配套教材配套教材配套教材配套教材:统计数据分析方法与技术统计数据分析方法与技术统计数据分析方法与技术统计数据分析方法与技术经济管理出版社经济管理出版社经济管理出版社经济管理出版社20142014第八章第八章 数据分类与降维技术数据分类与降维技术8.1聚类分析聚类分析8.2判别分析判别分析8.3主成分分析主成分分析8.4因子分析因子分析8.1聚类分析聚类分析8.1.1聚类分析的含义及原理聚类分析的含义及原理8.1.2样品或变量相似程度的度量样品或变量相似程度的度量8.1.3系统聚类法系统聚类法8.1.4聚类分析案例及聚类分析案例及SPSS实现实现8.1.1聚类分析的含义及原理聚类分析的含义及原理 1、聚类分析的含义与基本原理、聚类分析的含义与基本原理含含义义:聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,将大量的样品(或变量)依据数据间的相似性归为不同类的一种数据分类方法。原原理理:根据已知数据,通过计算测定各样品(或变量)之间的相似程度,根据某种准则,将众多样品(或变量)归为不同类的一种多元统计分析方法,聚类的结果要使同一类样品(或变量)间的差别较小,而类与类之间的差别较大。8.1.1聚类分析的含义及原理聚类分析的含义及原理 2、聚类分析的特点、聚类分析的特点(1)聚类分析属于探索性分类方法,通过分析数据的内在特点和规律,根据个体或变量的相似性对其进行分类。(2)聚类分析适用于没有先验知识的分类。(3)聚类分析得到的“类”并不存在一个明确的概念,需要研究者结合研究目的和任务加以概括。(4)聚类分析适合处理多个变量决定的分类。8.1.1聚类分析的含义及原理聚类分析的含义及原理 3、聚类分析的类型、聚类分析的类型(1)根据聚类方法不同分:系统聚类与快速聚类)根据聚类方法不同分:系统聚类与快速聚类系系统统聚聚类类又称分层聚类,其基本思想是:先将每个样品(或变量)各看成一类,然后规定类与类之间的距离计算准则,选择距离最小的两个样品(或变量)合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品(或变量)合为一类。快快速速聚聚类类是先确定所分的类别数K,并确定K个样品作为K个类别的初始聚类中心,依次计算每个样品到K个聚类中心的距离,根据距离最近原则将所有样品分到事先确定的K个类别中,以此形成K个类别,计算各类别中每个变量的均值,以均值点作为新的K个类别的中心,重复上述过程,反复迭代直至满足终止聚类条件为止。8.1.1聚类分析的含义及原理聚类分析的含义及原理(2)根据分类的对象不同分:)根据分类的对象不同分:Q型聚类与型聚类与R型聚类型聚类 Q型型聚聚类类是对样品进行分类。一个样品有多个变量属性描述,对于观测到的多个样品,根据样品的变量特征,将特征相似的样品归为一类。R型型聚聚类类是对变量进行分类。反映研究对象特点的变量有许多,有些变量之间存在相互关联,通过聚类,可以找出相互独立又有代表性的主要变量,为进行其他分析提供便利。8.1.2 样品(或变量)间相似程度的度量样品(或变量)间相似程度的度量样样品品(或或变变量量)之之间间的的亲亲疏疏关关系系由由相相似似性性描描述述,通通常常用用距距离离描描述述样样品品间间的的相相似似性性,用用相相似似系系数数度度量量变变量量间的相似性。间的相似性。1、样品间距离的度量、样品间距离的度量假定有n个样品,每个样品有p个指标描述其性质,形成p维向量,n个样品就形成了p维空间中的n个点。用dij(dij0)度量第i个样品与第j个样品的距离,由此得到一个对称的距离矩阵D(nn):8.1.2 样品(或变量)间相似程度的度量样品(或变量)间相似程度的度量其中距离的计算公式主要有如下几种:(1)Euclidean距离(2)Euclidean平方距离(3)Chebychev距离(4)Minkowski距离8.1.2 样品(或变量)间相似程度的度量样品(或变量)间相似程度的度量(5)Lance距离(6)Mahalanobis距离 8.1.2 样品(或变量)间相似程度的度量样品(或变量)间相似程度的度量 公式特点(1)Euclidean距离(2)Euclidean平方距离(3)Chebychev距离(4)Minkowski距离 适合于各变量计量单位相同并且变量值变动范围相差不大的情况,否则,应将变量进行标准化处理。没有考虑变量之间的相关性,只能用于变量之间相关性较低的情形。(5)Lance距离 各变量值必须大于0,消除了变量单位不同的影响,对大的变量值不敏感。没有考虑变量间的相关性,适用于变量间相关性较低的情况。(6)Mahalanobis距离 消除了量纲影响,不易受极端值影响。考虑了变量间的相关性。缺点是协方差矩阵难以确定。8.1.2 样品(或变量)间相似程度的度量样品(或变量)间相似程度的度量2、变量间相似性的度量、变量间相似性的度量假定有p个变量,对其进行了n次观测。用rij(|rij|1)表示n次观测中第i个变量和第j个变量之间的相似系数。对所有变量两两间计算相似系数,同样得到一个对称的相似系数矩阵R(pp):相似系数rij的常用计算方式有夹角余弦和相关系数两种。8.1.2 样品(或变量)间相似程度的度量样品(或变量)间相似程度的度量(1)夹角余弦rij为变量xi的观测向量(x1i,x2i,xni)和变量xj的观测向量(x1j,x2j,xnj)之间夹角的余弦函数。8.1.2 样品(或变量)间相似程度的度量样品(或变量)间相似程度的度量(2)Pearson相关系数如果变量经过Z得分标准化处理,则两变量间的夹角余弦等于相关系数。相关系数在-1到1之间。8.1.3系统聚类法系统聚类法 1、系统聚类方法的步骤、系统聚类方法的步骤(1)将n个样品各作为一类,形成n类;(2)计算n个样品两两之间的距离,构成距离矩阵;(3)基于上一步的样品距离公式计算类与类之间的距离。把距离最近的两类合并成一类,总类数减少1;(4)重复上一步,计算类与类之间的距离。把距离最近的两类合并成一类,总类数减少1,直至只有一类;(5)画聚类图,解释类与类之间的距离。8.1.3系统聚类法系统聚类法 2、类与类之间的距离计量方法、类与类之间的距离计量方法(1)最短距离法)最短距离法最短距离是将类与类之间的距离定义为两类中相距最近的样品之间的距离。(2)最长距离法)最长距离法最长距离法是将类与类之间的距离定义为两类中相距最远的样品之间的距离。(3)中间距离法)中间距离法中间距离法对类与类之间的距离定义:先取距离值居于中间的样品为一类,按中间距离法计算新类与其他各类间的距离,依次进行下去。8.1.3系统聚类法系统聚类法(4)重心法)重心法每一类的重心(又称质心)就是该类所有样品的均值,类间距离用各自重心间的距离表示。(5)类平均法)类平均法 用两类样品两两之间平方距离的平均作为类之间的距离。(SPSS 系统聚类默认的方法)除以上5种类间距离计量方法外,常见的还有可变法、可变类平均法及Ward法等方法,各种方法的计算步骤完全相同,仅类与类之间的定义不同。8.1.3系统聚类法系统聚类法 例例:为了研究辽宁等5省区某年城镇居民生活消费的分布规律,调查得到A、B等与消费相关的8个方面的数据资料,以最长距离方法做类型划分。解:解:各样品为:G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海。第一步:采用欧氏距离计算两两样品间的距离值,得到如下距离表D1:其中:第二步:由距离表D D1 1可判断,河南(3)与甘肃(4)的距离最近,先将二者合为一类G6=G3,G4,其余分类不变,样品聚为4类。重新计算G6与其他3类的距离如表D2。d61=d(3,4)1=maxd13,d14=13.81 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51第三步:由距离表D D2 2可判断,G6(6)与青海(5)的距离最近,将二者合为新类G7=G6,G5=G3,G4,G5,其余分类不变,样品聚为3类。重新计算G7与其他2类的距离如表D3。d71=d(3,4,5)1=maxd13,d14,d15=13.81 d72=d(3,4,5)2=maxd23,d24,d25=24.63 第四步:由距离表D D3 3可判断,辽宁(1)和浙江(2)合为一类G8=G1,G2,所有样聚为两类。重新计算G8与另一类的距离如表D4。此时,7与8最后合并为一类。采用最长距离法得到的聚类结果与书中最短距离法结果相同。上述合并进程可用下图表示:8.1.4 聚类分析案例及聚类分析案例及SPSS实现实现 上例用上例用SPSS聚类工具实现过程如下:聚类工具实现过程如下:(1)输入数据;)输入数据;(2)调用聚类分析功能,进行聚类变量选取;)调用聚类分析功能,进行聚类变量选取;8.1.4 聚类分析案例及聚类分析案例及SPSS实现实现(3)系统聚类设置:统计量、绘制(图)、方法)系统聚类设置:统计量、绘制(图)、方法8.1.4 聚类分析案例及聚类分析案例及SPSS实现实现 8.1.4 聚类分析案例及聚类分析案例及SPSS实现实现(4)输出结果)输出结果8.1.4 聚类分析案例及聚类分析案例及SPSS实现实现(4)输出结果)输出结果(4)输出结果;冰柱图)输出结果;冰柱图(4)输出结果;树状图)输出结果;树状图8.2判别分析判别分析8.2.1判别分析概述判别分析概述8.2.2判别分析的方法判别分析的方法8.2.3判别分析案例及判别分析案例及SPSS实现实现8.2.1判别分析概述判别分析概述1、判别分析的基本思想、判别分析的基本思想 判别分析是根据已知分类的样本,基于一定的判别准则建立判别函数,进而对未知类别的个体进行类别划分的一种分类方法。其中用于建立判别函数的样本称为训练样本。判别分析中,每一类别可看作一个总体,每一总体包含许多个体,个体又称为样品或个案。描述个体类别属性的观测变量称为判别指标。判别分析能否准确区分各类与判别指标是否较好地描述了类别特征有关。判别函数是关于各描述变量的函数表达式,变量能否进入判别函数取决于变量的判别能力及具体的判别方法。8.2.1判别分析概述判别分析概述2、判别分析对数据的要求、判别分析对数据的要求(1)选取的观测变量(作为判别分析的自变量)应该是与分类有关的重要尺度。即:同一变量在不同类的表现值应有显著差异。(2)所分析的自变量应是因变量(类型)的重要影响因素。(3)作为训练样本,样本的容量不能太小,通常要求样本容量是自变量个数的10倍以上,每一类的样本容量是自变量个数的3倍以上 3、判别分析的分类、判别分析的分类(1)按判别的总体数分:两总体判别分析和多总体判别分析 8.2.1判别分析概述判别分析概述(2)按判别函数的模型形式分:线性判别和非线性判别。(3)按判别分析时对变量处理方法不同分:逐步判别和序贯判别。(4)按判别准则来分:距离判别、贝叶斯判别、费歇尔判别等。获得判别函数的过程也就是对判别函数中的系数进行估计的过程,估计的方法不同对应于不同的判别方法。8.2.2 判别分析的方法判别分析的方法 1、距离判别法、距离判别法(1)距离判别法的基本思路首先根据已知总体的数据,分别计算各总体的重心即均值;其次对任给的一个样品,利用马氏距离最小准则,即该样品与第i类的中心距离最近,就认为它来自第i类。(2)特点简单直观,对总体的分布并没有特定的要求。未考虑各个总体出现的概率。未考虑错判损失的不同。8.2.2 判别分析的方法判别分析的方法 2、贝叶斯判别法、贝叶斯判别法原理原理:将所有P个类别当作空间中互斥的子域,每个观测都是空间中的一个点。在考虑先验概率的前提下,利用Bayes公式按照一定准则构造一个判别函数,分别计算该样品落入各个子域的概率(或错判损失),所有概率中最大(或错判损失最小)的一类就被认为是该样品所属的类别。特点特点:综合考虑了各个总体出现的概率和不同错判损失。但要求总体呈多元正态分布,应用范围窄。8.2.2 判别分析的方法判别分析的方法 3、费歇尔判别法、费歇尔判别法原理原理:即将原来在R维空间的自变量组合投影到维度较低的D维空间去,投影的原则是使得每一类内的离差尽可能小,而不同类间投影的离差尽可能大。然后使用典型变量计算出各类别在低维空间中的重心坐标,给出的判别式也是用于计算各样品的坐标值,最后用各观测点离各类别重心距离的远近来做出所属类别的判断。特点特点:对分布、方差等都没有什么限制,应用范围较广。8.2.3 判别分析案例及判别分析案例及SPSS实现实现SPSS中的判别分析工具可输出:典型判别函数和Fisher判别函数两种。1、SPSS中费歇尔判别方法的过程为:典型判别函数系数对应费歇尔判别法。典型判别函数个数小于等于k(k为类别数),函数编号与类别没有对应关系。将每一样品的指标代入函数,可以得到每一样品的各函数得分,SPSS同时输出了每个函数在各类别的质心值,据此计算每一类的到质心的平方马氏距离,距离最小的类即为样品所在类。8.2.3 判别分析案例及判别分析案例及SPSS实现实现2、SPSS中贝叶斯方法的过程为:Fisher函数系数对应贝叶斯判别法。贝叶斯判别函数个数为k个(k为类别数),函数编号对应类别。将每一样品的各指标值分别代入k个函数计算出k个得分,得分最大的函数即为样品所在类。8.3主成分分析主成分分析8.3.1主成分分析的基本思想主成分分析的基本思想8.3.2主成分分析的模型与几何意义主成分分析的模型与几何意义8.3.3总体主成分及其性质总体主成分及其性质8.3.4样本主成分样本主成分8.3.5主成分分析案例及主成分分析案例及SPSS实现实现8.3.1 主成分分析的基本思想主成分分析的基本思想 主成分分析也称主分量分析,是将多个变量通过线性变换以选出少数几个综合变量的一种数据降维方法。(1)每一个主成分都是原始变量的线性组合。(2)主成分的数量大大少于原始变量的数量。(3)主成分保留了原始变量绝大多数的信息。(4)各主成分之间互不相关。(5)主成分不存在确定的名称,并且不具有实际意义。8.3.2 主成分分析的模型与几何意义主成分分析的模型与几何意义 1.主成分分析的代数模型主成分分析的代数模型 设对某一问题的研究涉及p个指标,用X1,X2,Xp表示,这p个指标构成p维随机向量X=(X1,X2,Xp)。考虑如下线性变换:设ai=(ai1,ai2,aip),(i=1,2,p),A=(a1,a2,ap),则有:Y=AX 8.3.2 主成分分析的模型与几何意义主成分分析的模型与几何意义 对上述线性变换附加如下约束:(1)aiai=1,即ai12+ai22+aip2=1,i=1,2,p;(2)Y1在满足约束(1)的情况下,方差最大;Y2是在满足约束(1)、且与Y1不相关的条件下,其方差达到最大;Yp是在满足约束(1),且与Y1、Y2、Yp-1不相关的条件下,在各种线性组合中方差达到最大者。满足上述约束得到的合成变量Y1、Y2、Yp分别称为原始变量的第一主成分、第二主成分、第 p主成分。8.3.2 主成分分析的模型与几何意义主成分分析的模型与几何意义 各成分属于抽象、综合概念,难于赋予具体名称。成分的个数与指标个数相同。各成分方差在总方差中所占比重依次递减。这意味着各成分保留原始指标的信息依次减少。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。8.3.2 主成分分析的模型与几何意义主成分分析的模型与几何意义 2.主成分分析的几何意义主成分分析的几何意义为便于说明问题,假设只有两个指标x1和x2,进行了n次观测,这可看作二维空间中的n个点,如图a所示,将轴同时按逆时针方向旋转角度,得到新坐标轴y1和y2,如图b。8.3.2 主成分分析的模型与几何意义主成分分析的模型与几何意义 图a中的n个点无论是沿x1轴方向或x2轴方向都具有较大的离散性(分别用观测变量x1的方差和x2的方差表示),x1与x2之间也存在一定的相关性。若只考虑x1或x2中的任何一个,原始数据中的信息均会有较多的丢失。经过旋转,n个点在新坐标轴下的坐标y1和y2几乎不相关,称它们为原始变量x1和x2的综合变量,n个点在y1轴上的方差达到最大,即在此方向上包含了有关n个样品的最大量信息。因此,将二维空间的点投影到某个一维方向上,则选择y1轴方向能使信息的损失最小。称y1为第一主成分,称y2为第二主成分。8.3.2 主成分分析的模型与几何意义主成分分析的模型与几何意义 上述旋转变换就把原始数据的信息集中体现到y1轴上,对数据包含的信息起到了浓缩的作用。寻找第一主成分相当于将二维空间的点投影到某个一维方向上。旋转后与旋转前坐标关系为:用矩阵表示:8.3.3 总体主成分及其性质总体主成分及其性质 主成分分析要求保留原始变量尽可能多的信息,即生成的较少的综合变量(主成分)的方差总和尽可能接近原始变量的方差总和,因此在求解主成分的时候,总是从变量的协方差矩阵或相关矩阵的结构分析入手。1、从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分是p维随机向量 X=(X1,X2,Xp)的协方差矩阵,设1 2 p 0 为 的特征值,e1,e2,ep为矩阵各特征值对应的标准正交特征向量,原始变量的p个主成份为:Y1=e1X,Y2=e2X,Yp=epX 8.3.3 总体主成分及其性质总体主成分及其性质(2)从相关矩阵出发求解主成分)从相关矩阵出发求解主成分如果对原始变量作标准化变换:如果对原始变量作标准化变换:则:则:原原始始变变量量的的相相关关矩矩阵阵就就是是原原始始变变量量标标准准化化后后的的协协方方差差矩矩阵阵,因因此此,由由相相关关矩矩阵阵求求主主成成分分的的过过程程与与由由协协方方差矩阵求主成分的过程两者一致。差矩阵求主成分的过程两者一致。8.3.3 总体主成分及其性质总体主成分及其性质 用(i,ei)表示相关矩阵R对应的特征值和标准正交特征向量,主成分为:Yi=eiZ=ei(ij1/2)-1(X-)i=1,2,p 8.3.3 总体主成分及其性质总体主成分及其性质(3)主成分的性质)主成分的性质 性质性质1 1 Y的协方差矩阵为对角阵,即:性性质质2 2 设=(ij)pp是随机向量 X 的协方差矩阵,可得:即:8.3.3 总体主成分及其性质总体主成分及其性质 可见,主成分分析是把p个随机变量的总方差分解为p个不相关随机变量的方差之和12 P,则总方差中属于第i个主成分(被第i个主成分所解释)的比例称为第i个主成分的贡献度:前m个主成分的累积贡献度(通常取累计贡献度达到一个较高的百分数,如75%以上):8.3.3 总体主成分及其性质总体主成分及其性质 性性质质3记第k个主成分Yk 与原始变量 Xi 的相关系数为r(Yk,Xi),称为因子载荷,或者因子负荷量,则有:8.3.4 样本的主成分样本的主成分 总体的协方差矩阵和相关矩阵R通常未知,需要采用样本数据来估计。样本协方差矩阵为:其中:样本相关系数矩阵为:8.3.5 主成分分析案例及主成分分析案例及SPSS实现实现 主成分分析的具体步骤可以归纳为:第一步:第一步:根据研究问题选取初始分析变量;第第二二步步:根据初始变量特性判断由协方差矩阵求主成分还是由相关矩阵求主成分;第第三三步步:求协方差矩阵或相关矩阵的特征根与相应的标准特征向量;第四步:第四步:确定主成分的个数,选取主成分;第五步:第五步:结合主成分对研究问题进行分析并深入研究。SPSS没有提供主成分分析的专用功能,只有因子分析功能,但可利用因子分析进行主成分分析。8.3.5 主成分分析案例及主成分分析案例及SPSS实现实现 SPSS的因子分析中因子的提取最常用的方法就是“主成分法”。在因子分析的“主成分提取”法下,得到因子载荷阵和相关系数矩阵的特征根,以此为基础可计算特征向量,计算式为:其中,eki为第i个特征向量的第k个元素;aki为因子载荷矩阵第k行第i列的元素;i为第i个因子对应的特征根。主成分表达式为:8.3.5 主成分分析案例及主成分分析案例及SPSS实现实现 例例:下下表是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值(单位:万元);X2:职工人数据(单位:人);X3:工业总产值(单位:万元);X4:全员劳动生产率(单位:元/人年);X5:百元固定资产原值实现产值(单位:元);X6:资金利税率(单位:%);X7:标准燃料消费量(单位:吨);X8:能源利用效果(单位:万元/吨)。试对上述指标进行主成分分析。X X1X X2X X3X X4X X5X X6X X7X X8冶金90342524551010911927282.016.11974350.172电力4903197320351031334.27.15920770.003煤炭6735211393767178036.18.27263960.003化学4945436241815572250498.125.93482260.985机器139190 203505 2158981060993.212.61395720.628建材122151621910351638262.58.71458180.066森工23726572810312329184.422.2209210.152食品11062230785493523804370.441.0654860.263纺织17111239075210821796221.521.5638060.276缝纫12063930612615586330.429.518400.437皮革21505704620010870184.212.089130.274造纸525161551038316875146.427.5787960.151文教1434113203193961469194.617.863541.574第一步:调用第一步:调用SPSS的因子分析功能。的因子分析功能。将原始数据输入SPSS数据编辑窗口,选择“分析降维因子分析”命令,调出因子分析主对话框,将变量X1-X8移入“变量”框中,其他保持系统默认选项,单击“确定”,按钮,执行因子分析过程。输出的特征根和方差贡献度表:表中,第一主成分特征值为3.105,可以解释总方差的38.811%,第二主成分特征值为2.897,可以解释总方差的36.218%,两者累计可解释总方差的75.029%,其余各主成分特征值均小于1,可解释的方差偏小。因此仅取2个主成分。输出的因子载荷矩阵为(aij):载荷表中每一载荷量代表的是主成分与对应变量的相关系数,不等于主成分模型中原变量前的系数,需要进行如下转换。第二步:计算特征向量第二步:计算特征向量(主成分模型中各变量前系数)e1=a1/SQRT(3.105)e2=a2/SQRT(2.897)由此得到各变量前系数,主成分表达式为:y1=0.477x1+0.473x2+0.424x3-0.213x4-0.388x5-0.352x6+0.215x7+0.055x8y2=0.296x1+0.278x2+0.378x3+0.451x4+0.331x5+0.403x6-0.377x7+0.273x8第三步:计算主成分得分第三步:计算主成分得分 SPSS的因子分析结果,是将原始数据标准化后进行的,主成分方程中的系数是标准化后得到的系数,对应的变量为标准化变量,计算主成分得分时应带入原始变量标准化后的变量值。标准化后的结果如下表:8.4因子分析因子分析8.4.1因子分析的基本思想因子分析的基本思想8.4.2因子分析的一般模型因子分析的一般模型8.4.3因子载荷矩阵的求解及因子数目的确定因子载荷矩阵的求解及因子数目的确定8.4.4因子旋转与因子得分因子旋转与因子得分8.4.5因子分析案例及因子分析案例及SPSS实现实现8.4.1因子分析的基本思想因子分析的基本思想1、因子分析的基本思想、因子分析的基本思想描述现象属性的多个变量之间存在一定的内在数量关系,因子分析是找出少数几个假想变量(因子)以反映原有变量的主要信息,从而实现数据降维。原有变量是可观测的显性变量,因子则是不可观测的潜在变量。例如:从对商场进行综合评价的24个指标(xi)中通过因子分析找出了三个主要因子(Fi),这三个因子分别反映了商场的环境、服务和商品的价格,则原有的指标可表示为:其中,i,为除三个主要因子之外的特殊因子8.4.1因子分析的基本思想因子分析的基本思想2、因子分析与主成分分析的联系与区别、因子分析与主成分分析的联系与区别(1)两者的相同点第一,思想一致,都是降维的思想。第二,应用范围一致。都要求变量之间具有不完全的相关性。第三,数据处理过程一致。数据的无量纲化,求相关系数矩阵的特征值和特征向量,通过累计贡献率确定主成分个数、因子个数。第四,合成方法一致。都没有考虑原始变量之间的关系,直接用线性关系处理变量与主成分和因子之间的关系。8.4.1因子分析的基本思想因子分析的基本思想(2)两者的不同点)两者的不同点第一,变现形式上。主成分分析把主成分表示成原始变量的线性组合,是对原始变量的重新组合;因子分析则把原始变量表示成各公共因子的线性组合,是对原始变量的分解。第二,方差损失方面。主成分解释了原始变量的全部方差,无方差损失;因子模型中除了有公因子外还有特殊因子,公因子只解释了部分信息,有方差损失。第三,唯一性方面。主成分分析不存在因子旋转,主成分是唯一的;因子分析要进行因子旋转,而旋转方法有多种,故其解不唯一。8.4.1因子分析的基本思想因子分析的基本思想第四,实际意义方面。主成分没有实际意义;公因子有实际意义。第五,应用方面。主成分侧重信息贡献、影响力综合评价,因子分析侧重成因清晰性的综合评价,和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更有优势。8.4.2 因子分析的一般模型因子分析的一般模型设X1,X2,Xp为p个原有变量,为了便于研究,并消除观测量纲差异及数量级别不同的影响,假设这p个变量已做标准化处理,即是均值为零、方差为1的标准化变量,F1,F2,Fm为m个因子变量,i为Xi的特殊因子,mp,则因子模型表示为:令:8.4.2 因子分析的一般模型因子分析的一般模型用矩阵表示:X X=AF AF 模型中,A为因子载荷矩阵,F为公共因子向量,为特殊因子向量。1、因子分析模型的假设条件、因子分析模型的假设条件(1)公共因子与特殊因子之间不相关;(2)各个公共因子不相关且方差为1(3)各个特殊因子不相关,方差不要求相等。8.4.2 因子分析的一般模型因子分析的一般模型2、因子载荷、因子载荷 因子模型中aij称为因子载荷,是第i个变量Xi在第j个因子Fj上的负荷。因子载荷aij既是第i个变量Xi与第j个公共因子Fj的相关系数,又是Xi与Fj的协方差。(因为变量Xi为标准化变量,其相关系数矩阵与协方差阵相同)。3、变量共同度(、变量共同度(h)变量Xi的共同度是变量Xi的因子载荷的平方和,记为:8.4.2 因子分析的一般模型因子分析的一般模型 由因子模型两边求方差:可得:即:hi2+i2=1,其意义为:共同度hi2与剩余方差i2具有互补关系,hi2越大表明Xi对公共因子的依赖程度越大,公共因子解释Xi方差的比例越大,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好。8.4.2 因子分析的一般模型因子分析的一般模型4、公共因子方差贡献、公共因子方差贡献用Sj衡量公共因子Fj对所有的Xi(i=1,p)的方差贡献和,Sj越大,表明公共因子Fj对X的贡献越大,或者说对X的影响和作用越大。其计算如下:对所有的Sj(j=1,m)按大小排序,可以找出影响相对较大的公共因子。8.4.3 因子载荷矩阵的求解与因子数目的确定因子载荷矩阵的求解与因子数目的确定1、因子载荷矩阵的求解、因子载荷矩阵的求解 因子模型中各公共因子是不可观测的随机变量,因此因子载荷矩阵A的估计方法比较复杂,常用的方法有主成分法、极大似然法、迭代主成分方法、最小二乘法、因子提取法等。不同方法得到的结果不全相同,以下介绍主成分法求解。过程如下:第第一一步步:由 p 个变量 可找出p 个主成分并按由大到小排序,记作Y1,Y2,Yp,主成分公式为:8.4.3 因子载荷矩阵的求解与因子数目的确定因子载荷矩阵的求解与因子数目的确定第第二二步步:主成分公式中,rij为随机向量X的相关矩阵的特征值所对应的特征向量的分量,由于特征向量彼此正交,容易得到:第第三三步步:对上式只保留前m个主成分而把其余的 p-m 个主成分用特殊因子用i代替,则上式转换为以下模型8.4.3 因子载荷矩阵的求解与因子数目的确定因子载荷矩阵的求解与因子数目的确定第第四四步步:为了使上述模型中的主成分Yi 符满足方差为1的假设,将Yi 符除以其标准差,而主成分分析中已得到Yi 的方差为特征根i,作如下转化:则第三步中的模型变为:8.4.3 因子载荷矩阵的求解与因子数目的确定因子载荷矩阵的求解与因子数目的确定由上式,可得到载荷矩阵A和一组初始公共因子(未旋转)。8.4.3 因子载荷矩阵的求解与因子数目的确定因子载荷矩阵的求解与因子数目的确定2、因子数目的确定、因子数目的确定公共因子的数目m的确定取决于研究的需要。一般可按最小特征值和总方差比例两个准则确定。(1)最小特征值规则 设置一个相关矩阵或协方差矩阵的特征值标准,特征值超过这一标准的个数作为因子个数。由于相关矩阵特征值的均值为1,所以通常取特征值大于1的数作为公共因子数。SPSS的因子分析工具中默认此种准则。(2)总方差比例 选择公因子个数m使得前m个特征值的解释方差和超过公因子总方差的某一门限值,比如70%、80%等。8.4.4 因子旋转与因子得分因子旋转与因子得分 通过因子载荷可以观察每一变量在各因子上的负荷。因子旋转是对因子载荷矩阵的旋转,是为了考察每一因子在各变量上的载荷,以便明确公共因子的意义。1、因子旋转的方法、因子旋转的方法(1)最大方差法,该方法通过使在每个因子上具有较高载荷的变量的个数最小化来简化因子。(2)最大四次方值法,对变量作旋转,该方法可以减少因子个数且简化变量。(3)最大平衡值法,对变量和因子均作旋转,该方法使有较大载荷作用于因子上的变量数和用于解释变量的因子数最小化。8.4.4 因子旋转与因子得分因子旋转与因子得分(4)直接Oblimin法,直接斜交旋转。(5)Promax法,该方法允许因子相关,计算速度快,一般用于大的数据集集合。上述方法各有优缺点,得到的结果也有差异。2、因子得分、因子得分计算因子得分就是依据各样本点的观测变量值计算出样本点在每一因子上的得分。因子模型中,观测变量由因子的线性组合表示,因子载荷则是该线性组合的权数,求因子得分的过程正好相反。该过程是通过观测变量的线性组合来表示因子,并依据该因子对应的每个变量的具体数值进行测度。8.4.4 因子旋转与因子得分因子旋转与因子得分 计算因子得分时,依据因子得分系数矩阵,由于该系数为标准化系数,需要将原始变量标准化后的值代入计算。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!