《主成分分析》PPT课件.ppt

上传人:za****8 文档编号:7250224 上传时间:2020-03-17 格式:PPT 页数:40 大小:1.15MB
返回 下载 相关 举报
《主成分分析》PPT课件.ppt_第1页
第1页 / 共40页
《主成分分析》PPT课件.ppt_第2页
第2页 / 共40页
《主成分分析》PPT课件.ppt_第3页
第3页 / 共40页
点击查看更多>>
资源描述
第二节主成分分析 principalcomponentanalysis 多元分析处理的是多指标问题 由于指标太多 使得分析的复杂性增加 众多的要素常常给模型的构造带来很大困难 观察指标的增加本来是为了使研究过程趋于完整 但反过来说 为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清 由于在实际工作中 指标间经常具备一定的相关性 故人们希望用较少的指标代替原来较多的指标 但依然能反映原有的全部信息 于是产生了主成分分析 对应分析 典型相关分析和因子分析等方法 主成分分析 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标 同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原始指标的信息 这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析 该方法也是数学上处理降维的一种方法 一 主成分分析的基本思想 主成分分析就是设法将原来众多且具有一定相关性的指标 比如p个指标 重新组合成一组新的相互无关的综合指标来代替原来指标 通常数学上的处理就是将原来n个指标作线性组合 作为新的综合指标 但这种线性组合 如果不加限制 则可以有很多 我们应该如何去选取呢 如果将选取的第一个线性组合即第一个综合指标记为F1 自然希望F1尽可能多的反映原来指标的信息 这里的 信息 用什么来表达 最经典的方法就是用F1的方差来表达 即Var F1 越大 表示F1包含的信息越多 因此在所有线性组合中所选取的F1应该是方差最大的 故称F1为第一主成分 如果第一主成分不足以代表原来P个指标的信息 再考虑选取F2即选第二个线性组合 为了有效地反映原来信息 F1已有的信息就不需要再出现在F2中 用数学语言表达就是要求Cov F1 F2 0 称F2为第二主成分 依此类推可以造出第三 四 第P个主成分 不难想像这些主成分之间不仅不相关 而且它们的方差依次递减 因此在实际工作中 就挑选前几个最大主成分 虽然这样做会损失一部分信息 但是由于它使我们抓住了主要矛盾 并从原始数据中进一步提取了某些新的信息 因而在某些实际问题的研究中得益比损失大 这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的简化和有效处理 二 主成分分析的数学模型 设有n个样本 每个样本有p个指标 变量 X1 X2 Xp 得到原始数据资料矩阵 主成分分析的数学模型 用矩阵X的p个向量Xl X2 Xp作线性组合 发现具有正交特征 综合成p个指标 即F1 a11X1 a12X2 a1pXpF2 a21X1 a22X2 a2pXp Fp ap1X1 ap2X2 appXp这样决定的综合指标F1 F2 Fp分别称做原始指标的第一 第二 第p主成分 且F1 F2 Fp在总方差中占的比例依次递减 三 主成分的几何意义 从几何上看 找主成分的问题 就是找多维空间中椭球体的主轴问题 从数学上容易得到它们是Xl X2 Xp的相关矩阵中p个较大特征值所对应的特征向量 通常用雅可比 Jaobi 法计算特征值和特征向量 四 主成分的推导 主成分的推导 五 计算步骤及实例 设有n个样品 每个样品观测p个指标 将原始数据写成矩阵 例2 100个学生的数学 物理 化学 语文 历史 英语的成绩如下表 部分 SPSS数据形式 对于以上数据 SPSS输出为 这里的InitialEigenvalues就是这里的六个主轴长度 又称特征值 数据相关阵的特征值 头两个成分特征值累积占了总方差的81 142 后面特征值的贡献越来越少 特征值的贡献还可以从碎石图看出 如何解释这两个主成分 主成分是原始六个变量的线性组合 见下表 这里每一列代表一个主成分作为原始变量线性组合的系数 比例 比如第一主成分为数学 物理 化学 语文 历史 英语这六个变量的线性组合 系数 比例 为 0 806 0 674 0 675 0 893 0 825 0 836 如用x1 x2 x3 x4 x5 x6分别表示原始的六个变量 用y1 y2 y3 y4 y5 y6表示新的主成分 那么 第一和第二主成分为 这些系数称为主成分载荷 loading 它表示主成分与相应原始变量的相关系数 比如y1表示式中x1的系数为 0 806 这就是说第一主成分和数学变量的相关系数为 0 806 相关系数 绝对值 越大 主成分对该变量的代表性也越大 可以看得出 第一主成分对各个变量解释得都很充分 而最后的几个主成分与原始变量的相关性大幅度降低 把第一和第二主成分的载荷绘出一个二维散点图以直观地显示它们如何解释原始变量 该图称为载荷图 该图左面三个点是数学 物理 化学三科 右边三个点是语文 历史 外语三科 图中的六个点由于比较挤 不易分清 但只要认识到这些点的坐标是第一二主成分载荷 即前面表中第一二列中的数目 还是可以识别的
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!