用SAS软件进行方差分析.ppt

上传人:tian****1990 文档编号:7746744 上传时间:2020-03-24 格式:PPT 页数:189 大小:2.32MB
返回 下载 相关 举报
用SAS软件进行方差分析.ppt_第1页
第1页 / 共189页
用SAS软件进行方差分析.ppt_第2页
第2页 / 共189页
用SAS软件进行方差分析.ppt_第3页
第3页 / 共189页
点击查看更多>>
资源描述
第五章方差分析 5 1单因子方差分析5 2两因子方差分析 方差分析中的基本概念例5 1为比较五种牌子的合成木板的耐久性 对每种牌子取4个样品做试验 测量磨损量 推断不同牌子的磨损量间有无显著性差异 方差分析中的基本概念 续1 方差分析研究分组变量对数值型变量的影响 分组变量称为因子 分组变量的每个取值称为因子的一个水平 只考虑一个因子的方差分析称单因子的方差分析 考虑两个因子的方差分析称两因子的方差分析 例题中牌子是分组变量 磨损量为数值型变量 牌子是因子 A B C D和E是因子的五个水平 属于单因子的方差分析 研究牌子对磨损量的影响 即比较五种牌子的磨损量间有无显著性差异 将每个牌子的磨损量看做一个总体 本题比较五个独立总体的均值间有无显著性差异 是多总体均值相等的假设检验问题 5 1 单因素方差分析1 数学模型设因子A有r个水平 在每个水平下进行m次试验 观测数据yij表示第i个水平下第j次试验的观测数据 i 1 2 r j 1 2 m 每个水平的数量指标是一个总体 如每个牌子的磨损量为一总体 每个水平下的所有试验数据构成来自该总体的一个样本 单因子的方差分析就是用r个样本来检验r个总体的均值是否相等 即H0 1 2 r H1 1 2 r不全相等 2 模型的假定条件单因子方差分析要求满足下面的假定条件 a 所有观测数据独立 可直观判断 b 每个总体均服从正态分布 需要正态性检验 c 所有总体的方差相等 需要方差齐性检验 在以上假定条件下 可设第i个水平对应的总体服从正态分布 相应样本为 根据yij与总体同分布可设yij i ij 1 i r 1 j m 其中 i表示第i个总体的均值 ij为随机误差 服从正态分布 3 方差分析表方差分析将总波动分解成误差引起的波动和因子引起的波动 当因子引起的波动相对于误差引起的波动大时 说明因子是显著的 即因子对数量指标有显著性影响 总的偏差平方和 其中 它反映数据总的波动 因子A的偏差平方和其中 SST中第i个水平下的每个观测数据都用其样本均值替换得到SSM 因此SSM反映因子的不同引起的波动 误差的偏差平方和 它反映误差或其它随机因素引起的波动 在H0成立下可以证明 SST SSM SSE 为排除自由度对波动的影响 对波动分别除以各自的自由度得到均方和 因子的均方和 误差的均方和 两均方和之比得检验统计量 由检验统计量得概率p值 从而做出推断 方差分析表来源平方自由度均方和F比因子SSMfA r 1MSA SSM fAF MSA MSE F fA fe 误差SSEfe n rMSE SSE fe总和SSTfT n 1 4 方差分析的SAS编程第一步检验模型的假定条件条件1 观测数据的独立性可直观判断 条件2 各样本所来自总体的独立性用univariate过程 normal选项 并使用by语句来检验 程序如下 procsortdata 数据集名 by分组变量名 run procunivariatedata 数据集名normal by分组变量名 var数值型变量名 run 条件3 方差齐性 用anova过程中的means语句 hovest选项 程序如下 procanovadata 数据集名 class分组变量名 model数值型变量名 分组变量名 means分组变量名 hovest 或hovest levene run 第二步输出方差分析表上面的方差齐性程序就可产生方差分析表 根据表中的概率p值可作出推断 如果只需输出方差分析表 不要求检验方差相等 则上面的程序删去means过程 保留其它语句则可 5 多重t检验若方差分析的检验结果表明均值间有显著性差异 则可进一步检验哪些均值间有显著性差异 从而找到因子的最优水平 这就需要做多重t检验 它对其中任何两个总体均值都检验是否相等 实际上 多重t检验就是若干个两独立组的比较问题 多重t检验的程序如下 procanovadata 数据集名 class分组变量名 model数值型变量名 分组变量名 means分组变量名 t 对means语句 选项t run 6 非参数检验当方差分析的正态性或方差齐性的假定条件不能满足时 使用kruskal wallis非参数检验 程序如下 procnpar1waydata 数据集名wilcoxon class分组变量名 var数值型变量名 run 程序和两独立组比较的一样 不过这时看kruskal wallis检验 而不看wilcoxon秩和检验 7 单因子方差分析的应用举例例5 1为比较五种牌子的合成木板的耐久性 对每种牌子取4个样品做试验 测量磨损量 数据如下 试用编程的方法推断不同牌子的磨损量间有无显著性差异 5 2两因子方差分析两因子的方差分析研究两个分类变量对一个数值型变量的影响 两因子的方差分析分为两类 无交互作用的和有交互作用的方差分析 设有两个分组变量即因子A和B 有一个数值型变量Y A A1 A2 Ar 即A有r个水平B B1 B2 Bs 即B有s个水平若Y仅受Ai和Bj各自的影响 与组合 Ai Bj 无关 则称为无交互作用 否则称有交互作用 5 2 1无交互作用的方差分析 无重复试验的方差分析 1 模型的假定条件设yij为组合 Ai Bj 下的试验结果 模型的假定条件为a 观测数据独立 b yij来自正态总体 含义 每种组合下的数量指标看成一个总体 假定总体均服从正态分布 且方差均相等 对每种组合下只做一次试验 故每个总体的样本容量都是1 由样本各分量均与总体同分布知 从而可设yij ij ij ij为总体均值 ij为随机误差 1 i r 1 j s ij服从正态分布 2 无交互作用的方差分析的数据模型为了便于描述引入一下定义 记因子A的第i个水平效应因子B的第j个水平效应若 则称无交互作用 若 则称有交互作用 2 无交互作用的方差分析的数据模型下证 同理可证证 3 提假设方差分析的目的是检验所有总体均值是否相等 对于无交互作用的方差分析 有 故检验问题可转化为两个检验 H0A 1 2 r H1A 1 2 r不全相等 H0B 1 2 j H1B 1 2 j不全相等 第一个检验因子A对数量指标有无显著性影响 第二个检验因子B对数量指标有无显著性影响 而模型无显著效应 即接受原假设 是指以上两个假设的原假设同时成立 4 检验统计量平方和分解 总的偏差平方和其中 它反映数据总的波动 因子A的偏差平方和其中 它反映因子A引起的波动 因子B的偏差平方和它反映因子B引起的波动 误差的偏差平方和 它反映误差或其它随机因素引起的波动 在H0成立下可以证明 SST SSA SSB SSE 为排除自由度对波动的影响 对波动分别除以各自的自由度得到均方和 因子A的均方和 因子B的均方和 误差的均方和 检验统计量两均方和之比得检验统计量 因子A的检验统计量为其中fA r 1 fe r 1 s 1 因子B的检验统计量为其中fB s 1 fe r 1 s 1 无交互作用的两因子方差分析表来源平方自由度均方和F比ASSAfA r 1MSA SSA fAF MSA MSE F fA fe BSSBfB s 1MSA SSB fBF MSB MSE F fB fe 误差SSEfe r 1 s 1 MSE SSE fe注 由方差分析表中的检验统计量计算出概率p值 由此作出推断 5编程做无交互作用的两因子方差分析首先检验模型的假定条件条件1 观测数据独立 可直观判断 条件2 数据来自正态总体 且方差相等 由于每个总体仅有一个容量为1的样本 故该条件无法检验 用anova过程编程做方差分析的推断 程序如下 procanovadata 数据集名 class分组变量名列表 如ab model数值型变量名 分组变量名列表 如y ab means分组变量名列表 t 该句要求做多重t检验 run 5 2 2有交互作用的多因素方差分析 有重复试验 1 数据模型设观测数据yijk为 Ai Bj 组合下的第k次试验所得数值型变量y的观测值 i 1 2 r j 1 2 s k 1 2 t 采用以下的数据模型 yijk i j ij ijk 1 i r 1 j s 1 k t其中 表示平均的效应 i和 j分别表示因素A的第i个水平和因素B的第j个水平的效应 ij表示因素A的第i个水平和因素B的第j个水平的交互效应 ijk为随机误差 这里也假定它是独立的并且服从等方差的正态分布 2 要检验的假设H0 A B ij 0 Hl A B ij不全为零H0A 1 2 r H1A 1 2 r不全相等H0B 1 2 S H1B 1 2 s不全相等 其中 1 i r 1 j s 三个假设分别用于检验搭配对数值型变量有无显著性影响 因子A对数值型变量有无显著性影响 因子B对数值型变量有无显著性影响 3 检验统计量在H0成立下可以证明 SST SSA SSB SSAB SSE 其中fe rs t 1 fAB r 1 s 1 4 有交互作用的方差分析表 5 编程实现有交互作用的两因子方差分析程序如下 procanovadata 数据集名 classAB A和B分别是两个分组变量名 modelY ABA B Y为数值型变量 meansaba b t 模型显著时means该语句用于多重t检验 run 6两因子方差分析的应用举例1 单因子的2 两因子的 有交互作用的双因素方差分析表见表5 3 表5 3有交互作用的双因素方差分析表其中MSA SSMA l 1 MSB SSMB m 1 MS A B SSM A B l 1 m 1 MSE SSE lm n l 利用表中的信息 就可以对各个因素间交互作用是否显著和每个因素各水平间的差异是否显著做出判断 5 1 3方差分析中的基本假定方差分析中常用的基本假定是 正态性 每个总体均服从正态分布 也就是说 对于每一个水平 其观测值是来自正态分布的简单随机样本 方差齐性 各总体的方差相同 独立性 从每一总体中抽取的样本是相互独立的 在SAS中 正态性可用第3章介绍的方法来验证 也可通过本章介绍的 残差的正态性检验 来验证 方差齐性可以在方差分析的过程进行验证 而独立性可由试验的随机化确定 5 2单因素方差分析的SAS实现5 2 1用INSIGHT作单因素方差分析5 2 2用 分析家 作单因素方差分析5 2 3用过程进行单因素方差分析 5 2 1用INSIGHT作单因素方差分析1 实例 例5 1 消费者与产品生产者 销售者或服务的提供者之间经常发生纠纷 当发生纠纷后 消费者常常会向消费者协会投诉 为了对几个行业的服务质量进行评价 消费者协会在零售业 旅游业 航空公司 家电制造业分别抽取了不同的企业作为样本 每个行业各抽取5家企业 所抽取的这些企业在服务对象 服务内容 企业规模等方面基本上是相同的 然后统计出最近一年中消费者对总共20家企业投诉的次数 结果如表5 4 表5 4消费者对四个行业的投诉次数通常 受到投诉的次数越多 说明服务的质量越差 消费者协会想知道这几个行业之间的服务质量是否有显著差异 即在方差分析中检验原假设 四个行业被投诉次数的均值相等 2 分析步骤1 将表5 4中数据整理成如图左所示结构的数据集 存放在Mylib xfzts中 2 在INSIGHT模块中打开数据集Mylib xfzts 3 选择菜单 Analyze 分析 Fit 拟合 在打开的 Fit XY 对话框中按图 右 选择分析变量 4 单击 OK 按钮 得到分析结果 3 结果分析第一张表提供拟合模型的一般信息 第二张表为列名型变量信息 即HANGYE为列名型的 有4个水平 第三张表提供参数信息 并且约定 P 2 P 3 P 4 P 5分别为航空 家电 零售和旅游4个行业的标识变量 也称哑变量 如下图所示 第四张表给出响应变量均值关于自变量不同水平的模型方程 如图5 6所示 其中 标识变量取值 第五张表 图5 7 给出模型拟合的汇总信息 其中 R Square R2 是判定系数 coefficientofdetermination 阐明了自变量所能描述的变化 模型平方和 在全部变差平方和中的比例 它的值总在0和1之间 其值越大 说明自变量的信息对说明因变量信息的贡献越大 即分类变量取不同的值对因变量的影响越显著 AajR Sq 校正R2 是类似于R2的 但它随模型中的参数的个数而修正 第六张为方差分析表 如图5 8所示 其中各项含义可参见表5 1的说明 从方差分析表可以看出 p值小于0 05 显著水平 所以拒绝原假设 即不同行业的消费者投诉次数有显著差异 第七张表提供III型检验 它是方差分析表的细化 给出了各因素的平方和及F统计量 因为本例是单因素的 所以这一行与图5 8的 Model 一行相同 如图5 9所示 第八张为参数估计表 其中有关于不同行业下投诉次数差异的估计和检验 1 根据标识变量的定义 Intercept后的估计47 4是对应于旅游业投诉次数的均值 其后的t检验是检验这一均值是否为0 这里p值0 05 所以航空业与旅游业的被投诉次数没有显著差异的 其它分析类似 4 检验模型假定为了验证残差为正态分布的假定 回到数据窗口 可以看到R TOUSU 残差 和P TOUSU 预测值 已加到数据集之中 下面用Distribufion Y 来验证残差的正态性 1 选择菜单 Analyze Distribution Y 2 在打开的 Distribution Y 对话框中选定分析变量 R TOUSU 单击 OK 按钮 3 选择菜单 Curves TestforDistribution 在打开的 TestforDistribution 对话框中直接单击 OK 按钮 在检验结果的 TestforDistribution 表中看到 p值大于0 05 不能拒绝原假设 表明可以认为残差是正态分布的 图5 12 5 2 2用 分析家 作单因素方差分析1 分析步骤1 在 分析家 中 打开数据集Mylib xfzts 2 选择菜单 Statistics 统计 ANOVA 方差分析 One WayANOVA 单因素方差分析 打开 One WayANOVA 对话框 3 选中分类变量HANGYE 单击 Independent 按钮 将其移到 Independent 自变量 框中 选中数值变量TOUSU 单击按钮 Dependent 将其移到 Dependent 因变量 框中 如图5 13所示 4 为了检验方差分析中关于方差齐性的假定 单击 Tests 按钮 打开 One WayANOVA Tests 对话框 选中 Testsforequalvariance 栏下的 levene stest 复选框 常用 如图左 单击 OK 按钮返回 5 单击 Plots 按钮 打开 One WayANOVA Plots 对话框 可以选择图形类型 如选中 Typesofplots 栏下的 Box whiskerplot 复选框 如图右 单击 OK 按钮返回 再次单击 OK 按钮 2 结果分析在显示的结果中 提供了自变量的各个水平和单因素方差分析表 结果分为五个部分 第一部分 下图左 是因素水平的信息 可以看到只有一个因素HANGYE 它的4个水平分别是航空 家电 零售 旅游 共有20个观测 第二部分就是经典的方差分析表 由于这里p值小于0 05 显著水平 所以模型是显著的 即因素对指标有显著影响 第三部分是一些与模型有关的简单统计量 第一个是复相关系数平方R2 代表总变差中能被模型解释的比例 第二个是指标的变异系数 第三个是根均方误差 第四个是均值 第四部分是方差分析表的细化 给出了各因素的平方和及F统计量 因为是单因素所以这一行与上面的 Model 模型 一行相同 第五部分是对方差齐性的假定检验的结果 如图5 16所示 结果表明使用Levene s检验法的p值为0 6357 所以不同水平下观测结果的方差无显著差异 在分析家窗口的项目管理器中双击 BoxplotofTOUSYbyHANGYE 选项 得到响应变量关于自变量各水平的盒形图如图5 17所示 图中从左到右依次为航空 家电 零售 旅游等水平的盒形图 可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解 5 2 3用过程进行单因素方差分析1 ANOVA过程和GLM过程的简介 1 ANOVA过程ANOVA过程的一般格式包含许多选项 其中最为常用的为如下格式 PROCANOVADATA CLASS MODEL MEANS RUN 其中CLASS语句用来指定样本分组的分类变量 CLASS语句是必需的 而且必需位于MODEL语句之前 MODEL语句给出模型表达式 可以用来表示三种不同的效应模型 1 主效应模型 y abc2 交互效应模型 y abca ba cb ca b c3 嵌套效应模型 y abc ab 同一MODEL语句中三种效应可以混合使用 MEANS语句指定ANOVA过程计算自变量各水平下因变量的均值 标准差 并进行组间的多重比较 2 GLM过程PROCGLMDATA ALPHA CLASS MODEL MEANS RUN 一般地 ANOVA过程中涉及的所有语句都包含在GLM过程所涉及的语句中 其用法和功能也都是基本相同的 2 使用ANOVA过程作单因素方差分析使用ANOVA过程对例5 1作方差分析的方法 procanovadata Mylib xfzts classhangye modeltousu hangye run 分析结果与 分析家 相同 3 使用GLM过程作单因素方差分析使用GLM过程对例5 1作方差分析的方法 procGLMdata Mylib xfzts classhangye modeltousu hangye run 分析结果与 分析家 相同 5 3双因素方差分析5 3 1用INSIGHT作双因素方差分析5 3 2用 分析家 作双因素方差分析5 3 3用GLM过程进行双因素方差分析 5 3 1用INSIGHT作双因素方差分析1 不存在交互作用的双因素方差分析 例5 2 为了提高一种橡胶的定强 考虑三种不同的促进剂 因素A 四种不同分量的氧化锌 因素B 对定强的影响 对配方的每种组合重复试验两次 总共试验了24次 得到表5 5的结果 表5 5橡胶配方试验数据 要用方差分析将不同促进剂和不同份量氧化锌的影响区分开来 即检验 H0A 不同促进剂对定强无影响 H1A 不同促进剂对定强有显著影响H0B 氧化锌的不同分量对定强无影响 H1B 氧化剂的不同分量对定强有显著影响 1 分析设置1 将表5 5中数据整理成如图5 18左所示结构的数据集 存放在Mylib xjpf中 2 在INSIGHT模块中打开数据集Mylib xjpf 由于在Insight中 要求方差分析中的自变量必须是列名型的 故先把变量a和b的测量水平由区间型改为列名型 3 选择菜单 Analyze 分析 Fit 拟合 在打开的 Fit XY 对话框中选择数值型变量作因变量 分类型变量作自变量 选择变量stren 单击 Y 按钮 选择变量a和b 单击 X 按钮 分别将变量移到列表框中 如图5 18右所示 单击 OK 得到分析结果 2 分析结果1 第一张表提供了模型的一般信息 第二张表列举了作为分类变量的a和b的水平的信息 第三张参数信息表给出了标识变量P i的定义 其中 标识变量取值 2 第四张表给出了方差分析模型 利用参数信息表中标识变量的定义可以推算出在各个因素不同水平下变量stren均值的信息 第五张拟合汇总表中给出变量stren的均值为37 0417 判定系数R2为0 8945等 如图5 20 图5 20多因素方差分析第4 5张表 3 在第六张方差分析表中 检验模型显著性的F统计量为30 53 相应的p值小于0 05 所以拒绝a和b对分析变量stren无显著影响的假设 即模型是显著的 在模型显著的情况下常需要进一步分析两个因素是否都有显著影响或者只有一个因素是显著的 这时就需要用到第七张表提供的信息 在III型检验表中 进一步将模型平方和分解为属于a和b的平方和 在这里两个因素的p值都小于0 05 再一次说明了这两个因素对分析变量stren都有显著影响 如图5 21 4 第八张是模型的参数估计表 图5 22 参数估计表也是根据标识变量的定义 对参数或对各因素不同水平下的参数之差进行估计和检验 可以根据t统计量的p值来检验不同水平下均值是否有显著差异 图5 22多因素方差分析第8张表 模型方程提供了各个因素不同水平下变量stren均值的信息 利用参数信息表中标识变量P j的定义可以推算出 参数估计表根据标识变量的定义 对参数或不同水平下参数之差进行估计和检验 如第一行是对a 3 b 4水平下均值的估计和检验 第二行是a 1 b 4水平下的均值与a 3 b 4水平下均值之差的估计与检验 结果表明两个因素的各水平下的均值都有显著差异 5 考察模型假定 在显示窗的底部有一个残差和预测值的散点图 如图5 23所示 可以像单因素分析一样考察残差分布的正态性假定 2 存在交互作用的双因素方差分析 例5 3 考虑合成纤维收缩率 因素A 和总拉伸倍数 因素B 对纤维弹性y的影响 收缩率取4个水平 A1 0 A2 4 A3 8 A4 12 因素B也取4个水平 B1 460 B2 520 B3 580 B4 640 在每个组合AiBj下重复做二次试验 弹性数据如表5 6所示 表5 6合成纤维收缩率和总拉伸倍数对纤维弹性的影响 考虑如下问题 1 收缩率 因素A 拉伸倍数 因素B 对弹性y有无显著性影响 2 因素A和因素B是否有交互作用 3 使纤维弹性达到最大的生产条件是什么 要用方差分析将不同收缩率和不同拉伸倍数的影响区分开来 即检验 H0A 不同收缩率对弹性无影响 H1A 不同收缩率对弹性有显著影响H0B 不同拉伸倍数对弹性无影响 H1B 不同拉伸倍数对弹性有显著影响 1 分析设置1 将表5 6中数据整理成如图所示结构的数据集 存放在Mylib xwtx中 2 在INSIGHT模块中打开数据集Mylib xwtx 由于在Insight中 要求方差分析中的自变量必须是列名型的 故先把变量a和b的测量水平由区间型改为列名型 3 选择菜单 Analyze 分析 Fit 拟合 在打开的 Fit XY 对话框中选择数值型变量作因变量 分类型变量作自变量 如图所示 图5 24数据集xwtx与分析变量的选择为了考虑变量a和b的交互作用 同时选上a b 然后单击 Cross 按钮 注意到在右框中多了a b一行 如图5 24右所示 4 单击 OK 按钮 得到分析结果 2 分析结果1 在参数信息表中较无交互作用的情形多了表示两个因素各个水平组合下的标识变量 而在模型方程表中也就多了许多的参数 如图5 25所示 图5 25多因素方差分析的前5张表 2 在方差分析表中 检验模型显著性的F统计量为7 87 相应的p值为0 00010 05 所以从总体上看b变量的效应不显著 检验a变量效应的p值为 0 0001 0 05 所以变量a的效应是显著的 检验两者交互作用的p值为0 0006 0 05 所以交互作用的影响也是显著的 如图5 27 4 在模型方程 图5 25中 和参数估计表 图5 28 中也提供了双因素不同水平组合下因变量y均值的估计和比较的信息 因为这里是考虑存在交互作用的情形 所以较为复杂一些 5 3 2用 分析家 作双因素方差分析1 不存在交互作用的双因素方差分析下面介绍在 分析家 中对例5 2作方差分析 1 在 分析家 中 打开数据集Mylib xjpf 2 选择菜单 Statistics 统计 ANOVA 方差分析 FactorialANOVA 因素方差分析 打开 FactorialANOVA 对话框 如图5 29 若要得到用图形表示的两个因素不同水平下均值和标准差的信息 可以单击 Plots 按钮 在打开的 FactorialANOVA Plots 对话框中 选中 Meansplots 栏下的 PlotsDependentMeansforMainEffects 作主效应响应均值图 4 分析结果如图5 30所示 其中内容前面已讲 这里不再赘述 图5 30无交互作用的多因素方差分析 5 在分析家窗口的项目管理器中依次双击 MeansPlots 下的两个选项 得到响应变量关于自变量a b的均值图如图5 31所示 图5 31响应变量关于自变量a b的均值图图中描述了变量a b不同水平下的均值和标准差的图形 从中可以对不同水平下均值的差异有一个直观的了解 2 存在交互作用的双因素方差分析下面介绍在 分析家 中对例5 3合成纤维的试验数据作方差分析 分析步骤如下 1 在 分析家 中 打开数据集Mylib xwtx 2 选择菜单 Statistics ANOVA FactorialANOVA 打开 FactorialANOVA 对话框 按图选择参数与图形 输出的方差分析表给出双因素考虑交互作用的方差分析模型是显著的 F 7 87 p 0 0001 最下面一张表给出两个因素和交互作用的检验结果 由最后一列 Pr F 的三个p值可以看出因素A及因素A与B的交互作用 A B 对指标y的影响是高度显著的 而因素B在 0 05的水平上对指标y的影响是不显著 p 0 1363 0 05 在分析家窗口的项目管理器中依次双击选项 MeansPlotofybyaandb 得到双因素不同水平下因变量均值差异的连线图如图5 35所示 直观地可以看出使纤维弹性达最大的最佳生产条件是A3和B2 其次是A2和B3 5 3 3用GLM过程进行双因素方差分析1 不考虑交互作用过程GLM也可用于多因素方差分析 其用法与单因素方差分析是相同的 只需要在class语句和model语句中分别填入表示因素的多个自变量 以数据集Mylib xjpf为例 为了比较变量a和b不同水平下因变量stren均值的差异 可使用以下程序 procglmdata Mylib xjpf classab modelstren ab run 提交上述程序后得到与上一节使用 分析家 有相似的结果 如图5 36所示 有关的说明请参见上节的解释 2 考虑交互作用使用过程GLM于多因素方差分析时 若要考虑交互作用只需要在model语句中增加相应的交互作用项即可 以数据集Mylib xjpf为例 为了比较变量a和b不同水平组合下变量stren均值的差异 可使用以下的程序 procglmdata Mylib xjpf classab modelstren aba b run 这里model语句中a b就是指明要考虑交互作用 提交这一程序后的输出如图5 37所示 图5 37使用GLM过程作有交互作用的多因素方差分析 5 4均值估计与多重比较5 4 1概述5 4 2用 分析家 进行均值比较 5 4 1概述在方差分析中 不论是单因素或多因素的实验结果 都是检验关于参数的一个整体的假设 若原假设被拒绝 表明某个因素各个水平下的响应有显著差异或因素间存在交互影响 但并不了解某两个水平下响应是否有差异 所以在方差分析后 还常需要对各水平下响应变量的均值进行估计和比较 5 4 2用 分析家 进行均值比较1 对于单因素方差分析的均值比较下面介绍在 分析家 中对例5 1作均值比较 1 分析设置1 在 分析家 中 打开数据集Mylib xfzts 2 选择菜单 Statistics ANOVA One WayANOVA 打开 One WayANOVA 对话框 按图所示设置 3 单击 Means 均值 按钮 在打开的 One WayANOVA Means 对话框中选中 Comparisons 比较 选项卡 按图设置 2 分析结果1 使用Tukey sHSD检验法的结果 如图5 39所示 图5 39Duncan sMultipleRange检验法它先提示这一检验法是控制整体的第一类错误的 但它的第二类错误一般比REGWQ方法要高 然后指出根据所用的方法 两个均值间显著差异最小值为20 362 即不同水平间均值之差超过20 362 就表明这两个水平下的均值是有显著差异的 最后 不同水平下响应变量的均值自大至小排成一列 无显著效应的水平在左侧用同一字母标出 例如 航空业与旅游业 零售业无显著差异 与家电制造业有显著差异 家电制造业与零售业 旅游业无显著差异 等等 2 使用Dunnett st test检验法的结果 如图所示 图5 40Dunnett st test检验法用这一方法给出t的临界值为2 34654 两个均值间显著差异最小值为18 297 以下显示成组比较的结果 凡是达到0 08显著性水平的则在最右边一栏加标三个星号 可以看出 家电制造业与航空业有显著差异 其他行业之间均无显著差异 3 使用Fisher最小显著差异 LSD 检验法的结果 如图所示 图5 41Fisher最小显著差异 LSD 检验法用这一方法给出t的临界值为1 86928 两个均值间显著差异最小值为14 576 以下显示成组比较的结果 可以看出 航空业与旅游业无显著差异 与其他行业均有显著差异 其他行业之间均无显著差异 2 对于多因素方差分析的均值比较下面介绍在 分析家 中对例5 3合成纤维的试验数据作均值比较 1 分析设置1 在 分析家 中 打开数据集Mylib xwtx 2 选择菜单 Statistics 统计 ANOVA 方差分析 FactorialANOVA 因素方差分析 打开 FactorialANOVA 对话框 3 选中变量a b 单击 Independent 自变量 按钮 将其移到 Independent 框中 选中变量y 单击按钮 Dependent 因变量 将其移到 Dependent 框中 4 考虑因素间的交互作用 单击 Model 按钮 打开 FactorialANOVAModel 对话框 单击 StandardModels 按钮 在弹出的菜单中选择 Effectsupto2 wavinteractions 项 表示交互作用的a b加入了模型效应栏 单击 OK 按钮返回 图5 42设置模型和均值参数 5 单击 Means 均值 按钮 在打开的 One WayANOVA Means 对话框中选中 Comparisons 比较 选项卡 在 Comparisonmethod 下拉列表中选择比较法Fisher sLSD 在 Maineffects 主效应 栏中选择变量a b 单击 Add 按钮 加到主效应框中 再在 Comparisonmethod 下拉列表中选择比较法Tuck sHSD 在 Maineffects 主效应 栏中选择变量a 单击 Add 按钮 加到主效应框中 如图5 42 单击 OK 返回 再单击 OK 得到分析结果 2 分析结果在显示方差分析结果的后面 有关于均值比较的三张表 如图5 43 4 44所示 用Fisher最小显著差异检验的结果表明 图5 43 收缩率为4和8之间无显著差异 而另两个收缩率有显著差异 拉伸倍数520和640之间有显著差异 其余无显著差异 图5 43Fisher最小显著差异检验 用Tucky诚实显著差异检验对收缩率的比较结果表明 图5 44 收缩率12与其他收缩率之间有显著差异 与Fisher最小显著差异法的区别在于临界点 前者为1 6583 后者为1 2287 第六章主成分分析与因子分析 6 1主成分分析6 2因子分析 6 1主成分分析6 1 1主成分分析的概念与步骤6 1 2使用INSIGHT模块作主成分分析6 1 3使用 分析家 作主成分分析6 1 4使用PRINCOMP过程进行主成分分析 6 1 1主成分分析的概念与步骤1 主成分分析基本思想主成分分析是数学上对数据降维的一种方法 其基本思想是设法将原来众多的具有一定相关性的指标 比如p个指标 重新组合成一组新的互不相关的综合指标来代替原来指标 通常数学上的处理就是将原来p个指标作线性组合 作为新的综合指标 但是这种线性组合 如果不加限制 则可以有很多 应该如何去选取呢 在所有的线性组合中所选取的F1应该是方差最大的 故称F1为第一主成分 如果第一主成分不足以代表原来p个指标的信息 再考虑选取F2即选第二个线性组合 为了有效地反映原有信息 F1已有的信息就不需要再出现在F2中 用数学语言表达就是要求Cov F1 F2 0 称F2为第二主成分 依此类推可以构造出第三 第四 第p个主成分 2 主成分分析的数学模型设有n个样品 多元观测值 每个样品观测p项指标 变量 X1 X2 Xp 得到原始数据资料阵 其中Xi x1i x2i xni i 1 2 p 用数据矩阵X的p个列向量 即p个指标向量 X1 X2 Xp作线性组合 得综合指标向量 简写成 Fi a1iX1 ai2X2 apiXpi 1 2 p 为了加以限制 对组合系数ai a1i a2i api 作如下要求 即 ai为单位向量 ai ai 1 且由下列原则决定 1 Fi与Fj ij i j 1 p 互不相关 即Cov Fi Fj ai ai 0 其中 是X的协方差阵 2 F1是X1 X2 Xp的一切线性组合 系数满足上述要求 中方差最大的 即 其中c c1 c2 cp F2是与F1不相关的X1 X2 Xp一切线性组合中方差最大的 Fp是与F1 F2 Fp 1都不相关的X1 X2 Xp的一切线性组合中方差最大的 满足上述要求的综合指标向量F1 F2 Fp就是主成分 这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减 每一个主成分所提取的信息量用方差来度量 主成分方差的贡献就等于原指标相关系数矩阵相应的特征值 i 每一个主成分的组合系数ai a1i a2i api 就是相应特征值 i所对应的单位特征向量ti 方差的贡献率为 i越大 说明相应的主成分反映综合信息的能力越强 3 主成分分析的步骤 1 计算协方差矩阵计算样品数据的协方差矩阵 sij p p 其中i j 1 2 p 2 求出 的特征值及相应的特征向量求出协方差矩阵 的特征值 1 2 p 0及相应的正交化单位特征向量 则X的第i个主成分为Fi ai Xi 1 2 p 3 选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析 一般用方差贡献率解释主成分Fi所反映的信息量的大小 m的确定以累计贡献率达到足够大 一般在85 以上 为原则 4 计算主成分得分计算n个样品在m个主成分上的得分 i 1 2 m 5 标准化实际应用时 指标的量纲往往不同 所以在主成分计算之前应先消除量纲的影响 消除数据的量纲有很多方法 常用方法是将原始数据标准化 即做如下数据变换 其中 j 1 2 p 标准化后的数据阵记为X 其中每个列向量 标准化变量 的均值为0 标准差为1 数据无量纲 标准化后变量的协方差矩阵 CovarianceMatrix sij p p 即原变量的相关系数矩阵 CorrelationMatrix R rij p p i j 1 2 p此时n个样品在m个主成分上的得分应为 Fj a1jX1 a2jX2 apjXp j 1 2 m 6 1 2使用INSIGHT模块作主成分分析 例6 1 全国沿海10个省市经济指标的主成分分析表6 1全国沿海10个省市经济综合指标假设表6 1中数据已经存放在数据集Mylib jjzb中 试对各地区的经济发展水平进行主成分分析 1 使用INSIGHT模块做主成分分析的步骤使用INSIGHT模块做主成分分析的步骤如下 1 在INSIGHT模块中打开数据集Mylib jjzb 选择菜单 Analyze Multivariate YX 多元分析 打开 Multivariate YX 对话框 2 将做主成分分析的变量x1 x9选为Y变量 将变量diqu选为Label变量 如图所示 图6 1多元分析对话框3 单击 Method 按钮 在打开的对话框中可以选择计算协方差矩阵的特征值或是计算相关系数矩阵的特征值 系统默认计算相关系数矩阵的特征值和特征向量 单击 OK 按钮返回 4 单击 Output 按钮 在打开的对话框 图左 中包括 DescriptiveStatistics 选项 BivariatePlots 选项以及各种多元分析的选项 选中 PrincipalComponentAnalysis 复选框 单击下面的 PrincipalComponentOptions 按钮 打开 PrincipalComponentOptions 对话框 选中 Eigenvectors 复选框 取消 Correlations Structure 复选框 如图右所示 2 主成分的结果分析输出的数字分析结果有4个部分 简单统计量 相关系数矩阵 相关系数矩阵的特征值以及相关系数矩阵的特征向量 3 图6 5给出相关系数矩阵的特征值 Eigenvalue 上下特征值之差 Difference 各主成分的方差贡献率 Proportion 以及累积贡献率 Cumulative 相关系数矩阵的特征值即各主成分的方差 可以看出 第一主成分的方差贡献率为80 11 前两个主成分的累积贡献率已达92 33 因此 只需用前面2个主成分就可以概括这组数据 4 图6 6给出相关系数矩阵的两个最大特征值的特征向量 据此可以写出第一和第二主成分得分 PCR1 0 35x1 0 04x2 0 36x3 0 37x4 0 37x5 0 35x6 0 36x7 0 30 x8 0 36x9 PCR2 0 21x1 0 94x2 0 01x3 0 05x4 0 10 x5 0 02x6 0 14x7 0 05x8 0 18x9 对于第一主成分而言 除了x2 人均GDP 外 各变量所占比重均在0 3左右以上 因此第一主成分 Prin1 主要由x1 x3 x9八个变量解释 而第二主成分则主要由x2这一个变量解释 5 选择菜单 Edit 编辑 Observations 观测 LabelinPlots 在弹出的对话框中选中所有diqu变量值 单击 OK 按钮返回 显示结果中的散点图上出现地区名 图中看出 上海在第二主成分PCR2的得分远远高于其他省市 而在第一主成分PCR1的得分则处于中间 广东 江苏 山东和浙江则在第1主成分的得分上位于前列 6 回到INSIGHT的数据窗口 可以看到前两个主成分的得分情况 如图6 8左 单击数据窗口左上角的箭头 在弹出的菜单中选择 Sort 排序 选项 在打开的对话框中选定排序变量PCR1 并单击 Asc Des 按钮将其设为降序 Des 如图6 8所示 单击 OK 按钮返回 得到按第一主成分排序的结果如图6 9左所示 同样方法可以得到按第二主成分排序的结果如图6 9右所示 从第一主成分排序情况来看 沿海19省市经济发展状况综合排名前5位的省市依次为 广东 江苏 山东 浙江 上海 从第二主成分排序情况来看 人均GDP排名前5位的省市依次是 上海 天津 浙江 广东 福建 6 1 3使用 分析家 作主成分分析 例6 2 某企业为了了解其客户的信用程度 评价客户的信用等级 采用信用评估常用的5C方法 5C的目的是说明顾客违约的可能性 1 品格x1 指客户的信誉 2 能力x2 指客户的偿还能力 3 资本x3 指客户的财务势力和财务状况 4 附带的担保品x4 5 环境条件x5 指客户的外部因素 通过专家打分 得到10个客户5项指标的得分如表6 3所示 表6 210个客户5项指标的得分假设表6 2中数据已经存放在数据集Mylib xydj中 试对各客户的信用等级进行评估 1 使用 分析家 做主成分分析的步骤1 在 分析家 中打开数据集Mylib xydj 2 选择菜单 Statistics 统计 Multivariate 多元分析 PrincipalComponents 主成分分析 打开 PrincipalComponents 对话框 3 在对话框中输入主成分分析的变量 如图所示 4 单击 Statistics 统计 按钮 打开 PrincipalComponents Statistics 对话框 在 ofcomponents 右边的框中指定主成分的个数4 如图右 单击 OK 返回 5 单击 SaveData 按钮 打开 PrincipalComponents SaveData 对话框 在该对话框中可选择存储数据 选中 Createandsavescoresdata 如图6 11所示 单击 OK 返回 6 单击 Plots 按钮 打开 PrincipalComponents Plots 对话框 可以设置图形输出 在 ScreePlot 碎石图 选项卡中 图左 选中 Createscreeplot 建立碎石图 复选框 在 ComponentPlot 成分图 选项卡中 图右 选中 CreatecomponentPlot 建立成分图 复选框 2 主成分的结果分析输出的数字分析结果包括4个部分 简单统计量 相关系数矩阵 相关系数矩阵的特征值以及相关系数矩阵的特征向量 1 图6 13给出变量的简单统计量 图中显示5项指标中品格 能力和附带担保品是最为重要的 其标准差高出其他变量 2 图6 14给出各变量之间的相关系数矩阵 可以看出 能力与资本 附带担保品有着较强的相关性 表明客户的偿还能力与其财务实力 财务状况和抵押资产有着重要的关系 3 图6 15给出相关系数矩阵的特征值 Eigenvalues 上下特征值之差 Difference 各主成分的方差贡献率 proportion 以及累积贡献率 Cumulative 相关系数矩阵的特征值即各主成分的方差 可以看出 第一主成分的方差贡献率为84 22 第二主成分的方差贡献率为7 67 第三主成分的方差贡献率为5 95 说明第一主成分已经具有足够多的方差贡献率 可以很好地概括这组数据 在 分析家 左边的管理窗口中双击 Screeplot 项 打开的 Screeplot 对话框显示前4个特征值的 碎石图 很直观地看到第一主成分远远大于其它特征值 说明第一主成分已经代表了绝大部分信息 4 图6 16给出相关系数矩阵的特征向量 由最大特征值所对应的特征向量可以写出第一主成分的表达式 Prin1 0 4135x1 0 4729x2 0 4656x3 0 4547x4 0 4265x5 利用特征向量各分量的值可以对主成分进行解释 对于第一主成分而言 各变量所占比重大致相等 且均为正数 说明第一主成份是对所有指标的一个综合测度 作为综合的信用等级指标 可以用来排序 5 在 分析家 窗口中 双击左边项目管理中的 ScoresTable 项 打开 ScoresTable 对话框 选择菜单 File SaveasBySASName 将其保存为数据表Scores 然后 在VIEWTABLE中打开该表 选择菜单 Data Sort 按主成分Prin1排序 结果如表6 3所示 表6 3客户的信用等级在正确评估了顾客的信用等级后 就能正确制定出对其的信用期 收账政策等 这对于加强应收账款的管理大有帮助 6 1 4使用PRINCOMP过程进行主成分分析1 PRINCOMP过程的功能简介1 PRINCOMP过程计算结果有 简单统计量 相关阵或协方差阵 从大到小排序的特征值和相应特征向量 每个主成分解释的方差比例 累计比例等 由特征向量得出相应的主成分 用少数几个主成分代替原始变量 并计算主成分得分 2 主成分的个数可以由用户自己确定 主成分的名字可以用户自己规定 主成分得分是否标准化可由用户规定 3 输入数据集可以是原始数据集 相关阵 协方差阵等 输入为原始数据时 还可以规定从协方差阵出发还是从相关阵出发进行分析 由协方差阵出发时方差大的变量在分析中起到更大的作用 4 该过程还可生成两个输出数据集 一个包含原始数据及主成分得分 它可作为主成分回归和聚类分析的输入数据集 另一个包含有关统计量 类型为TYPE CORR或COV的输出集 它也可作为其他过程的输入SAS集 2 PRINCOMP过程的格式PRINCOMP过程的常用格式如下 PROCPRINCOMP VAR变量列表 WEIGHT变量列表 FREQ变量列表 PARTIAL变量列表 BY变量列表 RUN 其中 1 PROCPRINCOMP语句用来规定输入输出和一些运行选项 其选项及功能见表6 4 表6 4PROCPRINCOMP语句的选项2 VAR语句指定用于主成分分析的变量 变量必须为数值型 区间型 变量 缺省使用DATA 输入数据集中所有数值型变量进行主成分分析 3 应用实例 例6 3 对全国30个省市自治区经济发展基本情况的八项指标作主成分分析 原始数据如表6 5 表6 5全国30个省市自治区经济发展基本情况 1 数据集假定上述数据已经存放在数据集Mylib jjfz中 2 执行主成分分析的PRINCOMP过程对数据集jjfz执行主成分分析的PRINCOMP过程代码如下 procprincompdata Mylib jjfzn 4out w1outstat w2 varx1 x8 procprintdata w1 run 3 结果分析在各变量之间的相关系数矩阵中可以看出 有较强相关性的变量依次为 GDP x1 与固定资产投资 x3 之间的相关系数为0 9506 GDP x1 与工业总产值 x8 之间的相关系数为0 8737 固定资产投资 x3 与工业总产值 x8 之间的相关系数为0 7919 居民消费价格指数 x6 与商品零售价格指数 x7 之间的相关系数为0 7628 货物周转量 x5 与工业总产值 x8 之间的相关系数为0 6586 等等 图6 18给出相关系数矩阵的特征值 上下特征值之差 各主成分对方差的贡献率以及累积的贡献率 相关系数矩阵的特征值即各主成分的方差 可以看出 第一主成分对方差的贡献率为46 94 第二主成分对方差的贡献率为27 46 第三主成分对方差的贡献率为15 19 之后的主成分的贡献率为0 05 前三个主成分的累积贡献率为89 58 因此 对第四主成分以后的主成分完全可以忽略不计 用前三个主成分就可以很好地概括这组数据 图6 19原始变量对于各个主成分的因子载荷量图6 19给出相关系数矩阵前4大特征值对应的特征向量 由此可以写出前三个主成分的表达式 Prin1 0 46x1 0 31x2 0 47x3 0 24x4 0 25x5 0 26x6 0 32x7 0 42x8 Prin2 0 26x1 0 40 x2 0 11x3 0 49x4 0 50 x5 0 17x6 0 40 x7 0 29x8 Prin3 0 11x1 0 25x2 0 19x3 0 33x4 0 25x5 0 72x6 0 40 x7 0 19x8 可见 第一主成分中x3 x1 x8的系数最大 第二主成分中x5 x7具有较大的正系数 x4 x2则具有较大的负系数 第三主成分中x6的系数最大 远远超过其他指标的影响 因此 可以把第一主成分看成是由固定资产投资 x3 GDP x1 工业总产值 x8 所刻画的反映经济发展水平的综合指标 把第二主成分看成是由货物周转量 x5 职工平均工资 x4 居民消费水平 x2 商品零售价格指数 x7 所刻画的与人民生活水平有关的综合指标 把第三主成分单独看成是居民消费价格指数 x6 的影响指标 最后输出的是数据集w1 其中包含前4个主成分Prin1 Prin4的得分 4 主成分的散点图按第一主成分和第二主成分的得分作图 又称为载荷图 代码如下 procplotdata w1vpct 80 plotprin1 prin2 diqu haxis 3 5to3by0 5HREF 2 0 2vaxis 3to4 5by1 5VREF 2 0 2 run 显示如图6 20 广东 江苏 上海 山东的第一主成分取值较高 说明这些省市的经济发展水平较高 其次是浙江 辽宁 河北 河南 北京 天津等 由于在第二主成分中职工平均工资与居民消费水平具有负的载荷量 因此处于右半图中的河北 河南 山东等地的职工平均工资与居民消费水平较低 商品零售价格指数较高 而左半图中上海 天津 海南 北京等地的职工平均工资与居民消费水平较高 商品零售价格指数较低
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!