spss统计分析三大检验回归诊断因子分析.ppt

上传人:sh****n 文档编号:6414493 上传时间:2020-02-25 格式:PPT 页数:52 大小:1.04MB
返回 下载 相关 举报
spss统计分析三大检验回归诊断因子分析.ppt_第1页
第1页 / 共52页
spss统计分析三大检验回归诊断因子分析.ppt_第2页
第2页 / 共52页
spss统计分析三大检验回归诊断因子分析.ppt_第3页
第3页 / 共52页
点击查看更多>>
资源描述
T检验 1 1比较均值 ANOVA1 2单样本T检验1 3两独立样本T检验1 4配对样本T检验 1 1比较均值 ANOVA 均值和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值 这里我们考察身高的性别中的均值比较 点击 分析 A 再点击 比较均值 M 选择 均值 M 如下图所示 选择需要分析的对象 这里我们把 身高 作为因变量 性别 作为自变量 如下图所示 在步骤3中 我们可以根据自己的需要 选择要得到的相关数值 点击 选项 把 统计量 中自己需要的统计量点击到 单元格统计量 中 也可以在 第一层的统计量 中选择 Anova表和eta A 和 线性相关检验 我们这里只选择前者 如图所示 根据男性和女性两种性别观察其身高均值情况单因素方差分析 原假设H0 总体中男性和女性在身高无显著差异 即所有总体的均值都相等 由于sig 0 110大于0 05 就接受H0 认为两组身高无显著差异 1 2单样本T检验 单样本T检验 主要用于检验单个变量的均值与指定的检验值之间是否存在显著性差异 再者 样本均值与总体均值之间的差异显著性检验 也属于单样本T检验 以耐电压值的平均值与500之间的差异显著性的检验问题为例 点击 分析 A 选择 比较均值 M 点击 单样本T检验 S 如图所示 将 耐电压值 放到 检验变量 T 中 我们在这里将 检验值 设为 500 如图所示 点击 选项 O 我们会发现 置信区间百分比 C 的默认值为 0 95 我们这里选择默认值 通过结果我们可以看出 单个样本统计量 包括检验的总体均值 304 68 标准差 224 18 以及t统计量 3 896 等 本例的双侧Sig值为0 000 0 05 因此认为在0 05的显著性水平下 拒绝虚无假设 接受对立假设 即耐电压值与500存在显著性差异 1 3独立样本t检验 两独立样本t检验的目的是利用来自两个总体的独立样本 推断两个总体的均值是否存在显著差异 首先进行婚姻状况 已婚 未婚 两个总体方差同质性检验 原假设 检验假设 H0 已婚 未婚两个总体方差具有同质性 1 利用F检验判断两总体的方差是否相等 利用t检验判断两总体均值是否存在显著差异 考察F检验 由0 865大于0 05 接受原假设 即在0 05显著水平下 样本数据显示 已婚 未婚两个总体方差具有同质性 满足均值检验的前提要求 考察T检验 原假设H0 已婚 未婚两个总体在家庭收入上无显著差异 由于SIG值0 566大于0 05 接受原假设 即在0 05显著水平上 样本数据显示 婚姻状况两个总体在家庭收入上无显著差异 1 4配对样本T检验 两配对样本t检验的目的是利用来自两个总体的配对样本 推断两个总体的均值是否存在显著差异 和独立样本不同的是这两个整体是有联系的 其检验思路就是做差值 转化为单样本t检验 最后转化为差值序列 通过看总体均值是否与0有显著差异做检验 找到分析 比较均值 配对样本T检验 将其单击打开 需要从原变量中选择成对变量进行配对 如下图所示 根据成对的变量自定义进行选择配对 单击选项 打开的是置信区间百分比 默认的是95 缺失值的处理方法用第一种 第一个表格是数据的基本描述 第二个是数据前后变化的相关系数 那个概率P值是相关系数的概率值 概率大于显著性水平0 05 则说明数据变化前后没有显著的线性变化 线性相关程度较弱 第三个表格是数据相减后与0的比较 通过概率值为0 小于显著性水平0 05 则拒绝原假设 相减的差值与0有较大差别 则表明数据变化前后有显著的变化 卡方检验 非参数检验 卡方检验是用来判断样本是否来自一种总体的检验方法 就是根据样本的频率来推断总体的分布是否具有显著差异 1 1变量独立性1 2总体同质性 1 1变量独立性 两种特征是否在总体分布独立 先看到的第一个表格就是交叉表 婚姻状况为行 住房满意为列 变量独立性检验 原假设H0 婚姻状况与住房满意度相互独立 总体中婚姻状况与住房满意度无显著影响 由于SIG值均大于0 05 故接受原假设 即在0 05显著水平上 婚姻状况与住房满意度无显著影响影响关系 1 2总体同质性检验 原假设 H0 婚姻状况总体在住房满意度上无显著差异 H1 婚姻状况总体在住房满意度上存在显著差异 根据左表 由0 268 0 296 0 268均大于0 05 故接受原假设 即在0 05显著水平下婚姻状况在住房满意度上无显著差异 F检验 F检验在方差分析中的应用F检验在回归模型显著性中的应用 F检验在方差分析中的应用方差分析 通过分析单个或多个因素是否在不同水平样本下的均值存在显著性差异 单因素方差分析 用来研究一个因素的不同水平是否对观测变量产生了显著影响 即检验由单一因素影响的一个 或几个相互独立的 因变量在因素各水平分组的均值之间的差异是否均有统计意义 首先剖析观察变量的方差 SST 总离差平方和 SSA 组间 SSE 组内 SSA占比较大即观察变量的变动主要是由因素的不同水平引起的 可有因素的变动来解释 利用假设检验推断因素的不同水平是否对观测变量产生显著影响 原假设H0是因素不同水平对观察变量不存在显著影响 采用的检验统计量是F统计量 不同的地区可能是导致广告销售额不同 本例中 地区是因素 其中有18个不同水平 广告销售额是因变量 观测变量 这里的单因素方差分析主要研究在地区这一单一因素下 不同地区来源的广告销售额测度平均值是否相同 即进行如下假设检验 H0 不同地区对广告销售额均值无显著性影响H1 不同地区对广告销售额均值存在显著性影响 实例结果及分析 方差齐性检验 Levene统计量等于2 881 由于P值0 078大于0 05 故认为数据的方差是相同的 满足方差分析的前提条件 单因素方差分析表 第一列是方差来源 包括组间离差平方和 组内和总数 第二列势离差平方和 第三列是自由度df 第四列均方 是第二三列之比 第五列是F值32 66 组间均方与组内均方之比 第六列是F值对应的概率P值 其值等于0 000 由于概率P值小于0 05 故拒绝原假设 接受对立假设 认为不同地区对销售额测度平均值存在显著性影响 F检验在回归模型显著性中的应用实例分析 人均可支配收入和人均消费性支出 利用回归分析来分析人均可支配收入和人均消费性支出的关系 建立回归模型 人均消费性支出 f 人均可支配收入 首先绘制两组变量的散点 图形显示呈线性关系 可建立一元线性回归模型 expenditure b0 b1 incomei ei 模型汇总即对方程拟合情况的描述 R方就是自变量所能解释的方差在总方差中所占的百分比 值越大说明模型的效果越好 案例计算的回归模型中R方等于0 994 模型拟合效果较好 方差分析表是对回归模型进行方差分析的检验结果 主要用于分析整体模型的显著性 可以看到方差分析结果中F统计量等于4123 概率p 0 000小于显著性水平0 05 所以该模型是有统计学意义的 人均可支配收入与人均消费性支出之间的线性关系是显著的 回归系数表列出来本案例进行的医院回归模型常数项 回归系数的估计值和检验的结果 可见b0 158 512 b1 0 756 故回归方程如下 年人均消费性支出 158 512 0 756 年人均可支配收入 即人均可支配收入每增加一个单位 年人均消费性支出增加0 756个单位 因子分析 主成分分析的内在原理和过程 方法概述 因子分析法就是从研究变量内部相关的依赖关系出发 把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法 基本思想 对原始的数据进行分类归并 将相关比较密切的变量分别归类 归出多个综合指标 这些综合指标互不相关 即它们所综合的信息互相不重叠 这些综合指标就称为因子或公共因子 就能相对容易地以较少的几个因子反映原资料的大部分信息 因子分析法的核心是对若干综合指标进行因子分析并提取公共因子 再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数 因子分析的计算过程 1 将原始数据标准化 以消除变量间在数量级和量纲上的不同 2 求标准化数据的相关矩阵3 求相关矩阵的特征值和特征向量4 计算方差贡献率与累计方差贡献率5 确定因子 设F1 F2 Fp个因子 其中前m个因子包含的数据信息总量 即其累计贡献率 不低于85 时 可取前m个因子来反映原评价指标 6 因子旋转 若所得的m个因子无法确定或其实际意义不是很明显 这时需将因子进行旋转以获得较为明显的实际含义 7 用原指标的线性组合来求各因子得分8 综合得分 通常以各因子的方差贡献率为权 由各因子的线性组合得到综合评价指标函数 实例分析 全国各地区不同所有制单位平均收入排名 下图是全国各地区不同所有制单位平均收入情况 具体包括国有经济单位 集体经济单位 联营经济单位等7个部分 利用主成分分析探讨各地区按所有制类别分类的排名 进行因子分析前 可以计算相关系数矩阵 巴特李特球度检验和KMO检验等方法来检验候选数据是否适合采用因子分析 实例操作略 直接看实例结果及分析 描述性统计表显示了国有经济单位 集体经济单位等七个指标的描述统计量 因子分析共同度显示了所有变量的共同度数据 第二列是初始解 对原有七个变量如采用主成分分析法提取所有特征根 那么原有变量的所有方差都可被解释 变量的共同度均为1 原有变量标准化后的方差为1 因子个数小于原有变量的个数才是因子分析 所以不能提取全部 第三列列出来按指定条件提取特征根时的共同度 所有变量的绝大部分信息可被因子解释 变量信息丢失较少 因此本次因子提取的总体效果理想 上图为因子分析的总方差解释 是相关系数矩阵的特征值 方差贡献率及累计方差贡献率的计算结果 第一列是因子编号 后三列组成一组 第一组数据项描述了初始因子解的情况 可以看到 第一个因子的特征根值为5 502 解释了原有7个变量总方差的78 前三个因子的累计方差贡献率为92 141 说明前三个公因子基本包含了全部变量的主要信息 因此选择前三个因子为主因子即可 同时 被提取的载荷平方和旋转和的平方载荷数据组列出了因子提取后和旋转后的因子方差解释情况 因子碎石图 横坐标为因子数目 纵坐标为特征值 可以看到 第一个因子的特征值很高 对解释原有变量的贡献最大 第三个以后的因子特征根都较小 说明他们对解释原有变量的贡献很小 该表显示了旋转钱的因子载荷矩阵 是因子分析的核心内容 通过过载荷系数大小可以分析不同公共因子所反映的主要指标的区别 少部分指标解释能力较差 采用因子旋转方法使得因子载荷系数向0和1两极分化 是大的载荷更大 小的更小 旋转后的各个因子的含义更加突出 每个公因子都有反映几个方面的变动情况 第一个公因子反映交大载荷的有外商 国有 港澳台 股份制 集体经济单位 第二个有联营经济单位 第三个则是其他经济单位 该表列出来采用回归法估计得因子得分系数 根据表中的内容可写出因子得分系数 在利用原数据文件增加的三个变量 乘以对应的方差贡献率权重 加总得到综合评价得分 回归分析 五条假设 系数解读 零均值假定 随机误差项 均值为0 异方差 等方差假定 i方差同为 2且 为常数正态性假定 随机误差项 服从均值为0 方差为 2的正态分布独立性假定 随机误差项 不存在序列相关 自相关 非共线性假定 解释变量间互不相关 且随机误差项 与解释变量间也不相关 多重共线 回归分析的步骤 1 观察变量间是否有线性趋势 作散点图或线性相关分析 2 考察因变量的正态性 3 作直线回归 4 回归模型显著性和变量的显著性检验 5 残差分析 独立性检验 正态性检验 方差齐性检验 6 异常值与共线性诊断 线性趋势 自变量与因变量之间呈线性关系 可以以年人均可支配收入作为Y轴 人均使用面积和教育支出作为X轴 通过绘制散点图来加以判断是不是满足此要求 1 是否存在异方差先看pp图再看ks检验 1 由pp图 残差图具有一定规律 分布在对角线左右 初步判断模型的误差项符合高斯马尔科夫前提关于误差项的分布 h0 回归模型的误差项分布于标准化正态分布无显著差异 2 残差正态性检验 作残差的PP或QQ概率图 图中的点围绕在直线 0值 的周围 H0 模型的误差项分布与标准正态分布无显著差异 由下表可知 由于sig分别为0 829和0 969均大于显著性水平0 05 故说明模型的误差项与标准正态分布无显著差异 亦即 误差项分布满足高斯马尔科夫假设 2 误差项不存在序列相关 因变量Y取值相互独立 即残差间相互独立 不存在自相关 否则应当采用自回归模型来分析 Y取值相互独立用的是残差间相互独立的检验方法 如图所示 我们使用线性回归过程中的DW检验 DW值Durbin Watson检验的参数D的取值范围是0 D 4 与2越接近表示残差与自变量越独立 D W值等于0 452偏离2 说明存在序列相关 3 误差项与解释变量不能存在相关性检验方法 spearman等级相关 标准化残差与标准化预测值 H0 总体中模型的解释变量与误差项显著不相关 根据下表由于sig值0 995 0 994 0978均大于0 05 故原假设H0 即总体中模型的解释变量与误差项显著不相关 4 解释变量间不能存在共线性 多重共线的诊断 一般用VIF值来诊断多重共线 方差膨胀因子 VarianceInflationFactors 简记作VIF 刻画了相比多重共线性不存在时回归系数估计的方差增大了多少 VIF越大说明多重共线性问题越严重 从方差膨胀因子 VIF 输出结果来看 值为16 938大于10 说明存在多重共线问题 下表的第七列表明 变量教育支出和人均使用面积的容差都为0 059 都较小 即其他自变量共线性太强 模型对样本的代表性 对总体的代表性和结构 第一个表格输出的是模型拟合优度 为0 863 调整后的拟合优度为0 836 决定系数R2即相应的相关系数的平方 用R2表示 反映应变量y的全部变异中能够通过回归关系被自变量解释的比例 R2越接近1越好 多元回归时 决定系数缺乏可靠性 此时可参考调整的决定系数R2 第二个是方差分析 可以说是模型整体的显著性检验 统计量F 平均回归平方和 平均残差平方和 若F值过小说明自变量对因变量的解释力度很差 拟合的回归直线没有意义 相反若概率值 SPSS中以sig表示 越小越好 F统计量为31 576 SIG值为0 000 故拒绝原假设 认为模型是显著的 第三个是模型的系数 constant代表常数项 年人均消费性收入的系数为1 315 两个自变量t检验的统计量分别0 871和1 075 SIG值分别为0 404和0 308 均大于0 05 故接受原假设
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!