SPSS相关分析与回归分析专题.ppt

上传人:tia****nde 文档编号:8424745 上传时间:2020-03-29 格式:PPT 页数:310 大小:15.48MB
返回 下载 相关 举报
SPSS相关分析与回归分析专题.ppt_第1页
第1页 / 共310页
SPSS相关分析与回归分析专题.ppt_第2页
第2页 / 共310页
SPSS相关分析与回归分析专题.ppt_第3页
第3页 / 共310页
点击查看更多>>
资源描述
相关分析与回归分析专题 Correlation regression 相关分析 CorrelationAnalysis 一 相关分析的意义 研究问题过程 单变量分析双变量分析多变量分析多变量分析与单变量分析的最大不同 揭示客观事物之间的关联性 所以 相关分析的意义和目的在于 1 在统计学中有理论与实践意义 2 对相关关系的存在性给出判断 3 对相关关系的强度给出度量和分析 二 相关分析的概念变量之间的关系分为确定性关系和非确定性关系 确定性关系 当一个变量值 自变量 确定后 另一个变量值 因变量 也就完全确定了 确定性关系往往可以表示成一个函数的形式 比如圆的面积和半径的关系 S r 非确定性关系 给定了一个变量值后 另一个变量值可以在一定范围内变化 例如家庭的消费支出和家庭收入的关系 研究者把非确定性关系称为相关关系 三 相关分析的特点和应用相关关系是普遍存在的 函数关系仅是相关关系的特例 1 相关关系的类型相关关系多种多样 归纳起来大致有以下6种 强正相关关系 其特点是一变量X增加 导致另一变量Y明显增加 说明X是影响Y的主要因素 弱正相关关系 其特点是一变量X增加 导致另一变量Y增加 但增加幅度不明显 强负相关关系 其特点是X增加 导致Y明显减少 说明X是影响Y的主要因素 弱负相关关系 其特点是变量X增加 导致Y减少 但减少幅度不明显 说明X是Y的影响因素 但不是唯一因素 非线性相关关系 其特点是X Y之间没有明显的线性关系 却存在着某种非线性关系 说明X仍是影响Y的因素 不相关 其特点是X Y不存在相关关系 说明X不是影响Y的因素 2 相关分析的应用 1 相关分析可以在影响某个变量的诸多变量中判断哪些是显著的 哪些是不显著的 而且在得到相关分析的结果后 可以用于其他分析 如回归分析和因子分析 2 相关分析方法已广泛用于心理学 教育学 医学 经济学等各学科 它对试验数据的处理 经验公式的建立 管理标准的测定 自然现象和经济现象的统计预报 都是一种方便而且有效的工具 四 相关系数 相关分析的主要目的是研究变量之间关系的密切程度 以及根据样本的资料推断总体是否样关 反映变量之间关系紧密程度的指标主要是相关系数r 相关系数r取值在 1到 1之间 当数值愈接近 1或 1时 说明关系愈紧密 接近于0时 说明关系不紧密 相关系数的计算 样本的相关系数一般用r表示 总体的相关系数一般用p表示 对于不同类型的变量 相关系数的计算公式不同 在相关分析中 常用的相关系数有 Pearson简单相关系数 对定距连续变量的数据进行计算 如测度收入和储蓄 身高和体重 Spearman等级相关系数 用于度量定序变量间的线性相关关系 如军队教员的军衔与职称 Kendallr相关系数 用非参数检验方法来度量定序变量间的线性相关关系 计算基于数据的秩 Pearson相关系数应用广泛 其计算公式及其性质如下 在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令 Bivariate 两两相关分析过程 Partial 偏相关分析过程 Distances 距离分析过程 五 SPSS中相关分析 Correlation菜单 Bivariate过程 Bivariate过程用于进行两个或多个变量间的参数与非参数相关分析 如为多个变量 给出两两相关的分析结果 这是correlate菜单中最常用的一个过程 包括自动计算Pearson简单相关系数 T检验统计量和对应的概率P值 举例 对肺活量和体重做相关分析1 打开SAV数据 2 用散点图初步观察两变量间有无相关趋势 依次单击菜单 Graphs ChartBuilder 打开图形构建器 选择做散点图 Scatter Dot 3 设置相关分析的参数 依次单击 Analyze Correlate Bivariate 执行两变量相关分析 其主设置面板如图所示 待分析变量列表 变量列表 相关系数 显著性检验选项 2 相关性输出 相关性 表格给出的是Pearson相关系数及其检验结果 相关系数 表格给出的是两个非参数相关系数及其检验结果 可见 3个相关系数在0 01和0 05的显著性水平 双边检验 上都非常显著 从而推断体重和肺活量之间存在着明显的正相关关系 1 描述性输出 描述性统计量 表格给出了两个变量的基本统计信息 包括均值 标准差和频率 Partial过程 偏相关分析也称净相关分析 它在控制其他变量的线性影响下分析两变量间的线性相关 所采用的是工具是偏相关系数 净相关系数 运用偏相关分析可以有效地揭示变量间的真实关系 识别干扰变量并寻找隐含的相关性 如控制年龄和工作经验的影响 估计工资收入与受教育水平之间的相关关系 Partial过程 当进行相关分析的两个变量的取值都受到其他变量的影响时 就可以利用偏相关分析对其他变量进行控制 输出控制其他变量影响后的相关系数 举例 分析身高与肺活量之间的相关性 要控制体重在相关分析过程中的影响 1 设置偏相关分析的参数 依次单击 Analyze Correlate Patial 执行偏相关分析 其主设置面板如图所示 0阶偏相关 Pearson 1阶偏相关 显著相关 相关不显著 1 描述性输出 描述性统计量 表格给出了三个变量的基本统计信息 包括均值 标准差和频率 2 相关性输出 相关性 表格给出了所有变量的0阶偏相关 Pearson简单相关 系数和1阶偏相关系数的计算结果果 以及它们各自的显著性检验P值 分析结果显示 在体重不变的条件下 身高与肺活量之间不存在显著线性相关关系 Distances过程 距离分析 此过程可以在观测记录之间或者不同变量之间进行相似性和不相似性分析 相似性分析可以用于检测观测值的接近程度 不相似性分析可用于考察各变量的内在联系和结构 该过程一般不单独使用 而是作为因子分析 聚类分析和多维尺度分析等的预分析过程 以帮助了解复杂数据集的内部结构 为进一步的分析做准备 与距离分析有关的统计量分为相似性测度和不相似性测试两大类 不相似性测度a 对定距变量的测度可以使用的统计量有Euclid欧氏距离 平方欧氏距离 契比雪夫距离等 b 对定序变量 使用卡方不相似测度和Phi方不相似测度 c 对二值 只有两种取值 变量 使用欧氏距离 平方欧氏距离 LaneandWilliams不相似测度 相似性测度 a 对定距变量的测度 主要有统计量Pearson相关或余弦距离 b 对二值变量的相似性测度主要包括简单匹配系数 Jaccard相似性指数等 在通常使用的距离中 最常用的是欧式距离 案例 打开 地区经济发展水平指标 sav 参数设置 距离的计算对象 距离的测度类型 分析变量例表 结果分析 1 案例处理摘要 案例处理摘要 表格给出了数据使用的基本情况 主要是对有无缺失值的统计信息 可见本例的11个案例没有缺失 全部用于分析 2 近似矩阵 近似矩阵 表格给出的是各变量之间的相似矩阵 图中以线框标注了相关系数较大的几对变量 它们在进一步的分析中应重点关注 或者直接对其进行适当的预处理 例如变量约减 相关分析与回归分析 相关分析与回归分析 线性回归 线性回归 回归分析 regressionanalysis 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法 涉及的自变量的多少一元回归分析多元回归分析自变量和因变量之间的关系类型 线性回归分析非线性回归分析 线性回归 回归分析一般步骤 确定回归方程中的解释变量 自变量 和被解释变量 因变量 确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测 线性回归 线性回归模型 线性回归 多元线性回归模型是指有多个解释变量的线性回归模型 用于揭示被解释变量与其他多个解释变量之间的线性关系 多元线性回归数学模型 其中 0 1 p都是未知参数 分别称为回归常数和偏回归系数 称为随机误差 是一个随机变量 且同样满足两个前提条件 E 0var 2 线性回归 线性回归模型 回归参数的普通最小二乘估计 OLSE 线性回归方程确定后的任务是利用已经收集到的样本数据 根据一定的统计拟合准则 对方程中的各参数进行估计 普通最小二乘就是一种最为常见的统计拟合准则 最小二乘法将偏差距离定义为离差平方和 即 1 最小二乘估计就是寻找参数 0 1 p的估计值 0 1 p 使式 1 达到极小 通过求极值原理 偏导为零 和解方程组 可求得估计值 SPSS将自动完成 线性回归 回归方程的统计检验回归方程的拟合优度检验 相关系数检验 一元线性回归的拟合优度检验采用R2统计量 称为判定系数或决定系数 数学定义为 其中称为回归平方和 SSA 称为总离差平方和 SST 线性回归 线性回归 回归方程的统计检验回归方程的拟合优度检验 相关系数检验 R2取值在0 1之间 R2越接近于1 说明回归方程对样本数据点的拟合优度越高 多元线性回归的拟合优度检验采用统计量 称为调整的判定系数或调整的决定系数 数学定义为 式中n p 1 n 1分别是SSE和SST的自由度 其取值范围和意义与一元回归方程中的R2是相同的 回归方程的统计检验回归方程的拟合优度检验 相关系数检验 线性回归 回归方程的统计检验回归方程的显著性检验 F检验 一元线性回归方程显著性检验的零假设是 1 0 检验采用F统计量 其数学定义为 即平均的SSA 平均的SSE F统计量服从 1 n 2 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为线性关系显著 线性回归 回归方程的统计检验回归方程的显著性检验 F检验 多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零 检验采用F统计量 其数学定义为 即平均的SSA 平均的SSE F统计量服从 p n p 1 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为y与x的全体的线性关系显著 线性回归 回归方程的统计检验回归系数的显著性检验 t检验 一元线性回归方程的回归系数显著性检验的零假设是 1 0 检验采用t统计量 其数学定义为 t统计量服从n 2个自由度的t分布 SPSS将会自动计算t统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为x对y有显著贡献 线性关系显著 线性回归 回归方程的统计检验回归系数的显著性检验 t检验 多元线性回归方程的回归系数显著性检验的零假设是 i 0 检验采用t统计量 其数学定义为 ti统计量服从n p 1个自由度的t分布 SPSS将会自动计算ti统计量的观测值以及对应的概率p值 如果p值小于给定的显著性水平 则应拒绝零假设 认为xi对y有显著贡献 应保留在线性方程中 i 1 2 p 线性回归 回归方程的统计检验残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距 即 它是回归模型中的估计值 如果回归方程能较好地反映被解释变量的特征和变化规律 那么残差序列中应不包含明显的规律性和趋势性 线性回归 回归方程的统计检验残差分析 均值为0的正态性分析 残差均值为0的正态性分析 可以通过绘制残差图进行分析 如果残差均值为0 残差图中的点应在纵坐标为0的横线上下随机散落着 正态性可以通过绘制标准化 或学生化 残差的累计概率图来分析 线性回归 回归方程的统计检验残差分析 独立性分析绘制残差序列的序列图以样本期 或时间 为横坐标 残差为纵坐标 如果残差随时间的推移呈规律性变化 则存在一定的正或负相关性 计算残差的自相关系数取值在 1到 1之间 接近于 1表明序列存在正自相关性 DW Durbin Watson 检验DW取值在0至4之间 直观判断标准是DW 4 残差序列完全负自相关 DW 2 完全无自相关 DW 0 完全正自相关 线性回归 回归方程的统计检验残差分析 异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加 或减少 的趋势 说明出现了异方差现象 线性回归 回归方程的统计检验残差分析 异方差分析等级相关分析得到残差序列后首先对其取绝对值 然后计算出残差和解释变量的秩 最后计算Spearman等级相关系数 并进行等级相关分析 具体过程见相关分析相关章节 线性回归 回归方程的统计检验残差分析 探测样本中的异常值和强影响点 对于y值 标准化残差ZRE由于残差是服从均值为0的正态分布 因此可以根据3 准则进行判断 首先对残差进行标准化 绝对值大于3对应的观察值为异常值 学生化残差SRE剔除残差DRE 或剔除学生化残差SDRE 上述SRE SDRE的直观判断标准同标准化残差ZRE 线性回归 回归方程的统计检验残差分析 探测样本中的异常值和强影响点 对于x值 杠杆值hiiSPSS中计算的是中心化杠杆值chii 通常如果chii大于2或3倍的chii的均值 p n 则认为观察点为强影响点 库克距离Di库克距离是杠杆值与残差大小的综合效应 一般库克距离大于1 则可认为观察点为强影响点 标准化回归系数的变化和标准化预测值的变化如果标准化回归系数变化的绝对值大于 或标准化预测值变化的绝对值大于 则可认为第i个样本可能是强影响点 线性回归 多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量不断进入回归方程的过程 首先选择与被解释变量具有最高线性相关系数的变量进入方程 并进行各种检验 其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程 向后筛选策略变量不断剔除出回归方程的过程 首先所有变量全部引入回归方程并检验 然后在回归系数显著性检验不显著的一个或多个变量中 剔除t检验值最小的变量 逐步筛选策略向前筛选与向后筛选策略的综合 线性回归 多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1 表示多重共线性越弱 SPSS变量多重共线性的要求不很严格 只是在容忍度值太小时给出相应警告信息 方差膨胀因子VIF膨胀因子是容忍度的倒数 越接近于1 表示解释变量间的多重共线性越弱 通常如果VIFi大于等于10 说明解释变量xi与其余解释变量之间有严重的多重共线性 特征根和方差比这里的特征根是指相关系数矩阵的特征根 如果最大特征根远远大于其他特征根的值 则说明这些解释变量之间具有相当多的重叠信息 条件指数ki10 ki 100时 认为多重共线性较强 ki 100时 认为多重共线性很严重 线性回归 线性回归 2 将因变量选入Dependent框 3 将一个或多个自变量选入Independengt s 框 4 在Method框中选择回归分析中自变量的筛选策略 其中Enter表示所选变量强行进入回归方程 是SPSS默认策略 通常用在一元线性回归分析中 Remove表示从回归方程中剔除所选变量 Stepwise表示逐步筛选策略 Backward Forward分别表示向后 向前筛选策略 回归分析基本操作 线性回归 5 上述 3 4 中确定的自变量和筛选策略可放置在不同的Block中 单击 Next 和 Previous 按钮设置多组自变量和变量筛选策略 并放在不同Block中 SPSS将按照设置顺序依次进行分析 Block 设置便于作各种探索性的回归分析 回归分析基本操作 线性回归 6 选择一个变量作为条件变量到SelectionVariable框中 并单击 Rule 按钮给定一个判断条件 只有变量值满足给定条件的样本数据才参与线性回归分析 线性回归 回归分析基本操作 7 在CaseLabels框中指定哪个变量作为数据样本点的标志变量 该变量的值将标在回归分析的输出图形中 8 WLSWeight中选人权重变量 主要用于加权最小二乘法 至此便完成了线性回归分析的基本操作 SPSS将根据指定自动进行回归分析 并将结果输出到输出窗口中 线性回归 回归分析基本操作 回归分析的其他操作 Statistics选项 输出与回归系数相关的统计量 包括回归系数 回归系数标准误 标准化回归系数 回归系数显著性检验的t统计量和概率p值 个解释变量的容忍度 每个非标准化回归系数的95 置信区间 输出各解释变量间的相关系数 协方差以及各回归系数的方差 线性回归 输出判定系数 调整的判定系数 回归方程的标准误 回归方程显著性检验的方差分析表 每个解释变量进入方程后引起的判定系数的变化量和F值的变化量 偏F统计量 输出个解释变量和被解释变量的均值 标准差 相关系数矩阵及单侧检验概率值 输出方程中各解释变量与被解释变量之间的简单相关 偏相关系数和部分相关 线性回归 回归分析的其他操作 Statistics选项 多重共线性分析 输出各解释变量的容忍度 方差膨胀因子 特征值 条件指标 方差比例等 DW值 输出标准化残差绝对值大于等于3 默认 的样本数据的相关信息 线性回归 回归分析的其他操作 Statistics选项 Plots选项 标准化预测值标准化残差剔除残差调整的预测值学生化残差剔除学生化残差 标准化残差序列直方图 标准化残差序列正态分布累计概率图 依次绘制被解释变量与各解释变量的散点图 线性回归 回归分析的其他操作 Save选项 该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中 并可同时生成XML格式的文件 便于分析结果的网络发布 线性回归 回归分析的其他操作 Save选项 保存剔除第i个样本后各统计量的变化量 回归系数变化量标准化回归系数变化量预测值变化量标准化预测值变化量协方差比 线性回归 回归分析的其他操作 Options选项 设置多元线性回归分析中解释变量进入或剔除出回归方程的标准 偏F统计量的概率值 线性回归 回归分析的其他操作 线性回归分析的应用举例为研究高校人文社会科学研究中立项课题数受哪些因素的影响 收集某年31个省市自治区部分高校有关社科研究方面的数据 并利用线性回归方法进行分析 这里 被解释变量为立项课题数X5 解释变量为投入人年数 X2 投入高级职称的人年数 X3 投入科研事业费 X4 专著数 X6 论文数 X7 获奖数 X8 具体操作如前所述 分析结果如下 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 一 回归方程的拟合优度较高 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 二 SSASSESST 被解释变量与解释变量的全体的线性关系显著 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 三 偏回归系数检验只有x2的是显著的 其他均不显著 即与0无显著差异 各解释变量之间存在很强共线性 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 强制进入策略 四 由特征根的较大差异 条件指数以及方差比进一步证实了各解释变量之间存在严重的线性自相关 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 一 由此可见 不能以一味追求高的拟合优度为目标 还要重点考察解释变量对被解释变量的贡献 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 二 SSASSESST 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 三 由此可清楚地看到变量剔除的过程 线性回归 线性回归分析的应用举例 立项课题数多元线性回归分析结果 向后筛选策略 四 线性回归 线性回归分析的应用举例 通过上述回归方程的分析以及各种检验 得出如下回归方程 立项课题数 94 524 0 492投入人年数 意味着投入人年数每增加一个单位会使立项课题数平均增加0 492个单位 线性回归 曲线估计 曲线估计 变量间相关关系的分析中 变量之间的关系并不总是表现出线性关系 非线性关系也极为常见 非线性又可划分为 本质线性关系形式上虽然呈非线性 但可通过变量转换化为线性关系 本质非线性关系不仅形式上呈非线性 也无法通过变量转换化为线性关系 这里的曲线估计是解决本质线性关系问题的 常见本质线性模型 曲线估计 在SPSS曲线估计中 首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型 然后 SPSS自动完成模型的参数估计 并输出回归方程显著性检验的F值和概率P值 判定系数R2等统计量 最后以判定系数为主要依据选择其中的最优模型 并进行预测分析 曲线估计 基本操作 1 选择菜单Analyze Regression CurveEstimation 2 选择被解释变量到Dependent框 3 曲线估计中解释变量可以是相关因素变量 也可以是时间变量 如果解释变量为相关因素变量 则选择Variable选项 并指定一个解释变量到Independent框 如果选择Time参数表示解释变量为时间变量 4 在Models中选择几种模型 5 选择PlotModels选项绘制回归线 选择DisplayANOVAtable输出各个模型的方差分析表和各回归系数显著性检验结果 曲线估计 曲线估计应用举例 为研究居民家庭教育支出和消费性支出之间的关系 收集到1990年至2002年全国人均消费性支出和教育支出的数据 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 教育支出和年人均消费性支出的散点图 曲线估计 曲线估计应用举例 观察散点图发现两变量之间呈非线性关系 可尝试选择二次 三次曲线 复合函数 幂函数等模型 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计 曲线估计应用举例 观察散点图发现两变量之间呈非线性关系 可尝试选择二次 三次曲线 复合函数 幂函数等模型 拟合优度比较 曲线估计 曲线估计应用举例 与实际不符 回归系数检验不通过 曲线估计 曲线估计应用举例 曲线估计 曲线估计应用举例 复合函数和幂函数的拟合优度都很好 同时两种模型的回归系数显著性检验也都通过 因此可考虑采用这两种模型 另外 由于复合函数数值增长速度高于幂函数 从居民消费未来趋势看 教育支出将可能占消费性支出的较大比例 并呈快速增长的趋势 而且复合函数拟合优度高于幂函数 因此可最终考虑采用复合函数 曲线估计 曲线估计应用举例 曲线估计 相关分析与回归分析 部分最小平方回归PLS 部分最小平方回归PLS PLS是一种预测技术 可替代普通最小二乘法 OLS 回归 典型相关性或结构化方程建模 并且它在预测变量高度相关或预测变量数量超过个案数量时特别有用 PLS融合主成分分析和多重回归功能 它首先提取一组充分解释自变量和因变量之间的协方差的潜在因子 然后 回归步骤使用自变量分解来预测因变量的值 可用性 PLS属于扩展命令 需要在您计划运行PLS的系统上安装Python扩展模块 PLS扩展模块需要单独安装 安装程序下载链接为 输出的图形与统计量包括 表解释方差比例 潜在因子 潜在因子权重 潜在因子加载 图像自变量重要性 VIP 和回归参数估计值 因变量 全部缺省生成 图表前三个潜在因子的图像变量重要性 VIP 因子得分 因子权重 以及模型距离均从选项选项卡生成 部分最小平方回归数据注意事项 测量级别 因变量和自 预测 变量可以是刻度 名义或有序变量 该过程假设相应的测量级别已指定给所有变量 该过程以相同的方式处理类别 名义或有序 变量 类别变量编码 该过程在其间使用一个c编码临时对类别因变量重新编码 如果存在变量的c类别 则变量存储为c矢量 第一个类别指示为 1 0 0 下一个类别 0 1 0 0 和最后一个类别 0 0 0 1 使用虚拟编码表示类别因变量 即仅省略对应于参考类别的指示符 频率权重 权重值在使用前四舍五入为最接近的整数 在分析中不使用缺失权重或权重小于0 5的个案 缺失值 用户和系统缺失值视为无效 重新调整 所有模型变量均被居中和标准化 包括表示类别变量的指示变量 引例 汽车行业集团保持对个人的各种机动车辆的销售进行追踪 为了能够识别过度和表现不佳的模式 想建立一个汽车销售与车辆特征的关系 由于车辆的特征是相关的 部分最小二乘回归可以很好的替代普通最小二乘回归 car sales sav 该数据文件包含假设销售估计值 订价以及各种品牌和型号的车辆的物理规格 订价和物理规格可以从和制造商处获得 步骤 AnalyzeRegressionPartialLeastSquares选择log transformedsales作为因变量选择车辆类型 类型通过燃油效率 英里 作为自变量 点击option 选择保存估计个别的个案 数据集名称类型indvCases 选择保存估计潜在因素和数据集的名称类型latentFactors 选择保存估计自变量和数据集的名称类型indepVars 该程序符合部分最小平方回归模型的规模变量lnsales 使用的一个因素和价格等变量的类型 通过英里表示 OUTDATASET命令要求分别输出与具体案件 潜在因素 以及预测被保存到新的数据集indvCases latentFactors和indepVars相关的变量 这些选择也将产生潜在的因子得分 潜在因子权重 潜在因子图像变量重要性 VIP 的因素所有其他选项设置为默认值 该解释的方差比例表显示了每个潜在因子模型的贡献 第一个因素解释了在自变量中20 9 的方差和在因变量中40 3 的方差 第二个因素解释了在自变量中55 0 的方差和在因变量中2 9 的方差 第三个因素解释了在自变量中5 3 的方差和在因变量中4 3 的方差 合计 前三个因素的解释了在自变量中81 3 的方差和在因变量中47 4 的方差 虽然第四个因素增加了很少的Y方差解释 但它对于X的方差的贡献大于第三个因素 并且其调整R平方值高于第三个因素 第五个因素对于X方差和Y方差的贡献都最小 并且其调整R平方值有轻微下降 并没有令人信服的证据可以说明选择第四个因素而不是第五个因素 参数表显示为预测因变量的每一个自变量的回归系数的估计 而不是模型影响的典型实验 寻找图像变量的重要性在哪一个预测量是最有用方面提供指导 预测变量重要性代表了每一个猜测值对于模型的贡献 及在模型中因素数量的累积贡献 例如 在一个因素模型中 价格对第一因素比重较大 有2 088的VIP值 当更多的因素加入的时候 累积的VIP值慢慢的降到1 946 大概是因为对于这些因素的比重较小 相比之下 engin s在单因素模型中有0 512的VIP值 而在5个因素模型中上升到0 932 参数系数和VIP值信息也保存到indepVars数据集中 以对其进一步分析 例如 累积变量的重要性图表就是用这些数据建立的 累积变量的重要性图表提供了在投影表中变量重要性的可视化 对于单因素模型而不是多因素模型的预测贡献的信息 参照latentfactors表格的输出 权重和荷载 类似于重量在这不做讨论 这些被保存在lf数据集中并且数据会被进一步利用 如权重因素图即是实用这个数据集创建的 权重因素图表提供前三个因素两两比较的可视化 上图可看到 价格 马力和 类型是汽车 与insales出现负的相关 因为是在与insales相反的方向 长度 轴距和英里在一定意义上正相关 其他的与insales弱相关 因为他们在insales的垂直方向上 在因素3和1的比较中 油箱容量在因素2与1的比较中是与engine s正相关的 而在因素3中是负相关的 在由因素3和2所界定的空间中 insales似乎与英里 engine s 油箱容量有更密切的关系 说明了多个角度的重要性 没有个别案件表格输出 但是 有一个casewise大量信息写入到indvCases数据集中 包括在模型中变量的原始值 对于预测的模型预测值 对于insales的模型预测值 对于预测和insales的残差 X分数 Y分数和X Y距离模型 新闻统计仅仅是对于模型的Y距离平方的总和 此数据集用于创建Y分数与X分数的比较 以及X分数与X分数的比较 这个散点图矩阵显示最初几个因素的高相关性 图中左上角 逐渐扩散到较小的相关性 它可以用来确定潜在的离群者以作更进一步的调查 对X分数与自身相比较是一个有用的诊断 不应有任何的模式 集团或离群 离群是潜在的事件 在上图中有一些针对性的调查 模式和集团表示更复杂的模型 组别的单独分析可能是必要的 OrdinalRegression序数回归分析 定义 是根据反应变量水平是否有序来区分的有序多分类的Logistic回归 又称之为等级回归分析 序数回归的过程在语法中称为PLUM 应用 如疗效可以分为无效 缓解 好转 治愈4个等级 其中缓解与好转是病人的主观体验 难以测量与量化 用序数回归就可以分析这样的有序变量 OrdinalRegression序数回归分析 有序结果变量回归的适用条件 1 一个因变量 它是两个或以上水平的分类变量 无论是主观 名义变量 或客观 有序结果变量 的分类均可 2 一个或以上的协变量 它可以是分类变量或连续型变量 患者对药物剂量可能的反应可以分为无 轻微 适度或剧烈 轻微反应和适度反应之间的差别很难或不可能量化 并且这种差别是取决于感觉的 另外 轻微反应和适度反应之间的差别可能比适度反应和剧烈反应之间的差别更大或更小 序数回归和线性回归 当你试图预测有序反应时 一般线性回归模型并不能很好地工作 这些方法仅可以衡量结果 定 变量是在一个区间范围 这不是真正的有序结果变量 因此 回归模型可能无法准确反映数据之间的关系 一个有序变量 最重要的就是排序 因此 如果您将两个相邻的类别折叠成一个较大的类别 这只是一个很小的变化 使用旧的和新的类别建立的模型应十分类似 不幸的是 线性回归对类别的使用很敏感 类别合并前建成的模型和合并后建成的模型有很大不同 广义线性模型 适合每一类别中的有序变量的单独方程 每一个方程给出了在相应类别或者任何较低类别中的预测概率 没有建立预测模型 而所有的案件都必须在最后一类或较低类别 其概率为1 正因为如此 对于最后一类预测方程是不需要的 序数回归数据注意事项 1 数据 假设因变量是序数并且可以是数值或字符串 通过对因变量的值进行升序排序来确定排列顺序 最低值定义第一个类别 假设因变量是分类变量 协变量必须为数值 请注意 使用多个连续协变量很容易使创建的单元概率表非常大 2 假设 只允许使用一个因变量 并且必须指定该因变量 另外 对于多个自变量值的各个不同模式 假设该因变量是独立的多项变量 输出的统计量与图形包括 协变量中每个分类变量的观测频数 预测频数 累计频数 频数与累计频数的Pearson残差 观察概率与预测概率和累积概率 还有参数估计值的渐进相关矩阵与协方差矩阵 Prarson卡方统计量 似然比卡方统计量 拟合优度统计量 迭代历史 参数估计值 标准误差和Cox SnellR方统计量等 序数回归使用总体思路 1 需要确定因变量的序 2 需要决定是否使用预测模型的位置组件 3 需要决定是否使用规模组件 如果需要 确定哪一个预测值需要使用 在许多情况下 规模组件是没有必要的 只有位置组件的模型也将提供很好的数据总结 在保持事情简单同时获利益时 通常最好的是只使用位置组件的模型 并有证据表明只有位置组件的模型为您的数据不足时才添加一个规模组件 4 需要决定哪些链接功能最适合您的研究问题和数据结构 链接功能 是累积概率估计的改造模式 连接函数表 应用举例 这里通过序数回归过程来分析债权人如何确定申请者信用风险的问题 以下给出各种金融和个人特征 从他们顾客的数据库中 确定因变量是账目情况 共有以下5个有序取值水平 没有贷款历史 现在没有贷款 正在偿还 逾期偿还和拖欠贷款 分别赋值1 5 请注意 事实上 此特定顺序可能不是最好的可能结果的顺序 您可以轻松地认为 一个没有目前的债务 或目前正在偿还的已知客户 比目前没有可知的信用记录的客户有更好的信贷风险 在这个问题上进行更多的讨论见平行线试验 选择模型的位置组件预测过程类似于线性回归模型中选择预测的过程 理想情况下 模型将包括所有重要的预测并且没有其他的 在实践中 直到建立模型之前 往往不知道哪些预测将被证明是重要的 在这种情况下 通常最好开始的预测包括你认为所有的可能重要的 如果发现这些预测有些似乎在模型中没有帮助 您可以删除并重新估计模型 在这种情况下 以之前的经验和一些初步的分析确定以下5种包括年龄 贷款期限 住房类型 贷款数目 其他贷款作为可能预测并分别进行初步预测 其中年龄及贷款期限是连续的预测 作为这个模型的协变量输入 选择链接函数依次单击菜单 GraphsChartBuilder 打开图形构建器界面 在Choosefrom列表中选择做Histograms 简单直方图 并以账目情况作为横轴 默认的count 计数 作为纵轴作图 Spssviewer输出图形 可见 第3类 正在偿还 和第5类 拖欠贷款 人出现的频率最大 并且类别编码越大 拖欠贷款的可能性也越大 所以建议选择Complementarylog log连接函数 此函数更关注编码较大的类别 Ordinal回归的参数设置单击菜单 AnalyzeRegressionOrdinal 执行Ordinal回归分析的功能 表列量变 因变量 因素变量列表 协变量列表 Dependent选框 用于选入一个有序分类变量 ordinal 作为因变量 可以是数值型或字符串型的 因变量的取值将自动按照升序排列 最小的值指定为第1类Factors列表框 用于从变量列表选入分类变量作为自变量Covariates列表框 用于从变量列表选入数值型变量作为协变量 1 变量设置 2 选项设置 单击Option按钮 弹出用于设置关于迭代参数的对话框 单击底部的link下拉列表 选中Complementarylog log选项 单击continue 指定最大迭代次数 若指定为0 将只输出初始值 指定最大等分值 指定关于对数似然比的收敛依据 若在逐步回归过程中 对数似然比函数的绝对变化值小于此值 则迭代终止 默认为0 表示不使用此准则 指定关于参数的收敛依据 若每个参数估计的绝对变化值都小于此值时 迭代终止 设为0表示不使用此准则 指定一个小于1的正数 此值将被添入分类变量交叉表的空单元格中 有助于稳定算法 指定检验奇异值 因变量的过高预测值 的容许度 指定连接函数 即对模型估计中的累积概率的转换函数给出了5种连接函数 3 输出设置 单击Output按钮 弹出用于选择模型的输出选项 依次勾选Testofparallellines复选框和Predictedcategory复选框 单击continue 输出Pearson卡方和似然比卡方统计量 输出Cox Snell卡方 Nagelkerke卡方和McFadden卡方 输出参数估计值 估计值的标准误差和置信区间 检验参数估计在各响应类别中是否相同 保存模型的预测相应分类 4 定位模型设置 单击Location按钮 弹出用于指定定位模型中的各种效应 主效应和交叉效应 单击continue返回主界面 5 尺度模型设置 单击scale按钮 弹出下图对话框 设置关于尺度模型有关的参数 单击continue返回主界面 案例的结果分析 出现此框的原因是模型中包含了连续变量 例如把观测中拥有如下特征的申请者组合为 个单元格 现在正在偿还贷款 在银行中有存款 拥有住房 没有其他债务 49岁 申请12月的贷款 由于持续时间和年龄都为连续型变量 所以类似这样的单元格多数为空 空单元格较多时会影响统计量的计算和有效性 所以评价此模型时要慎重使用基于卡方检验的拟合优度统计量 案例处理摘要 表格给出了分类变量各水平下的案例数和边际百分比 以及有效案例和缺失案例的个数统计 模型拟合信息 表格给出了最终模型和模型中只包含截距项 其他参数系数全为0 时的似然比检验结果 此处卡方统计量就是前面的两个 2倍对数似然值的差 卡方检验的sig值远小于0 01 说明最终模型要优于只含截距的模型 即最终模型显著成立 拟合优度 表格 检验的零假设是模型能很好的拟合原始数据 由于Pearson统计量和偏差统计量对空单元格都非常敏感 而本例中的两个连续变量又导致大量空单元格的出现 以至于这两个统计量的检验结果不太可信 不建议采纳 平行性检验的零假设是位置参数 斜率系数 在个响应类别中都是相等的 因为显著性值远小于0 01 所以否定零假设 这可能是由于若干因素 包括使用不正确的链接功能 或使用了错误的模型 在这个例子中 至少有两个链接功能 Complementarylog log和Cauchit 可能是适当的 有可能使用Cauchit链接功能会提高模型拟合度 这也可能是模型拟合是因为选择了因变量的类别排序 一个没有债务历史的排序作为更高的信用风险可能更符合该模型 可以使用多分类Logistic回归的过程 因为它可以让你避免排序问题 右数第3列为Wald检验的显著性水平 若此值小于0 05 则对应因素的系数估计显著地不为0 对此 本例的大多因素都不够显著 原因可能时因变量的分类顺序不对或者连接函数选择不理想 由于转换函数的存在 使得对参数估计值的解释变得困难许多 如果一个协变量的参数估计值为正 那么对此变量取值越大的观测目标类别的取值也越大 反之亦然 对于自变量 参数估计值越大的取值水平 预测目标类别的取值也越大 例如 age变量的Wald检验是显著的 Sig 0 01 且参数估计值为正 说明年龄越大 拖欠贷款的概率也越大 贷款期限则对该模型影响较小 虽然没有单独一类NUMCRED本身意义重大 但有两个边缘显著 值得在模型中保留 OTHNSTAL也似乎是一个重要的经验预测的理由 有一些其他分期偿还的债务比没有的信用风险会降低 另一方面 房屋似乎并没有作出有意义的贡献 可以考虑去除 进一步分析 举个例子说明一下如何利用拟和模型进行应用和预测 设某申请者的个人信息为 申请48个月的贷款 duration 22岁 age 有银行存款 numcred 没有其他贷款 othnstal 拥有住房 housng 下面就利用本节建立的模型来评估他的信誉水平 把个人信息数据带入模型预测方程中 除了最后一个分类 每个分类都有一个方程 得到的估计值分别为 2 78 1 95 0 63和0 97 再把这些估计值代入Complementarylog log连接函数的逆函数 得出累积概率值0 06 0 13 0 85和0 93 最后 个分类的累积概率为1 0 对这几个累积概率求差分 得出对每个类别的预测概率 第1类0 06 第2类0 13 0 06 0 07 第3类0 85 0 13 0 72 第4类0 93 0 85 0 08 第5类1 0 0 93 0 07 于是 推断此申请者最有可能为第3类人 正在偿还 且归为此类的概率为72 还可以推断这个申请者将继续偿还贷款 其账户不会出现危机 Logistic回归分析 二维 多项 引例 在许多实际问题中 会经常出现因变量是定性变量的情况 例如 某个人是否购买汽车 受到多种如家庭情况 收人情况等因素的影响 但最终的可能性只有两个 要么购买 要么不购买 把y 1定义为购买 y o则表示不购买 再如 在是否购买某项商业保险的研究中 根据消费者的年龄 身体状况 收人情况 工作性质 受教育程度等 因变量y也只有两种可能结果 要么y 1表示购买 要么y o表示不购买 可见 在现实因变量的结果只取两种可能情况的应用很广泛 可用于处理定性因变量的统计分析方法有 判别分析 D1scriminantanalysis Probit分析 logistic回归分析和对数线性模型等 在社会科学中 应用最多的是logistic回归分析 逻辑回归分析是对定性变量的回归分析 logistic回归分析根据因变量取值类别不同 又可以分为二元 Binarylogistic 回归分析和多项 Multinomianllogistic 回归分析 Binarylogistic回归模型中因变量只能取两个值1和o 虚拟因变量 而Multinomianllogistic回归模型中因变量可以取多个值 具体地说 logistic回归分析主要解决以下几方面的问题 通过分析大量的样本数据 确定变量之间的数学关系式 对所确定的数学关系式的可信程度进行各种统计检验 并区分出对某一特定变量影响较为显著的变量和影响不显著的变量 利用所确定的数学关系式 根据一个或几个变量的值来预测或控制另一个特定变量的取值 并给出这种预测或控制的精确度 Logistic函数的形式为Binarylogistic中通过Logit变换可得关于X 不同自变量 的线性关系因此 可得 模型参数确定后 必须进行检验 下面解释一些常用的检验统计量 1 2对数似然值 2loglikelihood 2LL 因为 2LL近似服从卡方分布且在数学上更为方便 所以一2LL可用于检验Logistic回归的显著性 2LL的计算公式为 2 拟合优度GoodnessofFit统计量 Logistic回归的拟合优度统计量计算公式为 4Nagelkerke的R2 5伪R2 Psedo R square 伪R2与线性回归模型的R2相似 其意义相似 但它小于1 6Hosmer和Lemeshow的拟合优度检验统计量 7Wald统计量 3cox和snell的R2 二项logistic回归应用 在一组独立变量上对二分从属变量进行回归利用前像 后向逐步方法或全部进入方法建模用偏差数对比 简单比较 差分 反Helmert Helmert 多项式 邻近类别比较 用户自定义 或指示预示变量选择建模标准 变量进入的评分统计量的概率值 Wald概率值 或者移除变量的对数似然比统计量保存统计量 预测概率和分组 残差 偏差值 Logit 标准化残差 杠杆值 类似Cook s的距离 差异通过XML导出模型 多项logistic回归模型 模型如下 与二元逻辑回归一样 通过变换可得 多项logistic回归应用在一组自变量上对多于两种类别的分类因变量进行回归用CRITERIA子命令控制算法调整参数的值包含交互作用项自定义假设检验 使用TEST子命令直接把零假设指定为参数的线性组合用SCALE子命令指定离差偏离比例建立包含 不包含截距项的方程几率比的置信区间保存统计量 预测概率 预测响应类别 预测响应分类的概率和实际响应分类的概率指定因变量的参照类处理非常大的问题利用逐步方法从众多的可能的预测因子中选择最佳预测因子利用评分和Wald方法 使您在大数据集的情况下更迅速地得出研究结果利用AIC或者BIC准则 也称为SBC 评估模型拟合度 多项logistic回归 二项logistic回归 二项logistic回归与多项logistic回归的区别 以下以二元logistic回归为例讲解logistic回归在spss中的实现 实例 在一次关于某城乡居民上下班使用交通工具的社会调查中 因变量y 1表示居民主要乘坐公共汽车上下班 y 0表示主要骑自行车上下班 自变量x1表示被调查者的年龄 x2表示被调查者的月收入 x3表示被调查者的性别 x3 1为男性 x3 0为女性 试建立y与自变量之间的logistic回归 数据如表所示 实现步骤 步骤1 把表中数据一一输入SPSS数据编辑窗口 在 Analyze 菜单的 Regression 子菜单中选择 BinaryLogistic 命令 进行逻辑回归分析 步骤2 在弹出的 LogisticRegression 对话框中 从左侧的变量列表中选择y变量 居民上下班使用交通工具的情况 将至添加到 Dependent 框中 表示该变量时因变量 选择X1变量 被调查者的年龄 X2 被调查者的月收入 X3 被调查者的性别 使它们分别进入 Independent s 框中 表示其为自变量 在Method框中选择SPSS默认的 Enter 方法 使所选变量全部进入回归方程 如图所示 步骤3 单击 LogisticRegression 对话框中的 Options 按钮 在弹出的 LogisticRegression Options 对话框中按需要选择各选项 如图所示 Display 框用来选择输出计算结果的方式 Ateachstep 显示spss每个步骤的计算结果 Atlaststep 只显示最终计算结果 StatisticsandPlots 框中的选项用来选择输出哪些统计量或统计图表 具体选项如下 Classificationplots 分类图 通过比较因变量的观测值和预测值之间关系 反映回归模型的拟合效果 Hosmer Lemeshowgoodness of fit H L拟合优度检验统计量 用以检验整个回归模型的拟合优度 Casewiselistingofresiduals 个案残差列表 输出标准方差大于某值 Outliersoutside std Dev 的个案或者全部个案 Allcases 的入选状态 因变量的观测值和预测值及其相应预测概率 残差值 Correlationsofestimates 估计参数的相关性 输出模型中各估计参数间的相关矩阵 Iterationhistory 迭代历史 输出参数估计迭代过程中的系数及对数似然值 CIforexp B exp B 的N 置信区间 选中该选项将会在模型检验的输出结果中列出exp B 各回归系数指数函数值 的N 缺省值为95 置信区间 如果要改变缺省值 可以在空白方框内输入1 99 一般常用的值为90 95 99 之间的任何一个整数 ProbabilityforStepwise 框用来设定步长标准 以便逐步控制自变量进入方程或被剔除出方程 Entry 设置变量进入方程的标准值 如果变量的分数统计概率小于所设置进入方程的标准值 则该变量进入模型 SPSS默认的显著性水平为0 05Removal 设置变量被剔除方程的标准值 如果变量的分数统计概率大于所设置被剔除出方程的标准值 则将该变量剔除出方程 SPSS默认的显著性水平为0 10 Classificationcutoff选项用以确定个案分类的中止点 因变量预测值大于分类中止点的个案设归为正个案一类 因变量预测值小于分类中止点的个案设为负个案 SPSS设中止点缺省值为0 5 我们可以通过输入0 01 0 99之间任一数值改变缺省值 从而产生新的分类表 MaximumIterations选项用以确定最大对数似然值达到之前的迭代次数 最大对数似然值是通过反复迭代计算知道收敛为止而得到的 SPSS中该项的缺省值为20 我们可以重新输入一个新的正整数来改变此项的值 步骤四 单击 Continue 按钮 返回上一个对话框 然后 单击 OK 按钮 即可得到SPSS回归分析的结果 Includeconstantinmodel 选项用以确定所求模型的参数是否要包含常数项 为了更好地说明以上各选项的意义 本例选择了所有选项 但保留各选项中的缺省值 结果与讨论总列表SPSS输出结果列表如图 第二个表格说明初始的因变量值 0 1 已经转换为逻辑回归分析中常用的0 1数值 SPSS输出结果文件如下 1 第一部分输出结果有两个表格 第一个表格说明所有个案 28个 都被选入作为回归分析的个案 结果与讨论 案例处理汇总 因变量编码 初始值内部值 2 第二部分 Block0 输出结果有4个表格 第1个输出表格列出迭代过程 其中常数项包括在模型中 初始 2LL为38 673 迭代结束于第二步 因为此时参数与其在上一步的变化已经小于0 001 第2个分类表说明Step0的拟合效果 可以看出对于y 0 有100 的准确性 对于y 1 有0 准确性 总共有53 6 的准确性 此时参数估计的变化表现为对数似然值的变化 迭代历史记录 分类表 下面两个表格给出了模型系数的检验结果 其中常数项的系数值为 0 143 其伴随概率为0 706 可见常数项不显著 X1 X2 X3的系数通过了检验 即这两个变量显著 各回归系数指数函数值 3 OmnibusTestofModelCoefficients表格列出了模型系数的OmnibusTests结果 4 ModelSummary表给出
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!