SPSS相关分析与回归分析专题.ppt

资源描述

相关分析与回归分析专题 Correlation regression 相关分析 CorrelationAnalysis 一相关分析的意义研究问题过程单变量分析双变量分析多变量分析多变量分析与单变量分析的最大不同揭示客观事物之间的关联性所以相关分析的意义和目的在于 1 在统计学中有理论与实践意义 2 对相关关系的存在性给出判断 3 对相关关系的强度给出度量和分析二相关分析的概念变量之间的关系分为确定性关系和非确定性关系确定性关系当一个变量值自变量确定后另一个变量值因变量也就完全确定了确定性关系往往可以表示成一个函数的形式比如圆的面积和半径的关系 S r 非确定性关系给定了一个变量值后另一个变量值可以在一定范围内变化例如家庭的消费支出和家庭收入的关系研究者把非确定性关系称为相关关系三相关分析的特点和应用相关关系是普遍存在的函数关系仅是相关关系的特例 1 相关关系的类型相关关系多种多样归纳起来大致有以下6种强正相关关系其特点是一变量X增加导致另一变量Y明显增加说明X是影响Y的主要因素弱正相关关系其特点是一变量X增加导致另一变量Y增加但增加幅度不明显强负相关关系其特点是X增加导致Y明显减少说明X是影响Y的主要因素弱负相关关系其特点是变量X增加导致Y减少但减少幅度不明显说明X是Y的影响因素但不是唯一因素非线性相关关系其特点是X Y之间没有明显的线性关系却存在着某种非线性关系说明X仍是影响Y的因素不相关其特点是X Y不存在相关关系说明X不是影响Y的因素 2 相关分析的应用 1 相关分析可以在影响某个变量的诸多变量中判断哪些是显著的哪些是不显著的而且在得到相关分析的结果后可以用于其他分析如回归分析和因子分析 2 相关分析方法已广泛用于心理学教育学医学经济学等各学科它对试验数据的处理经验公式的建立管理标准的测定自然现象和经济现象的统计预报都是一种方便而且有效的工具四相关系数相关分析的主要目的是研究变量之间关系的密切程度以及根据样本的资料推断总体是否样关反映变量之间关系紧密程度的指标主要是相关系数r 相关系数r取值在 1到 1之间当数值愈接近 1或 1时说明关系愈紧密接近于0时说明关系不紧密相关系数的计算样本的相关系数一般用r表示总体的相关系数一般用p表示对于不同类型的变量相关系数的计算公式不同在相关分析中常用的相关系数有 Pearson简单相关系数对定距连续变量的数据进行计算如测度收入和储蓄身高和体重 Spearman等级相关系数用于度量定序变量间的线性相关关系如军队教员的军衔与职称 Kendallr相关系数用非参数检验方法来度量定序变量间的线性相关关系计算基于数据的秩 Pearson相关系数应用广泛其计算公式及其性质如下在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令 Bivariate 两两相关分析过程 Partial 偏相关分析过程 Distances 距离分析过程五 SPSS中相关分析 Correlation菜单 Bivariate过程 Bivariate过程用于进行两个或多个变量间的参数与非参数相关分析如为多个变量给出两两相关的分析结果这是correlate菜单中最常用的一个过程包括自动计算Pearson简单相关系数 T检验统计量和对应的概率P值举例对肺活量和体重做相关分析1 打开SAV数据 2 用散点图初步观察两变量间有无相关趋势依次单击菜单 Graphs ChartBuilder 打开图形构建器选择做散点图 Scatter Dot 3 设置相关分析的参数依次单击 Analyze Correlate Bivariate 执行两变量相关分析其主设置面板如图所示待分析变量列表变量列表相关系数显著性检验选项 2 相关性输出相关性表格给出的是Pearson相关系数及其检验结果相关系数表格给出的是两个非参数相关系数及其检验结果可见 3个相关系数在0 01和0 05的显著性水平双边检验上都非常显著从而推断体重和肺活量之间存在着明显的正相关关系 1 描述性输出描述性统计量表格给出了两个变量的基本统计信息包括均值标准差和频率 Partial过程偏相关分析也称净相关分析它在控制其他变量的线性影响下分析两变量间的线性相关所采用的是工具是偏相关系数净相关系数运用偏相关分析可以有效地揭示变量间的真实关系识别干扰变量并寻找隐含的相关性如控制年龄和工作经验的影响估计工资收入与受教育水平之间的相关关系 Partial过程当进行相关分析的两个变量的取值都受到其他变量的影响时就可以利用偏相关分析对其他变量进行控制输出控制其他变量影响后的相关系数举例分析身高与肺活量之间的相关性要控制体重在相关分析过程中的影响 1 设置偏相关分析的参数依次单击 Analyze Correlate Patial 执行偏相关分析其主设置面板如图所示 0阶偏相关 Pearson 1阶偏相关显著相关相关不显著 1 描述性输出描述性统计量表格给出了三个变量的基本统计信息包括均值标准差和频率 2 相关性输出相关性表格给出了所有变量的0阶偏相关 Pearson简单相关系数和1阶偏相关系数的计算结果果以及它们各自的显著性检验P值分析结果显示在体重不变的条件下身高与肺活量之间不存在显著线性相关关系 Distances过程距离分析此过程可以在观测记录之间或者不同变量之间进行相似性和不相似性分析相似性分析可以用于检测观测值的接近程度不相似性分析可用于考察各变量的内在联系和结构该过程一般不单独使用而是作为因子分析聚类分析和多维尺度分析等的预分析过程以帮助了解复杂数据集的内部结构为进一步的分析做准备与距离分析有关的统计量分为相似性测度和不相似性测试两大类不相似性测度a 对定距变量的测度可以使用的统计量有Euclid欧氏距离平方欧氏距离契比雪夫距离等 b 对定序变量使用卡方不相似测度和Phi方不相似测度 c 对二值只有两种取值变量使用欧氏距离平方欧氏距离 LaneandWilliams不相似测度相似性测度 a 对定距变量的测度主要有统计量Pearson相关或余弦距离 b 对二值变量的相似性测度主要包括简单匹配系数 Jaccard相似性指数等在通常使用的距离中最常用的是欧式距离案例打开地区经济发展水平指标 sav 参数设置距离的计算对象距离的测度类型分析变量例表结果分析 1 案例处理摘要案例处理摘要表格给出了数据使用的基本情况主要是对有无缺失值的统计信息可见本例的11个案例没有缺失全部用于分析 2 近似矩阵近似矩阵表格给出的是各变量之间的相似矩阵图中以线框标注了相关系数较大的几对变量它们在进一步的分析中应重点关注或者直接对其进行适当的预处理例如变量约减相关分析与回归分析相关分析与回归分析线性回归线性回归回归分析 regressionanalysis 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法涉及的自变量的多少一元回归分析多元回归分析自变量和因变量之间的关系类型线性回归分析非线性回归分析线性回归回归分析一般步骤确定回归方程中的解释变量自变量和被解释变量因变量确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测线性回归线性回归模型线性回归多元线性回归模型是指有多个解释变量的线性回归模型用于揭示被解释变量与其他多个解释变量之间的线性关系多元线性回归数学模型其中 0 1 p都是未知参数分别称为回归常数和偏回归系数称为随机误差是一个随机变量且同样满足两个前提条件 E 0var 2 线性回归线性回归模型回归参数的普通最小二乘估计 OLSE 线性回归方程确定后的任务是利用已经收集到的样本数据根据一定的统计拟合准则对方程中的各参数进行估计普通最小二乘就是一种最为常见的统计拟合准则最小二乘法将偏差距离定义为离差平方和即 1 最小二乘估计就是寻找参数 0 1 p的估计值 0 1 p 使式 1 达到极小通过求极值原理偏导为零和解方程组可求得估计值 SPSS将自动完成线性回归回归方程的统计检验回归方程的拟合优度检验相关系数检验一元线性回归的拟合优度检验采用R2统计量称为判定系数或决定系数数学定义为其中称为回归平方和 SSA 称为总离差平方和 SST 线性回归线性回归回归方程的统计检验回归方程的拟合优度检验相关系数检验 R2取值在0 1之间 R2越接近于1 说明回归方程对样本数据点的拟合优度越高多元线性回归的拟合优度检验采用统计量称为调整的判定系数或调整的决定系数数学定义为式中n p 1 n 1分别是SSE和SST的自由度其取值范围和意义与一元回归方程中的R2是相同的回归方程的统计检验回归方程的拟合优度检验相关系数检验线性回归回归方程的统计检验回归方程的显著性检验 F检验一元线性回归方程显著性检验的零假设是 1 0 检验采用F统计量其数学定义为即平均的SSA 平均的SSE F统计量服从 1 n 2 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为线性关系显著线性回归回归方程的统计检验回归方程的显著性检验 F检验多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零检验采用F统计量其数学定义为即平均的SSA 平均的SSE F统计量服从 p n p 1 个自由度的F分布 SPSS将会自动计算检验统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为y与x的全体的线性关系显著线性回归回归方程的统计检验回归系数的显著性检验 t检验一元线性回归方程的回归系数显著性检验的零假设是 1 0 检验采用t统计量其数学定义为 t统计量服从n 2个自由度的t分布 SPSS将会自动计算t统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为x对y有显著贡献线性关系显著线性回归回归方程的统计检验回归系数的显著性检验 t检验多元线性回归方程的回归系数显著性检验的零假设是 i 0 检验采用t统计量其数学定义为 ti统计量服从n p 1个自由度的t分布 SPSS将会自动计算ti统计量的观测值以及对应的概率p值如果p值小于给定的显著性水平则应拒绝零假设认为xi对y有显著贡献应保留在线性方程中 i 1 2 p 线性回归回归方程的统计检验残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距即它是回归模型中的估计值如果回归方程能较好地反映被解释变量的特征和变化规律那么残差序列中应不包含明显的规律性和趋势性线性回归回归方程的统计检验残差分析均值为0的正态性分析残差均值为0的正态性分析可以通过绘制残差图进行分析如果残差均值为0 残差图中的点应在纵坐标为0的横线上下随机散落着正态性可以通过绘制标准化或学生化残差的累计概率图来分析线性回归回归方程的统计检验残差分析独立性分析绘制残差序列的序列图以样本期或时间为横坐标残差为纵坐标如果残差随时间的推移呈规律性变化则存在一定的正或负相关性计算残差的自相关系数取值在 1到 1之间接近于 1表明序列存在正自相关性 DW Durbin Watson 检验DW取值在0至4之间直观判断标准是DW 4 残差序列完全负自相关 DW 2 完全无自相关 DW 0 完全正自相关线性回归回归方程的统计检验残差分析异方差分析绘制残差图如果残差的方差随着解释变量值的增加呈增加或减少的趋势说明出现了异方差现象线性回归回归方程的统计检验残差分析异方差分析等级相关分析得到残差序列后首先对其取绝对值然后计算出残差和解释变量的秩最后计算Spearman等级相关系数并进行等级相关分析具体过程见相关分析相关章节线性回归回归方程的统计检验残差分析探测样本中的异常值和强影响点对于y值标准化残差ZRE由于残差是服从均值为0的正态分布因此可以根据3 准则进行判断首先对残差进行标准化绝对值大于3对应的观察值为异常值学生化残差SRE剔除残差DRE 或剔除学生化残差SDRE 上述SRE SDRE的直观判断标准同标准化残差ZRE 线性回归回归方程的统计检验残差分析探测样本中的异常值和强影响点对于x值杠杆值hiiSPSS中计算的是中心化杠杆值chii 通常如果chii大于2或3倍的chii的均值 p n 则认为观察点为强影响点库克距离Di库克距离是杠杆值与残差大小的综合效应一般库克距离大于1 则可认为观察点为强影响点标准化回归系数的变化和标准化预测值的变化如果标准化回归系数变化的绝对值大于或标准化预测值变化的绝对值大于则可认为第i个样本可能是强影响点线性回归多元回归分析中的其他问题变量筛选问题向前筛选策略解释变量不断进入回归方程的过程首先选择与被解释变量具有最高线性相关系数的变量进入方程并进行各种检验其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程向后筛选策略变量不断剔除出回归方程的过程首先所有变量全部引入回归方程并检验然后在回归系数显著性检验不显著的一个或多个变量中剔除t检验值最小的变量逐步筛选策略向前筛选与向后筛选策略的综合线性回归多元回归分析中的其他问题变量多重共线性问题容忍度Tol容忍度值越接近于1 表示多重共线性越弱 SPSS变量多重共线性的要求不很严格只是在容忍度值太小时给出相应警告信息方差膨胀因子VIF膨胀因子是容忍度的倒数越接近于1 表示解释变量间的多重共线性越弱通常如果VIFi大于等于10 说明解释变量xi与其余解释变量之间有严重的多重共线性特征根和方差比这里的特征根是指相关系数矩阵的特征根如果最大特征根远远大于其他特征根的值则说明这些解释变量之间具有相当多的重叠信息条件指数ki10 ki 100时认为多重共线性较强 ki 100时认为多重共线性很严重线性回归线性回归 2 将因变量选入Dependent框 3 将一个或多个自变量选入Independengt s 框 4 在Method框中选择回归分析中自变量的筛选策略其中Enter表示所选变量强行进入回归方程是SPSS默认策略通常用在一元线性回归分析中 Remove表示从回归方程中剔除所选变量 Stepwise表示逐步筛选策略 Backward Forward分别表示向后向前筛选策略回归分析基本操作线性回归 5 上述 3 4 中确定的自变量和筛选策略可放置在不同的Block中单击 Next 和 Previous 按钮设置多组自变量和变量筛选策略并放在不同Block中 SPSS将按照设置顺序依次进行分析 Block 设置便于作各种探索性的回归分析回归分析基本操作线性回归 6 选择一个变量作为条件变量到SelectionVariable框中并单击 Rule 按钮给定一个判断条件只有变量值满足给定条件的样本数据才参与线性回归分析线性回归回归分析基本操作 7 在CaseLabels框中指定哪个变量作为数据样本点的标志变量该变量的值将标在回归分析的输出图形中 8 WLSWeight中选人权重变量主要用于加权最小二乘法至此便完成了线性回归分析的基本操作 SPSS将根据指定自动进行回归分析并将结果输出到输出窗口中线性回归回归分析基本操作回归分析的其他操作 Statistics选项输出与回归系数相关的统计量包括回归系数回归系数标准误标准化回归系数回归系数显著性检验的t统计量和概率p值个解释变量的容忍度每个非标准化回归系数的95 置信区间输出各解释变量间的相关系数协方差以及各回归系数的方差线性回归输出判定系数调整的判定系数回归方程的标准误回归方程显著性检验的方差分析表每个解释变量进入方程后引起的判定系数的变化量和F值的变化量偏F统计量输出个解释变量和被解释变量的均值标准差相关系数矩阵及单侧检验概率值输出方程中各解释变量与被解释变量之间的简单相关偏相关系数和部分相关线性回归回归分析的其他操作 Statistics选项多重共线性分析输出各解释变量的容忍度方差膨胀因子特征值条件指标方差比例等 DW值输出标准化残差绝对值大于等于3 默认的样本数据的相关信息线性回归回归分析的其他操作 Statistics选项 Plots选项标准化预测值标准化残差剔除残差调整的预测值学生化残差剔除学生化残差标准化残差序列直方图标准化残差序列正态分布累计概率图依次绘制被解释变量与各解释变量的散点图线性回归回归分析的其他操作 Save选项该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中并可同时生成XML格式的文件便于分析结果的网络发布线性回归回归分析的其他操作 Save选项保存剔除第i个样本后各统计量的变化量回归系数变化量标准化回归系数变化量预测值变化量标准化预测值变化量协方差比线性回归回归分析的其他操作 Options选项设置多元线性回归分析中解释变量进入或剔除出回归方程的标准偏F统计量的概率值线性回归回归分析的其他操作线性回归分析的应用举例为研究高校人文社会科学研究中立项课题数受哪些因素的影响收集某年31个省市自治区部分高校有关社科研究方面的数据并利用线性回归方法进行分析这里被解释变量为立项课题数X5 解释变量为投入人年数 X2 投入高级职称的人年数 X3 投入科研事业费 X4 专著数 X6 论文数 X7 获奖数 X8 具体操作如前所述分析结果如下线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果强制进入策略一回归方程的拟合优度较高线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果强制进入策略二 SSASSESST 被解释变量与解释变量的全体的线性关系显著线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果强制进入策略三偏回归系数检验只有x2的是显著的其他均不显著即与0无显著差异各解释变量之间存在很强共线性线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果强制进入策略四由特征根的较大差异条件指数以及方差比进一步证实了各解释变量之间存在严重的线性自相关线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果向后筛选策略一由此可见不能以一味追求高的拟合优度为目标还要重点考察解释变量对被解释变量的贡献线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果向后筛选策略二 SSASSESST 线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果向后筛选策略三由此可清楚地看到变量剔除的过程线性回归线性回归分析的应用举例立项课题数多元线性回归分析结果向后筛选策略四线性回归线性回归分析的应用举例通过上述回归方程的分析以及各种检验得出如下回归方程立项课题数 94 524 0 492投入人年数意味着投入人年数每增加一个单位会使立项课题数平均增加0 492个单位线性回归曲线估计曲线估计变量间相关关系的分析中变量之间的关系并不总是表现出线性关系非线性关系也极为常见非线性又可划分为本质线性关系形式上虽然呈非线性但可通过变量转换化为线性关系本质非线性关系不仅形式上呈非线性也无法通过变量转换化为线性关系这里的曲线估计是解决本质线性关系问题的常见本质线性模型曲线估计在SPSS曲线估计中首先在不能明确哪种模型更接近样本数据时可在上述可选择的模型中选择几种模型然后 SPSS自动完成模型的参数估计并输出回归方程显著性检验的F值和概率P值判定系数R2等统计量最后以判定系数为主要依据选择其中的最优模型并进行预测分析曲线估计基本操作 1 选择菜单Analyze Regression CurveEstimation 2 选择被解释变量到Dependent框 3 曲线估计中解释变量可以是相关因素变量也可以是时间变量如果解释变量为相关因素变量则选择Variable选项并指定一个解释变量到Independent框如果选择Time参数表示解释变量为时间变量 4 在Models中选择几种模型 5 选择PlotModels选项绘制回归线选择DisplayANOVAtable输出各个模型的方差分析表和各回归系数显著性检验结果曲线估计曲线估计应用举例为研究居民家庭教育支出和消费性支出之间的关系收集到1990年至2002年全国人均消费性支出和教育支出的数据曲线估计曲线估计曲线估计曲线估计曲线估计曲线估计教育支出和年人均消费性支出的散点图曲线估计曲线估计应用举例观察散点图发现两变量之间呈非线性关系可尝试选择二次三次曲线复合函数幂函数等模型曲线估计曲线估计曲线估计曲线估计曲线估计曲线估计曲线估计曲线估计曲线估计曲线估计曲线估计应用举例观察散点图发现两变量之间呈非线性关系可尝试选择二次三次曲线复合函数幂函数等模型拟合优度比较曲线估计曲线估计应用举例与实际不符回归系数检验不通过曲线估计曲线估计应用举例曲线估计曲线估计应用举例复合函数和幂函数的拟合优度都很好同时两种模型的回归系数显著性检验也都通过因此可考虑采用这两种模型另外由于复合函数数值增长速度高于幂函数从居民消费未来趋势看教育支出将可能占消费性支出的较大比例并呈快速增长的趋势而且复合函数拟合优度高于幂函数因此可最终考虑采用复合函数曲线估计曲线估计应用举例曲线估计相关分析与回归分析部分最小平方回归PLS 部分最小平方回归PLS PLS是一种预测技术可替代普通最小二乘法 OLS 回归典型相关性或结构化方程建模并且它在预测变量高度相关或预测变量数量超过个案数量时特别有用 PLS融合主成分分析和多重回归功能它首先提取一组充分解释自变量和因变量之间的协方差的潜在因子然后回归步骤使用自变量分解来预测因变量的值可用性 PLS属于扩展命令需要在您计划运行PLS的系统上安装Python扩展模块 PLS扩展模块需要单独安装安装程序下载链接为输出的图形与统计量包括表解释方差比例潜在因子潜在因子权重潜在因子加载图像自变量重要性 VIP 和回归参数估计值因变量全部缺省生成图表前三个潜在因子的图像变量重要性 VIP 因子得分因子权重以及模型距离均从选项选项卡生成部分最小平方回归数据注意事项测量级别因变量和自预测变量可以是刻度名义或有序变量该过程假设相应的测量级别已指定给所有变量该过程以相同的方式处理类别名义或有序变量类别变量编码该过程在其间使用一个c编码临时对类别因变量重新编码如果存在变量的c类别则变量存储为c矢量第一个类别指示为 1 0 0 下一个类别 0 1 0 0 和最后一个类别 0 0 0 1 使用虚拟编码表示类别因变量即仅省略对应于参考类别的指示符频率权重权重值在使用前四舍五入为最接近的整数在分析中不使用缺失权重或权重小于0 5的个案缺失值用户和系统缺失值视为无效重新调整所有模型变量均被居中和标准化包括表示类别变量的指示变量引例汽车行业集团保持对个人的各种机动车辆的销售进行追踪为了能够识别过度和表现不佳的模式想建立一个汽车销售与车辆特征的关系由于车辆的特征是相关的部分最小二乘回归可以很好的替代普通最小二乘回归 car sales sav 该数据文件包含假设销售估计值订价以及各种品牌和型号的车辆的物理规格订价和物理规格可以从和制造商处获得步骤 AnalyzeRegressionPartialLeastSquares选择log transformedsales作为因变量选择车辆类型类型通过燃油效率英里作为自变量点击option 选择保存估计个别的个案数据集名称类型indvCases 选择保存估计潜在因素和数据集的名称类型latentFactors 选择保存估计自变量和数据集的名称类型indepVars 该程序符合部分最小平方回归模型的规模变量lnsales 使用的一个因素和价格等变量的类型通过英里表示 OUTDATASET命令要求分别输出与具体案件潜在因素以及预测被保存到新的数据集indvCases latentFactors和indepVars相关的变量这些选择也将产生潜在的因子得分潜在因子权重潜在因子图像变量重要性 VIP 的因素所有其他选项设置为默认值该解释的方差比例表显示了每个潜在因子模型的贡献第一个因素解释了在自变量中20 9 的方差和在因变量中40 3 的方差第二个因素解释了在自变量中55 0 的方差和在因变量中2 9 的方差第三个因素解释了在自变量中5 3 的方差和在因变量中4 3 的方差合计前三个因素的解释了在自变量中81 3 的方差和在因变量中47 4 的方差虽然第四个因素增加了很少的Y方差解释但它对于X的方差的贡献大于第三个因素并且其调整R平方值高于第三个因素第五个因素对于X方差和Y方差的贡献都最小并且其调整R平方值有轻微下降并没有令人信服的证据可以说明选择第四个因素而不是第五个因素参数表显示为预测因变量的每一个自变量的回归系数的估计而不是模型影响的典型实验寻找图像变量的重要性在哪一个预测量是最有用方面提供指导预测变量重要性代表了每一个猜测值对于模型的贡献及在模型中因素数量的累积贡献例如在一个因素模型中价格对第一因素比重较大有2 088的VIP值当更多的因素加入的时候累积的VIP值慢慢的降到1 946 大概是因为对于这些因素的比重较小相比之下 engin s在单因素模型中有0 512的VIP值而在5个因素模型中上升到0 932 参数系数和VIP值信息也保存到indepVars数据集中以对其进一步分析例如累积变量的重要性图表就是用这些数据建立的累积变量的重要性图表提供了在投影表中变量重要性的可视化对于单因素模型而不是多因素模型的预测贡献的信息参照latentfactors表格的输出权重和荷载类似于重量在这不做讨论这些被保存在lf数据集中并且数据会被进一步利用如权重因素图即是实用这个数据集创建的权重因素图表提供前三个因素两两比较的可视化上图可看到价格马力和类型是汽车与insales出现负的相关因为是在与insales相反的方向长度轴距和英里在一定意义上正相关其他的与insales弱相关因为他们在insales的垂直方向上在因素3和1的比较中油箱容量在因素2与1的比较中是与engine s正相关的而在因素3中是负相关的在由因素3和2所界定的空间中 insales似乎与英里 engine s 油箱容量有更密切的关系说明了多个角度的重要性没有个别案件表格输出但是有一个casewise大量信息写入到indvCases数据集中包括在模型中变量的原始值对于预测的模型预测值对于insales的模型预测值对于预测和insales的残差 X分数 Y分数和X Y距离模型新闻统计仅仅是对于模型的Y距离平方的总和此数据集用于创建Y分数与X分数的比较以及X分数与X分数的比较这个散点图矩阵显示最初几个因素的高相关性图中左上角逐渐扩散到较小的相关性它可以用来确定潜在的离群者以作更进一步的调查对X分数与自身相比较是一个有用的诊断不应有任何的模式集团或离群离群是潜在的事件在上图中有一些针对性的调查模式和集团表示更复杂的模型组别的单独分析可能是必要的 OrdinalRegression序数回归分析定义是根据反应变量水平是否有序来区分的有序多分类的Logistic回归又称之为等级回归分析序数回归的过程在语法中称为PLUM 应用如疗效可以分为无效缓解好转治愈4个等级其中缓解与好转是病人的主观体验难以测量与量化用序数回归就可以分析这样的有序变量 OrdinalRegression序数回归分析有序结果变量回归的适用条件 1 一个因变量它是两个或以上水平的分类变量无论是主观名义变量或客观有序结果变量的分类均可 2 一个或以上的协变量它可以是分类变量或连续型变量患者对药物剂量可能的反应可以分为无轻微适度或剧烈轻微反应和适度反应之间的差别很难或不可能量化并且这种差别是取决于感觉的另外轻微反应和适度反应之间的差别可能比适度反应和剧烈反应之间的差别更大或更小序数回归和线性回归当你试图预测有序反应时一般线性回归模型并不能很好地工作这些方法仅可以衡量结果定变量是在一个区间范围这不是真正的有序结果变量因此回归模型可能无法准确反映数据之间的关系一个有序变量最重要的就是排序因此如果您将两个相邻的类别折叠成一个较大的类别这只是一个很小的变化使用旧的和新的类别建立的模型应十分类似不幸的是线性回归对类别的使用很敏感类别合并前建成的模型和合并后建成的模型有很大不同广义线性模型适合每一类别中的有序变量的单独方程每一个方程给出了在相应类别或者任何较低类别中的预测概率没有建立预测模型而所有的案件都必须在最后一类或较低类别其概率为1 正因为如此对于最后一类预测方程是不需要的序数回归数据注意事项 1 数据假设因变量是序数并且可以是数值或字符串通过对因变量的值进行升序排序来确定排列顺序最低值定义第一个类别假设因变量是分类变量协变量必须为数值请注意使用多个连续协变量很容易使创建的单元概率表非常大 2 假设只允许使用一个因变量并且必须指定该因变量另外对于多个自变量值的各个不同模式假设该因变量是独立的多项变量输出的统计量与图形包括协变量中每个分类变量的观测频数预测频数累计频数频数与累计频数的Pearson残差观察概率与预测概率和累积概率还有参数估计值的渐进相关矩阵与协方差矩阵 Prarson卡方统计量似然比卡方统计量拟合优度统计量迭代历史参数估计值标准误差和Cox SnellR方统计量等序数回归使用总体思路 1 需要确定因变量的序 2 需要决定是否使用预测模型的位置组件 3 需要决定是否使用规模组件如果需要确定哪一个预测值需要使用在许多情况下规模组件是没有必要的只有位置组件的模型也将提供很好的数据总结在保持事情简单同时获利益时通常最好的是只使用位置组件的模型并有证据表明只有位置组件的模型为您的数据不足时才添加一个规模组件 4 需要决定哪些链接功能最适合您的研究问题和数据结构链接功能是累积概率估计的改造模式连接函数表应用举例这里通过序数回归过程来分析债权人如何确定申请者信用风险的问题以下给出各种金融和个人特征从他们顾客的数据库中确定因变量是账目情况共有以下5个有序取值水平没有贷款历史现在没有贷款正在偿还逾期偿还和拖欠贷款分别赋值1 5 请注意事实上此特定顺序可能不是最好的可能结果的顺序您可以轻松地认为一个没有目前的债务或目前正在偿还的已知客户比目前没有可知的信用记录的客户有更好的信贷风险在这个问题上进行更多的讨论见平行线试验选择模型的位置组件预测过程类似于线性回归模型中选择预测的过程理想情况下模型将包括所有重要的预测并且没有其他的在实践中直到建立模型之前往往不知道哪些预测将被证明是重要的在这种情况下通常最好开始的预测包括你认为所有的可能重要的如果发现这些预测有些似乎在模型中没有帮助您可以删除并重新估计模型在这种情况下以之前的经验和一些初步的分析确定以下5种包括年龄贷款期限住房类型贷款数目其他贷款作为可能预测并分别进行初步预测其中年龄及贷款期限是连续的预测作为这个模型的协变量输入选择链接函数依次单击菜单 GraphsChartBuilder 打开图形构建器界面在Choosefrom列表中选择做Histograms 简单直方图并以账目情况作为横轴默认的count 计数作为纵轴作图 Spssviewer输出图形可见第3类正在偿还和第5类拖欠贷款人出现的频率最大并且类别编码越大拖欠贷款的可能性也越大所以建议选择Complementarylog log连接函数此函数更关注编码较大的类别 Ordinal回归的参数设置单击菜单 AnalyzeRegressionOrdinal 执行Ordinal回归分析的功能表列量变因变量因素变量列表协变量列表 Dependent选框用于选入一个有序分类变量 ordinal 作为因变量可以是数值型或字符串型的因变量的取值将自动按照升序排列最小的值指定为第1类Factors列表框用于从变量列表选入分类变量作为自变量Covariates列表框用于从变量列表选入数值型变量作为协变量 1 变量设置 2 选项设置单击Option按钮弹出用于设置关于迭代参数的对话框单击底部的link下拉列表选中Complementarylog log选项单击continue 指定最大迭代次数若指定为0 将只输出初始值指定最大等分值指定关于对数似然比的收敛依据若在逐步回归过程中对数似然比函数的绝对变化值小于此值则迭代终止默认为0 表示不使用此准则指定关于参数的收敛依据若每个参数估计的绝对变化值都小于此值时迭代终止设为0表示不使用此准则指定一个小于1的正数此值将被添入分类变量交叉表的空单元格中有助于稳定算法指定检验奇异值因变量的过高预测值的容许度指定连接函数即对模型估计中的累积概率的转换函数给出了5种连接函数 3 输出设置单击Output按钮弹出用于选择模型的输出选项依次勾选Testofparallellines复选框和Predictedcategory复选框单击continue 输出Pearson卡方和似然比卡方统计量输出Cox Snell卡方 Nagelkerke卡方和McFadden卡方输出参数估计值估计值的标准误差和置信区间检验参数估计在各响应类别中是否相同保存模型的预测相应分类 4 定位模型设置单击Location按钮弹出用于指定定位模型中的各种效应主效应和交叉效应单击continue返回主界面 5 尺度模型设置单击scale按钮弹出下图对话框设置关于尺度模型有关的参数单击continue返回主界面案例的结果分析出现此框的原因是模型中包含了连续变量例如把观测中拥有如下特征的申请者组合为个单元格现在正在偿还贷款在银行中有存款拥有住房没有其他债务 49岁申请12月的贷款由于持续时间和年龄都为连续型变量所以类似这样的单元格多数为空空单元格较多时会影响统计量的计算和有效性所以评价此模型时要慎重使用基于卡方检验的拟合优度统计量案例处理摘要表格给出了分类变量各水平下的案例数和边际百分比以及有效案例和缺失案例的个数统计模型拟合信息表格给出了最终模型和模型中只包含截距项其他参数系数全为0 时的似然比检验结果此处卡方统计量就是前面的两个 2倍对数似然值的差卡方检验的sig值远小于0 01 说明最终模型要优于只含截距的模型即最终模型显著成立拟合优度表格检验的零假设是模型能很好的拟合原始数据由于Pearson统计量和偏差统计量对空单元格都非常敏感而本例中的两个连续变量又导致大量空单元格的出现以至于这两个统计量的检验结果不太可信不建议采纳平行性检验的零假设是位置参数斜率系数在个响应类别中都是相等的因为显著性值远小于0 01 所以否定零假设这可能是由于若干因素包括使用不正确的链接功能或使用了错误的模型在这个例子中至少有两个链接功能 Complementarylog log和Cauchit 可能是适当的有可能使用Cauchit链接功能会提高模型拟合度这也可能是模型拟合是因为选择了因变量的类别排序一个没有债务历史的排序作为更高的信用风险可能更符合该模型可以使用多分类Logistic回归的过程因为它可以让你避免排序问题右数第3列为Wald检验的显著性水平若此值小于0 05 则对应因素的系数估计显著地不为0 对此本例的大多因素都不够显著原因可能时因变量的分类顺序不对或者连接函数选择不理想由于转换函数的存在使得对参数估计值的解释变得困难许多如果一个协变量的参数估计值为正那么对此变量取值越大的观测目标类别的取值也越大反之亦然对于自变量参数估计值越大的取值水平预测目标类别的取值也越大例如 age变量的Wald检验是显著的 Sig 0 01 且参数估计值为正说明年龄越大拖欠贷款的概率也越大贷款期限则对该模型影响较小虽然没有单独一类NUMCRED本身意义重大但有两个边缘显著值得在模型中保留 OTHNSTAL也似乎是一个重要的经验预测的理由有一些其他分期偿还的债务比没有的信用风险会降低另一方面房屋似乎并没有作出有意义的贡献可以考虑去除进一步分析举个例子说明一下如何利用拟和模型进行应用和预测设某申请者的个人信息为申请48个月的贷款 duration 22岁 age 有银行存款 numcred 没有其他贷款 othnstal 拥有住房 housng 下面就利用本节建立的模型来评估他的信誉水平把个人信息数据带入模型预测方程中除了最后一个分类每个分类都有一个方程得到的估计值分别为 2 78 1 95 0 63和0 97 再把这些估计值代入Complementarylog log连接函数的逆函数得出累积概率值0 06 0 13 0 85和0 93 最后个分类的累积概率为1 0 对这几个累积概率求差分得出对每个类别的预测概率第1类0 06 第2类0 13 0 06 0 07 第3类0 85 0 13 0 72 第4类0 93 0 85 0 08 第5类1 0 0 93 0 07 于是推断此申请者最有可能为第3类人正在偿还且归为此类的概率为72 还可以推断这个申请者将继续偿还贷款其账户不会出现危机 Logistic回归分析二维多项引例在许多实际问题中会经常出现因变量是定性变量的情况例如某个人是否购买汽车受到多种如家庭情况收人情况等因素的影响但最终的可能性只有两个要么购买要么不购买把y 1定义为购买 y o则表示不购买再如在是否购买某项商业保险的研究中根据消费者的年龄身体状况收人情况工作性质受教育程度等因变量y也只有两种可能结果要么y 1表示购买要么y o表示不购买可见在现实因变量的结果只取两种可能情况的应用很广泛可用于处理定性因变量的统计分析方法有判别分析 D1scriminantanalysis Probit分析 logistic回归分析和对数线性模型等在社会科学中应用最多的是logistic回归分析逻辑回归分析是对定性变量的回归分析 logistic回归分析根据因变量取值类别不同又可以分为二元 Binarylogistic 回归分析和多项 Multinomianllogistic 回归分析 Binarylogistic回归模型中因变量只能取两个值1和o 虚拟因变量而Multinomianllogistic回归模型中因变量可以取多个值具体地说 logistic回归分析主要解决以下几方面的问题通过分析大量的样本数据确定变量之间的数学关系式对所确定的数学关系式的可信程度进行各种统计检验并区分出对某一特定变量影响较为显著的变量和影响不显著的变量利用所确定的数学关系式根据一个或几个变量的值来预测或控制另一个特定变量的取值并给出这种预测或控制的精确度 Logistic函数的形式为Binarylogistic中通过Logit变换可得关于X 不同自变量的线性关系因此可得模型参数确定后必须进行检验下面解释一些常用的检验统计量 1 2对数似然值 2loglikelihood 2LL 因为 2LL近似服从卡方分布且在数学上更为方便所以一2LL可用于检验Logistic回归的显著性 2LL的计算公式为 2 拟合优度GoodnessofFit统计量 Logistic回归的拟合优度统计量计算公式为 4Nagelkerke的R2 5伪R2 Psedo R square 伪R2与线性回归模型的R2相似其意义相似但它小于1 6Hosmer和Lemeshow的拟合优度检验统计量 7Wald统计量 3cox和snell的R2 二项logistic回归应用在一组独立变量上对二分从属变量进行回归利用前像后向逐步方法或全部进入方法建模用偏差数对比简单比较差分反Helmert Helmert 多项式邻近类别比较用户自定义或指示预示变量选择建模标准变量进入的评分统计量的概率值 Wald概率值或者移除变量的对数似然比统计量保存统计量预测概率和分组残差偏差值 Logit 标准化残差杠杆值类似Cook s的距离差异通过XML导出模型多项logistic回归模型模型如下与二元逻辑回归一样通过变换可得多项logistic回归应用在一组自变量上对多于两种类别的分类因变量进行回归用CRITERIA子命令控制算法调整参数的值包含交互作用项自定义假设检验使用TEST子命令直接把零假设指定为参数的线性组合用SCALE子命令指定离差偏离比例建立包含不包含截距项的方程几率比的置信区间保存统计量预测概率预测响应类别预测响应分类的概率和实际响应分类的概率指定因变量的参照类处理非常大的问题利用逐步方法从众多的可能的预测因子中选择最佳预测因子利用评分和Wald方法使您在大数据集的情况下更迅速地得出研究结果利用AIC或者BIC准则也称为SBC 评估模型拟合度多项logistic回归二项logistic回归二项logistic回归与多项logistic回归的区别以下以二元logistic回归为例讲解logistic回归在spss中的实现实例在一次关于某城乡居民上下班使用交通工具的社会调查中因变量y 1表示居民主要乘坐公共汽车上下班 y 0表示主要骑自行车上下班自变量x1表示被调查者的年龄 x2表示被调查者的月收入 x3表示被调查者的性别 x3 1为男性 x3 0为女性试建立y与自变量之间的logistic回归数据如表所示实现步骤步骤1 把表中数据一一输入SPSS数据编辑窗口在 Analyze 菜单的 Regression 子菜单中选择 BinaryLogistic 命令进行逻辑回归分析步骤2 在弹出的 LogisticRegression 对话框中从左侧的变量列表中选择y变量居民上下班使用交通工具的情况将至添加到 Dependent 框中表示该变量时因变量选择X1变量被调查者的年龄 X2 被调查者的月收入 X3 被调查者的性别使它们分别进入 Independent s 框中表示其为自变量在Method框中选择SPSS默认的 Enter 方法使所选变量全部进入回归方程如图所示步骤3 单击 LogisticRegression 对话框中的 Options 按钮在弹出的 LogisticRegression Options 对话框中按需要选择各选项如图所示 Display 框用来选择输出计算结果的方式 Ateachstep 显示spss每个步骤的计算结果 Atlaststep 只显示最终计算结果 StatisticsandPlots 框中的选项用来选择输出哪些统计量或统计图表具体选项如下 Classificationplots 分类图通过比较因变量的观测值和预测值之间关系反映回归模型的拟合效果 Hosmer Lemeshowgoodness of fit H L拟合优度检验统计量用以检验整个回归模型的拟合优度 Casewiselistingofresiduals 个案残差列表输出标准方差大于某值 Outliersoutside std Dev 的个案或者全部个案 Allcases 的入选状态因变量的观测值和预测值及其相应预测概率残差值 Correlationsofestimates 估计参数的相关性输出模型中各估计参数间的相关矩阵 Iterationhistory 迭代历史输出参数估计迭代过程中的系数及对数似然值 CIforexp B exp B 的N 置信区间选中该选项将会在模型检验的输出结果中列出exp B 各回归系数指数函数值的N 缺省值为95 置信区间如果要改变缺省值可以在空白方框内输入1 99 一般常用的值为90 95 99 之间的任何一个整数 ProbabilityforStepwise 框用来设定步长标准以便逐步控制自变量进入方程或被剔除出方程 Entry 设置变量进入方程的标准值如果变量的分数统计概率小于所设置进入方程的标准值则该变量进入模型 SPSS默认的显著性水平为0 05Removal 设置变量被剔除方程的标准值如果变量的分数统计概率大于所设置被剔除出方程的标准值则将该变量剔除出方程 SPSS默认的显著性水平为0 10 Classificationcutoff选项用以确定个案分类的中止点因变量预测值大于分类中止点的个案设归为正个案一类因变量预测值小于分类中止点的个案设为负个案 SPSS设中止点缺省值为0 5 我们可以通过输入0 01 0 99之间任一数值改变缺省值从而产生新的分类表 MaximumIterations选项用以确定最大对数似然值达到之前的迭代次数最大对数似然值是通过反复迭代计算知道收敛为止而得到的 SPSS中该项的缺省值为20 我们可以重新输入一个新的正整数来改变此项的值步骤四单击 Continue 按钮返回上一个对话框然后单击 OK 按钮即可得到SPSS回归分析的结果 Includeconstantinmodel 选项用以确定所求模型的参数是否要包含常数项为了更好地说明以上各选项的意义本例选择了所有选项但保留各选项中的缺省值结果与讨论总列表SPSS输出结果列表如图第二个表格说明初始的因变量值 0 1 已经转换为逻辑回归分析中常用的0 1数值 SPSS输出结果文件如下 1 第一部分输出结果有两个表格第一个表格说明所有个案 28个都被选入作为回归分析的个案结果与讨论案例处理汇总因变量编码初始值内部值 2 第二部分 Block0 输出结果有4个表格第1个输出表格列出迭代过程其中常数项包括在模型中初始 2LL为38 673 迭代结束于第二步因为此时参数与其在上一步的变化已经小于0 001 第2个分类表说明Step0的拟合效果可以看出对于y 0 有100 的准确性对于y 1 有0 准确性总共有53 6 的准确性此时参数估计的变化表现为对数似然值的变化迭代历史记录分类表下面两个表格给出了模型系数的检验结果其中常数项的系数值为 0 143 其伴随概率为0 706 可见常数项不显著 X1 X2 X3的系数通过了检验即这两个变量显著各回归系数指数函数值 3 OmnibusTestofModelCoefficients表格列出了模型系数的OmnibusTests结果 4 ModelSummary表给出

展开阅读全文

SPSS相关分析与回归分析专题.ppt

最新文档