SPSS相关分析和回归分析.ppt

资源描述

SPSS相关分析与回归分析本章内容 8.1 相关分析和回归分析概述 8.2 相关分析 8.3 偏相关分析 8.4 线性回归分析 8.5 曲线估计 8.1 相关分析和回归分析概述客观事物之间的关系大致可归纳为两大类，即函数关系：指两事物之间的一种一一对应的关系，如商品的销售额和销售量之间的关系。相关关系（统计关系）：指两事物之间的一种非一一对应的关系，例如家庭收入和支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。双变量关系强度测量的主要指标定类定序定距定类卡方类测量卡方类测量 E t a 系数定序 S p ea r m a n 相关系数同序 - 异序对测量 S p ea r m a n 相关系数定距 P ea r s o n 相关系数 8.2 相关分析相关分析通过图形和数值两种方式，有效地揭示事物之间相关关系的强弱程度和形式。 8.2.1 散点图它将数据以点的的形式画在直角坐标系上，通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。示例： corr.sav 8.2.2 相关系数利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤：第一，计算样本相关系数 r；相关系数 r的取值在 -1 +1之间 R0表示两变量存在正的线性相关关系； r0.8表示两变量有较强的线性关系； |r|0.3表示两变量之间的线性关系较弱第二，对样本来自的两总体是否存在显著的线性关系进行推断。对不同类型的变量应采用不同的相关系数来度量，常用的相关系数主要有 Pearson简单相关系数、 Spearman等级相关系数和 Kendall 相关系数等。 8.2.2.1 Pearson简单相关系数（适用于两个变量都是数值型的数据） Pearson简单相关系数的检验统计量为： 22 )()( )()( yyxx yyxx ii iir 2 2 1 rnt r 8.2.2.2 Spearman等级相关系数 Spearman等级相关系数用来度量定序变量间的线性相关关系，设计思想与 Pearson简单相关系数相同，只是数据为非定距的，故计算时并不直接采用原始数据，而是利用数据的秩，用两变量的秩代替代入 Pearson简单相关系数计算公式中，于是其中的和的取值范围被限制在 1和 n之间，且可被简化为： ( , )iixy ( , )iixy ( , )iiUV ix iy 2 22 i2 11 6 1 ( ) ( 1 ) nn i ii ii D r D U V nn ，其中如果两变量的正相关性较强，它们秩的变化具有同步性，于是的值较小， r趋向于 1；如果两变量的正相关性较弱，它们秩的变化不具有同步性，于是的值较大， r趋向于 0；在小样本下，在零假设成立时， Spearman等级相关系数服从 Spearman分布；在大样本下， Spearman等级相关系数的检验统计量为 Z统计量，定义为： Z统计量近似服从标准正态分布。 22i 11 ()nn ii ii D U V 1Z r n 22i 11 ()nn ii ii D U V 8.2.3 计算相关系数的基本操作相关分析用于描述两个变量间关系的密切程度，其特点是变量不分主次，被置于同等的地位。在 Analyze的下拉菜单 Correlate命令项中有三个相关分析功能子命令 Bivariate过程、 Partial过程、 Distances过程，分别对应着相关分析、偏相关分析和相似性测度（距离）的三个 spss过程。 Bivariate过程用于进行两个或多个变量间的相关分析，如为多个变量，给出两两相关的分析结果。 Partial过程，当进行相关分析的两个变量的取值都受到其他变量的影响时，就可以利用偏相关分析对其他变量进行控制，输出控制其他变量影响后的偏相关系数。 Distances过程用于对各样本点之间或各个变量之间进行相似性分析，一般不单独使用，而作为聚类分析和因子分析等的预分析。 Bivariate相关分析步骤（ 1）选择菜单 Analyze Correlate Bivariate，出现窗口：（ 2）把参加计算相关系数的变量选到 Variables框。（ 3）在 Correlation Coefficents框中选择计算哪种相关系数。（ 4）在 Test of Significance框中选择输出相关系数检验的双边（ Two-Tailed）概率 p值或单边（ One-Tailed）概率 p值。（ 5）选中 Flag significance correlation选项表示分析结果中除显示统计检验的概率 p值外，还输出星号标记，以标明变量间的相关性是否显著；不选中则不输出星号标记。（ 6）在 Option按钮中的 Statistics选项中，选中 Cross- product deviations and covariances表示输出两变量的离差平方和协方差。 8.2.4 相关分析应用举例例 1 为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响，收集 1999年 31个省市自治区部分高校有关社科研究方面的数据，研究立项课题数（当年）与投入的具有高级职称的人年数（当年）、发表的论文数（上年）之间是否具有较强的线性关系。对该问题的研究可以采用相关分析的方法，首先可绘制矩阵散点图；其次可以计算 Pearson简单相关系数。例 2：学生两科课程的名次排列，要求求其等级相关系数，检验其显著性 data10-03.sav 高校科研研究 .sav 8.3 偏相关分析 8.3.1 偏相关分析和偏相关系数上节中的相关系数是研究两变量间线性相关性的，若还存在其他因素影响，就相关系数本身来讲，它未必是两变量间线性相关强弱的真实体现，往往有夸大的趋势。例如，在研究商品的需求量和价格、消费者收入之间的线性关系时，需求量和价格之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。在这种情况下，单纯利用相关系数来评价变量间的相关性显然是不准确的，而需要在剔除其他相关因素影响的条件下计算变量间的相关。偏相关的意义就在于此。偏相关分析也称净相关分析，它在控制其他变量的线性影响的条件下分析两变量间的线性关系，所采用的工具是偏相关系数。控制变量个数为 1时，偏相关系数称一阶偏相关；当控制两个变量时，偏相关系数称为二阶偏相关；当控制变量的个数为 0时，偏相关系数称为零阶偏相关，也就是简单相关系数。利用偏相关系数进行分析的步骤第一，计算样本的偏相关系数假设有三个变量 y、 x1和 x2，在分析 x1和 y之间的净相关时，当控制了 x2的线性作用后， x1和 y之间的一阶偏相关定义为：偏相关系数的取值范围及大小含义与相关系数相同。 1 2 1 2 1 , 2 22 2 1 2 1 2 1 2 2 12 ( 1 ) ( 1 ) y y x xx yy y y yy r r r r rr r r r 1其中，、、分别表示和x 的相关系数、和的相关系数、和的相关系数。第二，对样本来自的两总体是否存在显著的净相关进行推断检验统计量为：其中， r为偏相关系数， n为样本数， q为阶数。 T统计量服从 n-q-2个自由度的 t分布。 2 2 1 nqtr r 8.3.2 偏相关分析的基本操作 1.选择菜单 Analyze Correlate Partial 2.把参与分析的变量选择到 Variables框中。 3.选择一个或多个控制变量到 Controlling for框中。 4.在 Test of Significance框中选择输出偏相关检验的双尾概率 p值或单尾概率 p值。 5.在 Option按钮中的 Statistics选项中，选中 Zero-order Correlations表示输出零阶偏相关系数。至此， SPSS将自动进行偏相关分析和统计检验，并将结果显示到输出窗口。 8.3.3 偏相关分析的应用举例上节中研究高校立项课题总数影响因素的相关分析中发现，发现立项课题数与论文数之间有较强正线性相关关系，但应看到这种关系中可能掺入了投入高级职称的人年数的影响，因此，为研究立项课题总数和发表论文数之间的净相关系数，可以将投入高级职称的人年数加以控制，进行偏相关分析。高校科研研究 .sav 回归分析概述 (一 )回归分析理解 (1)“回归”的含义 galton研究研究父亲身高和儿子身高的关系时的独特发现 . (2)回归线的获得方式一 :局部平均回归曲线上的点给出了相应于每一个 x(父亲 )值的 y(儿子 )平均数的估计 (3)回归线的获得方式二 :拟和函数使数据拟和于某条曲线 ; 通过若干参数描述该曲线 ; 利用已知数据在一定的统计准则下找出参数的估计值 (得到回归曲线的近似 ); 8.4 线性回归分析回归分析概述 (二 )回归分析的基本步骤 (1)确定自变量和因变量 (父亲身高关于儿子身高的回归与儿子身高关于父亲身高的回归是不同的 ). (2)从样本数据出发确定变量之间的数学关系式 ,并对回归方程的各个参数进行估计 . (3)对回归方程进行各种统计检验 . (4)利用回归方程进行预测 . 线性回归分析概述 (三 )参数估计的准则目标 :回归线上的观察值与预测值之间的距离总和达到最小最小二乘法 (利用最小二乘法拟和的回归直线与样本数据点在垂直方向上的偏离程度最低 ) 一元线性回归分析 (一 )一元回归方程 : y=0+1x 0为常数项； 1为 y对 x回归系数，即 :x每变动一个单位所引起的 y的平均变动 (二 )一元回归分析的步骤利用样本数据建立回归方程回归方程的拟和优度检验回归方程的显著性检验 (t检验和 F检验 ) 残差分析预测一元线性回归方程的检验 (一 )拟和优度检验 : (1)目的 : 检验样本观察点聚集在回归直线周围的密集程度，评价回归方程对样本数据点的拟和程度。 (2)思路 : 因为 : 因变量取值的变化受两个因素的影响自变量不同取值的影响其他因素的影响于是 : 因变量总变差 =自变量引起的 +其他因素引起的即 : 因变量总变差 =回归方程可解释的 +不可解释的可证明 :因变量总离差平方和 =回归平方和 +剩余平方和一元线性回归方程的检验 (一 )拟和优度检验 : (3)统计量：判定系数 R2=SSR/SST=1-SSE/SST. R2体现了回归方程所能解释的因变量变差的比例 ;1-R2 则体现了因变量总变差中，回归方程所无法解释的比例。 R2越接近于 1，则说明回归平方和占了因变量总变差平方和的绝大部分比例，因变量的变差主要由自变量的不同取值造成，回归方程对样本数据点拟合得好在一元回归中 R2=r2; 因此，从这个意义上讲，判定系数能够比较好地反映回归直线对样本数据的代表程度和线性相关性。 n i i n i i n i i n i i yy yy yy yy R 1 2 1 2 1 2 1 2 2 )( )( 1 )( )( 一元线性回归方程的检验 (二 )回归方程的显著性检验： F检验 (1)目的 :检验自变量与因变量之间的线性关系是否显著 ,是否可用线性模型来表示 . (2)H0: =0 即 :回归系数与 0无显著差异 (3)利用 F检验 ,构造 F统计量 : F=平均的回归平方和 /平均的剩余平方和 F(1,n-1-1) 如果 F值较大，则说明自变量造成的因变量的线性变动远大于随机因素对因变量的影响 ,自变量于因变量之间的线性关系较显著 (4)计算 F统计量的值和相伴概率 p (5)判断 pregression- linear (2)选择一个变量为因变量进入 dependent框 (3)选择一个变量为自变量进入 independent框 (4)enter:所选变量全部进入回归方程 (默认方法 ) (5)对样本进行筛选 (selection variable) 利用满足一定条件的样本数据进行回归分析 (6)指定作图时各数据点的标志变量 (case labels) 一元线性回归分析操作 (二 ) statistics选项 (1)基本统计量输出 Estimates:默认 .显示回归系数相关统计量 . confidence intervals:每个非标准化的回归系数 95%的置信区间 . Descriptive:各变量均值、标准差和相关系数单侧检验概率 . Model fit:默认 .判定系数、估计标准误差、方差分析表、容忍度 (2)Residual框中的残差分析 Durbin-waston:D-W值 casewise diagnostic:异常值 (奇异值 )检测 (输出预测值及残差和标准化残差 ) 一元线性回归分析操作 (三 )plot选项 :图形分析 . Standardize residual plots:绘制残差序列直方图和累计概率图 ,检测残差的正态性绘制指定序列的散点图 ,检测残差的随机性、异方差性 ZPRED:标准化预测值 ZRESID:标准化残差 SRESID:学生化残差 produce all partial plot:绘制因变量和所有自变量之间的散点图线性回归方程的残差分析 (一 )残差序列的正态性检验 : 绘制标准化残差的直方图或累计概率图 (二 )残差序列的随机性检验绘制残差和预测值的散点图 ,应随机分布在经过零的一条直线上下线性回归方程的残差分析 (三 )残差序列独立性检验 : 残差序列是否存在后期值与前期值相关的现象 ,利用 D.W(Durbin-Watson)检验 d-w=0:残差序列存在完全正自相关 ;d-w=4:残差序列存在完全负自相关 ;0d-w2:残差序列存在某种程度的正自相关 ;2d-w4:残差序列存在某种程度的负自相关 ;d-w=2:残差序列不存在自相关 . 残差序列不存在自相关 ,可以认为回归方程基本概括了因变量的变化 ;否则 ,认为可能一些与因变量相关的因素没有引入回归方程或回归模型不合适或滞后性周期性的影响 . 线性回归方程的预测 (一 )点估计 y0 (二 )区间估计 x0为 xi的均值时 ,预测区间最小 ,精度最高 .x0越远离均值 ,预测区间越大 ,精度越低 . 普通职工数 (x ) 1 8 0 01 6 0 01 4 0 01 2 0 01 0 0 0800600400200 领导 ( 管理 ) 人数 (y) 300 200 100 0 回归分析检验策略例萨尔金德爱上统计学 P176 Chapter 15 Data Set 1.sav 8.4.5 应用举例例以高校科研研究数据为例，建立回归方程研究 1、课题总数受论文数的影响 2、以课题总数为被解释变量，解释变量为投入人年数（ X2 ）、受投入高级职称的人年数（ X3）、投入科研事业费（ X4 ）、专著数（ X6）、论文数（ X7）、获奖数（ X8）。（ 1）解释变量采用强制进入策略（ Enter），并做多重共线性检测。（ 2）解释变量采用向后筛选策略让 SPSS自动完成解释变量的选择。（ 3）解释变量采用逐步筛选策略让 SPSS自动完成解释变量的选择。 8.5 曲线估计 8.5.1 曲线估计概述变量间的相关关系中，并不总是表现出线性关系，非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系，但可通过变量变换为线性关系，并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系，而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。常见的本质线性模型有： 1、二次曲线（ Quadratic），方程为，变量变换后的方程为 2、复合曲线（ Compound），方程为，变量变换后的方程为 3、增长曲线（ Growth），方程为，变量变换后的方程为 20 1 2y x x 20 1 2 1 1()y x x x x 01xy 01l n ( ) l n ( ) l n ( )yx 01xye 01l n ( )yx 4、对数曲线（ Logarithmic），方程为，变量变换后的线性方程为 5、三次曲线（ Cubic），方程为，变量变换后的方程为 6、 S曲线（ S），方程为，变量变换后的方程为 7、指数曲线（ Exponential），方程为，变量变换后的线性方程为 01 l n ( )yx 0 1 1yx 230 1 2 3y x x x 0 1 2 1 3 2y x x x 01 / xye 0 1 1l n ( )yx 10 xye 01l n ( ) l n ( )yx 8、逆函数（ Inverse），方程为变量变换后的方程为 9、幂函数（ Power），方程为变量变换后的方程为 10、逻辑函数（ Logistic），方程为变量变换后的线性方程为 01 /yx 0 1 1yx 10 ()yx 01l n ( ) l n ( ) l n ( )yx 01 1 1/ x y 01 11l n ( ) l n ( l n ( ) )x y SPSS曲线估计中，首先，在不能明确究竟哪种模型更接近样本数据时，可在多种可选择的模型中选择几种模型；然后 SPSS自动完成模型的参数估计，并输出回归方程显著性检验的 F值和概率 p值、判定系数 R2等统计量；最后，以判定系数为主要依据选择其中的最优模型，并进行预测分析等。另外， SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。 8.5.2 曲线估计的基本操作可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系，为曲线拟合中的模型选择提供依据。 SPSS曲线估计的基本操作步骤是：（ 1）选择菜单 Analyze Regression Curve Estimation，出现窗口如下页所示。（ 2）把被解释变量选到 Dependent框中。（ 3）曲线估计中的解释变量可以是相关因素变量也可是时间变量。如果解释变量为相关因素变量，则选择 Variable 选项，并把一个解释变量指定到 Independent框；如果选择 Time参数则表示解释变量为时间变量。（ 4）在 Models中选择几种模型。（ 5）选择 Plot Models选项绘制回归线；选择 Display ANOVA table输出各个模型的方差分析表和各回归系数显著性检验结果。至此，完成了曲线估计的操作， SPSS将根据选择的模型自动进行曲线估计，并将结果显示到输出窗口中。 8.5.3 应用举例 Sike.sav Save Variables框中： Predicted values表示保存预测值； Residual表示保存残差； Prediction interval表示保存预测值默认 95置信区间的上限和下限值。 Predict cases框中：只有当解释变量为时间时才可选该框中的选项。 Predict from estimation period through last case表示计算当前所有样本期内的预测值； Predict through表示计算指定样本期内的预测值，指定样本期在 Observation框后输入。本例希望预测 2003年和 2004年的值，应在 Observation框后输入 27。 Thank you

展开阅读全文

SPSS相关分析和回归分析.ppt

最新文档