SPSS相关分析和回归分析.ppt

上传人:w****2 文档编号:16566647 上传时间:2020-10-13 格式:PPT 页数:50 大小:972.50KB
返回 下载 相关 举报
SPSS相关分析和回归分析.ppt_第1页
第1页 / 共50页
SPSS相关分析和回归分析.ppt_第2页
第2页 / 共50页
SPSS相关分析和回归分析.ppt_第3页
第3页 / 共50页
点击查看更多>>
资源描述
SPSS相关分析与回归分析 本章内容 8.1 相关分析和回归分析概述 8.2 相关分析 8.3 偏相关分析 8.4 线性回归分析 8.5 曲线估计 8.1 相关分析和回归分析概述 客观事物之间的关系大致可归纳为两大类,即 函数关系:指两事物之间的一种一一对应的关系,如商品 的销售额和销售量之间的关系。 相关关系(统计关系):指两事物之间的一种非一一对应 的关系,例如家庭收入和支出、子女身高和父母身高之间 的关系等。相关关系又分为线性相关和非线性相关。 相关分析和回归分析都是分析客观事物之间相关关 系的数量分析方法。 双变量关系强度测量的主要指标 定类 定序 定距 定类 卡方类测量 卡方类测量 E t a 系数 定序 S p ea r m a n 相关系数 同序 - 异序 对测量 S p ea r m a n 相 关系数 定距 P ea r s o n 相关 系数 8.2 相关分析 相关分析通过图形和数值两种方式,有效地 揭示事物之间相关关系的强弱程度和形式。 8.2.1 散点图 它将数据以点的的形式画在直角坐标系上, 通过观察散点图能够直观的发现变量间的相关关 系及他们的强弱程度和方向。 示例: corr.sav 8.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需 要完成以下两个步骤: 第一,计算样本相关系数 r; 相关系数 r的取值在 -1 +1之间 R0表示两变量存在正的线性相关关系; r0.8表示两变量有较强的线性关系; |r|0.3表示 两变量之间的线性关系较弱 第二,对样本来自的两总体是否存在显著的线性 关系进行推断。 对不同类型的变量应采用不同的相关系数来度量,常用 的相关系数主要有 Pearson简单相关系数、 Spearman等 级相关系数和 Kendall 相关系数等。 8.2.2.1 Pearson简单相关系数 (适用于 两个变量都是数值 型 的数据) Pearson简单相关系数的检验统计量为: 22 )()( )()( yyxx yyxx ii iir 2 2 1 rnt r 8.2.2.2 Spearman等级相关系数 Spearman等级相关系数 用来度量 定序变量间 的线性 相关关系,设计思想与 Pearson简单相关系数相同, 只是数据为非定距的,故计算时并不直接采用原始数 据 ,而是利用数据的 秩 ,用两变量的秩 代替 代入 Pearson简单相关系数计算公式中 ,于是其中的 和 的取值范围被限制在 1和 n之间 ,且可被简化为: ( , )iixy ( , )iixy ( , )iiUV ix iy 2 22 i2 11 6 1 ( ) ( 1 ) nn i ii ii D r D U V nn ,其中 如果两变量的正相关性较强,它们秩的变化具有同步性,于 是 的值较小, r趋向于 1; 如果两变量的正相关性较弱,它们秩的变化不具有同步性, 于是 的值较大, r趋向于 0; 在小样本下,在零假设成立时, Spearman等级相关系数 服从 Spearman分布;在大样本下, Spearman等级相关 系数的检验统计量为 Z统计量,定义为: Z统计量近似服从标准正态分布。 22i 11 ()nn ii ii D U V 1Z r n 22i 11 ()nn ii ii D U V 8.2.3 计算相关系数的基本操作 相关分析用于描述两个变量间关系的密切程度,其特点是 变量不分主次,被置于同等的地位。 在 Analyze的下拉菜单 Correlate命令项中有三个相关分 析功能子命令 Bivariate过程、 Partial过程、 Distances过程 ,分别对应着 相关分析、偏相关分析和相 似性测度(距离) 的三个 spss过程。 Bivariate过程 用于进行两个或多个变量间的相关分 析,如为多个变量,给出两两相关的分析结果。 Partial过程 ,当进行相关分析的两个变量的取值都受 到其他变量的影响时,就可以利用偏相关分析对其他变量 进行控制,输出控制其他变量影响后的偏相关系数。 Distances过程用于对各样本点之间或各个变量之间 进行相似性分析,一般不单独使用,而作为聚类分析和因 子分析等的预分析。 Bivariate相关分析步骤 ( 1)选择菜单 Analyze Correlate Bivariate, 出现窗口: ( 2)把参加计算相关系数的变量选到 Variables框。 ( 3)在 Correlation Coefficents框中选择计算哪种相关系数 。 ( 4)在 Test of Significance框中选择输出相关系数检验的双 边( Two-Tailed)概率 p值或单边( One-Tailed)概率 p值。 ( 5)选中 Flag significance correlation选项表示分析结果 中除显示统计检验的概率 p值外,还输出星号标记,以标明 变量间的相关性是否显著;不选中则不输出星号标记。 ( 6)在 Option按钮中的 Statistics选项中,选中 Cross- product deviations and covariances表示输出两变量的 离差平方和协方差。 8.2.4 相关分析应用举例 例 1 为研究高等院校人文社会科学研究中立项课题数 会受哪些因素的影响,收集 1999年 31个省市自治区部 分高校有关社科研究方面的数据,研究立项课题数(当年 )与投入的具有高级职称的人年数(当年)、发表的论文 数(上年)之间是否具有较强的线性关系。 对该问题的研究可以采用相关分析的方法,首先可绘 制矩阵散点图;其次可以计算 Pearson简单相关系数。 例 2:学生两科课程的名次排列,要求求其等级相关 系数,检验其显著性 data10-03.sav 高校科研研究 .sav 8.3 偏相关分析 8.3.1 偏相关分析和偏相关系数 上节中的相关系数是研究两变量间线性相关 性的,若还存在其他因素影响,就相关系数本身 来讲,它未必是两变量间线性相关强弱的真实体 现,往往有夸大的趋势。 例如,在研究商品的需求量和价格、消费者 收入之间的线性关系时,需求量和价格之间的相 关关系实际还包含了消费者收入对价格和商品需 求量的影响。在这种情况下,单纯利用相关系数 来评价变量间的相关性显然是不准确的,而需要 在剔除其他相关因素影响的条件下计算变量间的 相关。偏相关的意义就在于此。 偏相关分析也称净相关分析,它在控制其他变量的 线性影响的条件下分析两变量间的线性关系 ,所采 用的工具是偏相关系数。 控制变量个数为 1时,偏相关系数称 一阶偏相关 ; 当控制两个变量时,偏相关系数称为 二阶偏相关 ; 当控制变量的个数为 0时,偏相关系数称为 零阶偏 相关 ,也就是简单相关系数。 利用偏相关系数进行分析的步骤 第一,计算样本的偏相关系数 假设有三个变量 y、 x1和 x2,在分析 x1和 y之间的净 相关时,当控制了 x2的线性作用后, x1和 y之间的一阶偏 相关定义为: 偏相关系数的取值范围及大小含义与相关系数相同。 1 2 1 2 1 , 2 22 2 1 2 1 2 1 2 2 12 ( 1 ) ( 1 ) y y x xx yy y y yy r r r r rr r r r 1其中, 、 、 分别表示 和x 的相关系数、 和 的相关系数、 和 的相关系数。 第二,对样本来自的两总体是否存在显著的净相关进 行推断 检验统计量为: 其中, r为偏相关系数, n为样本数, q为阶数。 T统计量服从 n-q-2个自由度的 t分布。 2 2 1 nqtr r 8.3.2 偏相关分析的基本操作 1.选择菜单 Analyze Correlate Partial 2.把参与分析的变量选择到 Variables框中。 3.选择一个或多个控制变量到 Controlling for框 中。 4.在 Test of Significance框中选择输出偏相关 检验的双尾概率 p值或单尾概率 p值。 5.在 Option按钮中的 Statistics选项中,选中 Zero-order Correlations表示输出 零阶偏相 关系数 。 至此, SPSS将自动进行偏相关分析和统计 检验,并将结果显示到输出窗口。 8.3.3 偏相关分析的应用举例 上节中研究高校立项课题总数影响因素的相关分 析中发现,发现立项课题数与论文数之间有较强正 线性相关关系,但应看到这种关系中可能掺入了投 入高级职称的人年数的影响,因此,为研究立项课 题总数和发表论文数之间的净相关系数,可以将投 入高级职称的人年数加以控制,进行偏相关分析。 高校科研研究 .sav 回归分析概述 (一 )回归分析理解 (1)“回归”的含义 galton研究研究父亲身高和儿子身高的关系时的独特发 现 . (2)回归线的获得方式一 :局部平均 回归曲线上的点给出了相应于每一个 x(父亲 )值的 y(儿 子 )平均数的估计 (3)回归线的获得方式二 :拟和函数 使数据拟和于某条曲线 ; 通过若干参数描述该曲线 ; 利用已知数据在一定的统计准则下找出参数的估计值 (得 到回归曲线的近似 ); 8.4 线性回归分析 回归分析概述 (二 )回归分析的基本步骤 (1)确定自变量和因变量 (父亲身高关于儿子身高的 回归与儿子身高关于父亲身高的回归是不同的 ). (2)从样本数据出发确定变量之间的数学关系式 ,并 对回归方程的各个参数进行估计 . (3)对回归方程进行各种统计检验 . (4)利用回归方程进行预测 . 线性回归分析概述 (三 )参数估计的准则 目标 :回归线上的观察值与预测值之间的距离总 和达到最小 最小二乘法 (利用最小二乘法拟和的回归直线与 样本数据点在垂直方向上的偏离程度最低 ) 一元线性回归分析 (一 )一元回归方程 : y=0+1x 0为常数项; 1为 y对 x回归系数,即 :x每 变动一个单位所引起的 y的平均变动 (二 )一元回归分析的步骤 利用样本数据建立回归方程 回归方程的拟和优度检验 回归方程的显著性检验 (t检验和 F检验 ) 残差分析 预测 一元线性回归方程的检验 (一 )拟和优度检验 : (1)目的 : 检验样本观察点聚集在回归直线周围的密集程度, 评价回归方程对样本数据点的拟和程度。 (2)思路 : 因为 : 因变量取值的变化受两个因素的影响 自变量不同取值的影响 其他因素的影响 于是 : 因变量总变差 =自变量引起的 +其他因素引起的 即 : 因变量总变差 =回归方程可解释的 +不可解释的 可证明 :因变量总离差平方和 =回归平方和 +剩余平方 和 一元线性回归方程的检验 (一 )拟和优度检验 : (3)统计量:判定系数 R2=SSR/SST=1-SSE/SST. R2体现了回归方程所能解释的因变量变差的比例 ;1-R2 则体现了因变量总变差中,回归方程所无法解释的比例 。 R2越接近于 1,则说明回归平方和占了因变量总变差平 方和的绝大部分比例,因变量的变差主要由自变量的不 同取值造成,回归方程对样本数据点拟合得好 在一元回归中 R2=r2; 因此,从这个意义上讲,判定系数 能够比较好地反映回归直线对样本数据的代表程度和线 性相关性。 n i i n i i n i i n i i yy yy yy yy R 1 2 1 2 1 2 1 2 2 )( )( 1 )( )( 一元线性回归方程的检验 (二 )回归方程的显著性检验: F检验 (1)目的 :检验自变量与因变量之间的线性关系是否显著 ,是否可用线性模型来 表示 . (2)H0: =0 即 :回归系数与 0无显著差异 (3)利用 F检验 ,构造 F统计量 : F=平均的回归平方和 /平均的剩余平方和 F(1,n-1-1) 如果 F值较大,则说明自变量造成的因变量的线性变动远大于随机因素 对因变量的影响 ,自变量于因变量之间的线性关系较显著 (4)计算 F统计量的值和 相伴概率 p (5)判断 pregression- linear (2)选择一个变量为因变量进入 dependent框 (3)选择一个变量为自变量进入 independent框 (4)enter:所选变量全部进入回归方程 (默认方法 ) (5)对样本进行筛选 (selection variable) 利用满足一定条件的样本数据进行回归分析 (6)指定作图时各数据点的标志变量 (case labels) 一元线性回归分析操作 (二 ) statistics选项 (1)基本统计量输出 Estimates:默认 .显示回归系数相关统计量 . confidence intervals:每个非标准化的回归系数 95%的置信区间 . Descriptive:各变量均值、标准差和相关系数单侧检验概率 . Model fit:默认 .判定系数、估计标准误差、方差分析表、容忍度 (2)Residual框中的残差分析 Durbin-waston:D-W值 casewise diagnostic:异常值 (奇异值 )检测 (输出预测值及残差和标准 化残差 ) 一元线性回归分析操作 (三 )plot选项 :图形分析 . Standardize residual plots:绘制残差序列直方图和累计 概率图 ,检测残差的正态性 绘制指定序列的散点图 ,检测残差的随机性、异方差性 ZPRED:标准化预测值 ZRESID:标准 化残差 SRESID:学生 化残差 produce all partial plot:绘制因变量和所有自变量之间的 散点图 线性回归方程的残差分析 (一 )残差序列的正态性检验 : 绘制标准化残差的直方图或累计概率图 (二 )残差序列的随机性检验 绘制残差和预测值的散点图 ,应随机分布在经过零的一条直线上下 线性回归方程的残差分析 (三 )残差序列独立性检验 : 残差序列是否存在后期值与前期值相关的现象 ,利用 D.W(Durbin-Watson)检验 d-w=0:残差 序列存在完全正自相关 ;d-w=4:残差 序列 存在完全负自相关 ;0d-w2:残差 序列存在某种程度 的正自相关 ;2d-w4:残差 序列存在某种程度的负自 相关 ;d-w=2:残差 序列不存在自相关 . 残差序列不存在自相关 ,可以认为回归方程基本概括 了因变量的变化 ;否则 ,认为可能一些与因变量相关的 因素没有引入回归方程或回归模型不合适或滞后性周 期性的影响 . 线性回归方程的预测 (一 )点估计 y0 (二 )区间估计 x0为 xi的 均值时 ,预 测区间最小 ,精度最 高 .x0越 远离均值 ,预 测区间越大 ,精度越 低 . 普通职工数 (x ) 1 8 0 01 6 0 01 4 0 01 2 0 01 0 0 0800600400200 领导 ( 管理 ) 人数 (y) 300 200 100 0 回 归 分 析 检 验 策 略 例 萨尔金德 爱上统计学 P176 Chapter 15 Data Set 1.sav 8.4.5 应用举例 例 以高校科研研究数据为例,建立回归方程研究 1、课题总数受论文数的影响 2、以课题总数为被解释变量,解释变量为投入人年数( X2 )、受投入高级职称的人年数( X3)、投入科研事业费( X4 )、专著数( X6)、论文数( X7)、获奖数( X8)。 ( 1)解释变量采用强制进入策略( Enter),并做多重共线 性检测。 ( 2)解释变量采用向后筛选策略让 SPSS自动完成解释变量 的选择。 ( 3)解释变量采用逐步筛选策略让 SPSS自动完成解释变量 的选择。 8.5 曲线估计 8.5.1 曲线估计概述 变量间的相关关系中,并不总是表现出线性 关系,非线性关系也是极为常见的。变量之间的 非线性关系可以划分为本质线性关系和本质非线 性关系。本质线性关系是指变量关系形式上虽然 呈非线性关系,但可通过变量变换为线性关系, 并最终可通过线性回归分析建立线性模型。本质 非线性关系是指变量关系不仅形式上呈非线性关 系,而且也无法变换为线性关系。本节的曲线估 计是解决本质线性关系问题的。 常见的本质线性模型有: 1、 二次曲线( Quadratic), 方程为 ,变量变换后的方程为 2、 复合曲线( Compound), 方程为 ,变量变换后的方程为 3、 增长曲线( Growth), 方程为 ,变量变换后的方程为 20 1 2y x x 20 1 2 1 1()y x x x x 01xy 01l n ( ) l n ( ) l n ( )yx 01xye 01l n ( )yx 4、 对数曲线( Logarithmic), 方程为 ,变量变换后的线性方程 为 5、 三次曲线( Cubic), 方程为 ,变量变换后的方程为 6、 S曲线( S), 方程为 ,变量变 换后的方程为 7、 指数曲线( Exponential), 方程为 ,变量变换后的线性方程为 01 l n ( )yx 0 1 1yx 230 1 2 3y x x x 0 1 2 1 3 2y x x x 01 / xye 0 1 1l n ( )yx 10 xye 01l n ( ) l n ( )yx 8、 逆函数( Inverse), 方程为 变量变换后的方程为 9、 幂函数( Power), 方程为 变量变换后的方程为 10、 逻辑函数( Logistic), 方程为 变量变换后的线性方程为 01 /yx 0 1 1yx 10 ()yx 01l n ( ) l n ( ) l n ( )yx 01 1 1/ x y 01 11l n ( ) l n ( l n ( ) )x y SPSS曲线估计中,首先,在不能明确究竟 哪种模型更接近样本数据时,可在多种可选择的 模型中选择几种模型;然后 SPSS自动完成模型 的参数估计,并输出回归方程显著性检验的 F值 和概率 p值、判定系数 R2等统计量;最后,以判 定系数为主要依据选择其中的最优模型,并进行 预测分析等。另外, SPSS曲线估计还可以以时 间为解释变量实现时间序列的简单回归分析和趋 势外推分析。 8.5.2 曲线估计的基本操作 可通过绘制并观察样本数据的散点图粗略确 定被解释变量和解释变量之间的相关关系,为曲 线拟合中的模型选择提供依据。 SPSS曲线估计 的基本操作步骤是: ( 1)选择菜单 Analyze Regression Curve Estimation,出现窗口如下页所示。 ( 2)把被解释变量选到 Dependent框中。 ( 3)曲线估计中的解释变量可以是相关因素变量也可是时 间变量。如果解释变量为相关因素变量,则选择 Variable 选项,并把一个解释变量指定到 Independent框;如果 选择 Time参数则表示解释变量为时间变量。 ( 4)在 Models中选择几种模型。 ( 5)选择 Plot Models选项绘制回归线;选择 Display ANOVA table输出各个模型的方差分析表和各回归系数 显著性检验结果。 至此,完成了曲线估计的操作, SPSS将根据选择 的模型自动进行曲线估计,并将结果显示到输出窗口中。 8.5.3 应用举例 Sike.sav Save Variables框中: Predicted values表示保存 预测值; Residual表示保存残差; Prediction interval表示保存预测值默认 95置信区间的上限和下 限值。 Predict cases框中:只有当解释变量为时间时才可选 该框中的选项。 Predict from estimation period through last case表示计算当前所有样本期内的预测 值; Predict through表示计算指定样本期内的预测值 ,指定样本期在 Observation框后输入。 本例希望预测 2003年和 2004年的值,应在 Observation框后输入 27。 Thank you
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!