资源描述
*,SPSS,第三章 相关分析与回归分析,3.1,相关分析,3.2,回归分析,3.1,相关分析,相关分析,是研究变量间密切程度的统计方法,线性相关分析研究的是两变量间线性关系的程度,用相关系数表示;,SPSS,提供的相关分析功能有,(,Analyze Correlate,),:,二元变量相关分析,(,Bivariate,),、,偏相关分析,(Partial),和,距离相关分析,(Distance),。,二元变量相关分析,例,3.1a,默认选项进行简单相关分析,已知三十名学生的身高与体重数据,试分析学生身高与体重的相关程度,(,数据集,2),。,二元变量相关分析,通过,Bivariate,命令项调用,Correlations,过程,和,Nonpar,Corr,过程来实现,可以按指定项显示变量的描述统计量,选择计算指定两变量间的相关系数,同时对相关系数进行检验等。,Bivariate,Correlations,对话框,适用于正态分布等间隔测度的变量,用于计算分类变量的秩相关,考虑结点的影响,用于计算分类变量的秩相关,相关系数,显著性检验,标识有显著意义的相关系数,单尾检验,双尾检验,分析变量,输出变量的均值和标准差,输出两变量的积差和与协方差,成对剔除带有缺失值的观测量,剔除所有带有缺失值的观测量,Bivariate,Correlations,对话框,输出结果:,(,选项均为系统默认,),由于身高与体重的相关系数为,0.780,,,P,值为,0.000,,说明学生的身高与体重具有高度相关关系。,例,3.1b,生成矩形相关矩阵的简单相关例题,P296,分析,salbegin,(起始工资)、,salary,(现在工资)与雇员各方面条件的关系,(data10-02),。,例,3.1c,秩相关实例,P298,分析雇员的,jobcat,(职务等级)、,educ,(受教育年限)与,salbegin,(起始工资)、,salary,(现在工资)的关系,(data10-02),。,例,3.1d,两个等级变量相关间秩相关实例,P298,分析运动员的长拳得分,Score1,和长兵器得分,score2,是否存在线性关系,(data10-03),。,偏相关分析,例,3.1e,已知三十名学生的身高与体重数据,以年龄为控制变量,试分析学生身高与体重的偏相关关系,(,数据集,2),。,偏相关分析,通过,Partial,命令项调用,Partial,Corr,过程来实现,用于计算在控制了其他变量影响的情况下,两个变量间的线性相关关系,用偏相关系数表示。,Partial Correlations,对话框,分析变量,控制变量,显著性检验,显示实际的显著性水平,Partial Correlations,对话框,均值及标准差,零阶相关矩阵,(,即:,Pearson,相关矩阵,),输出结果:,(,选项均为系统默认,),例,3.1f,偏相关分析实例,P307,使用四川绵阳地区,3,年生中山柏的数据,分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度这,4,个气候因素哪个因素有关,(,数据集,data10-04),。,距离分析,例,3.1g,观察量间的相似性分析实例,P314,已知四川绵阳地区,3,年生中山柏的数据,试分析不同月份间生长量之间的距离以便分析各月份生长量间的相似或不相似性,(,数据集,data10-03),。,距离分析,是对观测量之间或变量之间相似或不相似程度的一种测度,是计算一对变量之间或一对观测量之间的广义距离。通过,Distance,命令项调用,Distance,过程来实现。,Distance,对话框,指定分析变量,指定标识变量,计算距离,测度类型,计算每对观察量间的距离,计算每对变量间的距离,计算不相似性矩阵,计算相似性矩阵,指定计算方法,默认计算方法,Distance,:,Dissimilary,Measurs,对话框,等间隔变量,计数变量,二值变量,转换数值栏,标准化,对变量标准化,对观察量标准化,转换测度栏,对距离取绝对值,对距离改变符号,先减去最小值,然后除以范围使距离标准化,输出结果:,(,选项均为系统默认,),指定计算方法,默认计算方法,Distance,:,Similarity,Measurs,对话框,等间隔变量,二值变量,转换数值栏,标准化,对变量标准化,对观察量标准化,转换测度栏,对距离取绝对值,对距离改变符号,先减去最小值,然后除以范围使距离标准化,例,3.1g,变量间的相似性分析实例,P316,已知四川绵阳地区,3,年生中山柏的数据,试分析不同月份间生长量之间的距离以便分析各月份生长量间的相似或不相似性,(,数据集,data10-03),。,变量间的,Dissimilary,Measurs,标准化后的欧氏距离,变量间的,Similarity,Measurs,相关分析结果,第三章 相关分析与回归分析,3.1,相关分析,3.2,回归分析,回归分析,研究的是自变量与因变量之间的非确定性的因果关系;,SPSS,提供的回归分析过程有:,线性回归,(Linear),、,曲线估计,(Curve Estimation),、,二分变量逻辑回归,(Binary Logistic),、,多分变量逻辑回归,(Multinomial Logistic),、,序回归,(Ordinal),、,概率单位回归,(,Probit,),、非,线性回归,(Nonlinear),、,加权估计,(Weight Estimation),、,最优编码回归,(optimal Scaling),和二阶段最小平方法,(2-Stage Least Squares),。,3.2,回归分析,线性回归分析,例,3.2a,根据,数据集,data11-13,中的资料,试建立以初始工资,(,salbegin,),、,工作经验,(,prevexp,),、,工作时间,(,jobtime,),、,工作种类,(,jobcat,),和受教育年限,(,educ,),为自变量,以当前工资,(salary),为因变量的多元回归模型,以分析职工工资水平受各因素影响的程度。,Linear Regression,对话框,因变量,自变量,指定回归方法,全部选入,逐步回归,强行剔除,向后剔除,向前选择,加权最小平方法,指定选择参与回归分析观测量的变量,指定作为观测量标签的变量,(,Analyze,Regression,l,inear,),Linear Regression,对话框,关于回归系数的选择项,非标准化回归系数,95%,置信限,非标准化回归系数的方差,-,协方差,提供判定系数、估计标准误、,ANOVA,表等,显示每个自变量进入方程后对,R,2,和,F,值的影响,描述性统计量,部分相关和偏相关,共线性诊断,德宾,-,沃森检验,与回归系数相关的统计量,观测值诊断,Linear Regression,对话框,标准化预测值,标准化残差,剔除残差,调整预测值,学生化残差,学生化剔除残差,输出标准化残差相对于因变量的散布图,标准化残差图,直方图,正态概率图,(,系统默认为不输出图形,),Linear Regression,对话框,本对话框用来定义存储进入数据文件的新变量,预测值,距离,预测区间,残差,存储到新的文件中,影响点的统计量,Linear Regression,对话框,逐步回归法变量取舍标准,用,F,值的显著性水平作为标准,用,F,值作为标准,在回归方程中包括常项,缺失值的处理方式,用均值代替缺失值,输出结果,(,部分,),:,输出结果,(,部分,),:,曲线估计,线性回归只适用于因变量与自变量的数据分布呈直线趋势的情况,若数据分布呈曲线趋势且具有某种函数的图形特点,就需要通过曲线估计来寻找和建立适合的模型,;,曲线估计对数据的要求是:自变量与因变量均为数值型变量,模型残差呈正态分布;,SPSS,提供的曲线估计过程可通过曲线估计对话框,(,Analyze,Regression,Curve Estimation),实现。,曲线模型,回归方程,Linear,(,直线),Quadratic,(,二次曲线),Compound,(,复合曲线),Growth,(,等比级数曲线),Logarithmic,(,对数曲线),Cubic,(,三次曲线),S,(,s,型曲线),Exponential,(,指数曲线),Inverse,(,倒数方程曲线),Power,(,乘幂曲线),Logistic,(logistic,曲线,),曲线估计,生产率,(,单位,/,周,),废品率(,%,),1000,2000,3000,3500,4000,4500,5000,5.2,6.5,6.8,8.1,10.2,10.3,13.0,例,4.4b,已知调查得到的某单位废品率和生产率的数据如下,试建立废品率对生产率的回归模型,(,数据集,7),。,生产率与废品率的散点图,曲线估计,Curve Estimation,对话框,输出方差分析表,自变量,因变量,以时间顺序为自变量,保存新变量在数据集中,回归方程中包括常数项,产生模型图,输出结果,(1),-,直线模型,输出结果,(2),-,二次曲线模型,不能通过显著性检验,输出结果,(3),-,指数曲线模型,输出结果,(4),-,模型拟合图,
展开阅读全文