资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Slide,20,彭斌,直线相关与回归分析,Linear Correlation and Regression,相关分析和回归分析是研究变量与变量间相互关系的重要方法。为此,,SAS,系统提供了强大的相关分析与回归分析手段。相关分析可用,CORR,过程来处理,而回归分析则可用,REG,过程来完成。,当然,特殊的回归分析,SAS,提供了专用的过程。这里,仅仅讨论,CORR,过程和,REG,过程的常规用法。,PROC CORR,;,VAR,variables;,PARTIAL,variables;,一、直线相关分析,SAS,提供的相关分析过程是,CORR,过程,,它位于,BASE,模块中,可以计算的相关系数有:,Pearson,积差相关系数、,Spearman,等级相关系数、,Kendall,s tau-b,统计量、,Hoeffding,s,独立性分析统计量,D,。此外,还可以计算偏相关系数等。,CORR,过程只有第一条语句(下划线部份)是必需的,其它语句都是可选的。,常用语句及格式:,语句说明,1,、,PROC CORR options;,这里的选项有,20,多项。我们现在只介绍最简单的两个选项:,缺省值,:即第一条语句只有两个单词加上分号,即,Proc corr;,这时,,SAS,系统计算,Pearson,积差相关系数(普通相关系数),和进行显著性检验,以及简单统计量。,Spearman,:即,Proc corr,spearman,;,此时,,SAS,系统计算,Spearman,等级相关系数。,2,、,VAR variables;,指明要计算相关系数的变量。,例,7-1,为了了解年龄与总胆固醇之间的关系,随机抽查了,20,高血脂病人治疗前的总胆固醇水平,(mmol/L),与年龄,资料见下表。试问年龄与胆固醇之间是否存在相关关系?,首先建立,SAS,数据集,data ex71;,input age chol;,cards;,245.43,6010.27,287.49,.,519.72,345.72,377.12,317.54,;,run;,由于数据太长,此处以省略号代之,调用,CORR,过程,PROC,CORR data=ex71,;,RUN,;,程序中只有两条语句,第一条语句调用,CORR,过程,并指明分析数据集;第二条词句就是程序结束语句,RUN,。,程序中没有,VAR,语句,则,SAS,系统对数据集中所有数值型变量进行相关分析。,分析结果,The CORR Procedure,2 Variables:,age chol,Simple Statistics,Variable,N,Mean,Std Dev,Sum,Minimum,Maximum,age,20,39.45000,13.01204,789.00000,20.00000,60.00000,chol,20,8.20550,2.17555,164.11000,4.71000,11.73000,Pearson Correlation Coefficients, N = 20 Prob |r| under H0: Rho=0,age,chol,age,1.00000,0.84993.0001,chol,0.84993.0001,1.00000,CORR,过程的默认输出结果主要包括各个变量的简单统计描述和一个相关系数矩阵。,简单统计描述:包括变量名、例数、均数、标准差等,这些都是前面的统计过程经常出现的。,相关系数矩阵:,在相关系数矩阵的上方指明了相关系数的类型,如本例是”,Pearson Correlation Coefficients”,接下来就是对相关系数矩阵的说明,矩阵中每一个格子有两个数据,上方的数据是对应变量的相关系数,其下方的数据是该相关系数的显著性检验。,本例中,,age,与,chol,的相关系数,r=0.84993,,,p |r| under H0: Rho=0,age,chol,age,1.00000,0.84456.0001,chol,0.84456.0001,1.00000,本例计算的,age,与,chol,的等级相关系数,r,s,=0.84456,,,p,F,Model,1,64.96136,64.96136,46.84,|t|,Intercept,1,2.59951,0.86044,3.02,0.0073,age,1,0.14210,0.02076,6.84,.0001,模型的显著性检验,一些统计量,参数估计及检验,结果的解释,结果主要分为三部份:回归模型的显著性检验、一些统计量、回归参数的估计及检验。,对回归模型的显著性检验:,F=46.84,,,p.0001,,可以认为回归模型是成立的。,一些统计量包括:,Root MSE(,均方根,),,即误差均方的平方根;,R-Square(R,2,),,即决定系数;,Adj R-Sq(,校正,R,平方,),;,Coeff Var(,应变量的变异系数,),。,参数估计及检验:回归方程的截距,intercept= 2.59951,,自变量,age,的回归系数为,0.14210,,因此回归方程为:,chol=2.59951+0.14210age,对回归系数的假设检验得,t=6.84,,,p,|t|,StandardizedEstimate,Intercept,1,2.59951,0.86044,3.02,0.0073,0,age,1,0.14210,0.02076,6.84,.0001,0.84993,标准化回归系数,散点图,并配合回归直线,谢谢!,
展开阅读全文