SAS的基本统计分析.ppt

资源描述

版权所有,2005上海财经大学邵建利,SAS软件应用,主讲：上海财经大学统计学系邵建利,第四章SAS的基本统计分析(1),SAS基本统计分析概论,前面我们已经看到了SAS的编程计算、数据管理能力、数据汇总、数据探索分析能力。这一章我们讲如何用SAS进行基本的统计检验、线性回归、方差分析、列联表检验等基本统计分析。我们既使用SAS语言编程，也使用SAS/INSIGHT的菜单界面。,一些单变量检验问题,procunivariatedata=sashelp.classnormal;varweight;run;,对单个变量，我们可能需要作正态性检验、两独立样本均值相等的检验、成对样本均值相等的检验。正态性检验在PROCUNIVARIATE语句中加上NORMAL选项可以进行正态性检验,TestsforLocation:Mu0=0Test-Statistic-pValue-Studentstt19.1449Pr|t|=|M|=|S|D0.1500Cramer-vonMisesW-Sq0.057963PrW-Sq0.2500Anderson-DarlingA-Sq0.366427PrA-Sq0.2500,一些单变量检验问题,其中W:Normal为Shapiro-Wilk正态性检验统计量，Pr2000时用KolmogorovD统计量。我们可以看到，p值很小，所以在0.05水平（或0.10水平）下应拒绝零假设，即认为height分布正态。在SAS/INSIGHT中为了检验height的分布，先选“Analyze|Distribution”菜单打开height变量的分布窗口，然后选“Curves|TestforDistribution”菜单。除了可以检验是否正态分布外还可以检验是否对数正态、指数分布、Weibull分布。,procttestdata=sashelp.class;classsex;varweight;run;,一些单变量检验问题,假设我们有两组样本分别来自两个独立总体，需要检验两个总体的均值或中心位置是否一样。如果两个总体都分别服从正态分布，而且方差相等，可以使用两样本t检验过程TTEST。,TheSASSystem23:06Friday,October7,20052TheTTESTProcedureStatisticsLowerCLUpperCLLowerCLUpperCLVariableSexNMeanMeanMeanStdDevStdDevStdDevStdErrWeightF975.21190.111105.0113.09319.38437.1356.4613WeightM1092.692108.95125.2115.63322.72741.4917.187WeightDiff(1-2)-39.41-18.841.731315.92321.2231.8119.7497T-TestsVariableMethodVariancesDFtValuePr|t|WeightPooledEqual17-1.930.0702WeightSatterthwaiteUnequal17-1.950.0680EqualityofVariancesVariableMethodNumDFDenDFFValuePrFWeightFoldedF981.370.6645,一些单变量检验问题,一些单变量检验问题,结果有三个部分：两个总体的WEGIHT简单统计量，两样本均值的检验，以及两样本方差是否相等的检验。标准的两样本t检验要求两总体方差相等，所以第三部分结果检验两样本方差是否相等。如果检验的结果为相等，则可使用精确的两样本t检验，看第二部分结果的Equal那一行。如果方差检验的结果为不等，则只能使用近似的两样本t检验，看第二部分结果的Unequal那一行。这里我们看到方差检验的p值为0.9114不显著，所以可以认为方差相等，所以我们看Equal行，p值为0.0001在0.05水平下是显著的，所以应认为男、女生的WEGIHT分数有显著差异，女生体重要低。,一些单变量检验问题,上面的检验中对立假设是两组的均值不等，所以检验是双边的，p值的计算公式为Pr(t分布随机变量绝对值计算得到的t统计量的绝对值)。如果要进行单边的检验，比如对立假设为女生体重高于男生（右边），则p值为Pr(t分布随机变量计算得到的t统计量)，当计算得到的t统计量值为正数时（现在t=4.0）此单边p值为双边p值的一半，当计算得到的t统计量为负数时肯定不能否定零假设。检验左边时恰好相反。,procnpar1waydata=sashelp.classwilcoxon;classsex;varweight;run;,一些单变量检验问题,如果我们希望检验男、女生的体重，对特殊人群有时无法使用两样本t检验，因为检验女生的体重样本的正态性发现它是非正态。这种情况下我们可以使用非参数检验。检验两独立样本的位置是否相同的非参数检验有Wilcoxon秩和检验。我们用NPAR1WAY过程加Wilcoxon选项可以进行这种检验。见下例：,TheNPAR1WAYProcedureWilcoxonScores(RankSums)forVariableWeightClassifiedbyVariableSexSumofExpectedStdDevMeanSexNScoresUnderH0UnderH0Score-M10119.0100.012.22594311.900000F971.090.012.2259437.888889Averagescoreswereusedforties.WilcoxonTwo-SampleTestStatistic71.0000NormalApproximationZ-1.5132One-SidedPr|Z|0.1302tApproximationOne-SidedPr|Z|0.1476Zincludesacontinuitycorrectionof0.5.Kruskal-WallisTestChi-Square2.4151DF1PrChi-Square0.1202,结果分为四部分：两样本的秩和的有关统计量，Wilcoxon两样本检验的结果，t检验的近似显著性，Kruskal-wallis检验结果。我们只要看Wilcoxon检验的p值Prob|Z|=0.1202，检验结果不显著，可认为男、女生的体重在0.05水平下无显著差异。SAS/INSIGHT中未提供两独立样本检验的功能。,成对总体均值检验我们在现实中经常遇到两个总体是相关的测量结果的比较，比如，考察同一组人在参加一年的长跑锻炼前后的心率有无显著差异。这时，每个人一年前的心率和一年后的心率是相关的，心率本来较快的人锻炼后仍相对于其它人较快。所以，检验这样的成对总体的均值不能使用两样本t检验的方法，因为独立性条件不再满足。这时，我们可以检验两个变量间的差值的均值是否为零，这等价于检验两组测量值的平均水平有无显著差异。,检验单个样本的均值是否为零只要使用UNIVARIATE过程，在UNIVARIATE过程的矩部分给出了均值为零的t检验和符号检验、符号秩检验的结果。两配对样本的T检验可根据样本数据对两总体均值之间是否有差异进行推断。作此类T检验的基本要求是：首先两样本数据必须两两配对，即样本顺序相同、数目相等等。其次，两总体是服从正态分布的。最后两配对样本T检验的基本假设为：两总体均值相同。例如，假设两方案的产量都服从正态分布，1号方案的单位面积产量均值1，2号方案的单位面积产量均值2，原假设H0：1=2H1：12,DATATEM;SETDST.A;D=OUTPUT1-OUTPUT2;RUN;PROCUNIVARIATEDATA=TEM;VARD;RUN;,BasicStatisticalMeasuresLocationVariabilityMean10.37500StdDeviation3.85218Median10.00000Variance14.83929Mode11.00000Range12.00000InterquartileRange4.50000TestsforLocation:Mu0=0Test-Statistic-pValue-Studentstt7.617748Pr|t|0.0001SignM4Pr=|M|0.0078SignedRankS18Pr=|S|0.0078,我们只要看其中的三个检验：T:Mean=0是假定差值变量服从正态分布时检验均值为零的t统计量值，相应的p值Pr|T|为0.0001在0.05水平下是显著的，所以可认为两科分数有显著差异。M(Sign)是非参数检验符号检验的统计量，其p值Pr=|M|为0.0001在0.05水平下是显著的，结论不变。SgnRank是非参数检验符号秩检验的统计量，其p值Pr=|S|为0.0078在0.05水平下是显著的，结论不变。所以这三个检验的结论都是两科成绩有显著差异。如果t检验对立假设是单边的，其p值算法与上面讲的两样本t检验p值算法相同。,数据集：PULS,案例：成对检验使用分析员应用,回归分析,用SAS/INSIGHT进行曲线拟合,两个变量Y和X之间的相关关系经常可以用一个函数来表示，一元函数可以等同于一条曲线，实际工作中经常对两个变量拟合一条曲线来近似它们的相关关系。最基本的“曲线”是直线，还可以用多项式、样条函数、核估计和局部多项式估计。其模型可表示为,例如，我们要研究SASHELP.CLASS数据集中学生体重与身高之间的相关关系。为此，我们可以先画出两者的散点图（Analyze|Scatterplot）。从图中可以看出，身高越高的人一般体重越重。我们可以把体重作为因变量、身高作为自变量拟合一条回归直线，只要选“Analyze|Fit(YX)”，并选体重为Y变量，身高为X变量，即可自动拟合出一条回归直线，见图。窗口中还给出了拟合的模型方程、参数估计、诊断信息等，我们在下一小节再详细介绍。,回归分析,在拟合了直线后，为拟合多项式曲线，只要选“Curves|Polynomial”，然后输入阶次（Degree(Polynomial)），就可以在散点图基础上再加入一条多项式曲线。对于本例，我们看到二次多项式得到的曲线与直线差别很小，所以用二次多项式拟合没有优势。还可以试用三次、四次等多项式。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块（ParametricRegressionFit中的Degree(Polynomial)）。,回归分析,样条曲线是一种非参数回归的曲线拟合方法。光滑样条为分段的三次多项式，曲线在每一段内是一个三次多项式，在两段的连接点是连续、光滑的。为拟合样条曲线，只要选“Curves|Spline”，使用缺省的GCV准则（广义交叉核实）来选取光滑系数（光滑系数c越大，得到的曲线越光滑，但拟合同时变差，光滑系数c小的时候得到的曲线较曲折，而拟合较好），就可以在散点图的基础上画出样条曲线。可以用光滑系数c的滑块来调整曲线的光滑程度/拟合优度。对于本例，GCV准则得到的样条曲线与回归直线几乎是重合的，说明直线拟合可以得到满意的结果。,回归分析,核估计是另一种非参数回归的曲线拟合方法。它定义了一个核函数，例如使用标准正态分布密度曲线，然后用如下公式估计经验公式：其中c为光滑系数，c越大得到的曲线越光滑。为了画核估计曲线，只要选“Curves|Kernel”，权重函数使用缺省的正态核，选取光滑系数的方法采用缺省的GCV法，就可以把核估计图附加到散点图上。本例得到的核估计曲线与回归直线、样条曲线有一定差别。可以手动调整光滑系数的值，可以看到，当过大时曲线不仅变光滑而且越来越变水平，因为这时的拟合值基本是一个常数，这与样条曲线的情形不同，样条曲线当增大时曲线变光滑但不趋向于常数（水平线）。,局部多项式估计（Loess）是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式，可以是零阶、一阶、二阶，零阶时与核估计相同。SAS/INSIGHT缺省使用一阶（线性）局部多项式。改变Loess的系数alpha可以改变曲线的光滑度。alpha增大时曲线变光滑，而且使用一阶或二阶多项式时曲线不会同时变水平。固定带宽的局部多项式是另一种局部多项式拟合方法。它有一个光滑系数c。,用SAS/INSIGHT进行线性回归分析,上面我们已经看到，用菜单“Analyze|Fit(YX)”就可以拟合一条回归直线，这是对回归方程,的估计结果。这样的线性回归可以推广到一个因变量、多个自变量的情况。线性模型写成矩阵形式为,其中,为,向量，,为,矩阵，一般第一列元素全是1，,为,未知参数向量，,为,元素独立且方差为相等的,（未知）。,代表截距项。,为,随机误差向量，,正常情况下，系数的估计为,，拟合值（或称预报值）为,，其中,是,空间内向,的列张成的线性空间,投影的投影算子矩阵，叫做“帽子”矩阵。拟合残差为,，残差平方和为,，误差项方差的估计为（要求设计阵,均方误差（MSE）,，在线性模型的假设下，若设计阵,满秩，,和,分别是,的无偏估计，系数估计的方差阵,判断回归结果优劣的一个重要指标为复相关系数平方（决定系数）,满秩）,和,。,它代表在因变量的变差中用模型能够解释的部分的比例，所以,越大说明模型越好，,其中,例如，我们在“Fit(YX)”的选择变量窗口选Y变量（因变量）为体重（WEIGHT），选X变量（自变量）为身高（HEIGHT）和年龄（AGE），则可以得到体重对身高、年龄的线性回归结果。下面对基本结果进行说明。回归基本模型：WEIGHT=HEIGHTAGEResponseDistribution:NormalLinkFunction:Identity回归模型方程：ModelEquationWEIGHT=-141.2238+3.5970HEIGHT+1.2784AGE拟合概况：SummaryofFitMeanofResponse100.0263R-Square0.7729RootMSE11.5111AdjR-Sq0.7445其中MeanofResponse为因变量（Response）的均值，RootMSE叫做根均方误差，是均方误差的平方根，R-Square即复相关系数平方，AdjR-Sq为修正的复相关系数平方，其公式为,其公式为,，其中,当有截距项时取1，否则取0，这个公式考虑到了自变量个数,的多少对拟合的影响，原来的,随着自变量个数的增加总会增大，而修正的,则因为,对它有一个单调减的影响所以,增大时修正的,不一定增大，便于不同自变量个数的模型的比较。,方差分析表：AnalysisofVarianceSourceDFSumofSquaresMeanSquareFStatProbFModel27215.63713607.818627.22750.0001Error162120.0997132.5062.CTotal189335.7368.,：模型中所有斜率项系数都等于零，这等价于说自变量的线性组合对因变量没有解释作用。它依据的是一个标准的方差分解，把因变量的总离差平方和（CTotal）分解为能用模型解释的部分（Model）与不能被模型解释的部分（随机误差，Error）之和，如果能解释的部分占的比例大就否定,F统计量（FStat）就是这个比例（用自由度修正过）。从上面结果看我们这个模型很显著（p值不超过万分之一），所以可以否定,。,这是关于模型是否成立的最重要的检验。它检验的是,TypeIIITestsSourceDFSumofSquaresMeanSquareFStatProbFHEIGHT12091.14602091.146015.78150.0011AGE122.388022.38800.16900.6865,检验利用的是所谓第三类平方和（TypeIIISS），又叫偏平方和，它代表在只缺少了本变量的模型中加入本变量导致的模型平方和的增加量。比如，HEIGHT的第三类平方和即现在的模型平方和减去删除变量HEIGHT的模型的模型平方和得到的差。第三类平方和与模型中自变量的次序无关，一般也不构成模型平方和的平方和分解。表中用F统计量对假设进行了检验，分子是第三类平方和的均方，分母为误差的均方。实际上，当分子自由度为1时，F统计量即通常的t检验统计量的平方。从表中可见，身高的作用是显著的，而年龄的作用则不显著，有可能去掉年龄后的模型更好一些。,这个表格给出了对各斜率项是否为零（,）的检验结果。,第三类检验：,ParameterEstimatesVariableDFEstimateStdErrorTStatProb|T|INTERCEPT1-141.223833.3831-4.23040.0006HEIGHT13.59700.90553.97260.0011AGE11.27843.11010.41100.6865ParameterEstimatesToleranceVarInflation.0.00000.34162.92760.34162.9276,参数估计及相关统计量：,对截距项系数和各斜率项系数，给出了自由度（DF），估计值（Estimate），估计的标准误差（StdError），检验系数为零的t统计量，t统计量的p值，检验共线性的容许度（Tolerance）和方差膨胀因子（VarInflation）。其中自变量,的容许度定义为1减去,对其它,对其它自变量的复相关系数平方大，即,可以很好地被其它自变量的,在模型中的作用不大。记,，则,，,叫做方差膨胀因子，它代表,的系数估计的方差的比例系数，显然其值越大说明估计越不准确，也说明,在模型中的作用不大。方差膨胀因子与容许度互为倒数。,因此容许度越小（接近0），说明,自变量的复相关系数平方，,线性组合近似，这样,下一个结果为残差对预测值的散点图，用它可以检验残差中有无异常情况，比如非线性关系、异方差、模型辨识错误、异常值、序列相关等等。此例中各散点较随机地散布在0线的上下，没有明显的模式，可认为结果是合适的（多余的不显著的变量AGE不反映在残差图中）。用Tables菜单可以加入一些其它的统计量。用Graphs菜单可以加入残差的正态概率图（ResidualNormalQQ）和偏杠杆图（PartialLeverage）。在Vars菜单中可以指定一些变量，这些变量可以加入到数据窗口中。数据窗口的内容保存在内存中，不自动改写磁盘中的数据集，所以要保存数据窗口的修改结果的话需要用“File|Save|Data”命令指定一个用来保存的数据集名。为了了解加入的变量的具体意义，选数据窗口菜单中的“DataOptions”，选中“ShowVariableLabels”选项。各变量中，HatDiag为帽子矩阵的对角线元素（帽子矩阵的）,即杠杆率，,反映了每个观测的影响大小。Predicted为拟合值（预报值），LinearPredictor为使用线性模型拟合的结果，在线性回归时与Predicted相同。,残差对预测值散点图,Residual为残差。ResidualNormalQuantile是残差由小到大排序后对应的标准正态的分位数，第,个残差的正态分位数用,计算，其中,为残差除以其标准误差。StudentizedResidual（学生化残差）为与标准化残差类似，但计算第,个学生化残差时预测值和方差估计都是在删除第,个观测后得到的。当学生化残差的值超过2时这个观测有可能是强影响点或异常点。,为标准正态分布函数。StandardizedResidual（标准化误差）,关于其它的一些诊断统计量请参考帮助菜单的“ExtendedHelp|SASSystemHelp:Mainmenu|HelpforSASProducts|SAS/INSIGHT|Techniques|MultipleRegression”，或SAS应用统计实验SAS应用统计教程。在SAS/INSIGHT中，为了保存结果表格，在进行分析之前选中菜单“File|Save|InitialTables”，这是一个状态开关，选中时输出表格画在分析窗口内的同时显示在输出（Output）窗口。如果要保存某一个表格，也可以选定此表格（单击表格外框线），然后用菜单“File|Save|Tables”。为了保存分析窗口的图形，先选定此图形，然后选“File|Save|GraphicsFile”，输入一个文件名，选择一种文件类型如BMP即可。为了打印某一表格或图形，先选定它，然后用菜单“File|Print”。选中“File|Save|Statements”可以开始保存SAS/INSIGHT语句。,用SAS/INSIGHT拟合广义线性模型,经典线性回归理论的估计与假设检验要求自变量,为常数（非随机），随机误差项满足,广义线性模型放宽了这些假设，其模型为,其中因变量,（,为服从指数族分布（如正态、逆高斯、伽马、泊松、二项分布）的随机变量，,（,向量）的元素为与,分布类型相同的随机误差项，元素之间,叫做联系函数，它把因变量的均值,与自变量,（,阵）的线性组合联系起来。,（,向量）为回归系数。模型中每个自变量对应于设计阵,中的一列或几列，,的第一列一般元素全为1，对应于截距项。,（,向量）是表示偏移量的变量。,向量）的元素,相互独立，单调函数,。,注：随机变量Y称为服从指数族分布，如果其分布密度（概率函数）有如下形式：,其中,为自然参数或称经典参数，,为分散度参数（与尺度参数相关），a,b,c为确定性函数。这样的自变量Y的均值和方差与参数的关系如下：,为了使用SAS/INSIGHT拟合广义线性模型，在选“Analyze|Fit(YX)”之后，选定因变量和自变量，然后按“Method”按钮，出现选择模型的对话框，在这里可以选因变量的分布类型（ResponseDist.），选联系函数，选估计尺度参数的方法。各联系函数定义如下：,对指数族中每一个因变量分布有一个特定的联系函数，使得,，即用分布的期望值表示经典参数，这样的联系函数叫经典（canonical）联系函数。正态分布的经典联系函数为恒等变换，逆高斯分布为-2次方变换，伽玛分布为-1次方变换，泊松分布为对数变换，二项分布为逻辑变换（Logit）。注意Logit、probit、复合重对数变换都只适用于二项分布。例如，SASUSER.INGOTS中存放了一个铸造厂的数据，它记录了各批铸件在一定的加热、浸泡时间条件下出现的不能开始轧制的铸件数目。HEAT为加热时间，SOAK为浸泡时间，N为每批铸件的件数，R为加热浸泡后N件铸件中还不能开始轧制的铸件数。R应该服从二项分布，其分布参数（比例）可能受加热、浸泡时间的影响。因此，我们拟合以R为因变量，以HEAT和SOAK为自变量的广义线性模型，因变量分布为二项分布，使用经典联系函数（Logit函数）。模型为,为了拟合这样的模型，选“Analyze|Fit(YX)”，选R为Y变量，选HEAT和SOAK为自变量，按“Method”钮，选因变量分布为二项分布（Binomial），选变量N然后按“Binomial”钮，两次OK后即可以得到模型拟合窗口。可以看到，这个模型是显著的，但变量SOAK没有显著影响。去掉变量SOAK重新拟合模型。可以看出，HEAT的系数为0.0807是正数，说明加热时间越长不能轧制的件数越多。考察拟合结果窗口下方的残差对预报值图可以发现在右下方有三个异常点，用刷亮方法选定它们，可以看到，这三个观测都是总共只有一个铸件的，所以对一般结果意义不大。选“Edit|Observations|ExcludeinCalculation”可以把这几个点排除在外，发现结果基本不变。,用REG过程进行回归分析,SAS/STAT中提供了几个回归分析过程，包括REG（回归）、RSREG（二次响应面回归）、ORTHOREG（病态数据回归）、NLIN（非线性回归）、TRANSREG（变换回归）、CALIS（线性结构方程和路径分析）、GLM（一般线性模型）、GENMOD（广义线性模型），等等。我们这里只介绍REG过程，其它过程的使用请参考SAS系统SAS/STAT软件使用手册。REG过程的基本用法为：PROCREGDATA=输入数据集选项;VAR可参与建模的变量列表;MODEL因变量自变量表/选项;PRINT输出结果;PLOT诊断图形;RUN;REG过程是交互式过程，在使用了RUN语句提交了若干个过程步语句后可以继续写其它的REG过程步语句，提交运行，直到提交QUIT语句或开始其它过程步或数据步才终止。,例如，我们对SASUSER.CLASS中的WEIGHT用HEIGHT和AGE建模，可以用如下的简单REG过程调用：procregdata=sashelp.class;varweightheightage;modelweight=heightage;run;就可以在输出窗口产生如下结果，注意程序窗口的标题行显示“PROCREGRunning”表示REG过程还在运行，并没有终止。,Model:MODEL1DependentVariable:WEIGHTWeightinpoundsAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProbFModel27215.637103607.8185527.2280.0001Error162120.09974132.50623CTotal189335.73684RootMSE11.51114R-square0.7729DepMean100.02632AdjR-sq0.7445C.V.11.50811ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob|T|INTERCEP1-141.22376333.38309350-4.2300.0006HEIGHT13.5970270.905460723.9730.0011AGE11.2783933.110103740.4110.6865VariableVariableDFLabelINTERCEP1InterceptHEIGHT1HeightininchesAGE1Ageinyears,这些结果与SAS/INSIGHT得到的结果是一致的。同样我们发现变量AGE的作用不显著，所以我们只要再提交如下语句：modelweight=height;run;就可以得到第二个模型结果：Model:MODEL2DependentVariable:WEIGHTWeightinpounds事实上，REG提供了自动选择最优自变量子集的选项。在MODEL语句中加上“SELECTION=选择方法”的选项就可以自动挑选自变量，选择方法有NONE（全用，这是缺省）、FORWARD（逐步引入法）、BACKWARD（逐步剔除法）、STEPWISE（逐步筛选法）、MAXR（最大增量法）、MINR（最小增量法）、RSQUARE（选择法）、ADJRSQ（修正选择法）、CP（Mallows的统计量法）。比如，我们用如下程序：,modelweight=heightage/selection=stepwise;run;可得到如下结果：,StepwiseProcedureforDependentVariableWEIGHTStep1VariableHEIGHTEnteredR-square=0.77050684C(p)=1.16895797DFSumofSquaresMeanSquareFProbFRegression17193.249118647193.2491186457.080.0001Error172142.48772347126.02868962Total189335.73684211ParameterStandardTypeIIVariableEstimateErrorSumofSquaresFProbFINTERCEP-143.0269184432.274591302475.0471758019.640.0004HEIGHT3.899030270.516093957193.2491186457.080.0001Boundsonconditionnumber:1,1-Allvariablesleftinthemodelaresignificantatthe0.1500level.Noothervariablemetthe0.1500significancelevelforentryintothemodel.SummaryofStepwiseProcedureforDependentVariableWEIGHTVariableNumberPartialModelStepEnteredRemovedInR*2R*2C(p)FProbFLabel1HEIGHT10.77050.77051.169057.07630.0001Heightininches,可见只有变量HEIGHT进入了模型，而其它变量（AGE）则不能进入模型。,REG过程给出的缺省结果比较少。如果要输出高分辨率诊断图形的话需要在PROCREG过程语句中加上GRAPHICS选项，用PRINT语句和PLOT语句显示额外的结果。为了显示模型的预测值（拟合值）和95预测界限，使用语句printcli;run;得到如下的结果：,DepVarPredictStdErrLower95%Upper95%ObsWEIGHTValuePredictPredictPredictResidual184.000077.26833.96352.1503102.46.7317298.0000111.62.99587.0659136.1-13.5798390.0000107.72.76883.2863132.1-17.6807477.000076.48854.04251.3145101.70.5115584.500090.13512.88965.6780114.6-5.63516112.0116.33.35491.5388141.0-4.2586750.500056.99336.25129.883584.1032-6.49338112.5100.72.57776.3612125.011.83759102.5101.82.58777.5263126.10.667810112.5126.04.296100.6151.4-13.506211102.5104.62.64580.2279128.9-2.061512133.0118.23.52593.3827143.014.79191383.000080.38753.65955.4757105.32.61251484.0000100.72.57776.3612125.0-16.66251599.500087.01593.09862.4451111.612.484116150.0137.75.613111.2164.212.296717128.0109.62.87285.1821134.118.36981885.000081.16733.58756.3025106.03.832719112.0116.33.35491.5388141.0-4.2586SumofResiduals0SumofSquaredResiduals2142.4877PredictedResidSS(Press)2651.3521,各列分别为观测序号（Obs），因变量的值（DepVar），预测值（PredictValue），预测值的标准误差（StdErrPredict），95预测区间下限（Lower95%Predict），95预测区间上限（Upper95%Predict），残差（Residual，为因变量值减预测值）。在表后又给出了残差的总和（SumofResiduals），残差平方和（SumofSquaredResiduals），预测残差的平方和（PredictedResidSS(Press)）。所谓预测残差，是在计算第i号观测的残差时从实际值中减去的预报值是用扣除第i号观测后的样本得到的模型产生的预报值，而不是我们一般所用的预测值（实际是拟合值）。第i号样本的预测残差还可以用公式,来计算，其中,为帽子矩阵,的第i个主对角线元素。,用printcli列出的是实际值的预测界限，还可以列出模型均值的预测界限，使用printclm;语句。在PRINT语句中可以指定的有ACOV,ALL,CLI,CLM,COLLIN,COLLINOINT,COOKD,CORRB,COVB,DW,I,INFLUENCE,P,PARTIAL,PCORR1,PCORR2,R,SCORR1,SCORR2,SEQB,SPEC,SS1,SS2,STB,TOL,VIF,XPX，等等。对于自变量是一元的情况，可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如，plotweight*height/conf95;可以产生下图，在图的上方列出了模型方程，右方还给出了观测个数、,修正,等特殊名字表示预测值、残差等计算出的变量，比如，在自变量为多元时无法作回归直线，常用的诊断图表为残差对预测值图，就可以用plotresidual.*predicted.;绘制。为了绘制学生化残差的图形，可以用plotrstudent.*obs.;回归分析的其它用法及进一步的诊断方法请参考有关统计书籍和SAS使用手册。,、均方误差开根。在PLOT语句中可以使用PREDICTED.、RESIDUAL.,、,图4REG过程的PLOT语句的结果,TheEndofSession,谢谢！,

展开阅读全文