SAS的基本统计分析.ppt

上传人:sh****n 文档编号:6412075 上传时间:2020-02-25 格式:PPT 页数:50 大小:763.05KB
返回 下载 相关 举报
SAS的基本统计分析.ppt_第1页
第1页 / 共50页
SAS的基本统计分析.ppt_第2页
第2页 / 共50页
SAS的基本统计分析.ppt_第3页
第3页 / 共50页
点击查看更多>>
资源描述
版权所有 2005上海财经大学邵建利 SAS软件应用 主讲 上海财经大学统计学系邵建利 第四章SAS的基本统计分析 1 SAS基本统计分析概论 前面我们已经看到了SAS的编程计算 数据管理能力 数据汇总 数据探索分析能力 这一章我们讲如何用SAS进行基本的统计检验 线性回归 方差分析 列联表检验等基本统计分析 我们既使用SAS语言编程 也使用SAS INSIGHT的菜单界面 一些单变量检验问题 procunivariatedata sashelp classnormal varweight run 对单个变量 我们可能需要作正态性检验 两独立样本均值相等的检验 成对样本均值相等的检验 正态性检验在PROCUNIVARIATE语句中加上NORMAL选项可以进行正态性检验 TestsforLocation Mu0 0Test Statistic pValue Student stt19 1449Pr t M S D 0 1500Cramer vonMisesW Sq0 057963Pr W Sq 0 2500Anderson DarlingA Sq0 366427Pr A Sq 0 2500 一些单变量检验问题 其中W Normal为Shapiro Wilk正态性检验统计量 Pr2000时用KolmogorovD统计量 我们可以看到 p值很小 所以在0 05水平 或0 10水平 下应拒绝零假设 即认为height分布正态 在SAS INSIGHT中为了检验height的分布 先选 Analyze Distribution 菜单打开height变量的分布窗口 然后选 Curves TestforDistribution 菜单 除了可以检验是否正态分布外还可以检验是否对数正态 指数分布 Weibull分布 procttestdata sashelp class classsex varweight run 一些单变量检验问题 假设我们有两组样本分别来自两个独立总体 需要检验两个总体的均值或中心位置是否一样 如果两个总体都分别服从正态分布 而且方差相等 可以使用两样本t检验过程TTEST TheSASSystem23 06Friday October7 20052TheTTESTProcedureStatisticsLowerCLUpperCLLowerCLUpperCLVariableSexNMeanMeanMeanStdDevStdDevStdDevStdErrWeightF975 21190 111105 0113 09319 38437 1356 4613WeightM1092 692108 95125 2115 63322 72741 4917 187WeightDiff 1 2 39 41 18 841 731315 92321 2231 8119 7497T TestsVariableMethodVariancesDFtValuePr t WeightPooledEqual17 1 930 0702WeightSatterthwaiteUnequal17 1 950 0680EqualityofVariancesVariableMethodNumDFDenDFFValuePr FWeightFoldedF981 370 6645 一些单变量检验问题 一些单变量检验问题 结果有三个部分 两个总体的WEGIHT简单统计量 两样本均值的检验 以及两样本方差是否相等的检验 标准的两样本t检验要求两总体方差相等 所以第三部分结果检验两样本方差是否相等 如果检验的结果为相等 则可使用精确的两样本t检验 看第二部分结果的Equal那一行 如果方差检验的结果为不等 则只能使用近似的两样本t检验 看第二部分结果的Unequal那一行 这里我们看到方差检验的p值为0 9114不显著 所以可以认为方差相等 所以我们看Equal行 p值为0 0001在0 05水平下是显著的 所以应认为男 女生的WEGIHT分数有显著差异 女生体重要低 一些单变量检验问题 上面的检验中对立假设是两组的均值不等 所以检验是双边的 p值的计算公式为Pr t分布随机变量绝对值 计算得到的t统计量的绝对值 如果要进行单边的检验 比如对立假设为女生体重高于男生 右边 则p值为Pr t分布随机变量 计算得到的t统计量 当计算得到的t统计量值为正数时 现在t 4 0 此单边p值为双边p值的一半 当计算得到的t统计量为负数时肯定不能否定零假设 检验左边时恰好相反 procnpar1waydata sashelp classwilcoxon classsex varweight run 一些单变量检验问题 如果我们希望检验男 女生的体重 对特殊人群有时无法使用两样本t检验 因为检验女生的体重样本的正态性发现它是非正态 这种情况下我们可以使用非参数检验 检验两独立样本的位置是否相同的非参数检验有Wilcoxon秩和检验 我们用NPAR1WAY过程加Wilcoxon选项可以进行这种检验 见下例 TheNPAR1WAYProcedureWilcoxonScores RankSums forVariableWeightClassifiedbyVariableSexSumofExpectedStdDevMeanSexNScoresUnderH0UnderH0Score M10119 0100 012 22594311 900000F971 090 012 2259437 888889Averagescoreswereusedforties WilcoxonTwo SampleTestStatistic71 0000NormalApproximationZ 1 5132One SidedPr Z 0 1302tApproximationOne SidedPr Z 0 1476Zincludesacontinuitycorrectionof0 5 Kruskal WallisTestChi Square2 4151DF1Pr Chi Square0 1202 结果分为四部分 两样本的秩和的有关统计量 Wilcoxon两样本检验的结果 t检验的近似显著性 Kruskal wallis检验结果 我们只要看Wilcoxon检验的p值Prob Z 0 1202 检验结果不显著 可认为男 女生的体重在0 05水平下无显著差异 SAS INSIGHT中未提供两独立样本检验的功能 成对总体均值检验我们在现实中经常遇到两个总体是相关的测量结果的比较 比如 考察同一组人在参加一年的长跑锻炼前后的心率有无显著差异 这时 每个人一年前的心率和一年后的心率是相关的 心率本来较快的人锻炼后仍相对于其它人较快 所以 检验这样的成对总体的均值不能使用两样本t检验的方法 因为独立性条件不再满足 这时 我们可以检验两个变量间的差值的均值是否为零 这等价于检验两组测量值的平均水平有无显著差异 检验单个样本的均值是否为零只要使用UNIVARIATE过程 在UNIVARIATE过程的矩部分给出了均值为零的t检验和符号检验 符号秩检验的结果 两配对样本的T检验可根据样本数据对两总体均值之间是否有差异进行推断 作此类T检验的基本要求是 首先两样本数据必须两两配对 即样本顺序相同 数目相等等 其次 两总体是服从正态分布的 最后两配对样本T检验的基本假设为 两总体均值相同 例如 假设两方案的产量都服从正态分布 1号方案的单位面积产量均值 1 2号方案的单位面积产量均值 2 原假设H0 1 2H1 1 2 DATATEM SETDST A D OUTPUT1 OUTPUT2 RUN PROCUNIVARIATEDATA TEM VARD RUN BasicStatisticalMeasuresLocationVariabilityMean10 37500StdDeviation3 85218Median10 00000Variance14 83929Mode11 00000Range12 00000InterquartileRange4 50000TestsforLocation Mu0 0Test Statistic pValue Student stt7 617748Pr t 0 0001SignM4Pr M 0 0078SignedRankS18Pr S 0 0078 我们只要看其中的三个检验 T Mean 0是假定差值变量服从正态分布时检验均值为零的t统计量值 相应的p值Pr T 为0 0001在0 05水平下是显著的 所以可认为两科分数有显著差异 M Sign 是非参数检验符号检验的统计量 其p值Pr M 为0 0001在0 05水平下是显著的 结论不变 SgnRank是非参数检验符号秩检验的统计量 其p值Pr S 为0 0078在0 05水平下是显著的 结论不变 所以这三个检验的结论都是两科成绩有显著差异 如果t检验对立假设是单边的 其p值算法与上面讲的两样本t检验p值算法相同 数据集 PULS 案例 成对检验 使用分析员应用 回归分析 用SAS INSIGHT进行曲线拟合 两个变量Y和X之间的相关关系经常可以用一个函数来表示 一元函数可以等同于一条曲线 实际工作中经常对两个变量拟合一条曲线来近似它们的相关关系 最基本的 曲线 是直线 还可以用多项式 样条函数 核估计和局部多项式估计 其模型可表示为 例如 我们要研究SASHELP CLASS数据集中学生体重与身高之间的相关关系 为此 我们可以先画出两者的散点图 Analyze Scatterplot 从图中可以看出 身高越高的人一般体重越重 我们可以把体重作为因变量 身高作为自变量拟合一条回归直线 只要选 Analyze Fit YX 并选体重为Y变量 身高为X变量 即可自动拟合出一条回归直线 见图 窗口中还给出了拟合的模型方程 参数估计 诊断信息等 我们在下一小节再详细介绍 回归分析 在拟合了直线后 为拟合多项式曲线 只要选 Curves Polynomial 然后输入阶次 Degree Polynomial 就可以在散点图基础上再加入一条多项式曲线 对于本例 我们看到二次多项式得到的曲线与直线差别很小 所以用二次多项式拟合没有优势 还可以试用三次 四次等多项式 为了改变阶次还可以使用拟合窗口中的多项式阶次滑块 ParametricRegressionFit中的Degree Polynomial 回归分析 样条曲线是一种非参数回归的曲线拟合方法 光滑样条为分段的三次多项式 曲线在每一段内是一个三次多项式 在两段的连接点是连续 光滑的 为拟合样条曲线 只要选 Curves Spline 使用缺省的GCV准则 广义交叉核实 来选取光滑系数 光滑系数c越大 得到的曲线越光滑 但拟合同时变差 光滑系数c小的时候得到的曲线较曲折 而拟合较好 就可以在散点图的基础上画出样条曲线 可以用光滑系数c的滑块来调整曲线的光滑程度 拟合优度 对于本例 GCV准则得到的样条曲线与回归直线几乎是重合的 说明直线拟合可以得到满意的结果 回归分析 核估计是另一种非参数回归的曲线拟合方法 它定义了一个核函数 例如使用标准正态分布密度曲线 然后用如下公式估计经验公式 其中c为光滑系数 c越大得到的曲线越光滑 为了画核估计曲线 只要选 Curves Kernel 权重函数使用缺省的正态核 选取光滑系数的方法采用缺省的GCV法 就可以把核估计图附加到散点图上 本例得到的核估计曲线与回归直线 样条曲线有一定差别 可以手动调整光滑系数的值 可以看到 当过大时曲线不仅变光滑而且越来越变水平 因为这时的拟合值基本是一个常数 这与样条曲线的情形不同 样条曲线当增大时曲线变光滑但不趋向于常数 水平线 局部多项式估计 Loess 是另一种非参数回归的曲线拟合方法 它在每一自变量值处拟合一个局部多项式 可以是零阶 一阶 二阶 零阶时与核估计相同 SAS INSIGHT缺省使用一阶 线性 局部多项式 改变Loess的系数alpha可以改变曲线的光滑度 alpha增大时曲线变光滑 而且使用一阶或二阶多项式时曲线不会同时变水平 固定带宽的局部多项式是另一种局部多项式拟合方法 它有一个光滑系数c 用SAS INSIGHT进行线性回归分析 上面我们已经看到 用菜单 Analyze Fit YX 就可以拟合一条回归直线 这是对回归方程 的估计结果 这样的线性回归可以推广到一个因变量 多个自变量的情况 线性模型写成矩阵形式为 其中 为 向量 为 矩阵 一般第一列元素全是1 为 未知参数向量 为 元素独立且方差为相等的 未知 代表截距项 为 随机误差向量 正常情况下 系数的估计为 拟合值 或称预报值 为 其中 是 空间内向 的列张成的线性空间 投影的投影算子矩阵 叫做 帽子 矩阵 拟合残差为 残差平方和为 误差项方差的估计为 要求设计阵 均方误差 MSE 在线性模型的假设下 若设计阵 满秩 和 分别是 的无偏估计 系数估计的方差阵 判断回归结果优劣的一个重要指标为复相关系数平方 决定系数 满秩 和 它代表在因变量的变差中用模型能够解释的部分的比例 所以 越大说明模型越好 其中 例如 我们在 Fit YX 的选择变量窗口选Y变量 因变量 为体重 WEIGHT 选X变量 自变量 为身高 HEIGHT 和年龄 AGE 则可以得到体重对身高 年龄的线性回归结果 下面对基本结果进行说明 回归基本模型 WEIGHT HEIGHTAGEResponseDistribution NormalLinkFunction Identity回归模型方程 ModelEquationWEIGHT 141 2238 3 5970HEIGHT 1 2784AGE拟合概况 SummaryofFitMeanofResponse100 0263R Square0 7729RootMSE11 5111AdjR Sq0 7445其中MeanofResponse为因变量 Response 的均值 RootMSE叫做根均方误差 是均方误差的平方根 R Square即复相关系数平方 AdjR Sq为修正的复相关系数平方 其公式为 其公式为 其中 当有截距项时取1 否则取0 这个公式考虑到了自变量个数 的多少对拟合的影响 原来的 随着自变量个数的增加总会增大 而修正的 则因为 对它有一个单调减的影响所以 增大时修正的 不一定增大 便于不同自变量个数的模型的比较 方差分析表 AnalysisofVarianceSourceDFSumofSquaresMeanSquareFStatProb FModel27215 63713607 818627 22750 0001Error162120 0997132 5062 CTotal189335 7368 模型中所有斜率项系数都等于零 这等价于说自变量的线性组合对因变量没有解释作用 它依据的是一个标准的方差分解 把因变量的总离差平方和 CTotal 分解为能用模型解释的部分 Model 与不能被模型解释的部分 随机误差 Error 之和 如果能解释的部分占的比例大就否定 F统计量 FStat 就是这个比例 用自由度修正过 从上面结果看我们这个模型很显著 p值不超过万分之一 所以可以否定 这是关于模型是否成立的最重要的检验 它检验的是 TypeIIITestsSourceDFSumofSquaresMeanSquareFStatProb FHEIGHT12091 14602091 146015 78150 0011AGE122 388022 38800 16900 6865 检验利用的是所谓第三类平方和 TypeIIISS 又叫偏平方和 它代表在只缺少了本变量的模型中加入本变量导致的模型平方和的增加量 比如 HEIGHT的第三类平方和即现在的模型平方和减去删除变量HEIGHT的模型的模型平方和得到的差 第三类平方和与模型中自变量的次序无关 一般也不构成模型平方和的平方和分解 表中用F统计量对假设进行了检验 分子是第三类平方和的均方 分母为误差的均方 实际上 当分子自由度为1时 F统计量即通常的t检验统计量的平方 从表中可见 身高的作用是显著的 而年龄的作用则不显著 有可能去掉年龄后的模型更好一些 这个表格给出了对各斜率项是否为零 的检验结果 第三类检验 ParameterEstimatesVariableDFEstimateStdErrorTStatProb T INTERCEPT1 141 223833 3831 4 23040 0006HEIGHT13 59700 90553 97260 0011AGE11 27843 11010 41100 6865ParameterEstimatesToleranceVarInflation 0 00000 34162 92760 34162 9276 参数估计及相关统计量 对截距项系数和各斜率项系数 给出了自由度 DF 估计值 Estimate 估计的标准误差 StdError 检验系数为零的t统计量 t统计量的p值 检验共线性的容许度 Tolerance 和方差膨胀因子 VarInflation 其中自变量 的容许度定义为1减去 对其它 对其它自变量的复相关系数平方大 即 可以很好地被其它自变量的 在模型中的作用不大 记 则 叫做方差膨胀因子 它代表 的系数估计的方差的比例系数 显然其值越大说明估计越不准确 也说明 在模型中的作用不大 方差膨胀因子与容许度互为倒数 因此容许度越小 接近0 说明 自变量的复相关系数平方 线性组合近似 这样 下一个结果为残差对预测值的散点图 用它可以检验残差中有无异常情况 比如非线性关系 异方差 模型辨识错误 异常值 序列相关等等 此例中各散点较随机地散布在0线的上下 没有明显的模式 可认为结果是合适的 多余的不显著的变量AGE不反映在残差图中 用Tables菜单可以加入一些其它的统计量 用Graphs菜单可以加入残差的正态概率图 ResidualNormalQQ 和偏杠杆图 PartialLeverage 在Vars菜单中可以指定一些变量 这些变量可以加入到数据窗口中 数据窗口的内容保存在内存中 不自动改写磁盘中的数据集 所以要保存数据窗口的修改结果的话需要用 File Save Data 命令指定一个用来保存的数据集名 为了了解加入的变量的具体意义 选数据窗口菜单中的 DataOptions 选中 ShowVariableLabels 选项 各变量中 HatDiag为帽子矩阵的对角线元素 帽子矩阵的 即杠杆率 反映了每个观测的影响大小 Predicted为拟合值 预报值 LinearPredictor为使用线性模型拟合的结果 在线性回归时与Predicted相同 残差对预测值散点图 Residual为残差 ResidualNormalQuantile是残差由小到大排序后对应的标准正态的分位数 第 个残差的正态分位数用 计算 其中 为残差除以其标准误差 StudentizedResidual 学生化残差 为与标准化残差类似 但计算第 个学生化残差时预测值和方差估计都是在删除第 个观测后得到的 当学生化残差的值超过2时这个观测有可能是强影响点或异常点 为标准正态分布函数 StandardizedResidual 标准化误差 关于其它的一些诊断统计量请参考帮助菜单的 ExtendedHelp SASSystemHelp Mainmenu HelpforSASProducts SAS INSIGHT Techniques MultipleRegression 或 SAS应用统计实验 SAS应用统计教程 在SAS INSIGHT中 为了保存结果表格 在进行分析之前选中菜单 File Save InitialTables 这是一个状态开关 选中时输出表格画在分析窗口内的同时显示在输出 Output 窗口 如果要保存某一个表格 也可以选定此表格 单击表格外框线 然后用菜单 File Save Tables 为了保存分析窗口的图形 先选定此图形 然后选 File Save GraphicsFile 输入一个文件名 选择一种文件类型如BMP即可 为了打印某一表格或图形 先选定它 然后用菜单 File Print 选中 File Save Statements 可以开始保存SAS INSIGHT语句 用SAS INSIGHT拟合广义线性模型 经典线性回归理论的估计与假设检验要求自变量 为常数 非随机 随机误差项满足 广义线性模型放宽了这些假设 其模型为 其中因变量 为服从指数族分布 如正态 逆高斯 伽马 泊松 二项分布 的随机变量 向量 的元素为与 分布类型相同的随机误差项 元素之间 叫做联系函数 它把因变量的均值 与自变量 阵 的线性组合联系起来 向量 为回归系数 模型中每个自变量对应于设计阵 中的一列或几列 的第一列一般元素全为1 对应于截距项 向量 是表示偏移量的变量 向量 的元素 相互独立 单调函数 注 随机变量Y称为服从指数族分布 如果其分布密度 概率函数 有如下形式 其中 为自然参数或称经典参数 为分散度参数 与尺度参数相关 a b c为确定性函数 这样的自变量Y的均值和方差与参数的关系如下 为了使用SAS INSIGHT拟合广义线性模型 在选 Analyze Fit YX 之后 选定因变量和自变量 然后按 Method 按钮 出现选择模型的对话框 在这里可以选因变量的分布类型 ResponseDist 选联系函数 选估计尺度参数的方法 各联系函数定义如下 对指数族中每一个因变量分布有一个特定的联系函数 使得 即用分布的期望值表示经典参数 这样的联系函数叫经典 canonical 联系函数 正态分布的经典联系函数为恒等变换 逆高斯分布为 2次方变换 伽玛分布为 1次方变换 泊松分布为对数变换 二项分布为逻辑变换 Logit 注意Logit probit 复合重对数变换都只适用于二项分布 例如 SASUSER INGOTS中存放了一个铸造厂的数据 它记录了各批铸件在一定的加热 浸泡时间条件下出现的不能开始轧制的铸件数目 HEAT为加热时间 SOAK为浸泡时间 N为每批铸件的件数 R为加热浸泡后N件铸件中还不能开始轧制的铸件数 R应该服从二项分布 其分布参数 比例 可能受加热 浸泡时间的影响 因此 我们拟合以R为因变量 以HEAT和SOAK为自变量的广义线性模型 因变量分布为二项分布 使用经典联系函数 Logit函数 模型为 为了拟合这样的模型 选 Analyze Fit YX 选R为Y变量 选HEAT和SOAK为自变量 按 Method 钮 选因变量分布为二项分布 Binomial 选变量N然后按 Binomial 钮 两次OK后即可以得到模型拟合窗口 可以看到 这个模型是显著的 但变量SOAK没有显著影响 去掉变量SOAK重新拟合模型 可以看出 HEAT的系数为0 0807是正数 说明加热时间越长不能轧制的件数越多 考察拟合结果窗口下方的残差对预报值图可以发现在右下方有三个异常点 用刷亮方法选定它们 可以看到 这三个观测都是总共只有一个铸件的 所以对一般结果意义不大 选 Edit Observations ExcludeinCalculation 可以把这几个点排除在外 发现结果基本不变 用REG过程进行回归分析 SAS STAT中提供了几个回归分析过程 包括REG 回归 RSREG 二次响应面回归 ORTHOREG 病态数据回归 NLIN 非线性回归 TRANSREG 变换回归 CALIS 线性结构方程和路径分析 GLM 一般线性模型 GENMOD 广义线性模型 等等 我们这里只介绍REG过程 其它过程的使用请参考 SAS系统 SAS STAT软件使用手册 REG过程的基本用法为 PROCREGDATA 输入数据集选项 VAR可参与建模的变量列表 MODEL因变量 自变量表 选项 PRINT输出结果 PLOT诊断图形 RUN REG过程是交互式过程 在使用了RUN语句提交了若干个过程步语句后可以继续写其它的REG过程步语句 提交运行 直到提交QUIT语句或开始其它过程步或数据步才终止 例如 我们对SASUSER CLASS中的WEIGHT用HEIGHT和AGE建模 可以用如下的简单REG过程调用 procregdata sashelp class varweightheightage modelweight heightage run 就可以在输出窗口产生如下结果 注意程序窗口的标题行显示 PROCREGRunning 表示REG过程还在运行 并没有终止 Model MODEL1DependentVariable WEIGHTWeightinpoundsAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb FModel27215 637103607 8185527 2280 0001Error162120 09974132 50623CTotal189335 73684RootMSE11 51114R square0 7729DepMean100 02632AdjR sq0 7445C V 11 50811ParameterEstimatesParameterStandardTforH0 VariableDFEstimateErrorParameter 0Prob T INTERCEP1 141 22376333 38309350 4 2300 0006HEIGHT13 5970270 905460723 9730 0011AGE11 2783933 110103740 4110 6865VariableVariableDFLabelINTERCEP1InterceptHEIGHT1HeightininchesAGE1Ageinyears 这些结果与SAS INSIGHT得到的结果是一致的 同样我们发现变量AGE的作用不显著 所以我们只要再提交如下语句 modelweight height run 就可以得到第二个模型结果 Model MODEL2DependentVariable WEIGHTWeightinpounds 事实上 REG提供了自动选择最优自变量子集的选项 在MODEL语句中加上 SELECTION 选择方法 的选项就可以自动挑选自变量 选择方法有NONE 全用 这是缺省 FORWARD 逐步引入法 BACKWARD 逐步剔除法 STEPWISE 逐步筛选法 MAXR 最大增量法 MINR 最小增量法 RSQUARE 选择法 ADJRSQ 修正选择法 CP Mallows的统计量法 比如 我们用如下程序 modelweight heightage selection stepwise run 可得到如下结果 StepwiseProcedureforDependentVariableWEIGHTStep1VariableHEIGHTEnteredR square 0 77050684C p 1 16895797DFSumofSquaresMeanSquareFProb FRegression17193 249118647193 2491186457 080 0001Error172142 48772347126 02868962Total189335 73684211ParameterStandardTypeIIVariableEstimateErrorSumofSquaresFProb FINTERCEP 143 0269184432 274591302475 0471758019 640 0004HEIGHT3 899030270 516093957193 2491186457 080 0001Boundsonconditionnumber 1 1 Allvariablesleftinthemodelaresignificantatthe0 1500level Noothervariablemetthe0 1500significancelevelforentryintothemodel SummaryofStepwiseProcedureforDependentVariableWEIGHTVariableNumberPartialModelStepEnteredRemovedInR 2R 2C p FProb FLabel1HEIGHT10 77050 77051 169057 07630 0001Heightininches 可见只有变量HEIGHT进入了模型 而其它变量 AGE 则不能进入模型 REG过程给出的缺省结果比较少 如果要输出高分辨率诊断图形的话需要在PROCREG过程语句中加上GRAPHICS选项 用PRINT语句和PLOT语句显示额外的结果 为了显示模型的预测值 拟合值 和95 预测界限 使用语句printcli run 得到如下的结果 DepVarPredictStdErrLower95 Upper95 ObsWEIGHTValuePredictPredictPredictResidual184 000077 26833 96352 1503102 46 7317298 0000111 62 99587 0659136 1 13 5798390 0000107 72 76883 2863132 1 17 6807477 000076 48854 04251 3145101 70 5115584 500090 13512 88965 6780114 6 5 63516112 0116 33 35491 5388141 0 4 2586750 500056 99336 25129 883584 1032 6 49338112 5100 72 57776 3612125 011 83759102 5101 82 58777 5263126 10 667810112 5126 04 296100 6151 4 13 506211102 5104 62 64580 2279128 9 2 061512133 0118 23 52593 3827143 014 79191383 000080 38753 65955 4757105 32 61251484 0000100 72 57776 3612125 0 16 66251599 500087 01593 09862 4451111 612 484116150 0137 75 613111 2164 212 296717128 0109 62 87285 1821134 118 36981885 000081 16733 58756 3025106 03 832719112 0116 33 35491 5388141 0 4 2586SumofResiduals0SumofSquaredResiduals2142 4877PredictedResidSS Press 2651 3521 各列分别为观测序号 Obs 因变量的值 DepVar 预测值 PredictValue 预测值的标准误差 StdErrPredict 95 预测区间下限 Lower95 Predict 95 预测区间上限 Upper95 Predict 残差 Residual 为因变量值减预测值 在表后又给出了残差的总和 SumofResiduals 残差平方和 SumofSquaredResiduals 预测残差的平方和 PredictedResidSS Press 所谓预测残差 是在计算第i号观测的残差时从实际值中减去的预报值是用扣除第i号观测后的样本得到的模型产生的预报值 而不是我们一般所用的预测值 实际是拟合值 第i号样本的预测残差还可以用公式 来计算 其中 为帽子矩阵 的第i个主对角线元素 用printcli列出的是实际值的预测界限 还可以列出模型均值的预测界限 使用printclm 语句 在PRINT语句中可以指定的有ACOV ALL CLI CLM COLLIN COLLINOINT COOKD CORRB COVB DW I INFLUENCE P PARTIAL PCORR1 PCORR2 R SCORR1 SCORR2 SEQB SPEC SS1 SS2 STB TOL VIF XPX 等等 对于自变量是一元的情况 可以在自变量和因变量的散点图上附加回归直线和均值置信界限 比如 plotweight height conf95 可以产生下图 在图的上方列出了模型方程 右方还给出了观测个数 修正 等特殊名字表示预测值 残差等计算出的变量 比如 在自变量为多元时无法作回归直线 常用的诊断图表为残差对预测值图 就可以用plotresidual predicted 绘制 为了绘制学生化残差的图形 可以用plotrstudent obs 回归分析的其它用法及进一步的诊断方法请参考有关统计书籍和SAS使用手册 均方误差开根 在PLOT语句中可以使用PREDICTED RESIDUAL 图4REG过程的PLOT语句的结果 TheEndofSession 谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!