SPSS回归分析

上传人:沈*** 文档编号:125921471 上传时间:2022-07-27 格式:DOC 页数:43 大小:1.41MB
返回 下载 相关 举报
SPSS回归分析_第1页
第1页 / 共43页
SPSS回归分析_第2页
第2页 / 共43页
SPSS回归分析_第3页
第3页 / 共43页
点击查看更多>>
资源描述
一元回归分析在数学关系式中只描述了一种变量与另一种变量之间的数量变化关系,则称其为一元回归分析。其回归模型为y 称为因变量,x称为自变量,称为随机误差,a,b 称为待估计的回归参数,下标i表达第i个观测值。 如果给出a和b的估计量分别为,,则经验回归方程:一般把称为残差, 残差可视为扰动的“估计量”。例子:湖北省汉阳县历年越冬代二化螟发蛾盛期与当年三月上旬平均气温的数据如表1-1,分析三月上旬平均温度与越冬代二化螟发蛾盛期的关系。表1-1 三月上旬平均温度与越冬代二化螟发蛾盛期的状况表年份 1961196219631964196519661967196819691970三月上旬平均温度 8.68.39.78.57.58.47.39.75.45.5越冬代二化螟发蛾盛期(6月30日为0) 3531445275数据保存在“DATA6-1.SAV”文献中。1)准备分析数据 在数据编辑窗口中输入数据。建立因变量历期“历期”在SPSS数据编辑窗口中,创立“年份”、“温度”和“发蛾盛期”变量,并把数据输入相应的变量中。或者打开已存在的数据文献“DATA6-1.SAV”。2)启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图1-1所示的线性回归过程窗口。图1-1 线性回归对话窗口3) 设立分析变量设立因变量:本例为“发蛾盛期”变量,用鼠标选中左边变量列表中的“发蛾盛期”变量,然后点击“Dependent”栏左边的向右拉按钮,该变量就自动调入“Dependent”显示栏里。设立自变量:选择一种变量作为自变量进入“Independent(S)”框中。用鼠标选中左边变量列表中的“温度”变量,然后点击“Independent(S)”栏左边的向右拉按钮,该变量就自动调入“Independent(S)”显示栏里。注:SPSS中一元回归和多元回归以及多元逐渐回归都是使用同一过程,因此该栏可以输入多种自变量。设立控制变量“Selection Variable”为控制变量输入栏。控制变量相称于过滤变量,即必须当该变量的值满足设立的条件时,观测量才干参与回归分析。当你输入控制变量后,单击“Rule”按钮,将打开如图1-2所示的对话。图1-2“Rule”对话框在“Rule”对话框中,右边的“Value”框用于输入数值,左边的下拉列表中列出了观测量的选择关系,其中各项的意义分别为: “equal to”等于。 “not equal to”不等于。 “less than”不不小于。 “less than or equal”不不小于或等于。 “greater than”不小于。 “greater than or equal”不小于或等于。 本例的控制变量是“计算”,将它选入“Selection Variable”变量栏里,在“Rule”对话框中选择“equal to”=1。选择标签变量“Case Labels”框用于选择观测量的标签变量。在输出成果中,可显示该观测量的值,通过该变量的值可查看相应的观测量。本例子选择“年份”为标签变量。选择加权变量在主对话框中单击“WLS”按钮,将在主对话框下方展开一种输入框,该框用于输入加权变量。本例子没有加权变量,因此不作任何设立。4)回归方式在“Method”框中选择一种回归分析方式。其中,各项的意义为: 全进入 “Enter”所选择的自变量将所有进入建立的回归方程中,该项为默认方式。 逐渐进入 “Stepwise”根据“Options”对话框中的设立,在方程中加入或剔除单个变量直到所建立的方程中不再具有可加入或剔除的变量为止。 后进入 “Remove”将进入方程中的自变量同步剔除。 先进入 “Backward”自变量框中所有的变量同步进入方程中,然后根据“Options”对话框中的设立,剔除某个变量,直到所建立的方程中不再具有可剔除的变量为止。 条件进入“Forward”根据“Options”对话框中的设立,在方程中每次加入一种变量,直至加入所有符合条件的变量为止。 本例子是一元回归,只能选第一项。5)设立输出记录量单击“Statistics”按钮,将打开如图1-3所示的对话框。该对话框用于设立有关参数。其中各项的意义分别为:图1-3 “Statistics”对话框“Regression Coefficients”回归系数选项:“Estimates”输出回归系数和有关记录量。“Confidence interval”回归系数的95%置信区间。“Covariance matrix”回归系数的方差-协方差矩阵。本例子选择“Estimates”输出回归系数和有关记录量。“Residuals”残差选项:“Durbin-Watson”Durbin-Watson检查。“Casewise diagnostic”输出满足选择条件的观测量的有关信息。选择该项,下面两项处在可选状态:“Outliers outside standard deviations”选择原则化残差的绝对值不小于输入值的观测量;“All cases”选择所有观测量。本例子都不选。 其他输入选项“Model fit”输出有关系数、有关系数平方、调节系数、估计原则误、ANOVA表。“R squared change”输出由于加入和剔除变量而引起的复有关系数平方的变化。“Descriptives”输出变量矩阵、原则差和有关系数单侧明显性水平矩阵。“Part and partial correlation”有关系数和偏有关系数。“Collinearity diagnostics”显示单个变量和共线性分析的公差。本例子选择“Model fit”项。6)绘图选项在主对话框单击“Plots”按钮,将打开如图1-4所示的对话框窗口。该对话框用于设立要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。图1-4“Plots”绘图对话框窗口左上框中各项的意义分别为: “DEPENDNT”因变量。 “ZPRED”原则化预测值。 “ZRESID”原则化残差。 “DRESID”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。 “Standardized Residual Plots”设立各变量的原则化残差图形输出。其中共涉及两个选项:“Histogram”用直方图显示原则化残差。“Normal probability plots”比较原则化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一种自变量生成其残差对因变量残差的散点图。本例子不作绘图,不选择。7) 保存分析数据的选项在主对话框里单击“Save”按钮,将打开如图1-5所示的对话框。图1-5 “Save”对话框“Predicted Values”预测值栏选项:Unstandardized 非原则化预测值。就会在目前数据文献中新添加一种以字符“PRE_”开头命名的变量,寄存根据回归模型拟合的预测值。Standardized 原则化预测值。Adjusted 调节后预测值。S.E. of mean predictions 预测值的原则误。本例选中“Unstandardized”非原则化预测值。 “Distances”距离栏选项:Mahalanobis: 距离。Cooks”: Cook距离。Leverage values: 杠杆值。“Prediction Intervals”预测区间选项:Mean: 区间的中心位置。Individual: 观测量上限和下限的预测区间。在目前数据文献中新添加一种以字符“LICI_”开头命名的变量,寄存预测区间下限值;以字符“UICI_”开头命名的变量,寄存预测区间上限值。Confidence Interval:置信度。本例选中“Individual” 观测量上限和下限的预测区间。“Save to New File”保存为新文献:选中“Coefficient statistics”项将回归系数保存到指定的文献中。本例不选。 “Export model information to XML file” 导出记录过程中的回归模型信息到指定文献。本例不选。“Residuals” 保存残差选项:“Unstandardized”非原则化残差。“Standardized”原则化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentized deleted”学生氏化删除残差。本例不选。“Influence Statistics” 记录量的影响。“DfBeta(s)”删除一种特定的观测值所引起的回归系数的变化。“Standardized DfBeta(s)”原则化的DfBeta值。“DiFit” 删除一种特定的观测值所引起的预测值的变化。“Standardized DiFit”原则化的DiFit值。“Covariance ratio”删除一种观测值后的协方差矩隈的行列式和带有所有观测值的协方差矩阵的行列式的比率。本例子不保存任何分析变量,不选择。8)其他选项在主对话框里单击“Options”按钮,将打开如图1-6所示的对话框。图1-6 “Options”设立对话框“Stepping Method Criteria”框用于进行逐渐回归时内部数值的设定。其中各项为:“Use probability of F”如果一种变量的F值的概率不不小于所设立的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值的概率不小于设立的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设立“Use probability of F”时,应使进入值不不小于剔除值。“Ues F value”如果一种变量的F值不小于所设立的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值不不小于设立的剔除值(Removal),则该变量将从回归方程中被剔除。同步,设立“Use F value”时,应使进入值不小于剔除值。“Include constant in equation”选择此项表达在回归方程中有常数项。本例选中“Include constant in equation”选项在回归方程中保存常数项。“Missing Values”框用于设立对缺失值的解决措施。其中各项为:“Exclude cases listwise”剔除所有具有缺失值的观测值。“Exchude cases pairwise”仅剔除参与记录分析计算的变量中具有缺失值的观测量。“Replace with mean”用变量的均值取代缺失值。本例选中“Exclude cases listwise”。9)提交执行在主对话框里单击“OK”,提交执行,成果将显示在输出窗口中。见表1-2至表1-5。10) 成果分析 成果:表1-2 给出了回归的措施是全回归模式,模型编号为1,自变量是“温度”,因变量是“发蛾盛期”。表1-2表1-3 是回归模型记录量:R 是有关系数;R Square 有关系数的平方,又称鉴定系数,鉴定线性回归的拟合限度:用来阐明用自变量解释因变量变异的限度(所占比例);Adjusted R Square 调节后的鉴定系数;Std. Error of the Estimate 估计原则误差。表1-3 表1-4 回归模型的方差分析表,F值为11.748,明显性概率是0.009,表白回归极明显。表1-4表1-5 回归模型系数表,以及t检查成果。表1-5分析:从上面的回归分析成果表白:三月上旬平均温度与越冬代二化螟发蛾盛期的关系极为密切,有关系数0.7713;同步方差分析表白,其明显性水平为0.009。根据回归系数表6-5,可写出回归方程如下:其中x代表三月上旬平均温度; 代表越冬代二化螟发蛾盛期(其值加上7月0日为实际日期)。预测值的回归误差可用剩余均方估计:预测 由于在分析时使用了控制变量“计算”,数据中第11个记录的数据在建立回归方程时,并没有使用它,是留作用于预测的。因此,在选择了保存预测值选项,用模型预测的成果可以在数据窗口中看到(图1-7)。图6-7 分析过程执行后的数据窗口 在图6-7中得知,用1971年三月上旬平均温度4.3,预测值为7.1天,95%的置信区间是3.510.6天,预测值的有关记录量见表1-6。表1-6逐渐回归分析在自变量诸多时,其中有的因素也许相应变量的影响不是很大,并且x之间也许不完全互相独立的,也许有种种互作关系。在这种状况下可用逐渐回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。逐渐回归分析,一方面要建立因变量y与自变量x之间的总回归方程,再对总的方程及每个自变量进行假设检查。当总的方程不明显时,表白该多元回归方程线性关系不成立;而当某个自变量对y影响不明显时,应当把它剔除,重新建立不涉及该因子的多元回归方程。筛选出有明显影响的因子作为自变量,并建立“最优”回归方程。回归方程涉及的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些有关性不明显的预报因子会影响预测的效果。因此在多元回归模型中,选择合适的变量数目尤为重要。逐渐回归在病虫预报中的应用实例:以陕西省长武地区19841995年的烟蚜传毒病情资料、有关虫情和气象资料为例(数据见DATA6.xls),建立蚜传病毒病情指数的逐渐回归模型,阐明逐渐回归分析的具体环节。影响蚜传病毒病情指数的虫情因子和气象因子一共有21个,通过逐渐回归,从中选出对病情指数影响明显的因子,从而建立相应的模型。对19841995年的病情指数进行回检,然后对19961998年的病情进行预报,再检查预报的效果。变量阐明如下:y:历年病情指数 x1:前年冬季油菜越冬时的蚜量(头/株)x2:前年冬季极端气温 x3:5月份最高气温 x4:5月份最低气温 x5:35月份降水量 x6:46月份降水量 x7:35月份均温 x8:46月份均温 x9:4月份降水量 x10:4月份均温 x11:5月份均温 x12:5月份降水量 x13:6月份均温 x14:6月份降水量 x15:第一次蚜迁高峰期百株烟草有翅蚜量 x16:5月份油菜百株蚜量 x17:7月份降水量 x18:8月份降水量 x19:7月份均温 x20:8月份均温 x21:元月均温 1)准备分析数据 在SPSS数据编辑窗口中,用“FileOpenData”命令,打开“DATA6.xls”数据文献。数据工作区如下图3-1显示。图3-12)启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图3-2所示的线性回归过程窗口。图3-2 线性回归对话窗口3) 设立分析变量设立因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。设立自变量:将左边变量列表中的“x1”“x21”变量,所有选移到“Independent(S)”自变量栏里。 设立控制变量: 本例子中不使用控制变量,因此不选择任何变量。选择标签变量: 选择“年份”为标签变量。选择加权变量: 本例子没有加权变量,因此不作任何设立。4)回归方式在“Method”分析措施框中选中“Stepwise”逐渐分析措施。该措施是根据“Options”选择对话框中明显性检查(F)的设立,在方程中进入或剔除单个变量,直到所建立的方程中不再具有可加入或可剔除的变量为止。设立后的对话窗口如图3-3。图3-35)设立变量检查水平 在图6-15主对话框里单击“Options”按钮,将打开如图3-4所示的对话框。图3-4“Stepping Method Criteria”框里的设立用于逐渐回归分析的选择原则。其中“Use probability of F”选项,提供设立明显性F检查的概率。如果一种变量的F检查概率不不小于或等于进入“Entry”栏里设立的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检查概率不小于剔除“Removal”栏里设立的值,则该变量将从回归方程中被剔除。由此可见,设立F检查概率时,应使进入值不不小于剔除值。“Ues F value” 选项,提供设立明显性F检查的分布值。如果一种变量的F值不小于所设立的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值不不小于设立的剔除值(Removal),则该变量将从回归方程中被剔除。同步,设立F分布值时,应当使进入值不小于剔除值。本例子使用明显性F检查的概率,在进入“Entry”栏里设立为“0.15”,在剔除“Removal”栏里设立为“0.20”(剔除的概率值应比进入的值大),如图6-17所示。图6-17窗口中的其他设立参照一元回归设立。6)设立输出记录量在主对话图3-2窗口中,单击“Statistics”按钮,将打开如图6-18所示的对话框。该对话框用于设立有关参数。其中各项的意义分别为:图3-5 “Statistics”对话框“Regression Coefficients”回归系数选项:“Estimates”输出回归系数和有关记录量。“Confidence interval”回归系数的95%置信区间。“Covariance matrix”回归系数的方差-协方差矩阵。本例子选择“Estimates”输出回归系数和有关记录量。“Residuals”残差选项:“Durbin-Watson”Durbin-Watson检查。“Casewise diagnostic”输出满足选择条件的观测量的有关信息。选择该项,下面两项处在可选状态:“Outliers outside standard deviations”选择原则化残差的绝对值不小于输入值的观测量;“All cases”选择所有观测量。本例子都不选。 其他输入选项“Model fit”输出有关系数、有关系数平方、调节系数、估计原则误、ANOVA表。“R squared change”输出由于加入和剔除变量而引起的复有关系数平方的变化。“Descriptives”输出变量矩阵、原则差和有关系数单侧明显性水平矩阵。“Part and partial correlation”有关系数和偏有关系数。“Collinearity diagnostics”显示单个变量和共线性分析的公差。本例子选择“Model fit”项。 7)绘图选项在主对话框单击“Plots”按钮,将打开如图3-6所示的对话框窗口。该对话框用于设立要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。图3-6“Plots”绘图对话框窗口左上框中各项的意义分别为: “DEPENDNT”因变量。 “ZPRED”原则化预测值。 “ZRESID”原则化残差。 “DRESID”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。 “Standardized Residual Plots”设立各变量的原则化残差图形输出。其中共涉及两个选项:“Histogram”用直方图显示原则化残差。“Normal probability plots”比较原则化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一种自变量生成其残差对因变量残差的散点图。本例子不作绘图,不选择。8) 保存分析数据的选项在主对话框里单击“Save”按钮,将打开如图3-7所示的对话框。图3-7“Save”对话框“Predicted Values”预测值栏选项:Unstandardized 非原则化预测值。就会在目前数据文献中新添加一种以字符“PRE_”开头命名的变量,寄存根据回归模型拟合的预测值。Standardized 原则化预测值。Adjusted 调节后预测值。S.E. of mean predictions 预测值的原则误。本例选中“Unstandardized”非原则化预测值。 “Distances”距离栏选项:Mahalanobis: 距离。Cooks”: Cook距离。Leverage values: 杠杆值。“Prediction Intervals”预测区间选项:Mean: 区间的中心位置。Individual: 观测量上限和下限的预测区间。在目前数据文献中新添加一种以字符“LICI_”开头命名的变量,寄存预测区间下限值;以字符“UICI_”开头命名的变量,寄存预测区间上限值。Confidence Interval:置信度。本例不选。“Save to New File”保存为新文献:选中“Coefficient statistics”项将回归系数保存到指定的文献中。本例不选。 “Export model information to XML file” 导出记录过程中的回归模型信息到指定文献。本例不选。“Residuals” 保存残差选项:“Unstandardized”非原则化残差。“Standardized”原则化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentized deleted”学生氏化删除残差。本例不选。“Influence Statistics” 记录量的影响。“DfBeta(s)”删除一种特定的观测值所引起的回归系数的变化。“Standardized DfBeta(s)”原则化的DfBeta值。“DiFit” 删除一种特定的观测值所引起的预测值的变化。“Standardized DiFit”原则化的DiFit值。“Covariance ratio”删除一种观测值后的协方差矩隈的行列式和带有所有观测值的协方差矩阵的行列式的比率。本例子不保存任何分析变量,不选择。9)提交执行在主对话框里单击“OK”,提交执行,成果将显示在输出窗口中。重要成果见表6-10至表6-13。10) 成果分析 重要成果:表6-10 是逐渐回归每一步进入或剔除回归模型中的变量状况。表6-11 是逐渐回归每一步的回归模型的记录量:R 是有关系数;R Square 有关系数的平方,又称鉴定系数,鉴定线性回归的拟合限度:用来阐明用自变量解释因变量变异的限度(所占比例);Adjusted R Square 调节后的鉴定系数;Std. Error of the Estimate 估计原则误差。表6-12 是逐渐回归每一步的回归模型的方差分析,F值为10.930,明显性概率是0.001,表白回归极明显。表6-13 是逐渐回归每一步的回归方程系数表。分析:建立回归模型:根据多元回归模型:从6-13中看出,过程一共运营了四步,最后一步以就是表中的第4步的计算成果得知:21个变量中只进入了4个变量x15、x4、x7 和 x5。把表6-13中“非原则化回归系数”栏目中的“B”列数据代入多元回归模型得到预报方程:预测值的原则差可用剩余原则差估计:回归方程的明显性检查:从表6-12方差分析表第4模型中得知:F记录量为622.72,系统自动检查的明显性水平为0.0000(非常小)。F(0.00001,4,7)值为70.00。因此回归方程有关非常非常明显。由回归方程式可以看出,在陕西长武烟草蚜传病毒病8月份的病情指数(y)与x4(5月份最低气温)、x15(第一次蚜迁高峰期百株烟草有翅蚜量)呈明显正有关,而与x5(35月份降水量)和x7 (35月份均温)呈明显负有关。通过大田调查成果表白,烟草蚜传病毒病发生与蚜虫的迁飞有密切的关系。迁入烟田的有翅蚜有两次高峰期,呈双峰曲线。第一高峰期出目前5月中旬至6月初,本次迁飞的高峰期与大田发病率呈明显正有关。第二高峰期在6月上旬末至6月中旬,本次迁飞高峰期与大田发病率关系不大。5月份的最低气温(x4)和35月份均温(x7 )通过影响传媒介体蚜虫的活动来影响田间发病。而第一次蚜迁高峰期百株烟草有翅蚜量(x15)是影响烟草蚜传病毒病病情指数(y)的重要因子。35月份降水量(x5)通过影响田间蚜虫传病毒病发病植株的症状体现影响大田发病限度。多元回归分析在大多数的实际问题中,影响因变量的因素不是一种而是多种,我们称此类回问题为多元回归分析。可以建立因变量y与各自变量xj(j=1,2,3,n)之间的多元线性回归模型:其中:b0是回归常数;bk(k=1,2,3,n)是回归参数;e是随机误差。多元回归在病虫预报中的应用实例:某地区病虫测报站用有关系数法选用了如下4个预报因子;x1为最多持续10天诱蛾量(头);x2为4月上、中旬百束小谷草把合计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫010头为1级,1120头为2级,2140头为3级,40头以上为4级。 预报因子:x1诱蛾量0300头为l级,301600头为2级,6011000头为3级,1000头以上为4级;x2卵量0150块为1级,15l300块为2级,301550块为3级,550块以上为4级;x3降水量010.0毫米为1级,10.113.2毫米为2级,13.317.0毫米为3级,17.0毫米以上为4级;x4雨日02天为1级,34天为2级,5天为3级,6天或6天以上为4级。 表2-1 x1 x2 x3 x4 y年 蛾量 级别 卵量 级别 降水量 级别 雨日 级别 幼虫密度 级别 19601022411214.31211011961300144030.111141196269936717.511191196318764675417.147455419654318011.9121111966422220101013119678063510311.82322831976115124020.612171197171831460418.444245419728033630413.433226319735722280213.224216219742641330342.243219219751981165271.84532331976461214017.515328319777693640444.7432444197825516510101112数据保存在“DATA6-5.SAV”文献中。1)准备分析数据 在SPSS数据编辑窗口中,创立“年份”、“蛾量”、“卵量”、“降水量”、“雨日”和“幼虫密度”变量,并输入数据。再创立蛾量、卵量、降水量、雨日和幼虫密度的分级变量“x1”、“x2”、“x3”、“x4”和“y”,它们相应的分级数值可以在SPSS数据编辑窗口中通过计算产生。编辑后的数据显示如图2-1。图2-1或者打开已存在的数据文献“DATA6-5.SAV”。2)启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图2-2所示的线性回归过程窗口。图2-2 线性回归对话窗口3) 设立分析变量设立因变量:用鼠标选中左边变量列表中的“幼虫密度y”变量,然后点击“Dependent”栏左边的向右拉按钮,该变量就移到“Dependent”因变量显示栏里。设立自变量:将左边变量列表中的“蛾量x1”、“卵量x2”、“降水量x3”、“雨日x4”变量,选移到“Independent(S)”自变量显示栏里。 设立控制变量: 本例子中不使用控制变量,因此不选择任何变量。选择标签变量: 选择“年份”为标签变量。选择加权变量: 本例子没有加权变量,因此不作任何设立。4)回归方式本例子中的4个预报因子变量是通过有关系数法选用出来的,在回归分析时不做筛选。因此在“Method”框中选中“Enter”选项,建立全回归模型。 5)设立输出记录量单击“Statistics”按钮,将打开如图2-3所示的对话框。该对话框用于设立有关参数。其中各项的意义分别为:图2-3 “Statistics”对话框“Regression Coefficients”回归系数选项:“Estimates”输出回归系数和有关记录量。“Confidence interval”回归系数的95%置信区间。“Covariance matrix”回归系数的方差-协方差矩阵。本例子选择“Estimates”输出回归系数和有关记录量。“Residuals”残差选项:“Durbin-Watson”Durbin-Watson检查。“Casewise diagnostic”输出满足选择条件的观测量的有关信息。选择该项,下面两项处在可选状态:“Outliers outside standard deviations”选择原则化残差的绝对值不小于输入值的观测量;“All cases”选择所有观测量。本例子都不选。 其他输入选项“Model fit”输出有关系数、有关系数平方、调节系数、估计原则误、ANOVA表。“R squared change”输出由于加入和剔除变量而引起的复有关系数平方的变化。“Descriptives”输出变量矩阵、原则差和有关系数单侧明显性水平矩阵。“Part and partial correlation”有关系数和偏有关系数。“Collinearity diagnostics”显示单个变量和共线性分析的公差。本例子选择“Model fit”项。 6)绘图选项在主对话框单击“Plots”按钮,将打开如图2-4所示的对话框窗口。该对话框用于设立要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。图2-4“Plots”绘图对话框窗口左上框中各项的意义分别为: “DEPENDNT”因变量。 “ZPRED”原则化预测值。 “ZRESID”原则化残差。 “DRESID”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。 “Standardized Residual Plots”设立各变量的原则化残差图形输出。其中共涉及两个选项:“Histogram”用直方图显示原则化残差。“Normal probability plots”比较原则化残差与正态残差的分布示意图。“Produce all partial plot”偏残差图。对每一种自变量生成其残差对因变量残差的散点图。本例子不作绘图,不选择。7) 保存分析数据的选项在主对话框里单击“Save”按钮,将打开如图2-5所示的对话框。图2-5 “Save”对话框“Predicted Values”预测值栏选项:Unstandardized 非原则化预测值。就会在目前数据文献中新添加一种以字符“PRE_”开头命名的变量,寄存根据回归模型拟合的预测值。Standardized 原则化预测值。Adjusted 调节后预测值。S.E. of mean predictions 预测值的原则误。本例选中“Unstandardized”非原则化预测值。 “Distances”距离栏选项:Mahalanobis: 距离。Cooks”: Cook距离。Leverage values: 杠杆值。“Prediction Intervals”预测区间选项:Mean: 区间的中心位置。Individual: 观测量上限和下限的预测区间。在目前数据文献中新添加一种以字符“LICI_”开头命名的变量,寄存预测区间下限值;以字符“UICI_”开头命名的变量,寄存预测区间上限值。Confidence Interval:置信度。本例不选。“Save to New File”保存为新文献:选中“Coefficient statistics”项将回归系数保存到指定的文献中。本例不选。 “Export model information to XML file” 导出记录过程中的回归模型信息到指定文献。本例不选。“Residuals” 保存残差选项:“Unstandardized”非原则化残差。“Standardized”原则化残差。“Studentized”学生氏化残差。“Deleted”删除残差。“Studentized deleted”学生氏化删除残差。本例不选。“Influence Statistics” 记录量的影响。“DfBeta(s)”删除一种特定的观测值所引起的回归系数的变化。“Standardized DfBeta(s)”原则化的DfBeta值。“DiFit” 删除一种特定的观测值所引起的预测值的变化。“Standardized DiFit”原则化的DiFit值。“Covariance ratio”删除一种观测值后的协方差矩隈的行列式和带有所有观测值的协方差矩阵的行列式的比率。本例子不保存任何分析变量,不选择。8)其他选项在主对话框里单击“Options”按钮,将打开如图2-6所示的对话框。图2-6 “Options”设立对话框“Stepping Method Criteria”框用于进行逐渐回归时内部数值的设定。其中各项为:“Use probability of F”如果一种变量的F值的概率不不小于所设立的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值的概率不小于设立的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设立“Use probability of F”时,应使进入值不不小于剔除值。“Ues F value”如果一种变量的F值不小于所设立的进入值(Entry),那么这个变量将被选入回归方程中;当变量的F值不不小于设立的剔除值(Removal),则该变量将从回归方程中被剔除。同步,设立“Use F value”时,应使进入值不小于剔除值。本例是全回归不设立。“Include constant in equation”选择此项表达在回归方程中有常数项。本例选中“Include constant in equation”选项在回归方程中保存常数项。“Missing Values”框用于设立对缺失值的解决措施。其中各项为:“Exclude cases listwise”剔除所有具有缺失值的观测值。“Exchude cases pairwise”仅剔除参与记录分析计算的变量中具有缺失值的观测量。“Replace with mean”用变量的均值取代缺失值。本例选中“Exclude cases listwise”。9)提交执行在主对话框里单击“OK”,提交执行,成果将显示在输出窗口中。重要成果见表2-2至表2-4。10) 成果分析 重要成果:表2-2表2-2 是回归模型记录量:R 是有关系数;R Square 有关系数的平方,又称鉴定系数,鉴定线性回归的拟合限度:用来阐明用自变量解释因变量变异的限度(所占比例);Adjusted R Square 调节后的鉴定系数;Std. Error of the Estimate 估计原则误差。表2-3表2-3 回归模型的方差分析表,F值为10.930,明显性概率是0.001,表白回归极明显。表2-4分析:建立回归模型:根据多元回归模型:把表6-9中“非原则化回归系数”栏目中的“B”列系数代入上式得预报方程:预测值的原则差可用剩余均方估计:回归方程的明显性检查:从表6-8方差分析表中得知:F记录量为10.93,系统自动检查的明显性水平为0.001。F(0.05,4,11)值为3.36,F(0.01,4,11) 值为5.67,F(0.001,4,11) 值为10.35。因此回归方程有关非常明显。(F值可在Excel中用FINV( )函数获得)。回代检查需要作预报效果的验证时,在主对话框(图6-8)里单击“Save”按钮,在打开如图3-6所示对话框里,选中“Predicted Values”预测值选项栏中的“Unstandardized”非原则化预测值选项。这样在过程运算时,就会在目前文献中新添加一种“PRE_1”命名的变量,该变量寄存根据回归模型拟合的预测值。然后,在SPSS数据窗口计算“y”与“PRE_1”变量的差值(图2-7),本例子把绝对差值不小于0.8视为不符合,反之则符合。成果符合的年数为,1年不符合,历史符合率为93.75%。图2-7多元回归分析法可综合多种预报因子的作用,作出预报,在记录预报中是一种应用较为普遍的措施。在实际运用中,采用将预报因子和预报量按一定原则分为多级,用分级尺度代换较大的数字,更能揭示预报因子与预报量的关系,预报效果比采用数量值记录措施有明显的提高,在实际应用中具有一定的现实意义。 曲线回归分析在一元回归中,若因变量和自变量有关的趋势不是线性分布,呈现曲线关系。这种状况可以运用SPSS提供的曲线估计过程(Curve Estimation)以便地进行线性拟合,选出最佳的回归模型来拟合出相应曲线。下面以一种实例来简介曲线拟合的基本环节和使用措施。例子台湾稻螟蚁螟侵入不同叶龄稻茎后的生存率数据(表4-1)。拟合出适合的曲线模型,来体现不同叶龄稻茎对台湾稻螟蚁螟侵入的生存关系。表4-1 台湾稻螟蚁螟侵入不同叶龄稻茎后的生存率数据 生存率 8.910.312.312.913.113.513.813.612.713.5叶龄234567891011本例子数据保存在DATA6-3.SAV。1)准备分析数据 在SPSS数据编辑窗口建立变量“生存率”和“叶龄”两个变量,把表6-13中的数据输入到相应的变量中。或者打开已经存在的数据文献(DATA6-3.SAV)。2)启动线性回归过程单击SPSS主菜单的“Analyze”下的“Regression”中“Curve Estimation”项,将打开如图4-1所示的线回归对话窗口。图4-1 线回归对话窗口3) 设立分析变量设立因变量:从左侧的变量列表框中选择一种或多种因变量进入“Dependent(s)”框。本例子选“生存率”变量为因变量。设立自变量:选择一种变量为自变量,进入“Independent”框,也可选用“Independent”框中的“Time”项,即以时间为自变量。本例子选“叶龄”变量为自变量。 选择标签变量: 选择一种变量进入到“Case Labels”框中,该变量为标签变量,可以运用该变量的值在图上查找观测值。本例子没有标签变量。4)选择曲线方程模型在“Models”框中选择一种或多种回归方程模型,这11个模型都可化为相应的线性模型。其中各项的意义分别为:(1) Linear 线性模型 (2) Quadratic 二次模型 (3) Compound 复合模型 (4) Growth 生长模型 (5) Logarithmic 对数模型 (6) S 形模型 (7) Cubic 抛物线模型 (8) Exponential 指数的模型 (9) Inverse 倒数模型 (10) Power 幂函数模型 (11) Logistic 逻辑斯蒂模型 在各项模型上单击鼠标右键,可以得到模型的方程类型。当选中“Logistic”项时,应在“Upper bound”框中输入一种数值作为逻辑模型的上限值。本例子选中第9号模型(Inverse,倒数模型)。5)设立方程常数项 选中“Include constant in equation”项回归方程中涉及常数项。6)绘制模型拟合图选中“Plot models”项绘制出回归方程模型图。本例子选中此项。7)输出方差分析表选中“Display ANOVA table”项,将输出方差分析表。8) 保存分析数据单击“Save”按钮,将打开如图4-2所示的对话框。该对话框用于选择要保存的新变量。图4-2 曲线回归保存值设立对话窗口“Save Variables”框中列出了可保存的新变量:“Predicted values”预测值。因变量的预测值。“Residuals”残差。因变量的观测值和预测值的差。“Prediction intervals”残差因变量的预测区间。当选中“Prediction intervals”项时,可在该项下面的“Confidence interval”框中输入明显性水平。本例子选中“Predicted values”项、“Residuals”项和“Prediction intervals”项。“Predict cases”:当选择时间序列为自变量时,本栏设立一种超过数据时间序列的预测周期。其中各项的意义分别为:“Predict from estimation period through last case”根据估计周期为所有的观测量提供预测周期。“Predict through”当要预测的观测量超过目前的数据时间序列时,输入观测量的一种周期数值。9)提交执行在主对话框里单击“OK”,提交执行,成果将显示在输出窗口中。输出成果重要分两部分:第一部分是文本输出,给出了曲线模型、各记录量、方差分析以及曲线方程系数,见图3-3;第二部分是预测模型与分析数据的图形比较,见图3-2。有时SPSS在输出浏览窗口不会完全显示出来所有的文本,在文本框左下角显示了一种红色三角形来提示我们。可以使用鼠标选中文本块,拖动鼠标把文本框扩大,直至显示出所有文本。根据“曲线回归保存值设立对话窗口”的设立,SPSS在数据编辑窗口增添如下变量: fit_1为线性预测值; err_1为观测值和线性预测值的差值; lcl_1和ucl_1分别为明显性水平为95%的线性预测区间的上限和下限。 10) 成果分析 重要成果:图3-3 曲线回归的文字输出部分图3-4 回归方程模型图分析:建立回归模型:根据图3-3中方程变量表得: y = 14.861706 - 11.890356/x回归方程的明显性检查:回归方程的方差分析表白:F=81.94,明显水平为0.000。有关系数平方(R2)=0.91105。从图3-4回归方程模型图中也可以看出模型拟合限度是较好的。成果: 表白用“ y = 14.861706 - 11.890356/x”模型能较好地描述了水稻不同叶龄(x)对台湾稻螟蚁螟侵入后生存率(y)影响的数量有关关系。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!