资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,IBM-SPSS,第,27,章,曲线回归与非线性回归,曲线直线化变化方法,曲线直线化法,即利用变量变换的方法,使变换后的两个变量之间呈直线关系。求出直线回归方程后,再将方程中的变量通过逆变换还原,求得所求的曲线回归方程。,1,多项式曲线,y=a+bx+cx,2,2,对数函数,y=a+blnx,3,指数函数,y=ae,bx,或,y=ae,b/x,(,a,0,),4,幂函数,y=ax,b,(,a 0,),5,双曲线函数,1/y=a+b/x,变量变换后实现线性回归的步骤,对于可以通过变量变换实现线性化的资料,回归的步骤如下:,(,1,)绘制散点图,观测散点图分布特征类似于何种函数类型,,(,2,)按照所选定的函数进行相应的变量转换,(,3,)对变换后的数据建立直线回归模型,(,4,)拟合多个相近的模型,然后通过比较各模型的拟合优度挑选较为合适的模型。,实例详解,对,GDP,(国内生产总值)的拟合。选取,GDP,指标为因变量,单位为百万美元,请根据图,27-1,所示中,1993-2010,年,GDP,数据,建立,t-GDP,曲线。,(,1,)用原始数据绘制散点图,如图,27-2,所示。,由图,27-2,所示可以看出,两个变量分布曲线类似于指数曲线,y=b,0,b,1,t,,由图,27-3,所示观测,GDP,与,Lgt,的散点图,两者成直线趋势,可以考虑用最小二乘法拟合,GDP,与,Lgt,的直线回归方程。,计算,t,的指数值生成新的变量,Lgt,,操作部骤如下:在菜单中单击“转换”,计算变量,在“目标变量”框中输入“,Lgt,”作为新变量名,在“数字表达式”中输入,LG10,(,GDP,)作为新的变量值,单击“确定”按钮。,(,2,)拟合,GDP,与,Lgt,的直线回归方程结果解释,如图,27-4,所示为模型的拟合优度情况,显示模型的相关系数,R,为,0.995,,决定系数,R,2,为,0.913,,说明该模型回归的贡献很大,表示回归模型拟合结果好。,对拟合的模型进行假设检验(见结果图,27-5,所示),,F,值为,167.361,,,P,值为,0.000,,说明这个回归模型试验统计学意义的。,结果图,27-6,所示中给出了包括常数项在内的参数及检验结果,进行的是,t,检验,可见常数项和,Lgt,均有统计学意义。,建立回归方程为:,y=5.820,1.875,t,曲线回归,曲线直线化变化方法尽管有可能通过一些函数转化方法在一定范围内将他们的关系转变为线性关系,但这种转化有可能导致更为复杂的计算或数据关系失真,这时我们可以通过进行曲线拟合(,Curve Fitting,),曲线拟合是求解反应变量间曲线关系的曲线回归方程的过程。,实例详解,研究发现,锡克氏试验阴性率随儿童年龄增长而升高。查得山东某地,17,岁儿童的资料如图,27-10,所示,试用曲线回归分析方法拟合曲线。,(,1,)打开数据文件“锡克氏试验阴性率与儿童年龄,.sav,”,数据库构建如图,27-11,所示。,(,2,)单击“图形”,|,“旧对话框”,|,“散点,/,点状”命令,弹出“散点,/,点状”对话框,如图,27-12,所示。,(,3,)从图,27-12,所示看到,随着儿童年龄的增加,阴性率呈显著的上升趋势。但是这种上升趋势并不是线性的,而表现为非线性的关 系。故可以考虑采用曲线拟合的方法。这里选用二次曲线模型、三次曲线模型和对数曲线模型。拟合三个模型,将三者拟合情况进行比较,选择拟合度较好的模型。,1,操作步骤,在菜单中单击“分析”,|,“回归”,|,“曲线估计”命令,在“曲线估计”对话框选择“阴性率”作为因变量,“儿童年龄”作为“自变量”,从模型栏中选取“,cubic,”、“,quadratic,”、“,logarithmic,”,单击“确定”按钮。,2,实例结果及分析,(,1,)模型描述,图,27-13,所示是,SPSS,对曲线拟合结果的初步描述统计,例如自变量和因变量、估计方程的类型等。,(,2,)模型汇总及参数估计,图,27-14,所示模型描述是对进行拟合的样本例数进行说明的信息。,图,27-16,所示给出了样本数据分别进行三种曲线方程拟合的检验统计量和相应方程中的参数估计值。对于对数拟合,它的可决系数,R2,为,0.914,,,F,统计量等于,52.999,,概率,P,值小于显著性水平,0.05,,说明该模型有统计学意义。,对于二次曲线方程和三次方程拟合来说,它对应的可决系数,R2,分别为,0.971,和,0.995,,模型也显著有效。,虽然上述模型都有显著的统计学意义,但从可决系数的大小可以清晰看到三种曲线函数方程较其他两种曲线方程拟合效果更好,因此选择三种曲线方程来描述锡克氏试验阴性率与儿童年龄的关系。,(,3,)拟合曲线图,如图,27-17,所示。,最后给出的是实际数据的散点图和三种估计曲线方程的预测图。从图,27-8,所示中也进一步说明三次曲线曲线方程的拟合效果最好。,非线性回归,因变量与自变量之间的相互关系可以用线性方程来近似的反应。但是,在现实生活中,非线性关系大量存在。线性回归模型要求变量之间必须是线性关系,曲线估 计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些 方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变 量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。,实例详解,假定数据文件图,27-24,所示中是一家公司在,8,个周期间的广告费用与公司收入。公司的老板希望建立一个回归模型用电视广告费用和报纸广告费用来预测公司收入。以往,8,周的样本数据如图,27-24,所示(单 位:千美元)。请建立回归模型分析。,SPSS,模块说明,1,非线性回归,单击“分析”,|,“回归”,|,“非线性”命令,弹出单“非线性回归”对话框,如图,27-18,所示。,(,1,)选择因变量,在“非线性回归”对话框左侧的候选变量列表框中选择一个变量,将其添加至“自变量”列表框中,即选择该变量作为非线性回归分析的因变量。,(,2,)模式表达式选项框:用于定义非线性回归模型的表达式。输入的模型至少应包含一个自变量。,(,3,)函数组选项框:给出了各种可能用到的函数类型。,2,“参数”按钮,单击图,27-18,所示中的“参数”按钮,则弹出如图,27-19,所示对话框。进行迭代计算来确定模型参数,首先必须给定参数的初值。,3,“损失”按钮,定义了参数的起始值后,“损失”按钮和“约束”按钮被激活。单击“损失”按钮,则弹出如图,27-20,所示对话框。用户可以在该对话框内设置损伤函数。,4,“约束”按钮,在主对话框中单击激活的“约束”按钮,则弹出如图,27-21,所示对话框。在此对话框内设置对参数的一些限制。,5,“保存”按钮,在主对话框中单击激活的“保存”按钮,则弹出如图,27-22,所示对话框。有四个选项:“预测值”、“残差”、“导数”、“损失函数值”。,6,“选项”按钮,在主对话框中单击激活的“选项”按钮,则弹出如图,27-23,所示对话框。,实例详解,假定数据文件图,27-24,所示中是一家公司在,8,个周期间的广告费用与公司收入。公司的老板希望建立一个回归模型用电视广告费用和报纸广告费用来预测公司收入。以往,8,周的样本数据如表,27-9,所示(单 位:千美元)。请建立回归模型分析。,首先绘制散点矩阵图如图,27-25,所示。,依据散点矩阵图来判断三个变量之间的关系。散点矩阵图,27-25,分为,9,个子图,它们分别描述了三者之间的变 化。可以看到,每周营业收入和两种广告费用存在显著线性 关系,观察自变量 电视广告费用和报纸广告费用之间散点图看到,这两种广告费用之间也存在显著的影响 关系,这说明了这两个因变量之间可能存在交叉影响。于是,建立如 下非线性回归方程:,y=a+bx,1,+cx,2,+dx,1,x,2,+,1,操作步骤,(,1,)打开数据文件。,(,2,)从主菜单栏中选择“分析”,“回归”,“非线性”命令,打开“非线性回归”对话框。,(,3,)将变量“每周营业收入”作为因变量选入“因变量”列表框。,(,4,)单击“参数”按钮,打开“非线性回归:参数”对话框。,(,5,)在此对话框中定义模型参数的起始值。单击“继续”按钮返回主对话框。,(,6,)在“模型表达式”文本框中输入,a+b,电视广告费用,+c,报纸广告费用,+d,电视广告费用报纸广告费用。,(,7,)单击“保存”按钮,打开“非线性回归:保存”对话框。选择“残差”项保存新变量,单击“继续”按钮返回主对话框。,(,8,)单击“选项”打开“非线性回归:选项”对话框。选中“标准无误的辅助程序估计(,B,)”复选框,单击“继续”按钮确认并返回主对话框。,(,9,)设置完毕,单击“确定”按钮执行上述操作。,2结果及分析,可以看出,经过,13,次迭代后,模型达到收敛标准,最佳解被找到。于是,得到每周营业收入关于两种广告费用的预测回归模型为:,2,+0.724x,1,x,2,图,27-27,所示给出了整个模型的显著性检验结果,可以看出,决定系数为,0.941,,拟合结果比较好。,Uncorrected Total,为未修正的总误差平方和,其值等于,70338.000,,自由度等于,8,;它被分解成回归平方和,70336.501,和残差平方和,1.499,,自由度分别是,4,和,4,。,Corrected Total,是经修正的总误差平方和,其值等于,25.500,,自由度是,7,;表的最后一列是均方。,图,27-28,所示为基于,13,次辅助程序抽样计算出的各参数的估计值、标准误差,,95%,置信区间和相关系数矩阵。,THE END,
展开阅读全文