回归分析(5)

上传人:li****i 文档编号:243065410 上传时间:2024-09-14 格式:PPT 页数:149 大小:2.87MB
返回 下载 相关 举报
回归分析(5)_第1页
第1页 / 共149页
回归分析(5)_第2页
第2页 / 共149页
回归分析(5)_第3页
第3页 / 共149页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,10,章 非线性回归,线性回归的理论较为成熟,应用也较为广泛。但当被解释变量与解释变量之间呈某种曲线关系时,就必须用非线性回归。,本章首先介绍可线性化的非线性回归,然后介绍多项式回归,最后简要介绍了一般的非线性回归模型。,9/14/2024,2,1,可线性化的非线性回归,1.,线性化的含义及途径,因为线性回归的“线性”是针对参数而言,而不是针对自变量而言,所以有些非线性回归模型可以通过变量代换转化为线性回归模型。,例如,,9/14/2024,4,对模型,1,,只要令 即可化为线性回归模型,对模型,2,,令,原模型化为多元线性回归模型,9/14/2024,5,对模型,3,,可先两边取对数,得,然后再令,原模型化为线性回归模型,9/14/2024,6,(1),新引进的自变量只能依赖于原始变量,而不能与未知参数有关。若模型,1,中的,b,未知,则模型,1,不能线性化。,可线性化的非线性回归模型称为本质线性回归模型,不可线性化的非线性回归模型称为本质非线性回归模型。,9/14/2024,7,(2),非线性化模型能否线性化不仅与回归函数的形式有关,而且与误差项的形式也有关。,例如,模型,3,的误差项为乘性误差项,可以线性化,而模型,4,的误差项为加性误差项,不可以线性化。,在对非线性回归模型进行线性化时,总是假定误差项满足可线性化条,9/14/2024,8,析,所以通常略去误差项,而仅写出回归函数。,例如,模型,3,常简记为 。,2.,常用可线性化的曲线回归方程,SPSS,中给出了,11,种常见的可线性化的非线性回归方程,见下表。,9/14/2024,9,9/14/2024,10,显然,上述曲线中的复合函数、增长函数和指数函数等价,只是形式不同。,若选用上述曲线进行回归,只需选用分析,-,回归,-,曲线估计菜单即可,而不必做任何变换。,除了上述曲线外,还有下列几种常用回归曲线。,9/14/2024,11,(1),双曲函数,9/14/2024,12,(2) S,型函数,II,9/14/2024,13,此函数显然有两条渐近线,y,=0,和,y,=1/,a,。,S,型函数有多种,其共同特点是曲线首先缓慢增长,在达到某点后迅速增长,在超过某点后又缓慢增长,最终趋于一个稳定值。,S,型函数在许多领域都有广泛的应用,例如产品的销售量、农作物的,9/14/2024,14,生长、病毒的传播速率与时间的关系等都可以用,S,型函数研究,。,SPSS,中的,S,型函数,y,=exp(,b,0,+,b,1,/t),当,b,1,0,时不属通常意义的,S,型函数。,另外,,SPSS,中的,Logistic,函数也是,S,型函数。,9/14/2024,15,例,10.1,对下表中的,GDP,数据进行非线性回归。,解,首先做数据散点图。,分析,-,回归,-,曲线估计。,分别选线性和复合函数进行回归,结果见下。,9/14/2024,16,年份,t,y,y1,e,1981,1,4862.4,4296.35,566.05,1982,2,5294.7,5123.04,171.66,1983,3,5934.5,6108.80,-174.30,1984,4,7171.0,7284.24,-113.24,1985,5,8964.4,8685.86,278.54,1986,6,10202.2,10357.16,-154.96,1987,7,11962.5,12350.06,-387.56,1988,8,14928.3,14726.42,201.88,1989,9,16909.2,17560.04,-650.84,1990,10,18547.9,20938.89,-2390.99,1991,11,21617.8,24967.89,-3350.09,1992,12,26638.1,29772.14,-3134.04,1993,13,34634.4,35500.81,-866.41,1994,14,46759.4,42331.77,4427.63,1995,15,58478.1,50477.13,8000.97,1996,16,67884.6,60189.80,7694.80,1997,17,74462.6,71771.35,2691.25,1998,18,79395.7,85581.38,-6185.68,9/14/2024,17,数据散点图,9/14/2024,18,线性回归,9/14/2024,19,指数回归,9/14/2024,20,回归效果图,9/14/2024,21,需要说明的是,回归分析的一个重要应用是预测,而预测的方法有多种,如拟合,(,回归,),、灰色模型、时间序列和神经网络等。,相比较而言,,Origin,的拟合功能更强,提供了更多的线型,可以图形的帮助下选择较合适的线型。,9/14/2024,22,Origin,拟合效果图,9/14/2024,23,2,多项式回归,多项式回归是一种较为重要的非线性回归模型,有较广泛的应用。,1.,几种常见的多项式回归模型,常见的多项式回归模型有一元二次模型,和一元三次模型,9/14/2024,25,三次及以上的多项式回归模型较少使用,因为此时回归系数的解释比较困难,回归模型的数值稳定性也不太高,不利于应用。,多元多项式回归比较复杂,较少使用。二元多项式回归模型为,9/14/2024,26,2.,多项式回归应用实例,例,10.2,根据下表研究给定年龄组内经理的人寿保险额,y,与年均收入,x,1,和风险反感度,x,2,的关系。,研究者认为年均收入与人寿保险额有二次关系,风险反感度与人寿保险额只有线性关系,年均收入风险反感度对人寿保险额有无交互效应不得,9/14/2024,27,而知。,为此,研究者选用二元二次多项式回归模型,并检验交互效应和风险反感度的二次效应。,9/14/2024,28,序号,x1,x2,y,1,66.29,7,196,2,40.964,5,63,3,72.996,10,252,4,45.01,6,84,5,57.204,4,126,6,26.852,5,14,7,38.122,4,49,8,35.84,6,49,9,75.796,9,266,10,37.408,5,49,11,54.376,2,105,12,46.186,7,98,13,46.13,4,77,14,30.366,3,14,15,39.06,5,56,16,79.38,1,245,17,52.766,8,133,18,55.916,6,133,数据表,9/14/2024,29,为了清楚地看到各项对回归的贡献,使显著性检验更加明确,采用逐个引入自变量的方法。,首先由,x,1,和,x,2,的值求出,的值,然后用下列方法依次引入变量,:,先选入,y,和,x,1,然后下一张,再选入,x,1,x,2,然后再下一张,再选入,9/14/2024,30,以此类推。,方差分析表如下:,9/14/2024,31,根据下列公式计算得偏,F,统计量,9/14/2024,32,下面检验交互效应和风险反感度的二次效应。,因为交互影响项系数显著性检验的偏,F,值,=2.00,,临界值,F(1,2)=4.75,,交互影响项系数没通过显著性检验,所以回归模型中不应该包含交互作用项,x,12,。,又风险反感度二次效应项的偏,F=,9/14/2024,33,0.93,,,临界值,F(1,13)=4.67,,也没通过显著性检验,所以回归模型中也不应该包含二次效应项 。,类似可验证, 项通过显著性检验。,综上,最终选用下列回归模型,9/14/2024,34,具体回归方程为,其标准化形式为,9/14/2024,35,例,10.3,用均匀设计法研究从烤烟中提取粗蛋白的实验条件。目标变量,y,是提取的蛋白质尝试,三个实验因子分别为:提取液,pH,值,x,1,,提取时间,x,2,的,提取温度,x,1,。,采用,U,7,(7,3,),均匀设计表,试验安排与结果如下表:,9/14/2024,36,x1,x2,x3,y,10.00,32.00,100.00,8.50,1.56,8.00,80.00,5.80,13.10,48.00,60.00,73.60,6.00,24.00,45.00,2.20,0.86,2.00,35.00,8.30,12.40,40.00,20.00,19.60,3.00,16.00,10.00,3.50,数据表,首先做三元线性回归,结果如下,:,9/14/2024,37,线性回归,9/14/2024,38,显然,回归效果极差。,可将所有项选入,然后选择逐步回归法,结果如下:,9/14/2024,39,逐步回归,9/14/2024,40,9/14/2024,41,9/14/2024,42,具体回归方程为,其标准化形式为,9/14/2024,43,从标准化回归方程中可以看出,四个变量的作用由大到小依次为:,。,根据回归方程分析,提取时间还有必要延长,;,提取温度和提取液,pH,值有交互作用,且系数为正,故较高的温度更有利于提取蛋白;,pH,值应稍低些更佳。,9/14/2024,44,由于本例中最好的实验条件是,根据前述分析,影响蛋白提取浓度的最主要因素是提取时间,提取时间应在,48h,以上;提取液,pH,值是第二重要因素,,pH,值应比,13.10,再低些;提取温度应该控制在,60,C,以上。,9/14/2024,45,类似于例,10.3,寻找最优生产条件的问题在医药、食品行业较为常见。解决此类问题较适当的方法是将试验设计方法与回归分析方法相结合,响应面分析。,相关内容见下学期的试验设计与分析课程。,9/14/2024,46,3,非线性回归模型,1.,非线性最小二乘估计,非线性回归模型一般可记为,其中 是因变量,,是自变量, 是未知参数向量, 是随机误差项并满足独立同分布假设,即,9/14/2024,48,如果,,即为线性模型,且必然有,k,=,p,;对于一般情况的非线性模型,参数的数目与自变量的数目并,9/14/2024,49,没有对应关系。,对非线性回归模型,估计参数,的方法仍为最小二乘法,即求使得,达到最小的 ,称为 的非线性最小二乘估计。,9/14/2024,50,当,f,对 可微时,可以建立正则方程组,上述方程组的解即为 。,9/14/2024,51,正则方程组往往是非线性方程组,没有解析解法,一般用,Gauss-Newton,迭代法求其数值解。,在实际中,可用统计软件完成非线性最小二乘估计。同时,还可以得到近似的参数的区间估计和显著性检验、回归方程的显著性检验等结果。,在非线性回归中,平方和分解式,9/14/2024,52,SST=SSR+SSE,不再成立。,类似于线性回归中的判定系数,定义非线性回归的相关比,相关比也称为相关指数。,9/14/2024,53,2.,非线性回归模型的应用,例,10.4,一位药物学家使用下面的非线性模型拟合药物反应,:,其中自变量,x,是药剂量,用级别表示,;,因变量,y,是药物反应程度,用百分比表,9/14/2024,54,示。三个参数 均非负。,根据专业知识, 的上限是,100%,三个参数的初始值取为,测得,9,个反应数据如下:,请拟合出回归方程。,9/14/2024,55,数据散点图,9/14/2024,56,分析,-,回归,-,非线性。,选,y,为因变量,录入模型表达式,c0-c0/(1+(x/c2) * c1),输入参数及初始值。,回归结果如下:,9/14/2024,57,9/14/2024,58,9/14/2024,59,从残差和,R,2,可看出,回归的效果较好,回归方程为,9/14/2024,60,例,10.5,Gompertz,模型计量经济学中的一个常用模型,可用来拟合销售量增长。,Gompertz,模型的形式为,其中,L,为销售量增长上限。,下表中给出了某商品销售数据,用,Gompertz,模型进行拟合。,9/14/2024,61,数据表,年份,t,y,1961,0,1903,1962,1,2520,1963,2,2688,1964,3,1975,1965,4,1957,1966,5,2498,1967,6,3020,1968,7,4809,1969,8,5205,1970,9,4290,9/14/2024,62,年份,t,y,1971,10,3933,1972,11,4567,1973,12,5429,1974,13,5426,1975,14,6137,1976,15,6522,1977,16,7364,1978,17,7319,1979,18,7485,1980,19,7986,1981,20,7470,9/14/2024,63,数据散点图,9/14/2024,64,由于求解非线性回归最小二乘的正则方程组需要用到,Gauss-Newton,迭代法,而迭代法往往是局部收敛的,所以需要选择合适的参数初值。,对于随意选定的参数初值,回归的效果并不好。下面给出取特定初值的回归结果。,9/14/2024,65,9/14/2024,66,其实,也可以用,Origin,进行拟合以获得更好的拟合效果。,下面给出采用,BiDoseResp,函数的,Origin,拟合结果。,9/14/2024,67,BiDoseResp,拟合图,9/14/2024,68,第,11,章 含定性变量的回归模型,在实际问题的研究中,经常遇见一些非数量型变量。例如,性别中的男女;正常年份和干旱年份;战争与和平;改革前后等。,非数量型变量称为定性变量。在建立经济问题的回归模型时,常常需要考虑定性变量,如建立粮食产量预测模型时就应考虑正常年份与受灾年,9/14/2024,70,份的不同影响。,本章主要介绍自变量含定性变量和因变量含定性变量的回归模型。,9/14/2024,71,1,自变量含定性变量回归模型,在回归分析中,对自变量是定性变量的情形可先给予数量化处理。处理方法是引进只取,0,和,1,两个值的虚拟自变量将定性变量数量化。当某一属性出现时,虚拟变量取值,1,,否则取值,0,。,1.,简单情况,首先讨论定性变量只取两个可能,9/14/2024,73,值的简单情况。例如,研究粮食产量问题,,y,为粮食产量,,x,为施肥量。另外再考虑气候条件,分为正常年份和干旱年份两种情况。,令,D,i,=1,表示正常年份,,D,i,=0,表示干旱年份,回归模型为,其中干旱年份的粮食平均产量为,9/14/2024,74,正常年份的粮食平均产量为,这里假设无论正常年份还是干旱年份,施肥量增加一个单位,粮食产量都增加相同的数量 。,9/14/2024,75,例,11.1,某学者想调查文化程度对家庭储蓄的影响,在一个中等收入的样本中,随机抽查了,13,户高学历家庭与,14,户低学历家庭,调查数据如下。 因变量,y,是上年家庭储蓄增加额,自变量,x,1,是上年家庭总收入,自变量,x,2,表示家庭学历,高学历家庭,x,2,=1,,低学历家庭,x,2,=0,。,9/14/2024,76,序号,y/,元,x1/,万元,x2,1,235,2.3,0,2,346,3.2,1,3,365,2.8,0,4,468,3.5,1,5,658,2.6,0,6,867,3.2,1,7,1085,2.6,0,8,1236,3.4,1,9,1238,2.2,0,10,1345,2.8,1,11,2365,2.3,0,12,2365,3.7,1,13,3256,4.0,1,14,3256,2.9,0,9/14/2024,77,序号,y/,元,x1/,万元,x2,15,3265,3.8,1,16,3265,4.6,1,17,3567,4.2,1,18,3658,3.7,1,19,4588,3.5,0,20,6436,4.8,1,21,9047,5.0,1,22,7985,4.2,0,23,8950,3.9,0,24,9865,4.8,0,25,9866,4.6,0,26,10235,4.8,0,27,10140,4.2,0,9/14/2024,78,9/14/2024,79,9/14/2024,80,回归方程为,如果不引入家庭学历定性变量,x,2,仅用家庭收入,x,1,作一元线性回归,则,R,2,=0.618,,残差也较大。,这个结果表明,中等收入家庭每增加,1,万元收入,平均拿出,3826.13,元作为储蓄。高学历家庭每年的平均储,9/14/2024,81,蓄额少于低学历的家庭,3700.33,元。,但如果仅从样本数据考虑,高学历家庭的平均年储蓄增加额为,3009,,低学历家庭的平均年储蓄增加额为,50 59,,两者的差为,2050,,与用回归方程得出的结果差别较大。,出现上述差异的原因在于,回归方程假设了所有家庭年收入相等,即,9/14/2024,82,消除了家庭年收入的影响,因而反映了两者储蓄额的真实差异。,2.,复杂情况,当定性变量取,n,(,n,2),个值时,可以考虑引入,n,个,0-1,型自变量。,例如,某商厦策划营销方案,需要考虑销售额的季节影响。为了用定性变量反映春夏秋冬四季,引入了四,9/14/2024,83,个,0-1,型自变量:,但由于这,4,个变量的和为,1,,产生了完全多重共线性。,解决上述问题的方法是,去掉一,9/14/2024,84,个,0-1,型变量。,通常,定性变量有,n,类可能时,只需引入,n,1,个,0-1,型变量。当,n,=,2,时,引入一个,0-1,型变量即可。,9/14/2024,85,2,含定性变量回归模型的应用,1.,分段回归,在实际中,有时会遇见某些变量在不同的影响因素范围内变化趋势截然不同的情形。例如经济问题涉及经济政策有较大调整时,调整前后的变化幅度会有很大不同。对于此类问题,有时用多种曲线拟合效果仍不能令人满意。如果作残差分析,会发现残差,9/14/2024,87,并不随机,而是有一定的系统性。对于此类问题,可考虑用分段回归进行处理。,例,11.2,下表给出了某工厂生产批量,x,与单位成本,y,的数据,试用分段回归建立回归模型。,9/14/2024,88,序号,y/,元,x1,x2,1,2.57,650,150,2,4.4,340,0,3,4.52,400,0,4,1.39,800,300,5,4.75,300,0,6,3.55,570,70,7,2.49,720,220,8,3.77,480,0,数据表,9/14/2024,89,散点图,9/14/2024,90,从散点图中可以看出,数据的线性性较好,可以用线性回归。线性回归的指标及残差图见后。,回归指标显示,回归方程的显著性较高,且不存在自相关性。对残差值与,x,1,的,Spearman,检验结果表明,也不存在异方差性。,9/14/2024,91,线性回归指标,9/14/2024,92,线性回归残差图,9/14/2024,93,散点图显示,批量超过,500,后,成本下降的速率似乎变快,所以也可以考虑用分段的方法进行回归。,建立回归模型,其中,9/14/2024,94,若引入两个新自变量,则原回归模型变为二元线性回归模型,此模型可分为两个一元回归模型:,当,x,1,500,时,,当,x,1,500,时,,9/14/2024,95,分段回归示意图,9/14/2024,96,分段回归指标,9/14/2024,97,从分段回归指标中可以看出,分段回归的效果并不太好。其实,由于,的显著性概率为,0.153,,没有通过显著性检验,即不能认定 ,换句话说,不能认定本例适用于分段回归。,9/14/2024,98,2.,回归系数相等的检验,例,11.3,在例,11.1,中,假设高低学历家庭的年收入均相等,即回归斜率,与学历无关。实际上,这个假设是否合理需要检验。检验的方法是引入如下含有交互效应的回归模型,9/14/2024,99,其中,,y,是上年家庭储蓄增加额,,x,1,是上年家庭总收入,自变量,x,2,表示家庭学历,高学历家庭,x,2,=1,,低学历家庭,x,2,=0,。,此模型可分为两个线性回归模型,高学历家庭,x,2,=1,:,9/14/2024,100,低学历家庭,x,2,=0,:,显然,高学历家庭的回归系数为,,低学历家庭的回归系数为,所以检验两个回归方程的回归系数相等,等价于检验交互回归模型中的,=0,。,9/14/2024,101,交互模型回归指标,9/14/2024,102,由于交互项显著性概率为,0.247,故应接受原假设,即认为 ,在例,11.1,中,假设高低学历家庭的年收入相等是正确的。,9/14/2024,103,3,因变量是定性变量的回归模型,在有些社会经济问题中,因变量只有两个可能结果。这样的因变量也可用虚拟变量表示,虚拟变量的取值可以,0,或,1,。,例如,给出,200,个不同年龄和性别的人对某项服务的认可数据,其中,年龄是连续变量,性别是定性变量,男女分别用,1,和,0,表示,而观点则为包,9/14/2024,105,括认可,(,用,1,表示,),和不认可,(,用,0,表示,),两个水平的定性变量。试根据数据研究用户对服务的认可度。,显然,从简单的图形中很难找到结论。解决此类问题的一种方法就是因变量包括定性变量的回归模型。,9/14/2024,106,年龄观点散点图,9/14/2024,107,性别观点条形图,9/14/2024,108,1.,定性因变量回归方程的意义,在前例中,若将一次调查看成一次,Bernoulli,试验,则认可度即为试验成功的概率,p,,只不过这里的,p,为年龄和性别的函数。,下面讨论因变量为定性变量的回归方程的意义。,考虑简单线性回归模型,9/14/2024,109,因为,y,i,是,0-1,型,Bernoulli,随机变量,分布律为,其数学期望,即因变量,y,的均值为因变量,y,取,1,时的概率。,9/14/2024,110,2.,定性因变量回归的特殊问题,常规回归模型如多项式回归不适用于因变量为定性变量的回归方程,原因如下:,(1),对于任意给定的自变量值,因变量只取两个值,误差项也只取两个值,自然不满足回归模型的假设。,(2),因为,9/14/2024,111,即随机误差的方差与自变量有关,从而存在异方差。,(3),显然,因变量,y,的均值介于,0,和,1,之间,而常规回归模型无法满足这个限制条件。,9/14/2024,112,4,Logistic,回归,解决因变量为定性变量回归模型中问题的常用方法是,Logistic,回归。,1.,分组数据的,Logistic,回归,当数据量较大时,可能不便于提供因变量的所有取值,而只能提供因变量对自变量的汇总数据,称之为分组数据。,此时,可采用下列方法进行回归,:,9/14/2024,114,(1),选用,Logistic,函数,做为回归函数,从而使得回归函数值介于,0,到,1,之间。,(2),因为没有提供因变量的具体值,加之回归值本身即为某种平均值,所以在此情况下可以用因变量等于,1,的,9/14/2024,115,比例做为因变量。,下面给出,Logistic,函数的图形及一个例子,以说明如何进行分组数据的,Logistic,回归。,9/14/2024,116,Logistic,图形,9/14/2024,117,Logistic,图形,9/14/2024,118,例,11.4,在一次住房展销会上,与房地产商签订初步购房意向书的共有,n=313,名顾客。在随后的三个月内,只有一部分顾客确实购买了房屋。购买房屋的顾客记为,1,,没有购买房屋的顾客记为,0,。以顾客的家庭年收入为自变量,建立,Logistic,回归模型。,9/14/2024,119,数据表,序号,年家庭收入,签订意向人数,实际购房人数,实际购房比,逻辑变换,权重,1,1.5,25,8,0.32,-0.75,5.44,2,2.5,32,13,0.41,-0.38,7.72,3,3.5,58,26,0.45,-0.21,14.34,4,4.5,52,22,0.42,-0.31,12.69,5,5.5,43,20,0.47,-0.14,10.7,6,6.5,39,22,0.56,0.26,9.59,7,7.5,28,16,0.57,0.29,6.86,8,8.5,21,12,0.57,0.29,5.14,9,9.5,15,10,0.67,0.69,3.33,9/14/2024,120,数据表中并没有给出每人是否实际购房情况,而是给出了与每个收入对应的签订购房意向及实际购房的汇总数据,即分组数据。,可用下列,Logistic,函数进行回归,:,9/14/2024,121,其中,c,为分组数据的组数。,做,Logit,变换,则,Logistic,回归方程变为线性模型,对“逻辑变换”和“年家庭收入”做线性回归的结果见下。,9/14/2024,122,回归指标,9/14/2024,123,回归方程为,当,x,0,=8,时, ,即年收入,8,万元且签订了购房意向的家庭,其购房概率为,0.590,。,9/14/2024,124,虽然前面的,Logistic,回归模型解决了定性因变量回归问题,但存在一个缺陷,即没有解决异方差问题。,可以用加权最小二乘估计解决异方差问题。,可证,权 。,9/14/2024,125,加权回归指标,9/14/2024,126,用加权最小二乘得到的,Logistic,回归方程为,当,x,0,=8,时, 。,9/14/2024,127,2.,未分组数据的,Logistic,回归,分组数据的,Logistic,回归的拟合精度不太高。对于未分组原始数据,可直接用最大似然估计进行,Logistic,回归。,设,y,是,0-1,型变量,,x,1,x,2,x,p,是与,y,相关的确定性变量,,(,x,i,1,x,i,2,x,i,p,;,y,i,),是,n,组观测值,,y,i,与,x,i,1,x,i,2,x,i,p,的关系,9/14/2024,128,为,其中,由于,y,i,是,0-1,型随机变量,分布律为,9/14/2024,129,似然函数,取对数,得,9/14/2024,130,对于,Logistic,回归,将,代入,得,9/14/2024,131,能够使得上式达到最大值的估计值 即为 的最大似然估计。,SPSS,在,Logistic,回归中提供了求解上述,最大似然估计的功能。,9/14/2024,132,例,11.5,在一次关于公共交通的社会调查中,一个调查项目是“乘公交还是骑自行车上下班”。因变量,y,=1,表示乘公交,,y,=0,表示骑自行车,自变量,x,1,是年龄;,x,2,是月收入;,x,3,是性别,x,3,=1,表示男性,,x,3,=0,表示女性。数据见下表,建立,Logistic,回归模型。,9/14/2024,133,序号,性别,年龄,月收入,y,1,0,18,850,0,2,0,21,1200,0,3,0,23,850,1,4,0,23,950,1,5,0,28,1200,1,6,0,31,850,0,7,0,36,1500,1,8,0,42,1000,1,9,0,46,950,1,10,0,48,1200,0,11,0,55,1800,1,12,0,56,2100,1,13,0,58,1800,1,14,1,18,850,0,9/14/2024,134,序号,性别,年龄,月收入,y,15,1,20,1000,0,16,1,25,1200,0,17,1,27,1300,0,18,1,28,1500,0,19,1,30,950,1,20,1,32,1000,0,21,1,33,1800,0,22,1,33,1000,0,23,1,38,1200,0,24,1,41,1500,0,25,1,45,1800,1,26,1,48,1000,0,27,1,52,1500,1,28,1,56,1800,1,9/14/2024,135,由于月收入不显著,将其剔除后再做回归,结果如下:,回归指标,9/14/2024,136,此时,年龄、性别均显著,最终的回归方程如下:,回归指标,9/14/2024,137,因为 随,x,1,x,3,的增大而增大,减小,所以年龄越高乘车比例越高,女性乘车比例高于男性。,9/14/2024,138,例,11.6,城市的居民家庭,按其有无割草机分为两组,有割草机的一组记为,z,1,,没有割草机的一组记为,z,2,,割草机厂家欲判断一些家庭是否将购买割草机。从,z,1,和,z,2,中分别随机抽取,12,个样品,调查两项指标:,x,1,表示家庭收入,,x,2,表示房屋前后面积。数据见下表,建立,Logistic,回归模型。,9/14/2024,139,数据表,z1,z2,x1,x2,x1,x2,20.0,9.2,25.0,9.8,28.5,8.4,17.6,10.4,21.6,10.8,21.6,8.6,20.5,10.4,14.4,10.2,29.0,11.8,28.0,8.8,36.7,9.6,16.4,8.8,36.0,8.8,19.8,8.0,27.6,11.2,22.0,9.2,23.0,10.0,15.8,8.2,31.0,10.4,11.0,9.4,17.0,11.0,17.0,7.0,27.0,10.0,21.0,7.4,9/14/2024,140,9/14/2024,141,9/14/2024,142,第,1,2,张表是对整个模型的检验,其结果表明模型非常显著。,第,3,张表是,Hosmer-Lemeshow,检验,检验因变量实际值与预测值的分布是否有显著差异,结果表明不显著,即本例中因变量的实际值与预测值没有显著性差异,模型拟合较好。,第,4,张表是分类矩阵,表明,83.3%,9/14/2024,143,的判断正确。,第,5,张表是模型的系数及检验。,由此可得回归模型,其中 表示购买割草机预测概率。,显然,收入越高、房前屋后土地面积越大,越有可能购买割草机,而,9/14/2024,144,且房前屋后土地面积对家庭是否购买割草机的影响大于收入的影响。,根据回归模型,可以计算出每个观测购买割草机概率的预测值。按照,0.5,为分界点进行判别分类,结果见下表。,9/14/2024,145,序号,观测组,家庭收入,房前后面积,预测值,预测组,残差,1,1,20,9.2,0.175,0,0.825,2,1,28.5,8.4,0.433,0,0.567,3,1,21.6,10.8,0.887,1,0.113,4,1,20.5,10.4,0.716,1,0.284,5,1,29,11.8,0.998,1,0.002,6,1,36.7,9.6,0.992,1,0.008,7,1,36,8.8,0.952,1,0.048,8,1,27.6,11.2,0.992,1,0.008,9,1,23,10,0.728,1,0.272,10,1,31,10.4,0.988,1,0.012,11,1,17,11,0.715,1,0.285,12,1,27,10,0.910,1,0.090,观测与预测数据对照表,9/14/2024,146,观测与预测数据对照表,序号,观测组,家庭收入,房前后面积,预测值,预测组,残差,13,0,25,9.8,0.780,1,-0.780,14,0,17.6,10.4,0.490,0,-0.490,15,0,21.6,8.6,0.102,0,-0.102,16,0,14.4,10.2,0.184,0,-0.184,17,0,28,8.8,0.583,1,-0.583,18,0,16.4,8.8,0.029,0,-0.029,19,0,19.8,8,0.019,0,-0.019,20,0,22,9.2,0.292,0,-0.292,21,0,15.8,8.2,0.008,0,-0.008,22,0,11,9.4,0.015,0,-0.015,23,0,17,7,0.001,0,-0.001,24,0,21,7.4,0.009,0,-0.009,9/14/2024,147,从表中可看出,第,1,2,13,17,个观测出现了误判。,第,1,户收入不高,房前屋后土地面积也不大,但却拥有割草机;第,2,户房前屋后土地面积最小,也有割草机;第,13,户收入不低,房前屋后土地面积也大于第,1,户,但却没有割草机,;,第,17,户收入也较高,也没有割草机。,9/14/2024,148,可见,正是由于上述观测的特殊性导致了误判。一般而言,,Logistic,回归模型是能反映观测的共性的。,若给定某家庭的收入和房前屋后土地面积,可以根据,Logistic,回归模型预测其是否会购买割草机。,9/14/2024,149,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!