多元回归模型与建模

上传人:宝**** 文档编号:242922433 上传时间:2024-09-12 格式:PPT 页数:53 大小:314.50KB
返回 下载 相关 举报
多元回归模型与建模_第1页
第1页 / 共53页
多元回归模型与建模_第2页
第2页 / 共53页
多元回归模型与建模_第3页
第3页 / 共53页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Applied Stat for MBA05D1,*,多元回归模型与建模,2005年5月,9/12/2024,1,Applied Stat for MBA05D1,一、多元线性回归问题,1.,一元回归问题的困惑巴特勒(Butler)运输公司的例子(p661):,行驶距离(英里) 运送货物次数 行驶时间(小时),100 4 9.3,50 3 4.8,100 4 8.9,100 2 6.5,50 2 4.2,80 2 6.2,75 3 7.4,65 4 6,90 3 7.6,90 2 6.1,9/12/2024,2,Applied Stat for MBA05D1,2.做,行驶时间-行驶距离的,一元回归,Coefficients t Stat P-value,Intercept 1.273913,0.909454 0.389687,行驶距离(英里) 0.067826 3.976755 0.00408,回归方程为,可以看出方程整体检验和自变量检验的P值为0.0041,一元回归能够,显著成立。但是判定系数 偏小, 说明有些因变量的解释,因素(例如运货次数)没有引入。,9/12/2024,3,Applied Stat for MBA05D1,9/12/2024,4,Applied Stat for MBA05D1,4.来自,p,元回归模型的容量为,n,的样本,注意: 的第 1 个脚码,k,表示变量编号,,k=1,p,;,第 2 个脚码,i= 1,n,表示样本编号。,9/12/2024,5,Applied Stat for MBA05D1,5. 多元回归总体模型和古典假定,总体模型表示式为,古典假定,1),E(,e,i,)=,0; (,E(y,i,)=,x,1i,+,+,p,x,pi,);,2) 对于所有的,i,,Var(,e,i,)=,;,3),e,i,是服从正态分布,N,(0, ,) 的;,4) 对于不同的,e,i,e,j,(i,j),是相互独立的。,9/12/2024,6,Applied Stat for MBA05D1,6.多元线性回归方程的估计,9/12/2024,7,Applied Stat for MBA05D1,巴特勒公司二元线性回归模型的估计,自变量:,x,1,-,行驶距离,x,2,-,运货次数。,回归方程:,9/12/2024,8,Applied Stat for MBA05D1,7.多元回归方程变差分解和判定系数,R,2,总变差的分解:SST=SSR+SSE;,多元判定系数:,R,2,=SSR/SST;,多重相关系数,r,;,调整(修正)的判定系数 :,巴特勒公司二元线性回归模型的判定系数,9/12/2024,9,Applied Stat for MBA05D1,8.对回归方程的检验:,F,Test for Overall Significance,问题:因变量和所有自变量之间是否存在显著的关系?,判定系数,R,2,可以,做方程的整体检验,但是遇到分布的困难。,检验假设,拒绝域,F,和,R,2,的关系:,R,2,=,pF,/(,n-p-1+pF,)。?,9/12/2024,10,Applied Stat for MBA05D1,9.对回归系数的检验:,t,Test for Individual Significance,检验假设,检验统计量,拒绝域,9/12/2024,11,Applied Stat for MBA05D1,10.巴特勒公司线性回归模型的Excel输出,回归统计,R,=0.951,R,2,=0.904 adj,R,2,=0.876 s=0.573,n,=10,方差分析,df SS MS FSignificance F,回归 221.601 10.800 32.878 0.00027624,残差 7 2.299 0.328,总计 923.9,Here: SSR=21.601, SSE=2.299, SST=23.9.,系数估计和检验,Coefficients 标准误差,t,Stat,p,-value,Intercept -0.8687 0.9515 -0.9129 0.39163,行驶距离(英里) 0.0611 0.0099 6.1824 0.00045,运送货物次数 0.9234 0.2211 4.1763 0.00416,9/12/2024,12,Applied Stat for MBA05D1,11.多重共线性(Multicollinearity),(1)巴特勒运输公司例题的修改,行驶距离 运送货物次数(,修改数,) 行驶时间,100 4 (4) 9.3,50 3 (,2,) 4.8,100 4 (4) 8.9,100 2 (,4,) 6.5,50 2 (2) 4.2,80 2 (,3,) 6.2,75 3 (3) 7.4,65 4 (,3,) 6,90 3 (,4,) 7.6,90 2 (,4,) 6.1,9/12/2024,13,Applied Stat for MBA05D1,(2)巴特勒运输公司例题的回归结果,一元回归方程,二元回归方程,运输次数修改后的二元回归方程(F检验,p,值:0.021),*括弧内表示系数的,p,-值,。,9/12/2024,14,Applied Stat for MBA05D1,(3)多重共线性问题讨论,巴特勒运输回归结果说明:增加解释变量不会降低,R,2,的值,但是,adj R,2,的值却会降低.,前两个回归方程的系数,p,-值都很低(说明甚麽?),后一个修改运输,次数的二元回归的两个系数,p,-值都很高,以至通不过检验.但是后一个,方程总体,检验的,F,值的,p,-值却为0.021(0.05水平下方程成立),原因是修改运输次数数据,使得,x,1,x,2,的相关系数由0.16升至0.97,发生了共线性.自变量发生多重共线性,会出现一些(甚至全部)变量通,不过检验,但是方程总体检验却能通过.此时的解释变量系数估计值,很不可靠.,经验表明:解释变量数据彼此的相关系数绝对值大于0.7,回归,结果就不可信,处理办法就是剔除,p,-值高的变量.对2个以上解释变量,自变,量的相关矩阵和方差膨胀因子(,Variance Inflation Factors,简记,作VIF)是识别多重共线性的有效方法,有专门软件加以精确检验.,9/12/2024,15,Applied Stat for MBA05D1,12.利用模型进行预测,使用计算机软件产生回归模型;,通过检验判断你的模型;,直接利用模型可以预测自变量(,x,01,x,02,x,0p,),对应的因变量期望值,E,(,y,0,)的估计 。,预测,E,(,y,0,)和,y,0,的,置信区域需要某些专门软,件。,9/12/2024,16,Applied Stat for MBA05D1,13.,多元回归的,残差分析,多元回归的残差分析作用方法和一元基本相同。,主要的差异在于:多自变量的观测值的杠杆率,h,i,的计算比较复杂,需要使用专门软件。,回归分析建模应用中可以看到残差分析的应用,9/12/2024,17,Applied Stat for MBA05D1,二 、,定性自变量(Qualitative Independent Variable),1 . 虚拟变量,(Dummy variable),方差分析中定性变量的解决方案:引入因子,处理。,回归分析的解决方案:引入虚拟变量,如何定义虚拟变量?,例:,x,2,=0 (女性),,x,2,=1(男性),如何解释回归模型?,期望值模型为:,女性:,男性:,截距变化,斜率相同。,9/12/2024,18,Applied Stat for MBA05D1,2.Johnson过滤水股份公司例子,Johnson公司对遍布南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含就近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。,你能够建立起一个预测方程吗?,9/12/2024,19,Applied Stat for MBA05D1,(1)Johnson公司数据,维修时间/小时 最后维修至本次维修请求时间/月 故障类型,2.9 2 电子 1,3.0 6 机械 0,4.8 8 电子 1,1.8 3 机械 0,2.9 2 电子 1,4.9 7 电子 1,4.2 9 机械 0,4.8 8 机械 0,4.4 4 电子 1,4.5 6 电子 1,9/12/2024,20,Applied Stat for MBA05D1,散点图,有正相关的关系,可做一元回归。但是似乎可以看出有两条接近平行的直线拟合这些散点。,9/12/2024,21,Applied Stat for MBA05D1,(2)建立维修时间-上次维修间隔,故障性质的回归方程,第一个回归方程,第二个回归方程,解释你得到的回归方程!讨论,x,2,的作用。,*括弧内表示系数的,p,-值,。,二元比一元的判定系数增大许多。,9/12/2024,22,Applied Stat for MBA05D1,(3)更复杂的定性变量,如果有3种定性状态,如何设虚拟变量?,例:复印机销售地区是A、B、C三个地区,已知不同,地区销售量不但与价格有关而且与地区也有关系,利用,回归分析建立销售量模型。设,x,1,是价格,还需要2个虚,拟变量:,回归方程期望值表示为:,地区A方程:,地区B方程:,地区C方程:,注意:,k,种状态,需要引入,k,-1个虚拟变量。,9/12/2024,23,Applied Stat for MBA05D1,三、广义线性模型,有些复杂的曲线关系也可以用多元回归方法拟合。,1.,模拟高阶曲线关系(Curvilinear Relationships),(1),Reynolds公司是一家生产工业天平和实验室设备的企业。公司管理人员想要对公司销售人员的工作年限和天平的销售数量之间的关系进行研究。他们随机抽取了15名销售人员,得到相应的数据:,9/12/2024,24,Applied Stat for MBA05D1,Reynolds,公司天平销售量与人员雇用月数,天,平,销售人员,天,平,销售人员,销售量,雇用月数,销售量,雇用月数,275 41 89 40,296 106 235 51,317 76 83 9,376 104 112 12,162 22 67 6,150 12 325 56,367 85 189 19,308 111,9/12/2024,25,Applied Stat for MBA05D1,(2)散点图和一元回归结果,9/12/2024,26,Applied Stat for MBA05D1,R,2,=,0.781174,可以看出销售量和人员雇用月数的回归方程为,Sale = 111.23+2.38Months,(0.00012),方程的显著性也很高。但是从散点图看出似乎有非线性趋势,而且判定系数也不算大。从下页残差表和残差图看出有明显非线性特征,考虑加入二次项,x,2,做为第二个解释变量,做二阶回归:,9/12/2024,27,Applied Stat for MBA05D1,Reynolds公司案例,残差表,预测天平销售量 残差 标准残差,208.6756926 66.32430742 1.390020675,363.166061 -67.16606097 -1.407662093,291.862814 25.13718598 0.526823567,358.4125112 17.58748883 0.368597488,163.5169695 -1.516969516 -0.031792552,139.7492205 10.25077947 0.214835193,313.2537881 53.7462119 1.126409738,375.0499355 -67.04993546 -1.405228342,206.2989177 -17.29891768 -0.362549632,232.4434416 2.556558435 0.053580191,132.6188958 -49.61889584 -1.039909707,139.7492205 -27.74922053 -0.581566423,125.4885711 -58.48857114 -1.225799805,244.3273161 80.67268394 1.69073305,156.3866448 32.61335518 0.683508652,9/12/2024,28,Applied Stat for MBA05D1,Reynolds公司案例残差图,9/12/2024,29,Applied Stat for MBA05D1,(3)二阶回归结果,R,2,=0.90,Coefficients 标准误差,t,Stat,p,-value,Intercept45.34758 22.77465 1.99114 0.0697,雇用月数6.344807 1.057851 5.99782 6.24E-05,月数平方 -0.03449 0.008948 -3.85388 0.0023,回归方程为,Sale = 45.35+6.,34(Months)-0,.35(,Months),2,(0.000) (0.002),整个方程,F检验的,p,-值为0.000,无论系数和方程高度显著通过检验,,下页给出二阶回归的标准化残差,相当规范。,9/12/2024,30,Applied Stat for MBA05D1,9/12/2024,31,Applied Stat for MBA05D1,2.因变量对数模型,1)汽车耗油问题,2)散点图 有负线性相关趋势,9/12/2024,32,Applied Stat for MBA05D1,3)一元回归,判定系数和变量系数都很显著,方程应该可以被接受。,9/12/2024,33,Applied Stat for MBA05D1,4)一元回归残差分析,残差呈楔形,有随汽车重量增加而增大的异方差趋势。,9/12/2024,34,Applied Stat for MBA05D1,5)因变量对数一元回归分析,E(lnY) =,0,+ ,1,x,系数显著性有提高,9/12/2024,35,Applied Stat for MBA05D1,6)因变量对数一元回归分析残差分析,标准残差分布比较均匀,方程可以更好的被接受。,9/12/2024,36,Applied Stat for MBA05D1,3.其他常用的非线性变换为线性的公式,9/12/2024,37,Applied Stat for MBA05D1,四.变量选取方法,上面一些例子说明选取合适的解释变量至关重要.对,于一组备选的解释变量进行挑选,逐步回归(,Stepwise),是,十分有效的方法。逐步回归建立在向前选择和向后消元的,基础之上。,逐步回归的基本思想是:备选的解释变量依照对因变,量的相关程度和在回归方程中的地位,按照一定的规则逐,步吸纳和剔除,直到不能吸纳和剔除为止。,不少统计软件都具有逐步回归功能,例如:SAS、SPSS、,Minitab、StaPro,等。,9/12/2024,38,Applied Stat for MBA05D1,1.增加或删除变量的,F,检验,F,检验用来检验已含,x,1,x,k,的模型再增加自变量,x,k+1,(或者从已含,x,1,x,k,x,k+1,删除,x,k+1,) 。,若,F,F,1,n,-(,k,+1)-1,则应该增加(或不删除),x,k+1,否则不,应增加(或删除),x,k+1,。,k,=1则有,9/12/2024,39,Applied Stat for MBA05D1,增加或删除变量的,F,检验的巴特勒例题,巴特勒例题的一元回归和二元回归方程分别为,(0.0041) 括号内为变量系数的p-值,(0.0004) (0.0042),F,检验中的分子分母分别为,F,统计量的,p,-值=0.0042,x,2,应该增加(或不应删除)。,可以看出,F,统计量的,p,-值就是二元中,x,2,系数的,p,-值,。,9/12/2024,40,Applied Stat for MBA05D1,2.逐步回归的基本步骤,1)给定显著性水平,。,2),选择与被解释变量相关系数最高的变量做一元回归;如果,该变量,p,-值不显著,则回归失败结束;否则一元回归方程成立,,进入3)。,3)在一元回归基础上利用,F,-检验筛选其余变量,选择其中显,著性水平(,p,-值)小于,且,F,值最大的一个变量做二元回归; 如果不存在这种变量,只能得出一元回归方程,回归结束;否则二元回归成立,进入 4)。,4)在二元回归基础上利用,F,-检验筛选其余变量,选择其中显,著性水平小于,且,F,值最大的一个变量做3元回归;如果不存在这,种变量,只能得出二元回归方程,回归结束;否则在引入3元基础上,进入第5)步。,9/12/2024,41,Applied Stat for MBA05D1,逐步回归的基本步骤(续),5)已有,k,个变量被引入基础上利用,F,-检验对已被引入的变量,做检验,删除其中显著性水平(,p,-值)大于,且,F,值最小的一个变,量,做,k,-1元回归,然后继续做删除检验(每次删除1个变量),,直到没有符合被删除条件的变量为止,进入第 6)步。,6)在,m,个变量被引入基础上利用,F,-检验筛选未被引入的变量,,选择其中显著性水平小于,且,F,值最大的一个变量做,m+,1,元归,,然后回到第 5) 步;否则如果不存在这种变量,只能得出,m,元回归,方程,回归结束。,1 2 3 4 5 6 结束,9/12/2024,42,Applied Stat for MBA05D1,3.逐步回归的几个问题,1)对于给定的显著性水平,,逐步回归一定会结束,,其结果唯一;不同的回归结果不同。,2)前三步只引进变量,不剔除变量。,3)可以分别设定不同的 ,进,和 ,出, 但是要求 ,进,出,,否则可能形成死循环不能结束回归。,9/12/2024,43,Applied Stat for MBA05D1,4.,大型问题分析-逐步回归的应用,教材740页提供9个变量的Cravens数据,讨论8个自变量对因,变量SALES的多元回归问题。相关系数阵为,利用StaPro软件做逐步回归,结果在以下各片,9/12/2024,44,Applied Stat for MBA05D1,逐步回归的应用第一步,9/12/2024,45,Applied Stat for MBA05D1,逐步回归的应用第二步,9/12/2024,46,Applied Stat for MBA05D1,逐步回归的应用第三步,9/12/2024,47,Applied Stat for MBA05D1,逐步回归的应用第四步,如果设置,进,= ,出,=0.01,则第二步就结束,一般设较大,多得到几步,再根据系数p-值决定到哪步结束。,9/12/2024,48,Applied Stat for MBA05D1,6.最佳子集回归,-,逐步回归方法是通过每次增加或者删除自变,量来选择回归模型, 对于一组已知变量, 方法,并不能保证得到最佳的模型。,不少统计软件都具有最佳子集回归过程,例如:SAS、SPSS、Minitab,等。对于一组给定的自变量, 这一过程能够得到最佳回归模型。,9/12/2024,49,Applied Stat for MBA05D1,总结:如何建立一个回归模型?,1、正确选择自变量和因变量(需要虚拟变量吗?需要引入非线性因素吗?);,2、正确使用计算机软件建立回归模型;,3、查看残差图(线性假设成立吗?存在异 方差吗?有异常值或影响点存在吗?是否存在多重共线性问题?),9/12/2024,50,Applied Stat for MBA05D1,总结:如何建立一个回归模型?,5、小心地处理系数的p值比较大的变量,切记:你不应该马上把那些p值较大的自变量都消除!,6、你可以尝试使用软件提供的变量选择过程建立模型。(但是你要明白选择出什么样的模型仍然是由你来控制的。),7、无论如何再回到逐步回归第,5,步都是有益的!,9/12/2024,51,Applied Stat for MBA05D1,总结:分析你得到的模型,1、你必须回到你具体问题的情景中去!,2、如何对你的模型和系数进行解释?,3、使用你的模型进行预测。此时,你要注意很多问题!,4、把具体的问题化成模型中的假设?尝试着去找到检验的方法。,5、体会使用模型辅助你进行决策!,9/12/2024,52,Applied Stat for MBA05D1,作 业,6,Due Date: May 28, 2005.,教材 704页:47题,教材 704页:案例研究2。说明:你只需运用逐步回归选取高尔夫球手比赛成绩的影响因素。,9/12/2024,53,Applied Stat for MBA05D1,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 各类标准


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!