第二讲多元回归与建模资料课件

上传人:无*** 文档编号:241662730 上传时间:2024-07-14 格式:PPT 页数:56 大小:791.50KB
返回 下载 相关 举报
第二讲多元回归与建模资料课件_第1页
第1页 / 共56页
第二讲多元回归与建模资料课件_第2页
第2页 / 共56页
第二讲多元回归与建模资料课件_第3页
第3页 / 共56页
点击查看更多>>
资源描述
1第二讲 多元回归与建模多元回归与建模2n研究多个变量间的关系,因变量如何受到多个自变量的影响,用多个自变量预测因变量的值。n例:n超市中商品的价格、摆放位置、促销手段如何影响销售量;n如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状况、是否有抵押等)进行信用预测;n连锁旅店的利润主要受哪些因素影响;n如何预测每个客户的流失概率;n如何在达到环保标准的前提下找到最佳生产条件;n如何给二手车定价;n如何预测故障维修时间;n如何定新员工的薪水及解聘员工的补偿金。34X2X1Y i5认识认识R R2 2n总变差的分解:总变差的分解:SST=SSR+SSE;n判定系数:判定系数:R2=SSR/SST;n多重相关系数多重相关系数R;n调整(修正)的判定系数:调整(修正)的判定系数:6对回归方程的检验对回归方程的检验n问题:因变量和所有自变量的集合之间问题:因变量和所有自变量的集合之间是否存在显著的关系?是否存在显著的关系?n检验假设检验假设n拒绝域拒绝域 7对回归系数的检验对回归系数的检验n检验假设检验假设n检验统计量检验统计量n拒绝域拒绝域 8例:巴特勒运输公司例:巴特勒运输公司 巴特勒运输公司的主营业务地域为本地,为了建立更好的工作日程表,经理们计划为他们的驾驶员估计日常行驶时间。91013回归系数的解释nb1=0.0611 当送货次数不变时,行驶里程每增加1英里,行驶时间期望的估计值增加0.0611小时。nb2=0.9234 当行驶里程不变时,送货次数每增加1次,行驶时间期望的估计值增加0.9234小时。14例:房屋售价n一个房地产经纪人认为房屋的售价可由房屋的面积、卧室的个数和批量的大小来预测。他随机选取了100座房屋并收集数据如下:1516多重共线性问题多重共线性问题n在多元线性回归模型中,多重共线性性多重共线性性(Multicollinearity)是指自变量之间存在线性相关的关系。n多重共线性存在时会使得系数估计的标准误差增大,从而使得相应的t统计量减小和p值增加。我们将无法确定任一自变量对因变量的单独影响。单个系数的符号可能与实际不符。17识别多重共线性性识别多重共线性性n自变量的相关矩阵:自变量的相关矩阵:样本相关系数的绝对值大于0.7。n方差膨胀因子方差膨胀因子(Variance Inflation Factors,简记作VIF):刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。VIF越大说明多重共线性问题越严重。n经验法则:VIF 10n自变量矩阵自变量矩阵 X,XX有很小接近于有很小接近于0的特征根的特征根1819例:例:JohnsonJohnson过滤水股份公司过滤水股份公司 Johnson公司对遍步南弗罗里达州公司对遍步南弗罗里达州的水过滤系统提供维修服务。为了估计的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。的每一次维修请求预测必要的维修时间。他们收集的数据中包含最近一次维修至他们收集的数据中包含最近一次维修至今的时间(月数)、故障的类型(电子今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?你能够建立起一个预测方程吗?20定性的自变量定性的自变量n引入虚拟变量(引入虚拟变量(Dummy Variable)n如何定义虚拟变量?如何定义虚拟变量?例:例:x=0(女性),女性),x=1(男性)(男性)x=0(机械类),机械类),x=1(电子类)(电子类)n如何解释回归模型?如何解释回归模型?21建立维修时间的回归方程建立维修时间的回归方程n二元回归方程二元回归方程n解释你得到的回归方程!解释你得到的回归方程!n蓝色为电子类,红色为机械类23诊断你的模型:残差分析诊断你的模型:残差分析n残差分析不仅被用于判断你对模型中误残差分析不仅被用于判断你对模型中误差项所设的假定是否符合,而且还可以差项所设的假定是否符合,而且还可以检测出异常值和有影响的点。检测出异常值和有影响的点。n残差图残差图:由横轴为自变量或者因变量的预由横轴为自变量或者因变量的预测值、纵轴为残差或者学生化残差组成测值、纵轴为残差或者学生化残差组成的散点图。的散点图。24识别影响点、异常值识别影响点、异常值n识别影响点的方法:杠杆率比较大识别影响点的方法:杠杆率比较大(大于大于 3(p+1)/n),或者,或者Cook距离距离D比较大比较大(1).n检测异常值的方法:散点图;利用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。n识别之后:建议应该同时报告包含影响点和除识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。去影响点的两种回归结果。25其它的内容其它的内容n使用残差检验误差项的正态性;使用残差检验误差项的正态性;n使用残差来分析误差项的独立性:使用残差来分析误差项的独立性:Durbin-Watson统计量统计量d 残差对时间的散点图残差对时间的散点图26Durbin-Watson 检验27nHow does the weather affect the sales of lift tickets in a ski resort?nData of the past 20 years sales of tickets,along with the total snowfall and the average temperature during Christmas week in each year,was collected.nThe model hypothesized wasTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+nRegression analysis yielded the following results:ExampleThe model seems to be very poor:The fit is very low(R-square=0.12),It is not valid(Signif.F=0.33)No variable is significant29The errors may benormally distributedResidual over timeResidual vs.predicted yThe errors are not independentThe error variance is constantThe modified regression modelTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+b3YEARS+e All the required conditions are met for this model.The fit of this model is high R2=0.74.The model is useful.Significance F=5.93 E-5.SNOWFALL and YEARS are significant.TEMPERATURE is not significant.32 “没有哪一个模型是对没有哪一个模型是对的,但是的确有一些模型是的,但是的确有一些模型是好的。好的。”回归模型的建立回归模型的建立33一般线性模型一般线性模型 模拟曲线关系交互作用包含因变量的变换内蕴线性的非线性模型34模拟曲线关系n例:雷诺兹公司管理人员希望对公司销售人员工作年限的长短和电子实验室天平的销售数量之间的关系进行调研。38交互作用n例:泰勒为他的一种新的洗发产品进行的回归研究。404142考虑交互作用的模型考虑交互作用的模型n建立下面的模型建立下面的模型n怎样检验交互作用是否存在?怎样检验交互作用是否存在?nH0:=043包含因变量的变换n经常用来修正非常数方差。nBox-Cox变换n常用变换:对数 倒数44内蕴线性的非线性模型n常见于指数模型45自变量的选择n逐步回归n必须预先为F统计量设定终止值:Fenter,Fremoven最佳子集n选取准则:(1)R2 或Adj R2(大,接近1好)Cp()(3)预报平方和准则(PRESS)(4)AIC准则(越小越好)例题:肝手术病人的生存时间的研究例题:肝手术病人的生存时间的研究预后指数预后指数(前(前6组):组):预后指数预后指数预后指数预后指数53总结:如何建立一个回归模型总结:如何建立一个回归模型?1、正确选择自变量和因变量(需要考虑交、正确选择自变量和因变量(需要考虑交互作用吗?是否需要进行必要的变换?互作用吗?是否需要进行必要的变换?需要虚拟变量吗?);需要虚拟变量吗?);2、正确使用计算机软件建立回归模型;、正确使用计算机软件建立回归模型;3、查看残差图(线性假设成立吗?存在异、查看残差图(线性假设成立吗?存在异 方差吗?有异常值或影响点存在吗?);方差吗?有异常值或影响点存在吗?);4、判断是否存在多重共线性问题;、判断是否存在多重共线性问题;54总结:如何建立一个回归模型总结:如何建立一个回归模型?5、小心地处理系数的、小心地处理系数的p值比较大的变量,区别值比较大的变量,区别VIF比较大和比较大和VIF比较小的情况。切记:你不比较小的情况。切记:你不应该马上把那些应该马上把那些p值较大的自变量都消除!值较大的自变量都消除!6、你可以尝试使用软件提供的变量选择过程建、你可以尝试使用软件提供的变量选择过程建立模型。(但是你要明白选择出什么样的模型立模型。(但是你要明白选择出什么样的模型仍然是由你来控制的。)仍然是由你来控制的。)7、无论如何再回到第、无论如何再回到第3步都是有益的!步都是有益的!人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!