岭回归教学讲解课件

上传人:痛*** 文档编号:241905068 上传时间:2024-08-04 格式:PPT 页数:46 大小:1.30MB
返回 下载 相关 举报
岭回归教学讲解课件_第1页
第1页 / 共46页
岭回归教学讲解课件_第2页
第2页 / 共46页
岭回归教学讲解课件_第3页
第3页 / 共46页
点击查看更多>>
资源描述
第七章第七章 岭回归岭回归 7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析7.4 岭参数k的选择7.5 用岭回归选择变量7.6 本章小结与评注第七章 岭回归 7.1 岭回归估计的定7.1 岭回归估计的定义岭回归估计的定义一、普通最小二乘估计带来的问题一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就很大,估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例例7.17.1 假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+7.1 岭回归估计的定义一、普通最小二乘估计带来的问题 7.1岭回归估计的定义岭回归估计的定义7.1 岭回归估计的定义7.1岭回归估计的定义岭回归估计的定义7.1 岭回归估计的定义7.1岭回归估计的定义岭回归估计的定义二、岭回归的定义二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很自然的。当自变量间存在复共线性时,XX0,我们设想给XX加上一个正常数矩阵kI,(k0),那么XX+kI接近奇异的程度就会比XX接近奇异的程度小得多。考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示7.1 岭回归估计的定义二、岭回归的定义 7.1岭回归估计的定义岭回归估计的定义我们称 为的岭回归估计,其中k称为岭参数。由于假设X已经标准化,所以XX就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。(7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。(7.2)7.1 岭回归估计的定义我们称 为的岭回归估计,其中k称7.1岭回归估计的定义岭回归估计的定义表表7.27.1 岭回归估计的定义表7.27.1岭回归估计的定义岭回归估计的定义7.1 岭回归估计的定义7.2 岭回归估计的性质岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。7.2 岭回归估计的性质 在本节岭回归估计7.2 岭回归估计的性质岭回归估计的性质 7.2 岭回归估计的性质 7.2 岭回归估计的性质岭回归估计的性质 7.2 岭回归估计的性质 7.2 岭回归估计的性质岭回归估计的性质 7.2 岭回归估计的性质 7.3 岭迹分析岭迹分析 7.3 岭迹分析 7.3岭迹岭迹分析分析 7.3岭迹分析 7.4 岭参数岭参数k的选择的选择 一、岭迹法一、岭迹法 岭迹法选择k值的一般原则是:(1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。7.4 岭参数k的选择 一、岭迹法 岭迹法选择k值的一般7.4 岭参数岭参数k的选择的选择 7.4 岭参数k的选择 7.4 岭参数岭参数k的选择的选择 二、方差扩大因子法二、方差扩大因子法 7.4 岭参数k的选择 二、方差扩大因子法 7.4 岭参数岭参数k的选择的选择 三、由残差平方和来确定三、由残差平方和来确定k值值 岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)cSSE (7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。7.4 岭参数k的选择 三、由残差平方和来确定k值 7.5 用岭回归选择变量用岭回归选择变量岭回归选择变量的原则:(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。7.5 用岭回归选择变量岭回归选择变量的原则:7.5 用岭回归选择变量用岭回归选择变量例例7.2 空气污染问题。Mcdonald和Schwing在参考文献18中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1Average annual precipitation in inches 平均年降雨量x2Average January temperature in degrees F 1月份平均气温x3Same for July 7月份平均气温x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比x5Average household size 每家人口数x6Median school years completed by those over 22 年龄在22岁以上的人受教育年限的中位数7.5 用岭回归选择变量例7.2 空气污染问题。Mcd7.5 用岭回归选择变量用岭回归选择变量x7Percent of housing units which are sound&with all facilities 住房符合标准的家庭比例数x8Population per sq.mile in urbanized areas,1960 每平方公里人口数x9Percent non-white population in urbanized areas,1960 非白种人占总人口的比例x10Percent employed in white collar occupations 白领阶层人口比例x11Percent of families with income$3000 收入在3000美元以下的家庭比例x12Relative hydrocarbon pollution potential 碳氢化合物的相对污染势x13 Same for nitric oxides 氮氧化合物的相对污染势x14Same for sulphur dioxide 二氧化硫的相对污染势x15Annual average%relative humidity at 1pm 年平均相对湿度yTotal age-adjusted mortality rate per 100,000 每十万人中的死亡人数7.5 用岭回归选择变量x7Percent of ho7.5 用岭回归选择变量用岭回归选择变量计算X XX X的15个特征为:4.5272,2.7547,2.0545,1.3487,1.22270.9605,0.6124,0.4729,0.3708,0.21630.1665,0.1275,0.1142,0.0460,0.0049条件数 注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同7.5 用岭回归选择变量计算XX的15个特征为:条件数7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量进行岭迹分析 把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.020.08时,方差扩大因子小于10,故应建议在此范围选取k。由此也看到不同的方法选取k值是不同的。7.5 用岭回归选择变量进行岭迹分析7.5 用岭回归选择变量用岭回归选择变量 在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。再根据第三条原则去掉变量x3和x5。这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。7.5 用岭回归选择变量 在用岭回归进行变7.5 用岭回归选择变量用岭回归选择变量 例例7.3Gorman-Torman例子(见参考文献2)。本例共有10个自变量,X已经中心化和标准化了,XX的特征根为:3.692,1.542,1.293,1.046,0.972,0.659,0.357,0.220,0.152,0.068 最后一个特征根10=0.068,较接近于零。7.5 用岭回归选择变量 例7.3Gorm7.5 用岭回归选择变量用岭回归选择变量 条件数k=7.36810。从条件数的角度看,似乎设计矩阵X没有复共线性。但下面的研究表明,作岭回归还是必要的。关于条件数,这里附带说明它的一个缺陷,就是当XX所有特征根都比较小时,虽然条件数不大,但多重共线性却存在。7.5 用岭回归选择变量 条件数k=7.37.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量 例例7.4 用岭回归方法处理民航客运数据的多重共线性问题。SPSS软件的岭回归功能要用语法命令实现,菜单对话框中没有此功能。运行岭回归程序的步骤如下:7.5 用岭回归选择变量 例7.4 用岭7.5 用岭回归选择变量用岭回归选择变量1进入SPSS软件,录入变量数据或调入已有的数据文件。2进入Syntax语法窗口。方法是依次点选File-New-Syntax。3录入如下的语法命令:INCLUDE c:Program FilesSPSSRidge regression.sps.RIDGEREG DEP=y/ENTER x1 x2 x3 x4 x5.4运行。依次点选主菜单的Run-All.7.5 用岭回归选择变量1进入SPSS软件,录入变量7.5 用岭回归用岭回归选择变量选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量图图7.6(a)7.5 用岭回归选择变量图7.6(a)7.5 用岭回归选择变量用岭回归选择变量通过上面的分析,我们决定剔除x1,用y与其余4个自变量做岭回归。把岭参数步长改为0.02,范围减小到0.2。这需要增加一句语法程序,点选主菜单的Window-Syntax Editor返回语法窗口,语法命令如下:INCLUDE c:Program FilesSPSSRidge regression.sps.RIDGEREG DEP=y/ENTER x2 x3 x4 x5/START=0.0/STOP=0.2/INC=0.02.7.5 用岭回归选择变量通过上面的分析,我们决定剔除x17.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量图图7.6(b)7.5 用岭回归选择变量图7.6(b)7.5 用岭回归选择变量用岭回归选择变量选取岭参数k=0.08。然后给定k=0.08,重新做岭回归,语法命令如下:INCLUDE c:Program FilesSPSSRidge regression.sps.RIDGEREG DEP=y/ENTER x2 x3 x4 x5/k=0.08.C:Program FilesSPSSIncPASWStatistics18SamplesEnglishNCLUDE C:Program FilesSPSSIncPASWStatistics18SamplesEnglishRidge regression.sps.RIDGEREG DEP=y/ENTER x1 x2 x3 x4 x5/k=0.3.7.5 用岭回归选择变量选取岭参数k=0.08。然后给定7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量7.5 用岭回归选择变量用岭回归选择变量7.5 用岭回归选择变量
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!