孟生旺:广义线性模型-发展与应用课件

上传人:磨石 文档编号:243155876 上传时间:2024-09-17 格式:PPT 页数:36 大小:861.50KB
返回 下载 相关 举报
孟生旺:广义线性模型-发展与应用课件_第1页
第1页 / 共36页
孟生旺:广义线性模型-发展与应用课件_第2页
第2页 / 共36页
孟生旺:广义线性模型-发展与应用课件_第3页
第3页 / 共36页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,孟生旺:广义线性模型-发展与应用,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,孟生旺:广义线性模型-发展与应用,*,第 十 二 届 中 国 精 算 年 会,The 12,th,China Actuarial Annual Conference,广义线性模型:发展与应用,孟生旺,中国人民大学统计学院,Email,:,孟生旺:广义线性模型-发展与应用,主要内容,基本的广义线性模型:理论与应用,模型评价,费率约束,广义线性模型的推广与应用,分布假设的推广,GAM,与,GAMLSS,(,GAM for Location, Scale and Shape),神经网络与回归树,应用案例,2,孟生旺:广义线性模型-发展与应用,基本,GLM,:理论与应用,分布假设:,正态,泊松、负二项:,索赔频率,伽马、逆高斯:,索赔强度,Tweedie,:,纯保费,二项:,续保率,连接函数:,恒等:加法模型,对数:乘法模型,预测值大于零,logit,:预测值在(,0,,,1,)区间,3,孟生旺:广义线性模型-发展与应用,Tweedie,、泊松和伽马的比较:,Tweedie,:,泊松:,p,=1,伽马:,p,=2,4,孟生旺:广义线性模型-发展与应用,模型评价,1,:偏差,近似服从自由度为,n - p,的卡方分布。除泊松外,效果不是很好。,对于嵌套模型,偏差之差近似服从,p - q,的卡方分布,近似效果较好。,注:,SAS,中称,f,D,为偏差,称,D,为尺度,偏差。,5,孟生旺:广义线性模型-发展与应用,模型评价,2,:残差(下页图示),Anscobe,残差:,Deviance,残差:,若分布假设是合理的,标准化处理后近似服从标准正态分布。,若偏差,d,i,的绝对值大于,1,,说明对这个观察值的拟合效果较差。,6,孟生旺:广义线性模型-发展与应用,7,孟生旺:广义线性模型-发展与应用,模型评价,3,:,Type 1,和,Type 3,分析,LR Statistics For,Type 3,Analysis,Source DF Chi- Sq Pr Chi-Sq,OwnerAge 7 52.81 .0001,Model 3 100.54 .0001,CarAge 3 122.52 Chi-Sq,Intercept -1456.5376,OwnerAge -1438.7844 7 17.75 0.0131,Model -1370.3694 3 68.41 .0001,CarAge -1247.8460 3 122.52 ,Chisq,Intercept,1,5.1338,0.0637,5.0090,5.2586,6499.85,.0001,OwnerAge,17-20,1,0.2263,0.1107,0.0094,0.4433,4.18,0.0409,OwnerAge,21-24,1,0.2287,0.0598,0.1115,0.3459,14.63,0.0001,OwnerAge,25-29,1,0.1642,0.0438,0.0783,0.2502,14.04,0.0002,OwnerAge,30-34,1,0.1143,0.0420,0.0321,0.1966,7.43,0.0064,OwnerAge,35-39,1,-0.0877,0.0411,-0.1684,-0.0071,4.54,0.0330,OwnerAge,40-49,1,-0.0129,0.0358,-0.0831,0.0574,0.13,0.7197,OwnerAge,50-59,1,0.0069,0.0372,-0.0661,0.0799,0.03,0.8536,OwnerAge,60+,0,0.0000,0.0000,0.0000,0.0000,.,.,CarAge,0-3,1,0.6990,0.0516,0.5978,0.8002,183.32,.0001,CarAge,4-7,1,0.6130,0.0516,0.5119,0.7141,141.33,.0001,CarAge,8-9,1,0.3558,0.0598,0.2386,0.4730,35.43,.0001,CarAge,z10+,0,0.0000,0.0000,0.0000,0.0000,.,.,Scale,1,0.9852,0.1234,0.7707,1.2594,9,孟生旺:广义线性模型-发展与应用,模型评价,5,:把样本数据分为三组(数据充足),训练样本(,training data,),测试样本,(test data),评价样本,(validation data),模型评价,6,:,Box-Cox,检验,10,孟生旺:广义线性模型-发展与应用,来源:,Anderson etc.(2007), Practitioners guide to GLM,11,孟生旺:广义线性模型-发展与应用,模型比较,:信息准则,AIC,或,BIC,的值越小越好。,误差平方和的比较?,12,孟生旺:广义线性模型-发展与应用,GLM,的优缺点,优点:,统计检验,处理相关性和交互作用(见下页),现成软件,缺点:,无法处理加法和乘法的混合模型,参数模型,函数形式有限,寻找交互项:耗时,13,孟生旺:广义线性模型-发展与应用,费率约束,:,A,区域的费率系数不超过,1.20,B,区域的费率系数保持在当前水平,1.10,不变,如何解决?,传统方法:,方法,2,:抵消项,方法,3,:一般约束条件下的广义线性模型,费率约束的处理,14,孟生旺:广义线性模型-发展与应用,性别,区域,抵消项,男,A,log(1.2),B,log(1.1),C,log(1),D,log(1),女,A,log(1.2),B,log(1.1),C,log(1),D,log(1),性别,区域,男,A+B,(,基准水平,系数,=1,),C,D,女,A+B,C,D,费率约束的处理:抵消项,例:区域,A,和,B,的费率系数分别限定为,1.2,和,1.1,,区域,C,和,D,不受约束, 另一个费率因子为性别。假设不存在其他费率因子。,15,孟生旺:广义线性模型-发展与应用,权重与抵消项的关系:泊松回归为例,:,因变量:索赔次数,(,C,),权重:无,抵消项:,log(,风险单位数,),因变量:索赔频率,(,F,),权重:风险单位数,(,e,),抵消项:无,16,孟生旺:广义线性模型-发展与应用,费率约束情况下,何时不宜使用抵消项?,例:公司希望开拓高端住宅保险市场,措施之一是适当降低其费率,问题:保额与区域高度相关,应用抵消项的结果:区域因子会调整,使得高端住宅的费率仍然较高,解决途径?方法,3,,一般约束条件下的广义线性模型,17,孟生旺:广义线性模型-发展与应用,方法,3,: 一般线性约束下的费率厘定,约束条件:,参数估计:,18,孟生旺:广义线性模型-发展与应用,GLM,的推广 与应用,分布假设的推广,过离散:,混合泊松分布:泊松,-,逆高斯,泊松,-,对数正态,零膨胀:,零膨胀模型,长尾:,对数正态,帕累托,0-1,之间取值的变量:,Beta,分布,19,孟生旺:广义线性模型-发展与应用,广义可加模型,(,Generalized Additive Models,,,GAM,),GAMLSS,模型,(,GAM for Location, Scale and Shape),20,孟生旺:广义线性模型-发展与应用,神经网络模型,21,孟生旺:广义线性模型-发展与应用,神经网络模型的优点:,广义线性模型的推广。,非线性。,无需事先指定解释变量与因变量之间的函数关系。,可以以任意精度逼近任意的连续函数,预测效果通常要优于常用的广义线性模型,但,有例外,22,孟生旺:广义线性模型-发展与应用,神经网络的缺陷:,缺乏进行统计推断和模型检验的统计理论,模型参数不易解释,预测过程类似于一个黑箱,有可能会引入不必要的交互项,导致过拟合。,23,孟生旺:广义线性模型-发展与应用,回归树,优点,:,无需对因变量和解释变量之间的函数关系作出假设,可以方便地处理交互作用,缺点:,拟合值是分段常数,不大可能产生很好的拟合效果,。,24,孟生旺:广义线性模型-发展与应用,最小偏差法及其推广,(下页),优点:建立加法和乘法的混合模型,缺点:没有严格的统计检验,25,孟生旺:广义线性模型-发展与应用,26,孟生旺:广义线性模型-发展与应用,应用案例,来源:,Ismail et al.(2007),和,Cheong et al.(2008),马来西亚车险汇总数据,分类变量,水平,保障类型,综合险,非综合险,汽车产地,国内,国外,用途及性别,男性个人,女性个人,商务,车龄,0至1年,2至3年,4至5年,6年以上,地区,中部,北部,东部,南部,东马,27,孟生旺:广义线性模型-发展与应用,系数(括号中表示基准水平),线性回归,泊松回归,负二项回归,泊松,-逆高斯回归,截距,0,0.0712,-2.4921,-2.5781,-2.5960,非综合险(综合险),1,-0.0110,-0.5615,-0.6780,-0.6809,国外(国内),2,-0.0036,-0.0924,-0.0829,-0.0821,商务(男性个人),3,-0.0415,-6.0618,-6.0551,-6.0582,女性个人(男性个人),4,-0.0168,-0.5149,-0.5483,-0.5544,车龄,2至3年(0至1年),5,-0.0187,-0.3871,-0.3302,-0.3057,车龄,4至5年(0至1年),6,-0.0274,-0.6390,-0.5657,-0.5399,车龄,6年以上(0至1年),7,-0.0315,-0.7798,-0.6337,-0.6140,东部(中南部),8,-0.0140,-0.4428,-0.4367,-0.4345,东马(中南部),9,-0.0137,-0.5169,-0.5144,-0.5144,北部(中南部),10,-0.0075,-0.2155,-0.1498,-0.1422,AIC,1001.20,901.73,797.43,796.53,广义线性模型的参数估计值,28,孟生旺:广义线性模型-发展与应用,广义线性模型的拟合结果比较,29,孟生旺:广义线性模型-发展与应用,回归树的结果,30,孟生旺:广义线性模型-发展与应用,模型,参数个数,误差平方和,(,SSE),类,线性回归,11,19.08,0.7274,回归树,11,16.76,0.7606,泊松,-,逆高斯回归,12,15.08,0.7846,负二项回归,12,14.73,0.7896,泊松回归,11,13.04,0.8138,神经网络(,1,个神经元),13,12.30,0.8242,神经网络(,2,个神经元),25,5.85,0.9165,神经网络(,3,个神经元),37,5.11,0.9270,模型的误差平方和比较,31,孟生旺:广义线性模型-发展与应用,费率约束,约束:下述三个类别的预测值落在,0.01, 0.03,。,风险,类别,保障,类型,汽车,产地,用途和,性别,车龄,地区,索赔频率观察值,索赔频率拟合值,1,综合险,国内,男性个人,23年,东马,0.0280,0.0335,2,综合险,国内,商务,23年,东马,0.0000,0.0001,3,综合险,国外,女性个人,6年以上,东马,0.0126,0.0123,32,孟生旺:广义线性模型-发展与应用,对选定的三个风险类别约束前后的索赔频率预测值,约束:索赔频率的拟合值要落在区间,0.01, 0.03,内,33,孟生旺:广义线性模型-发展与应用,对所有风险类别约束前后的索赔频率预测值,约束:索赔频率的拟合值不超过,0.05,34,孟生旺:广义线性模型-发展与应用,小结,预测精度:神经网络模型,方便性、实用性、可解释性:,泊松回归,伽马回归,Tweedie,回归,Logistic,回归,,Beta,回归,35,孟生旺:广义线性模型-发展与应用,谢谢!,36,孟生旺:广义线性模型-发展与应用,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!