资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Chp12,:统计决策理论,用不同方法可能得到多个不同的估计,哪个估计更好一些?,统计决策理论:比较统计过程的形式化理论,1,第1页,共24页。,损失函数,损失函数:度量真值 与估计 之间的差异,损失函数举例,平方误差损失,绝对误差损失,损失,0-1,损,失,Kullback-Leibler,损失,2,第2页,共24页。,风险函数,注意:估计 是数据的函数,有时记为,风险函数:平均损失,估计 的风险定义为,对平方误差损失,风险为,MSE,风险是 的函数,比较不同的估计,转化为比较不同估计的风险,但并不能清楚地回答哪个估计更好,3,第3页,共24页。,风险比较,例,12.3,:令 ,,损失函数:平方误差损失,估计,1,:极大斯然估计:,偏差,bias=0,,所以,4,第4页,共24页。,风险比较,例,12.3,(续),:,估计,2,:贝叶斯估计,先验为 ,则估计为,风险为,当 时,,,其中,5,第5页,共24页。,风险比较,没有一个估计的风险在所有的,p,值都超过另外一个,6,第6页,共24页。,风险比较,风险函数的两个单值概述,最大风险,贝叶斯风险,其中 为,的先验。,7,第7页,共24页。,风险比较,例,12.5,:,最大风险函数:,,所以根据,最小最大风险,,更好一些,8,第8页,共24页。,风险比较,例,12.5,:,贝叶斯风险:先验为,当 时,,所以根据,最小贝叶斯风险,,更好一些,问题:需要先验,尤其对复杂问题的话,确定先验可能很困难,9,第9页,共24页。,决策规则,(Decision Rules),决策规则是估计的别名,最小化贝叶斯风险的决策规则称为贝叶斯规则或贝叶斯估计,即 为对应先验,f,的贝叶斯估计,其中下界是对所有的估计 计算,最小化最大风险的估计称为最小最大规则,其中下界是对所有的估计 计算,10,第10页,共24页。,贝叶斯估计,估计 的后验风险:,贝叶斯风险与后验风险:,其中 为,X,的边缘分布,为最小化后验风险 的,的值,则 为贝叶斯估计,给定一个模型(先验和似然)和损失函数,就可以找到贝叶斯规则,11,第11页,共24页。,证明:,12,第12页,共24页。,贝叶斯估计,一些简单损失函数对应的贝叶斯规则,若 ,则贝叶斯规则为后验,均值,若 ,则贝叶斯规则为后验,中值,若 为,0-1,损失,则贝叶斯规则为后验,众数,(MAP),13,第13页,共24页。,损失函数:度量真值 与估计 之间的差异,决策规则(Decision Rules),多正态均值(Many Normal Means),其中下界是对所有的估计 计算,20:令 ,在均方误差损失下,是可接受的。,注意:估计 是数据的函数,有时记为,用不同方法可能得到多个不同的估计,哪个估计更好一些?,没有一个估计的风险在所有的p值都超过另外一个,14:令 ,,比较不同的估计,转化为比较不同估计的风险,没有一个估计的风险在所有的p值都超过另外一个,贝叶斯风险与后验风险:,,所以根据最小最大风险,更好一些,其中 为X的边缘分布,且这是唯一有此性质的估计,最小最大规则,找最小最大规则、或者证明一个估计是最小最大估计是一件很困难的事情。,本节主要讲述一个简单的方法:有些贝叶斯估计(风险为常数)是最小最大估计,令 对应先验,f,的贝叶斯估计:,假设,则,为最小最大估计,且,f,称为,最小受欢迎先验,(,least favorable prior),。,上述结论一个简单的结论:如果一个贝叶斯规则的风险为常数 ,则它是最小最大估计。,14,第14页,共24页。,正态分布的最小最大规则,定理,12.14,:令 ,,则 是关于任意损失函数的最小最大规则,且这是唯一有此性质的估计,15,第15页,共24页。,MLE,为近似最小最大估计,对满足弱正则条件的参数模型,极大似然估计近似为最小最大估计。对均方误差损失,通常,根据,Cramer-Rao,不等式,这是所有无偏估计的方差的下界。,16,第16页,共24页。,MLE,为近似最小最大估计,因此对所有估计 ,有,对大数,n,,,MLE,为近似最小最大估计。,因此,对大多数参数模型,当有大量样本时,,MLE,近似为最小最大估计和贝叶斯估计。,Many Normal Means,情况不成立(不是大样本),17,第17页,共24页。,可接受性,(Admissibility),一个估计如果在,所有值上都比其它估计的风险大,则该估计不是我们所希望的。如果存在一个其它的规则 ,使得,则该估计 是不可接受的。,否则,是可接受的。,18,第18页,共24页。,贝叶斯规则是可接受性,可接受性是与其他表示估计好坏的方法有何关系?,在一些正则条件下,如果 为贝叶斯规则且有有限风险,则它是可接受的。,定理,12.20,:令 ,在均方误差损失下,是可接受的。,风险为,19,第19页,共24页。,用不同方法可能得到多个不同的估计,哪个估计更好一些?,MLE为 ,损失函数为,因此,对大多数参数模型,当有大量样本时,MLE近似为最小最大估计和贝叶斯估计。,令 ,表示数据,,表示未知参数,,3(续):估计2:贝叶斯估计,先验为 ,则估计为,但并不能清楚地回答哪个估计更好,估计 的风险定义为,且这是唯一有此性质的估计,表示未知参数,,一个估计如果在所有值上都比其它估计的风险大,则该估计不是我们所希望的。,注意:估计 是数据的函数,有时记为,正态分布的最小最大规则,可接受性,如果 的风险为常数且是可接受的,则它是最小最大估计。,定理,12.22,:令 ,在均方误差损失下,是最小最大估计。,风险为,虽然最小最大估计不能保证是可接受的,但它是“接近可接受的”。,20,第20页,共24页。,多正态均值,(Many Normal Means),Many Normal Means,是一个原型问题,与一般的非参数估计问题等价。对这个问题,以前许多关于极大似然估计的正面的结论都不再满足。,令 ,表示数据,,表示未知参数,,c,0,,这里参数的数目与观测数据的数目一样多,21,第21页,共24页。,Many Normal Means,MLE,为 ,损失函数为,MLE,的风险为,最小最大估计的风险近似为 ,且存在这样一个估计,能达到该风险。,存在风险比,MLE,更小的估计,因此,MLE,是不可接受的。,因此对高维问题或非参数问题,,MLE,并不是最优估计。另外在非参数场合,,MLE,的鲁棒性也不是很好。,22,第22页,共24页。,底线,根据这些工具,怎样选择估计呢?,如果一个估计是不可接受的,则该估计一定是不好的。,如果你信仰贝叶斯观点,可以用贝叶斯规则。,如果最小最大性满足应用要求,可以使用最小最大估计。,23,第23页,共24页。,下节课内容,第三部分:模型选择部分,准备统计学习基础一书,作业,Chp12,:,1.(c),、,3,、,4,24,第24页,共24页。,
展开阅读全文