第1章先验分布与后验分布复习过程课件

资源描述

贝叶斯统计贝叶斯统计基本教材：基本教材：茆诗松编，贝叶斯统计茆诗松编，贝叶斯统计中国统计出版社，中国统计出版社，2012年年.总评成绩总评成绩：平时成绩40%：作业+小测试期末成绩60%已修课程：概率论与数理统计已修课程：概率论与数理统计参考教材：1.贝叶斯统计.韦来生.高等教育出版社1998 2.现代贝叶斯统计Kotz S,吴喜之中国统计出版社19993.贝叶斯统计推断张尧庭、陈汉峰科学出版社1991 目目录录第第一一章先验分布与后验分布章先验分布与后验分布第二章第二章贝叶斯推断贝叶斯推断第三章第三章先验分布的确定先验分布的确定第四章第四章决策中的收益、损失与效用决策中的收益、损失与效用第五章第五章贝叶斯决策贝叶斯决策第六章第六章统计决策理论统计决策理论第七章第七章贝叶斯计算贝叶斯计算本书共本书共七七章，可分三部分。前三章围绕先验分章，可分三部分。前三章围绕先验分布介绍贝叶斯推断方法。后三章围绕损失函数介绍布介绍贝叶斯推断方法。后三章围绕损失函数介绍贝叶斯决策方法。第七章为贝叶斯计算阅读这些内贝叶斯决策方法。第七章为贝叶斯计算阅读这些内容仅需要概率统计基本知识就够了。容仅需要概率统计基本知识就够了。Byaes统计学派与经典统计学派虽然有很大区统计学派与经典统计学派虽然有很大区别，但是它们各有优缺点，各有其适用的范围，作别，但是它们各有优缺点，各有其适用的范围，作为研究者一定要博采众长，以获得一种更适合解决为研究者一定要博采众长，以获得一种更适合解决实际问题的方法。而且，在不少情况下，二者得出实际问题的方法。而且，在不少情况下，二者得出的结论在形式上是相同的。的结论在形式上是相同的。课程考核：闭卷考试成绩评定平时(20分)=作业+考勤+课堂表现期末(80分)=卷面(100分)80%总评(100分)=平时+期末比例20%80%100%学分数2课堂上讲过的习题、练习题和作业的题目都要会课堂上讲过的习题、练习题和作业的题目都要会.（Bayes，Thomas）(17021761)贝叶斯是英国数学家贝叶斯是英国数学家.1702年生于伦敦；年生于伦敦；1761年年4月月17日日卒于坦布里奇韦尔斯卒于坦布里奇韦尔斯.贝叶斯是一位自学成才的数学家贝叶斯是一位自学成才的数学家.曾助理宗教事务，后来曾助理宗教事务，后来长期担任坦布里奇韦尔斯地方教堂的牧师长期担任坦布里奇韦尔斯地方教堂的牧师.1742年，贝叶斯被年，贝叶斯被选为英国皇家学会会员选为英国皇家学会会员.如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝叶公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、贝叶斯统计等等斯估计量、贝叶斯方法、贝叶斯统计等等.9贝叶斯公式：贝叶斯公式：统计学有两个主要学派统计学有两个主要学派:频率学派与贝叶斯学派频率学派与贝叶斯学派.它们之间有异同它们之间有异同,贝叶斯统计是在与经典统计的争贝叶斯统计是在与经典统计的争论中发展起来论中发展起来,主要的争论有主要的争论有:1.未知参数可否作为随机变量未知参数可否作为随机变量?2.事件的概率是否一定的频率解释事件的概率是否一定的频率解释?3.概率是否可用经验来确定概率是否可用经验来确定?.发展历史1763年，论文“机遇理论中一个问题的解”发表，首次提出贝叶斯公式。随后，Laplace等人重新阐述了贝叶斯公式，并导出些有意义的结果。二战后，wald 提出统计决策函数论引起人们对贝叶斯方法的兴趣。如今，贝叶斯学派已发展成一个有影响力的统计学派。13一、统计推断中可用的一、统计推断中可用的三种信息三种信息二、贝叶斯二、贝叶斯公式公式三、三、共轭先验分布共轭先验分布四、四、超参数及其确定超参数及其确定五、五、多参数模型多参数模型六、六、充分统计量充分统计量第一章第一章先验分布与后验分布先验分布与后验分布第一章第一章先验分布与后验分布先验分布与后验分布统计学中有两个主要学派：频率学派与贝统计学中有两个主要学派：频率学派与贝叶斯学派。下面从统计推断的三种信息来说明他叶斯学派。下面从统计推断的三种信息来说明他们之间的区别与联系。们之间的区别与联系。1.1 三种信息三种信息一、总体信息一、总体信息，即总体分布或总体所属分布给我们，即总体分布或总体所属分布给我们的信息。的信息。例如例如，“总体是正态分布总体是正态分布”就给我们带来很多信息：就给我们带来很多信息：它的密度函数是一条钟形曲线；它的一切一阶矩都它的密度函数是一条钟形曲线；它的一切一阶矩都存在；有关正态变量（服从正态分布随机变量）的存在；有关正态变量（服从正态分布随机变量）的一些事件的概率可以计算；由正态分布可以导出卡一些事件的概率可以计算；由正态分布可以导出卡方分布，方分布，t t分布和分布和F F分布等重要分布，还有许多成熟分布等重要分布，还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。的点估计、区间估计和假设检验方法可供我们选用。说明说明：总体信息是很重要的信息，为了获取此种信息：总体信息是很重要的信息，为了获取此种信息往往往往耗资巨大耗资巨大。二、样本信息，二、样本信息，即从总体抽取的样本给我们的信息即从总体抽取的样本给我们的信息这是最这是最“新鲜新鲜”的信息，并且愈多愈好。的信息，并且愈多愈好。人们希望通过对样本的加工和处理对总体的某些特人们希望通过对样本的加工和处理对总体的某些特征做出较为精确的统计推断。征做出较为精确的统计推断。例：。均值、方差等例：。均值、方差等没有样本就没有统计学可言。没有样本就没有统计学可言。经典统计学经典统计学：基于以上两种信息进行的统计推断被称：基于以上两种信息进行的统计推断被称为为经典统计学经典统计学。说明：说明：它的基本观点是把数据（样本）看成是来自具它的基本观点是把数据（样本）看成是来自具有一定概率分布的总体，所研究对象是这个总体而不有一定概率分布的总体，所研究对象是这个总体而不局限于数据本身。局限于数据本身。这方面最早的工作是高斯这方面最早的工作是高斯(Gauss,C.F.17771855(Gauss,C.F.17771855）和）和勒让德（勒让德（Legendre,A.M.17521833Legendre,A.M.17521833）的误差分析，正）的误差分析，正态分布和最小二乘法。从十九世纪末到二十世纪上半态分布和最小二乘法。从十九世纪末到二十世纪上半叶，经皮尔逊（叶，经皮尔逊（Pearson,K.18571936Pearson,K.18571936）、费歇）、费歇（Fisher,R.A.18901962Fisher,R.A.18901962）奈曼（）奈曼（Neyman.J.Neyman.J.）等人）等人的杰出工作创立了经典统计学。的杰出工作创立了经典统计学。随着经典统计学的持续发展与广泛应用，它本身的缺随着经典统计学的持续发展与广泛应用，它本身的缺陷也逐渐暴露出来了。陷也逐渐暴露出来了。贝叶斯学派贝叶斯学派的观点：除了上述两种信息以外，统的观点：除了上述两种信息以外，统计推断还应该使用第三种信息：计推断还应该使用第三种信息：先验信息先验信息。三、先验信息，三、先验信息，即是抽样（试验）之前有关统计即是抽样（试验）之前有关统计问题的一些信息。问题的一些信息。一般说来，先验信息来源于一般说来，先验信息来源于经验和历史资料经验和历史资料。先。先验验信息在日常生活和工作中是很重要的。信息在日常生活和工作中是很重要的。例例1.11.1 英国统计学家英国统计学家SavageSavage曾考察如下曾考察如下2 2个统计实验：个统计实验：A A。（。（品茶试验品茶试验）一位常饮牛奶加茶的妇女声称，她）一位常饮牛奶加茶的妇女声称，她能辨别先倒进杯子里的是茶还是牛奶。对此做了能辨别先倒进杯子里的是茶还是牛奶。对此做了1010次次试验，她都正确地说出了。试验，她都正确地说出了。B B。一位音乐家声称，他能从一页乐谱辨别出是海顿。一位音乐家声称，他能从一页乐谱辨别出是海顿还是莫扎特的作品。在还是莫扎特的作品。在1010次这样的试验中，他都能正次这样的试验中，他都能正确辨别。确辨别。在这两个统计试验中，假如认为被试验者是在猜在这两个统计试验中，假如认为被试验者是在猜测，每次成功的概率为测，每次成功的概率为0.50.5，那么，那么1010次都猜中的概率次都猜中的概率为为2 2-10-10=0.0009766=0.0009766，这是一个很小的概率，是几乎不可，这是一个很小的概率，是几乎不可能发生的，所以能发生的，所以 “每次成功概率为每次成功概率为0.50.5”的假设应该的假设应该被拒绝。被拒绝。被试验者每次成功的概率要比被试验者每次成功的概率要比0.50.5大得多。这不大得多。这不是猜测，而是他们的经验在帮了他们的忙。是猜测，而是他们的经验在帮了他们的忙。例例1.21.2“免检产品免检产品”是怎样决定的？某厂的产品每天都是怎样决定的？某厂的产品每天都要抽验几件，获得不合格品率要抽验几件，获得不合格品率的估计。在经过一段时的估计。在经过一段时间后就积累大量的资料，根据这些历史资料（先验信息间后就积累大量的资料，根据这些历史资料（先验信息的一种）对过去产品的不合格品率可构造一个分布：的一种）对过去产品的不合格品率可构造一个分布：这个对先验信息进行加工获得的分布今后称为这个对先验信息进行加工获得的分布今后称为先验分布先验分布。这个先验分布是综合了该厂过去产品的质量情况。如这个先验分布是综合了该厂过去产品的质量情况。如果这个分布的概率大部分集中在果这个分布的概率大部分集中在=0=0附近，那么该产品附近，那么该产品可认为是可认为是“信得过产品信得过产品”。假如以后的多次抽检结果与。假如以后的多次抽检结果与历史资料提供的先验分布是一致的。使用单位就可以对历史资料提供的先验分布是一致的。使用单位就可以对它做出它做出“免检产品免检产品”的决定，或者每月抽检一、二次就的决定，或者每月抽检一、二次就足够了，这就省去了大量的人力和物力。足够了，这就省去了大量的人力和物力。可见历史资料在统计推断中应加以利用可见历史资料在统计推断中应加以利用贝叶斯统计与经典统计学的贝叶斯统计与经典统计学的差别：是否利用先验信息差别：是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时，贝叶斯统计在重视使用总体信息和样本信息的同时，还注意先验信息的收集、挖掘和加工，使它数量化，形还注意先验信息的收集、挖掘和加工，使它数量化，形成先验分布，参加到统计推断中来，以提高统计推断的成先验分布，参加到统计推断中来，以提高统计推断的质量。质量。在使用样本信息上也是有差异的在使用样本信息上也是有差异的.贝叶斯学派重视已出贝叶斯学派重视已出现的样本观察值现的样本观察值,而对尚未发生的样本观察值不予考虑而对尚未发生的样本观察值不予考虑.贝叶斯学派的基本观点贝叶斯学派的基本观点：任一未知量任一未知量都可看作一个随都可看作一个随机变量机变量，应该用一个概率分布去描述，这个分布称为应该用一个概率分布去描述，这个分布称为先先验分布验分布；在获得样本之后，总体分布、样本与先验分布；在获得样本之后，总体分布、样本与先验分布通过贝叶斯公式结合起来得到一个关于未知量通过贝叶斯公式结合起来得到一个关于未知量新的分新的分布布后验分布后验分布；任何关于；任何关于的统计推断都应该基于的统计推断都应该基于的的后验分布进行。后验分布进行。因为任一未知量都有不确定性，而在表述不确因为任一未知量都有不确定性，而在表述不确定性程度时，概率与概率分布是最好的语言。定性程度时，概率与概率分布是最好的语言。例例1.21.2中产品的不合格品率中产品的不合格品率是未知量，但每天都是未知量，但每天都有一些变化，把它看做一个随机变量是合适的，有一些变化，把它看做一个随机变量是合适的，用一个概率分布去描述它也是很恰当的。用一个概率分布去描述它也是很恰当的。例例1.3 1.3 学生估计一新教师的年龄。学生估计一新教师的年龄。依据学生们的生活经历，在看了新教师的照片后会立依据学生们的生活经历，在看了新教师的照片后会立即有反应：即有反应：“新教师的年龄在新教师的年龄在3030岁到岁到5050岁之间，极有岁之间，极有可能在可能在4040岁左右。岁左右。”一位统计学家把学生们对新教师一位统计学家把学生们对新教师的年龄（未知量）的认识（先验信息）可综合为图的年龄（未知量）的认识（先验信息）可综合为图1.11.1所示的概率分布，这也是学生们对未知量（新教师的所示的概率分布，这也是学生们对未知量（新教师的年龄）的概率表述。年龄）的概率表述。第一，按图第一，按图1.11.1所示的概率分布我们可谈论未知量所示的概率分布我们可谈论未知量位于某个区间的概率。位于某个区间的概率。例例位于位于3737到到4343岁间的概率为岁间的概率为0.90.9。可这个陈述在经典统计中是不允许的。可这个陈述在经典统计中是不允许的。在实际中类似的说法经常听到。在实际中类似的说法经常听到。第二，按图第二，按图1.11.1中的概率不是在大量重复试验中获中的概率不是在大量重复试验中获得的，而是学生们根据自己的生活经历的积累对该事件得的，而是学生们根据自己的生活经历的积累对该事件发生可能性所给出的信念，这样给出的概率在贝叶斯统发生可能性所给出的信念，这样给出的概率在贝叶斯统计中是允许的，并称为计中是允许的，并称为主观概率主观概率。（它也符合概率的三。（它也符合概率的三条公理）。条公理）。这一点频率学派是频率学派难以接受的，他们认为经典这一点频率学派是频率学派难以接受的，他们认为经典统计学使用大量重复试验的频率来确定概率，是统计学使用大量重复试验的频率来确定概率，是“客观客观的的”，因此符合科学的要求，而认为贝叶斯统计是，因此符合科学的要求，而认为贝叶斯统计是“主主观的观的”，因而（至多）只对个人决策有用。这是当前对，因而（至多）只对个人决策有用。这是当前对贝叶斯统计的主要批评。贝叶斯统计的主要批评。两学派在一些问题上的争论将在后面逐步介绍。两学派在一些问题上的争论将在后面逐步介绍。总结：总结：ByaesByaes学派与经典统计学派学派与经典统计学派最根本的分歧最根本的分歧是是:第一，是否利用先验信息第一，是否利用先验信息。由于产品的设计、生产都有一定的继承性，这样就由于产品的设计、生产都有一定的继承性，这样就存在许多相关产品的信息以及先验信息可以利用，存在许多相关产品的信息以及先验信息可以利用，ByaesByaes统计学派认为利用这些先验信息不仅可以减少样统计学派认为利用这些先验信息不仅可以减少样本容量，而且在很多情况还可以提高统计精度；而经典本容量，而且在很多情况还可以提高统计精度；而经典统计学派忽略了这些信息。统计学派忽略了这些信息。第二，是否将参数第二，是否将参数看成随机变量。看成随机变量。ByaesByaes统计学派的最基本的观点是统计学派的最基本的观点是:任一未知量任一未知量都都可以看成随机变量，可以用一个概率分布去描述，这个可以看成随机变量，可以用一个概率分布去描述，这个分布就是先验分布。因为任一未知量都具有不确定性，分布就是先验分布。因为任一未知量都具有不确定性，而在表述不确定性时，概率与概率分布是最好的语言；而在表述不确定性时，概率与概率分布是最好的语言；相反，经典统计学派却把未知量相反，经典统计学派却把未知量就简单看成一个未知就简单看成一个未知参数，来对它进行统计推断。参数，来对它进行统计推断。总结总结理解贝叶斯统计学与经典统计学的主要差理解贝叶斯统计学与经典统计学的主要差别。别。贝叶斯统计学派的最基本的观点贝叶斯统计学派的最基本的观点。伽玛函数伽玛函数函数函数伽玛函数的性质伽玛函数的性质:伽玛分布伽玛分布贝塔函数贝塔函数函数函数贝塔函数的性质贝塔函数的性质:贝塔分布贝塔分布贝塔分布的数学期望和方差贝塔分布的数学期望和方差38 初等概率论中的贝叶斯公式是用事件的初等概率论中的贝叶斯公式是用事件的概率形式给出的。可在贝叶斯统计学中应用概率形式给出的。可在贝叶斯统计学中应用更多的是贝叶斯公式的密度函数形式。更多的是贝叶斯公式的密度函数形式。1.贝叶斯公式的事件形式：贝叶斯公式的事件形式：假定假定是互不相容的事件，它是互不相容的事件，它们之和们之和包含事件包含事件B，即，即，则有：，则有：1.2 贝叶斯公式贝叶斯公式一、贝叶斯公式的密度函数形式一、贝叶斯公式的密度函数形式1.1.总体指标总体指标X X依赖于参数依赖于参数的概率函数记为的概率函数记为P(x|)，它表示在随机变量，它表示在随机变量给定某个值时总体指标给定某个值时总体指标X X的的条件分布；条件分布；2.2.根据参数根据参数的先验信息可确定的先验信息可确定先验分布先验分布()；3.3.从贝叶斯观点看，样本从贝叶斯观点看，样本 x=（x1,x2,xn）的产的产生分两步进行生分两步进行:首先从先验分布首先从先验分布()产生一个样产生一个样本本 0，然后从，然后从P(x|0)中中产生一个样本产生一个样本x=（x1,x2,xn）。这时样本的。这时样本的联合条件密度函数联合条件密度函数为为这个分布综合了总体信息和样本信息，常称为似然函数。这个分布综合了总体信息和样本信息，常称为似然函数。4.4.0 是未知的，它是按先验分布是未知的，它是按先验分布()产生的。为把先产生的。为把先验信息综合进去，不能只考虑验信息综合进去，不能只考虑 0，对，对的其它值发生的其它值发生的可能性也要加以考虑，故要用的可能性也要加以考虑，故要用()进行综合。这进行综合。这样一来，样本样一来，样本x=（x1,xn）和参数和参数的的联合分布为联合分布为:h(x,)=p(x )()，这个联合分布把总体信息、样本信息和先验信息三这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了。种可用信息都综合进去了。5.5.参数参数的后的后验分布（贝叶斯公式的密度函数形式）验分布（贝叶斯公式的密度函数形式）是是x=(x1,x2,xn)的边际概率函数，它与的边际概率函数，它与无关，不无关，不含含的任何信息。的任何信息。6.6.二、贝叶斯公式的离散形式：二、贝叶斯公式的离散形式：在在是离散型随机变量时，先验分布可用先验分布列是离散型随机变量时，先验分布可用先验分布列(i)，i=1,2,，表示。这时后验分布也是离散形式表示。这时后验分布也是离散形式假如总体假如总体X X也是离散的，只要把（也是离散的，只要把（1.11.1）或（）或（1.21.2）中的密度函数中的密度函数p(p(x )作为概率函数作为概率函数p p(X=x )即可。即可。二、后验分布是三种信息的综合二、后验分布是三种信息的综合一般说来，先验分布一般说来，先验分布()是反映人们抽样前对的是反映人们抽样前对的的的的的认识，后验分布认识，后验分布(x)是反映人们在抽样后对是反映人们在抽样后对的的认识。它们之间的差异是由于样本认识。它们之间的差异是由于样本x出现后人们对出现后人们对认认识的一种调整。所以后验分布识的一种调整。所以后验分布(x)可以看做是人们可以看做是人们用总体信息和样本信息（综合称为抽样信息）对用总体信息和样本信息（综合称为抽样信息）对()作调整的结果。作调整的结果。例例1.2.1 设某事件设某事件A A在一次试验中发生的概率为在一次试验中发生的概率为，为估，为估计计，对试验进行了，对试验进行了n次独立观测，其中事件次独立观测，其中事件A发生了发生了X次，显然次，显然 X b(n,)，假若我们在试验前对事件假若我们在试验前对事件A没有什么了解，使用区间没有什么了解，使用区间（0,1）上的均匀分布上的均匀分布U(0,1)作为作为的先验分布，的先验分布，求参数求参数的后验分布。的后验分布。例1.2.2.为了提高某产品的质量，公司经理考虑增加投资来改进生产设备，预计需投资90万元，但从投资效果看，下属部门有2种意见：1：改进设备后，高质量产品可占90 2：改进设备后，高质量产品可占70但根据下属两个部门过去建议被采纳的情况，经理认为，1的可信程度只有40，2的可信程度是60。即这都是经理的主观概率。经理不想仅用过去的经验来决策，想慎重一些，通过小规模试验后观其结果再定。为此做了一项试验，实验结果（记为A）如下：A A：试制：试制5 5个产品，全是高质量产品个产品，全是高质量产品经理希望用此试验结果来修改他原来对经理希望用此试验结果来修改他原来对 1 1和和 2 2的看法，即的看法，即要求后验概率要求后验概率(1 A)和和(2 A)。所以所以经理根据试验A的信息把对1和2的可信程度由0.4和0.6调整到0.7和0.3.后者是综合了经理的主观概率和试验结果而获得的，要比主观概率更贴近当今的实际，这就是贝叶斯公式的应用所以所以经理看到经过两次试验，经理看到经过两次试验，1 1（高质量产品可占高质量产品可占9090 ）的可信程度由的可信程度由0.40.4调整到调整到0.8830.883，他能以，他能以88.388.3的把握保的把握保证此项投资能取得较大经济效益。证此项投资能取得较大经济效益。试验试验B B：试制：试制1010个产品，有个产品，有9 9个是高质量产品个是高质量产品总结总结利用贝叶斯公式会由先验分布求后验分布。利用贝叶斯公式会由先验分布求后验分布。1.3 共轭先验分布共轭先验分布一、共轭先验分布一、共轭先验分布例例1.41.4中中X X b b(n n,)，先验分布为，先验分布为U(0,1),U(0,1),即即Be(1,1)Be(1,1)后验分布后验分布Be(Be(x+1,+1,n-x+1),+1),其中其中x为为n次独立试验中成功出次独立试验中成功出现的次数现的次数.Be(Be(,)Be(Be(+x,+n-x)定义定义1.11.1 设设是总体分布中的参数（或参数向量），是总体分布中的参数（或参数向量），()是是的先验密度函数，假如由抽样信息算得的后验的先验密度函数，假如由抽样信息算得的后验密度函数与密度函数与()有相同的函数形式，则称有相同的函数形式，则称()是是的的共轭共轭先验分布先验分布。注意注意：共轭先验分布是对某一分布中的参数而言的共轭先验分布是对某一分布中的参数而言的。如正态均值、正态方差、泊松均值等如正态均值、正态方差、泊松均值等。离开指定参数及其所在的分布去谈论共轭先验分布是没有意义的离开指定参数及其所在的分布去谈论共轭先验分布是没有意义的.例例1.6 1.6 正态均值（方差已知）的共轭先验分布是正态分布正态均值（方差已知）的共轭先验分布是正态分布.设设x1 1,x2 2,xn是来自正态分布是来自正态分布N(,2)的一个样本观的一个样本观察值。其中察值。其中2已知。已知。取另一正态分布取另一正态分布N(N(,2 2)作为正态均值作为正态均值的先验分布，即的先验分布，即其中其中,2 2为已为已知。知。参数参数的后验分布为的后验分布为二、后验分布的计算二、后验分布的计算参数参数的后验分布为的后验分布为由于由于m(x)不依赖于不依赖于，在计算的，在计算的后验分布中仅起到一后验分布中仅起到一个正则化因子的作用。个正则化因子的作用。其中其中“”表示两边仅差一个不依赖于表示两边仅差一个不依赖于的常数因子。的常数因子。（1.91.9）式右端虽不是正常的密度函数，但它是后验分布）式右端虽不是正常的密度函数，但它是后验分布(x）的核，特别当看出的核，特别当看出(x)x)的核就是某常用分布的核的核就是某常用分布的核时，不用计算时，不用计算m(x)就可很快恢复所缺常数因子。就可很快恢复所缺常数因子。注意注意：这在共轭先验分布和非共轭先验分布场合都可使用。：这在共轭先验分布和非共轭先验分布场合都可使用。例例1.6 1.6 正态均值（方差已知）的共轭先验分布是正态分布正态均值（方差已知）的共轭先验分布是正态分布.这是参数为这是参数为1,和和2 2的正态分布的核的正态分布的核三、共轭先验分布的优缺点三、共轭先验分布的优缺点共轭先验分布的有两个优点共轭先验分布的有两个优点1.1.计算方便。计算方便。2.2.共轭先验分布的一些参数可以得到很好的解释。共轭先验分布的一些参数可以得到很好的解释。例例1.8 1.8“正态均值（方差已知）的共轭先验分布是正态分正态均值（方差已知）的共轭先验分布是正态分布布”的例子中，其后验均值为的例子中，其后验均值为这表明后验均值是在先验均值与样本均值间采取折衷方案。这表明后验均值是在先验均值与样本均值间采取折衷方案。在处理正态分布是，方差的倒数发挥着重要的作用，并在处理正态分布是，方差的倒数发挥着重要的作用，并称其为称其为精度精度。注意注意：1.1.在贝叶斯统计中，先验分布的选择应以合在贝叶斯统计中，先验分布的选择应以合理性作为首要原则，计算上的方便与先验的合理性理性作为首要原则，计算上的方便与先验的合理性相比还是第二位的。相比还是第二位的。2.2.在考虑到先验的合理性之后，充分发挥共轭先验在考虑到先验的合理性之后，充分发挥共轭先验分布是常采用的策略。分布是常采用的策略。例例1.7 1.7 二项分布中的成功概率二项分布中的成功概率的共轭先验分布是贝的共轭先验分布是贝塔分布。塔分布。设总体中设总体中X b b(n,)，先验分布先验分布Be(Be(,)，的的后验分布后验分布这是贝塔分布这是贝塔分布Be(Be(+x,+n-x)的核的核.的的后验分布后验分布例例1.91.9在在“二项分布中的成功概率二项分布中的成功概率的共轭先验分布的共轭先验分布是贝塔分布是贝塔分布”的例的例1.71.7中，后验分布中，后验分布Be(Be(+x x,+n n-x x)的均值与方差为的均值与方差为当当n与与x都较大，且都较大，且x/n接近某个常数时，有接近某个常数时，有P=x/n固定，随着样本量增大时，后验分布越来越向p集中，先验信息对后验分布的影响变小。四、常用的共轭先验分布四、常用的共轭先验分布共轭先验分布的选取共轭先验分布的选取是由似然函数是由似然函数L(L()=p(x|)中中所含的所含的因式所决定的，即选与似然函数（因式所决定的，即选与似然函数（的函数的函数)具有相同的核的分布作为先验分布。具有相同的核的分布作为先验分布。例例1.10 1.10 设设x1 1,x2 2,xn是来自正态分布是来自正态分布N(,2)的一个的一个样本观察值。其中样本观察值。其中已知已知,求方差求方差2的共轭先验分布的共轭先验分布。样本的似然函数为：样本的似然函数为：设设X服从伽玛分布服从伽玛分布GaGa(,)，其中，其中 00为形状参数为形状参数,0 0为尺度参数，其密度函数为为尺度参数，其密度函数为Y=1/XY=1/X的密度函数为的密度函数为这个分布称为这个分布称为倒伽玛分布倒伽玛分布，记为，记为IGaIGa(,)。假如取倒伽玛分布为假如取倒伽玛分布为2的先验分布，其中参数的先验分布，其中参数,为已知，则其密度函数为为已知，则其密度函数为2的后验分布的后验分布为为这个分布为倒伽玛分布这个分布为倒伽玛分布若后验分布若后验分布(x)与与()属于同一个分布族，属于同一个分布族，则称该分布族是则称该分布族是的的共轭先验分布共轭先验分布(族族)。二项分布二项分布b(n,)中的成功概率中的成功概率的共轭先验分布的共轭先验分布是贝塔分布是贝塔分布Be(a,b)；泊松分布泊松分布P()中的均值中的均值的共轭先验分布是伽的共轭先验分布是伽玛分布玛分布Ga(,)；指数分布中均值的倒数指数分布中均值的倒数的共轭先验分布是伽玛的共轭先验分布是伽玛分布分布Ga(,)；在方差已知时，正态均值在方差已知时，正态均值的共轭先验分布是正的共轭先验分布是正态分布态分布N(,2);在均值已知时，正态方差在均值已知时，正态方差 2的共轭先验分布是的共轭先验分布是倒伽玛分布倒伽玛分布IGa(,)。总结总结1.利用贝叶斯公式会由先验分布求后验分布利用贝叶斯公式会由先验分布求后验分布2.记住常见的共轭先验分布记住常见的共轭先验分布分位数分位数1.4 1.4 超参数及其确定超参数及其确定定义定义：先验分布中所含的未知参数称为：先验分布中所含的未知参数称为超参数超参数。例例成功概率的共轭先验分布为成功概率的共轭先验分布为Be(Be(,)，它含有两，它含有两个超参数个超参数.注意：注意：一般来说，共轭先验分布含有超参数，而无信一般来说，共轭先验分布含有超参数，而无信息先验分布一般不含超参数。息先验分布一般不含超参数。共轭先验分布是一种有信息的先验分布，故其共轭先验分布是一种有信息的先验分布，故其中所含的超参数应充分利用各种先验信息来确定，中所含的超参数应充分利用各种先验信息来确定，下面结合具体的例子介绍一些确定超参数的方法。下面结合具体的例子介绍一些确定超参数的方法。这些方法又称为经验方法。这些方法又称为经验方法。例例1.111.11在在二项分布中的成功概率二项分布中的成功概率的共轭先验分布的共轭先验分布是贝塔分布是贝塔分布Be(Be(,)，,是其两个超参数是其两个超参数一、利用先验矩一、利用先验矩利用先验信息能获得成功概率利用先验信息能获得成功概率的若干个估计值，记为的若干个估计值，记为 1 1,2 2,k,一般它们是从历史数据整理加工获得的，一般它们是从历史数据整理加工获得的，由此可算得先验均值由此可算得先验均值和先验方差和先验方差S S 2 2，其中，其中然后令其分别等于贝塔分布然后令其分别等于贝塔分布Be(Be(,)的期望与方差的期望与方差解之，可得参数解之，可得参数与与的估计值的估计值二、利用先验分位数二、利用先验分位数假如根据先验信息可以确定贝塔分布的两个分位数，假如根据先验信息可以确定贝塔分布的两个分位数，则可利用这两个分位数来确定则可利用这两个分位数来确定与与的估计值。的估计值。例如用两个上下四分位数例如用两个上下四分位数 U U和和 L L来确定来确定与与从这两个方程从这两个方程解出解出与与三、利用先验矩和先验分位数三、利用先验矩和先验分位数假如根据先验信息可获得先验均值假如根据先验信息可获得先验均值和和p分位数分位数 p，则，则可列出下列方程的可列出下列方程的解之，可得参数解之，可得参数与与的估计值的估计值四、其它方法四、其它方法假如根据先验信息可获得先验均值假如根据先验信息可获得先验均值，令，令再利用其它先验信息求出再利用其它先验信息求出与与的估计值。的估计值。总结总结1.1.了解超参数的确定方法了解超参数的确定方法2.2.掌握利用先验矩的方法掌握利用先验矩的方法练习练习1.131.13作业：作业：1.151.151.5 1.5 多参数模型多参数模型处理多参数的方法与处理单参数方法相似，先根据处理多参数的方法与处理单参数方法相似，先根据先验信息给出参数的先验分布，然后按贝叶斯公式先验信息给出参数的先验分布，然后按贝叶斯公式算得后验分布。算得后验分布。设总体只含设总体只含2 2个参数个参数=(1 1,2 2)，总体的密度函数为，总体的密度函数为p(x|1 1,2 2),),若从该总体抽取一个样本若从该总体抽取一个样本并给出先验密度并给出先验密度，则，则的后验密度为的后验密度为在多参数问题中，人们关心的常常是其中一个或少数几在多参数问题中，人们关心的常常是其中一个或少数几个参数，这时其余参数常被称为个参数，这时其余参数常被称为讨厌参数或多余参数。讨厌参数或多余参数。在处理讨厌参数上，贝叶斯方法要比经典方法方便得多。在处理讨厌参数上，贝叶斯方法要比经典方法方便得多。例如讨厌参数例如讨厌参数 2 2，1.6 1.6 充分统计量充分统计量定义定义设设 x1,x2,xn 是来自某个总体的样本，总体是来自某个总体的样本，总体分布函数为分布函数为F (x|)，统计量，统计量 T=T(x1,x2,xn)称称为为的的充分统计量，充分统计量，如果在给定如果在给定T 的取值后，的取值后，x1,x2,xn 的条件分布与的条件分布与无关无关.充分性原则：充分性原则：在统计学中有一个在统计学中有一个基本原则基本原则-在充在充分统计量存在的场合，任何统计推断都分统计量存在的场合，任何统计推断都可以基于充分可以基于充分统计量进行，这可以简化统计统计量进行，这可以简化统计推断的程序。推断的程序。因子分解定理因子分解定理定理定理5.5.1 设总体概率函数为设总体概率函数为 p(x|)，X1,Xn 为样本，则为样本，则 T=T(X1,Xn)为充分统计量的充分为充分统计量的充分必要条件是：存在必要条件是：存在两两个函数个函数g(t;)和和h(x1,xn)，使得对任意的使得对任意的和任一组观测值和任一组观测值 x1,x2,xn，有，有p(x1,x2,xn|)=g(T(x1,x2,xn)|)h(x1,x2,xn)(5.5.1)其中其中g(t,)是通过统计量是通过统计量 T 的取值而依赖于样本的取值而依赖于样本的。的。定理定理1.6.1 设设 x=(x1,x2,xn)是来自密度函数是来自密度函数p (x|)的一个样本，的一个样本，T=T T(x）=T(x1,x2,xn)是统计量，是统计量，它的密度函数为它的密度函数为p(t|）,又设又设又设又设H H H H=()是是是是的某的某的某的某个先验分布族个先验分布族个先验分布族个先验分布族，则，则，则，则T(x）为为的的充分统计量充分统计量充要条件充要条件是对任一先验分布是对任一先验分布()H H H H，有，有 (|T(x）)=(|x)即用样本分布算得的后验分布与统计量算得的后验即用样本分布算得的后验分布与统计量算得的后验分布是相同的分布是相同的.95关于定理关于定理1.11.1的两点说明：的两点说明：1.1.定理定理1.11.1所给出的条件是充分必要的，所以定理所给出的条件是充分必要的，所以定理1.6.11.6.1的充要条件可以作为充分统计量的贝叶斯定的充要条件可以作为充分统计量的贝叶斯定义。义。2.2.假如已知统计量假如已知统计量T(x)T(x)是充分的，那么按定理是充分的，那么按定理1.6.11.6.1，其后验分布可用该统计量的分布算得，由，其后验分布可用该统计量的分布算得，由于充分统计量可以可简化数据、降低维数，故定理于充分统计量可以可简化数据、降低维数，故定理1.11.1亦可用来简化后验分布的计算。亦可用来简化后验分布的计算。例例1.15 1.15 用充分统计量计算正态分布用充分统计量计算正态分布N(N(,1),1)中参数中参数的后验分布。（自学）的后验分布。（自学）总结总结1.理解贝叶斯统计学与经典统计学的主要差别，理解贝叶斯统计学与经典统计学的主要差别，贝叶斯统计学派的最基本的观点。贝叶斯统计学派的最基本的观点。2.2.利用贝叶斯公式会由先验分布求后验分布。利用贝叶斯公式会由先验分布求后验分布。3.3.记住常见的共轭先验分布。记住常见的共轭先验分布。4.4.掌握利用先验矩求超参数。掌握利用先验矩求超参数。5.5.了解多参数模型和充分统计量了解多参数模型和充分统计量

展开阅读全文

第1章先验分布与后验分布复习过程课件

最新文档