二统计推断与贝叶斯预测

资源描述

,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,85,o,f,70,统计信号分析与处理,2010,年,11,月,侯强,2024/9/22,1,第二章统计推断与贝叶斯预测,2024/9/22,2,第二章统计推断与贝叶斯预测,2.1,引言与导学,2.2,贝叶斯估计基础,-,想法,2.3,贝叶斯估计,-,评价,2.4,期望,-,最大方法,-,算法,2.5,高斯混合模型的设计,-,算法,2.6,贝叶斯分类,-,应用,2.7,随机过程空间的建模,-,提高,2024/9/22,3,本章首先给出一个关于,参数估计,理论基本概念的介绍,。（想法）,然后介绍用于定量评价,估计量性能,的统计测度。我们主要研究贝叶斯估计方法，考虑在估计均值与方差中使用先验模型的效果,。（评价）,研究从不完整数据中估计一组未知参数的,期望最大（,EM,）,方法，并将其应用于连续随机变量的高斯混合模型空间,。（算法）,本章最后以离散或有限状态信号的,贝叶斯分类,结束，并介绍,K-,均值聚类方法。,本章思路,：,想法,-,算法,-,评价,-,应用,2.1,引言与导学,2024/9/22,4,2024/9/22,5,2024/9/22,6,2024/9/22,7,蓝色为原始含噪语音,黄色为谱相减处理的结果,2024/9/22,8,原始含噪语音,自适应抗噪与谱相减相结合后的输出结果,基本自适应抗噪输出结果,2024/9/22,9,通过语音合成来说话,2024/9/22,10,男声“深圳广州珠海”的短时幅度统计。在采样频率为,22050Hz,的情况下，取,20ms,作为一帧，帧长为,441,点，一共统计了,180,帧。,短时平均幅度,原始语音,2024/9/22,11,音乐信号的分离,CEG,基频,CE,基频,C,基频,和弦,CEG,2024/9/22,12,GMM的例子,例：一个班级每个学生的身高为,假设男生和女生的身高分别服从高斯分布,则,其中为男生的比例，,问题：给定独立同分布(,independent and identically distributed-IID,)的数据，求参数,混合模型的参数估计是,EM(Expectation Maximization),算法最典型的应用,2024/9/22,13,2024/9/22,14,估计理论,主要研究从观测信号中最优地估计出参数矢量的问题，或者研究从被噪声污染或退化的信号中,恢复,出纯净信号的方法。,例如，给定一个,正弦信号波形,，我们可能需要估计其,基本参数,（如幅度、频率和相位），或者我们可能希望,恢复信号本身,。,2.2,贝叶斯估计基础,2024/9/22,15,估计量,通常以带噪信号或不完整观测作为,输入,，并且采用,动态模型,（如线性预测模型）和,/,或过程的,概率模型,（如高斯模型）来估计未知的参数，,即估计量是一个系统,，而被估计的,参数,是此次系统的,输出,。,估计的精度,取决于可以使用的信息和估计方法的有效性。,本章主要研究,平稳参数,的贝叶斯估计问题。关于,非平稳,有限状态过程的建模与估计问题将在下面的章节研究。,2.2,贝叶斯估计基础,2024/9/22,16,2024/9/22,17,2024/9/22,18,贝叶斯理论是一个基本的统计推断框架。在过程状态的估计与预测中，贝叶斯方法主要利用两种信息,:,其一是包含在观测信号中的,事实,;,其二是过程分布的,先验知识,。,图,2.1,给出了贝叶斯方法作为主要,统计估计方法,的基本框架。,2.2,贝叶斯估计基础,2024/9/22,19,2.2,贝叶斯估计基础,图,2.1,贝叶斯推断包含一个代价函数，一个先验函数和一个似然函数。,其他估计方法可以被认为是贝叶斯估计的特例,2024/9/22,20,2024/9/22,21,2.2.1,估计的动态模型和概率模型,最优估计算法常采用观测信号的,动态模型,和,概率模型,。,动态预测模型,利用信号的相关结构信息，根据信号的过去状态和输入激励对信号当前值与将来值的依赖关系进行建模。采用动态模型进行估计的例子包括,线性预测模型,和,卡尔曼滤波器,。,统计概率模型,依据均值和方差这样的统计量来表现信号随机波动空间的特性，为了描述得更完整，则需要采用概率模型。条件概率模型除了对信号的随机波动建模以外，也用于表示信号对其过去状态和其他过程的依赖情况。,动态模型和概率模型可以进行组合,：例如，一个有限状态模型可以通过隐马尔可夫模型（,HMM,）和卡尔曼滤波器的组合来构造。,2024/9/22,22,2.2.1,估计的动态模型和概率模型,2024/9/22,23,随机过程的预测模型和概率模型引导估计结果朝着与模型参数和观测信号的先验分布相一致的方向发展。,一般来说,，只要所使用的,模型,能够准确代表观测数据和参数过程的特征，则估计中所使用的信息量越多，估计的结果会越好。,其缺点是,，如果模型是,不准确,的，则所引起的负面效应要超过其正面效果。,2024/9/22,24,2.2.2,参数空间与信号空间,2024/9/22,25,2.2.2,参数空间与信号空间,2024/9/22,26,2.2.2,参数空间与信号空间,2024/9/22,27,2.2.3,参数估计和信号恢复,参数估计,和,信号恢复,是密切相关的两个问题。,二者的主要区别是大多数,信号往往波动较快,，而大多数,参数则波动较慢,。,例如，语音信号的波动速率大约为,20kHz,，而相应的元音和谐音参数的变化速率则仅为,100Hz,。这个现象表明，在参数估计时可以比信号恢复时进行更多的平均操作。,作为一个简单的例子，考虑零均值随机噪声中的一个观测信号。假定我们希望估计：,（,a,）纯净信号的平均值；,(b),纯净信号本身。,随着观测时间的增长，信号均值的估计会逐渐逼近纯净信号的均值，而纯净信号样本的估计则取决于信号的相关结构和信噪比，并取决于所采用的估计方法。,2024/9/22,28,2024/9/22,29,2.2.4,性能测度与所希望的估计性能,2024/9/22,30,2.2.4,性能测度与所希望的估计性能,不同的参数估计会得到不同的结果，这主要取决于所采用的,估计方法,、所利用的,观测数据,和所利用的,先验信息,。,由于观测所具有的,随机性,，即使是相同的估计量，如果选用同一过程中不同的观测数据，也会产生不同的结果。,因此，,估计结果,本身是一个,随机变量,，也具有,均值,和,方差,，也可以用概率密度函数来描述。然而，在大多数情况下，根据估计误差的均值和方差来确定一个估计量的特性就足够了。,对于估计量最常用的性能测度为：,2024/9/22,31,2.2.4,性能测度与所希望的估计性能,2024/9/22,32,2.2.4,性能测度与所希望的估计性能,最优估计的目标是使估计的偏为零，并使估计误差的方差达到最小。对于估计量来说，所希望的性质可以列于下面：,2024/9/22,33,2.2.4,性能测度与所希望的估计性能,2024/9/22,34,2024/9/22,35,2024/9/22,36,2024/9/22,37,今晚内容：,高斯混合模型,(GMM),与,期望最大算法（,EM,）,2024/9/22,38,频率学派的观点,到目前为止我们讲述的都是频率（经典的）统计学,概率指的是相对频率，是真实世界的客观属性。,参数是固定的未知常数。由于参数不会波动，因此不能对其进行概率描述。,统计过程应该具有定义良好的频率稳定性。如：一个,95,的置信区间应覆盖参数真实值至少,95,的频率。,统计学更多关注频率推断,频率学派,PK,贝叶斯学派,2024/9/22,39,贝叶斯学派的观点,贝叶斯推断,采取了另外一个不同的立场：,概率描述的是主观信念的程度，而不是频率。这样除了对从随机变化产生的数据进行概率描述外，我们还可以对其他事物进行概率描述。,可以对各个参数进行概率描述，即使它们是固定的常数。,为参数生成一个概率分布来对它们进行推导，点估计和区间估计可以从这些分布得到,机器学习和信号处理更偏爱贝叶斯推断,2024/9/22,40,贝叶斯方法,贝叶斯推断,的基本步骤如下：,选择一个概率密度函数，用来表示在取得数据之前我们对某个参数的信念。我们称之为,先验分布。,选择一个模型（在参数推断记为）来反映在给定参数情况下我们对,x,的信念。,当得到数据,X,1, X,2,X,n,后，我们更新我们的信念并且计算,后验分布,。,从后验分布中得到点估计和区间估计。,2024/9/22,41,回忆贝叶斯规则,亦称贝叶斯定理,条件概率,利用贝叶斯规则将数据和参数的分布联合起来,2024/9/22,42,似然函数,假设我们有,n,个,IID,观测，记为,产生的数据为，记为，我们用如下公式替代,现在似然函数真正解释为给定参数下数据的概率,2024/9/22,43,后验概率,因此后验概率为,其中被称为,归一化常数,(,normalizing constant,),。该常数经常被忽略，因为我们关心的主要是参数的不同值之间的比较。所以,也就是说，后验和似然函数与先验的乘积成正比,2024/9/22,44,贝叶斯点估计,后验的均值,是一个常用的点估计,L,2,损失下的贝叶斯规则,极大后验估计,(,maximum a posteriori,，,MAP),是使后验最大的的值：,是另一个常用的点估计,0-1,损失下的贝叶斯规则,2024/9/22,45,贝叶斯学派的观点,先验信息：可以方便的结合先验信息，而且人们在做推断时也确实利用了先验信息，贝叶斯推断使得这个过程显式化,提供了更多的结构：对小样本很有效,简练：允许人们对参数进行概率描述，使得似然函数与其逻辑结论一致，减小了数据和参数之间的区别,统一：不必对点估计和区间估计各个解析推导,2024/9/22,46,反对贝叶斯学派的观点,不方便：后验区间不是真正的置信区间，估计通常都是有偏估计,以参数为中心：在很多非参数情况下似然很脆弱,计算强度大：积分,/,仿真或近似很难处理,不必要的复杂：即使没有先验信息也要有先验函数,假设检验：贝叶斯假设检验对先验的选取很敏感,2024/9/22,47,综上所述,在参数模型中，当样本数目很多时，贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同,贝叶斯方法和频率推理是为了解决不同的问题,结合先验知识和数据：贝叶斯方法,构造长期稳定的性能（如置信区间）：频率方法,2024/9/22,48,综上所述,当参数空间为高维时，通常采用贝叶斯方法,但当参数比数据还多时，没有统计方法能跨越自然的本质约束,即使先验知识选择得当，也只能对“过去”预测很好，对将来不一定能预测很好,You cannot get something for nothing. A little bit of data, will not help you to learn about a million dimensional, complex problem.,2024/9/22,49,2.3,贝叶斯估计,2024/9/22,50,2024/9/22,51,2.3.1,最大后验估计,2.3.2,最大似然估计,2.3.3,最小均方误差估计,2.3.4,最小平均绝对误差估计,2024/9/22,52,2024/9/22,53,2024/9/22,54,2024/9/22,55,2024/9/22,56,2024/9/22,57,2024/9/22,58,2024/9/22,59,2024/9/22,60,2.3.5,均匀分布参数高斯过程条件下,MAP,ML,MMSE,和,MAVE,的等价性,2024/9/22,61,2.4,期望,-,最大方法,期望,-,最大（,EM,）算法是一种,迭代实现的最大似然方法,，在,盲解卷积,、,聚类,、,隐马尔可夫模型,的训练、基于模型的内插、带噪信号的谱估计、信号恢复与估计等领域得到广泛的应用。,EM,是解决一类问题的一个框架，在这类问题中，由于数据的不完整性（图,2.15,），例如，当数据中丢失了一些样本或标志，或问题过于难等原因，往往难于直接得到问题的,ML,估计。例如，在聚类应用中，通常原始数据是没有聚类标记的，因此往往采用迭代的,EM,方法，其中包括：,（,a,）给数据加上标记（期望）,（,b,）计算聚类的均值和方差。,2024/9/22,62,2024/9/22,63,2024/9/22,64,2024/9/22,65,2.5,高斯混合模型的设计,对任意信号空间概率密度函数建模的一种实际的方法是用多个高斯概率密度函数来拟合信号空间。因此高斯函数被用做构造,pdf,的元素。,图,2.16,给出了一个二维信号空间的聚类模型，其中给出了一些圆的或椭圆形状的高斯过程。注意到高斯密度是可以重叠的，在重叠区域的一个数据点可以与不同的高斯混合分量有关。,使用高斯混合模型的一个主要优点是其可以导致数学上解析的信号处理方法。过程的混合高斯,pdf,模型定义为：,2024/9/22,66,天空、远山、树木、草地、公路（五类信息）,2024/9/22,67,2024/9/22,68,一般来说，存在无穷多个不同的混合高斯密度，可以用来“铺满”一个信号空间。因此，一个具有混合,pdf,空间的信号空间可以被认为是一种多对一的映射，而,EM,算法则可以被用来估计高斯,pdf,模型的参数。,2024/9/22,69,2.6,贝叶斯分类,分类是用,M,个信号类别对观测序列,y(m),进行标记的过程。在现代数字通信技术中，例如在接收机中对离散码进行译码、语音压缩、视频压缩、语音识别、图像识别、字符识别、信号或噪声分类与检测中，经常使用分类器。,举例来说，在一个,M,进制编码的数字通信系统中，信道的输出信号是,M,个信号编码中的一个。在语音识别中，语音信号的分段用,40,个不同的音素对信号进行标记。在语音和视频压缩中，一段语音信号或一块图像像素被量化，并在码书中用原型信号矢量进行标记。在分类器的设计中，最终目标是在给定信噪比、可用的训练数据量，以及确定的信号带宽及计算复杂等条件下，尽量使分类误差达到最小。,2024/9/22,70,分类误差主要来源于不同类型信号发布的重叠。这可以用图,2.17,来表示。,该图给出了两个高斯信号和的二元分类问题。在有阴影的区域，信号的分布是有重叠的，信号中的一个样本可能属于这两类中的任何一类。因此阴影区域的大小可以用来测量分类误差的大小。由图,2.17,可以发现，减小分类误差最明显的方法是减小信号发布的重叠区域。可以采用两种方法来减小重叠区域：（,a,）增加不同类别信号均值间的距离，,(b),减小每一类信号的方差。在通信系统中，通常采用几种方法的组合来减小不同信号类别之间的重叠，这些方法包括：增加信号的信噪比，通过加上冗余误差控制码来增加不同信号模式之间的距离，信号整形以及信号的后置滤波等。在模式识别中，不可能像在语音和图像识别中那样控制信号的产生过程，模式特性和模型的选择会影响分类的误差。,2024/9/22,71,用于模式识别分类的有效方法取决于许多因素，可以简单列出如下：,（,1,）对来自信号的一组有意义特征的提取与变换。这些特征能够适当地表示每一类的特性，并强调不同类别之间的差别。,（,2,）对每一类观测特性的统计建模。对于贝叶斯分类，需要获取每一类的后验概率模型。,（,3,）用类中的一类标记尚未标记的类别。,2024/9/22,72,最简单的分类形式就是用信号两种类型中的一种去标记观测信号。图,2.18,（,a,）、,(b),给出了两个简单二维信号二元分类器的例子。,在每种情况下，观测信号是从二进制信号源到连续观测空间的随机映射（如信号加噪声）。在图,2.18,（,a,）中，二进制源和与每一个源对应的观测空间能够很好地区分。,在图,2.18 (b),中，两类信号的均值和之间的距离较小，且观测信号的分散性较大。这两点导致了信号空间的重叠和分类误差的产生。,2024/9/22,73,2024/9/22,74,2024/9/22,75,2024/9/22,76,2024/9/22,77,2.6.2,分类误差,分类误差来源于不同类信号发布的重叠。图,2.17,给出了一个标量信号的二元分类器，而图,2.18,则给出了一个二维信号的二元分类器。,在上述各图中，重叠区域给出了分类误差的测度。减小分类误差的最明显的方法是减小各个分布的相互重叠。通过增加各信号均值或方差之间的距离，可能会达到减小分类误差的效果。,2024/9/22,78,2024/9/22,79,2024/9/22,80,贝叶斯分类具体形式,2.6.4,最大后验分类,2.6.5,最大似然分类,2.6.6,最小均方误差分类,2.6.7,有限状态过程的贝叶斯分类,2.6.8,最可能状态序列的贝叶斯估计,2024/9/22,81,2024/9/22,82,2024/9/22,83,2024/9/22,84,欢迎提出问题！,2024/9/22,85,

展开阅读全文

二统计推断与贝叶斯预测

最新文档