语音信号处理第6章.ppt

资源描述

6 1概述6 2人工神经网络简介6 3人工神经网络的构成6 4几种用于模式识别的神经网络模型及其主要算法6 5用神经网络进行模式识别的主要做法6 6人工神经网络模型的应用举例第6章人工神经网络初步 6 1概述所谓人工神经网络 ArtificialNeuralNetwork 简称为ANN 是在模拟人脑神经组织的基础上发展起来的全新的计算系统它是由大量计算单元通过丰富联结构成的复杂的网络在一定程度上反映了人脑功能的若干基本特性是一种更接近于人的认知过程的计算模型人工神经网络模型对于语音信号处理这类问题特别有意义传统的语音信号处理系统都只是一种符号化系统是对语音信号进行符号序列串行处理与人的感知过程有很大的差别与此不同的是人工神经网络是由大量简单处理单元称之为神经元或节点广泛地相互连接而组成的一个并行处理网络系统虽然每个神经元的结构和功能十分简单但大量神经元构成的网络系统对知识的存储方式是分布式的这种分布式并行处理的特性使得神经网络具有很强的自组织和自学习能力以及很高的容错力和顽健性 6 2人工神经网络简介长期以来人们一直企盼着通过对人类神经系统的研究能够发明一种仿效人脑信息处理模式的智能型计算机构造人工神经网络就是希望通过类似于人类神经元的模型在信号处理上使计算机具有近似人类的智能人工神经网络是由大量简单处理单元即神经元互相联接而构成的独具特色的信息处理系统这种系统是可以训练的它可以积累经验而不断改善自身的性能同时由于高度的并行性所以它们可以进行快速判别并具有容错性这些特点使它特别适用于用来进行语音信号处理人工神经网络可采用物理可实现的器件或利用现有的计算机来模拟生物神经网络的某些结构与功能构成人工神经网络的三个基本要素是 1 神经元即人工神经网络的基本处理单元在网络中称为节点或网点 2 网络拓朴即网络的结构以及神经元彼此联接的方式根据联接方式的不同网络可以分为反馈 Recurrent 型网又称循环网以及非反馈型网 3 网络的训练学习算法训练算法是指一些决定联接各神经元的初始权值和阈值以及如何随着训练模式的加入而调整这些权值和阈值的方法 6 3人工神经网络的构成人工神经网络由神经元网络拓扑学习算法即权重迭代更新方式三者构成它在结构上与目前广泛使用的VonNeumann机不同组成网络的大量神经元集体的并行的活动可得到预期的处理结果且运算速度快同时人工神经网络具有非常强的学习功能神经元之间的联接权及网络的结构可通过学习获得神经元人工神经网络模型是模仿人脑构成的其构成的基本单元为人造神经元又称节点或网点其作用是把若干个输入加权求和并将这个加权和非线性处理后输出神经元的学习算法几乎所有神经网络学习算法都可以看作是Hebb学习规则的变形 Hebb学习规则的基本思想是如果神经元接收来自另一神经元的输出则当这两个神经元同时兴奋时从到的权值就得到加强具体到前述的神经元模型可以将Hebb规则表现为如下的算法形式公式中是对第i个权值的修正值是控制学习速度的系数网络拓扑网络拓扑是指网络的结构以及神经元之间的联接方式根据联接方式的不同可分为反馈型人工神经网络和非反馈型人工神经网络前者神经元之间存在着反馈环路后者神经元之间则不存在着反馈环路对于非反馈型人工神经网络若结构是分层的且每一层神经元只与上一层神经元相联则该网络称为前馈型人工神经网络网络的学习算法网络的学习算法是以满足网络所需的性能为目标决定联接各神经元的初始权值及在训练中调整权值的方法学习方法可分为监督学习与非监督学习前者为有导师学习训练时同时向网络提供输入模式及输出的样板模式导师在不断输入不同训练模式的同时调整权值从而使输出模式尽量接近样板模式后者是无导师学习它是一种自动聚类过程通过输入训练模式的加入不断调整权值以使输出能够反映输入训练模式的分布特点 6 4几种用于模式识别的神经网络模型及其主要算法由于人在识别速度及判别能力方面常超过一般典型的计算机所作的识别故人们有兴趣研讨与神经网络有关的识别机理希望能有所借鉴或启发诸如利用简单网络的高度并行处理多层处理法等从模式识别学的角度来看现在所讨论的方法属于借鉴于神经网络识别机理所拟定的模式识别方法它与统计识别法联系密切但在方法思路识别灵活性及识别能力速度等方面均有其特点单层感知器单层感知器 SingleLayerPereceptron 简称为SLP 可作为分类器单输出的SLP 其结构就是如图6 1所示的人工神经元输入的N个元可为连续的或二进制的标量信号表示一个维空间的超平面图6 3表示可由这个超平面对A B类进行分类 SLP结构的前部分为一线性加权装置权为附有阀值其输出经一个性能函数为的硬限幅非线性装置然后输出到判决器按当其输入为 1时判属A类当其输入为 1时判属B类的准则来判类两类分类处理双层感知器实际上实用的最简单的M类分类的感知器 Pereceptron 也应该是一种双层神经网络模型它是一个两层前馈神经网络一层为输入层另一层具有计算单元可以通过监督学习建立模式判别的能力如图6 4所示学习的目标是通过改变权值使神经网络由给定的输入得到给定的输出作为分类器可以用已知类别的模式向量向量维数等于输入节点数作为训练集当输入为属于第j类的特征向量时应使对应于该类的输出神经元的输出为1 而其它输出神经元的输出则为0 或 1 应使对应于该类的输出神经元的输出为1 而其它输出神经元的输出则为0 或 1 设理想的输出为实际的输出为为了使实际的输出逼近理想输出可以反复依次输入训练集中的输入向量然后计算出实际的输出再对权值作如下的修改双层感知器的学习过程与求取线性判别函数的过程是等价的它只能用于解决线性可分问题它的特点是学习过程收敛很快且与初始值无关多层感知器当类别不能用一超平面完善分割时需用更复杂结构的感知器即所谓的多层感知器 Multi LayerPerceptron 简称为MLP 如果感知器的活化函数具有非线性则这种网络具有较强的分类能力多层感知器网是由若干层感知器以及可修正的权连接而构成的多层前馈网络多层感知器的结构由一个输入层一个以上隐藏层和一个输出层组成所有的连接均为相邻层之间的节点的连接同层之间不连接输入层不作任何运算它只是将每个输入量分配到各个输入节点图6 5是一个三层MLP神经网络对于多层感知器 Werbos曾于1974年提出并且由Rumelhart等人的工作而得到完善和推广的一种学习算法即著名的BP BackPropagation 算法它是一种修正连接权的算法所以MLP的训练大都采用这种反向传播算法训练分两步第一步是计算MLP的输出值第二步是用BP算法更新网络的连接权值具体步骤如下假定有N个输入节点 M个输出节点第l步设置初始权值及阈值即设所有的权值及节点的阈值为一个小的随机数第2步给定新的输入值及相应的理想输出信号第3步计算当输入通过网络时的实际输出值第4步修正每个权值和阀值从输出节点开始逐步向前递推直到第一层第5步转移到第2步重复进行直到各稳定为止径向基函数神经网络的分类特性为了在取得较好的分类效果的同时又能降低网络的训练和识别时间除了上面介绍的采用Sigmoid函数的前馈网络外还有一种较常用的前馈神经网络称为径向基函数 RadialBasisFunction 简称为RBF 神经网络作分类器所谓径向基函数是指一种有中心的辐射状函数例如高斯核函数二次型函数等 RBF神经网络就是利用RBF作为特性函数构成的前馈网络 RBF神经网络的特点是只有一个隐藏层隐藏层单元采用径向基函数作为其输出特性所以RBF神经网络是一个三层前馈网络 RBF神经网络结构示意图自组织特征映射模型Kohonen提出的自组织特征映射 SelfOrganizationFeatureMapping 简称为SOFM 模型是基于脑科学研究中得到的认识提出的模仿人脑的这种功能构造一种神经网络它能将多维空间的输入矢量集映射到一个称为特征图的二维阵列而能保持与原训练矢量集近似相同的拓扑结构这种神经网络称为SOFM模型其结构如图6 7所示它的输出层是一个二维网络其节点即从输入层的各节点接受刺激同时也从当前层中其它节点接受输入自组织神经网络结构示意图 SOFM模型的训练有多种算法在训练过程中它无需规定所要求的输出即导师只要足够的输入矢量加入以后输入层和输出层之间的连接会自动形成聚类中心实际应用中常常采用一种简化算法这种简化算法的推导是从神经网络的概念入手的但最终做法实际是矢量量化码书生成算法中随机梯度法的变形其基本步骤如下 1 采用随机扰动法产生一组初始权值 2 每次输入一个N维的训练矢量采用欧几里德距离测度计算各输入节点到每一输出节点j的距离 3 选择最佳匹配的输出节点既选出最小对应的输出节点 4 调整及相邻近节点的权值 5 如果已达到预定的迭代次数停止迭代否则转向2 继续迭代或像矢量量化那样根据相对失真值观察收敛情况决定是否结束时延神经网络时间归一化处理得到的固定长度的语音输入模式不能反映帧间变化的动态特性为了使神经网络能够处理语音中的动态特性理想的方法应该是一帧一帧或者几帧几帧依次地连续地输入语音特征参数为了解决这些问题美国卡内基梅隆大学 CMU 的Waibel等提出了一种时延神经网络 Time DelayNeuralNetwork 简称为TDNN 结构时延神经网络应满足的要求 1 网络是多层的各层间有足够的连接权以使网络具有学习复杂非线性判决面的能力 2 网络有能力表达语音特征在时间上的关系 3 网络通过学习而提取的特征应具有在时间变化过程中的不变性 4 学习过程不要求对所学的标记进行精确的时间定位 5 与训练数据相比网络的权数应当足够少从而可使网络能够更好地提取训练数据中的特征循环神经网络循环神经网络 RecurrentNeuralNetwork 简称为RNN 既有前馈通路又有反馈通路反馈通路可将某一层神经元的激活输出经过一个或几个时间节拍之后送到同一层的神经元例如节点的自反馈通路或送到较低层次的神经元在网络中加入反馈通路可以处理与时间有关的状态序列使得网络可以记忆以前输入所引起激活特性这对于处理语音信号是很有用的处理循环网络时可以引入关联节点 Contextnode 的概念它是一个假设的节点用来暂存相关节点的输出并经过一定时延再送到由反馈通路决定的相关节点中对在第n层的某一个神经元它在t时刻的输出存在其关联节点中然后在t 1时刻再输入到有关的神经元关联节点与其所有输入的神经元之间的互联权称为关联权图6 10给出了一个最简单的自反馈与关联节点关系的例子关联接点结构 6 5用神经网络进行模式识别的典型做法在各种人工神经网络模型中在模式识别中应用最多的也是最成功的当数多层前馈网络其中又以采用BP学习算法的多层感知器习惯上也简称为BP网络为代表由于网络采用的是监督学习方式进行训练因此只能用于监督模式识别问题在利用人工神经网络模型进行模式识别时由于网络模型结构一旦确定网络的输入节点数就是固定不变的所以输入模式的长度必须是一定的对于语音信号处理方面的应用来讲这往往首先要进行语音参数的时间归一化处理而对于网络结构的输出节点的选择决定了以下两种人工神经网络模型在模式识别中的应用方式多输出型所谓多输出型即对于多个类别只有一个人工神经网络模型而这个网络有多个输出节点每一个输出节点对应一个类别网络的结构是输入节点数对应于样点数或者样本的特征维数而输出层的节点数等于类别数在训练阶段如果用于训练的输入训练样本的类别标号是i 则训练时设第i个节点的期望输出设为1 而其余输出节点期望输出均为0 并且对于这个人工神经网络模型利用每个类别的训练数据对其进行有监督训练在识别阶段当一个未知类别的样本作用到输入端时考查各输出节点的输出并将这个样本的类别判定为与输出值最大的那个节点对应的类别单输出型所谓单输出型即一个人工神经网络模型只有一个输出很多实验表明在多输出方式中由于网络要同时适应所有类别势必需要更多的隐层节点而且学习过程往往收敛较慢此时可以采用多个多输入单输出形式的网络让每个网络只完成识别两类分类即判断样本是否属于某个类别具体作法是网络的每一个输入节点对应样本一个特征或输入特征矢量的一维而输出层节点只有一个为每个类建立一个这样的网络网络的隐层节点数可以不同对每一类进行分别训练将属于这一类的样本的期望输出设为1 而把属于其他类的样本的期望输出设为0 在识别阶段将未知类别的样本输入到每一个网络如果某个网络的输出接近1 或大于某个阈值比如0 5 则判断该样本属于这一类而如果有多个网络的输出均大于阈值则或者将类别判断为具有最大输出的那一类或者做出拒绝当所有网络的输出均小于阈值时也可采取类似的决策方法 6 6人工神经网络模型的应用举例人工神经网络模型可以应用在各个领域下面是利用主分量分析神经网络 PCANN 进行特征向量主分量分析的例子

展开阅读全文

语音信号处理第6章.ppt

最新文档