PLP及MFCC在藏语连续语音识别系统中的比较

资源描述

文档供参考，可复制、编制，期待您的好评与关注！ PLP及MFCC在藏语连续语音识别系统中的比较【摘要】本文论述了常用的语音特征参数，并分析了mel频谱倒谱系数（mfcc）和感知线性预测系数（plp）的计算方法，并在藏语拉萨话大词表连续语音识别系统中分别提取mfcc和plp参数，并对识别结果进行了比较.【关键词】 mel倒谱感知线性预测系数 mfcc plp 语音识别藏语自动语音识别研究起始于上世纪50年代，80年代最大突破是隐马尔科夫模型（hmm）的应用，语音识别研究重点从特定人、小词表、孤立词语音识别向非特定人、大词表、连续语音识别转移；90年代以来，语音识别在模型细化、参数提取和优化、系统自适应方面取得重大突破.进入本世纪，著名的研究机构和公司，如剑桥大学、ibm、cmu大学、微软、贝尔实验室等机构的大词表连续语音识别系统对特定说话人的识别率达到95左右.面对中国未来市场，国外ibm、apple、motorola等公司投入到汉语语音识别系统的开发.我国语音识别研究虽然起步较晚，但发展发展迅速，中国科学院自动化研究所、声学研究所及清华大学、北京交通大学等机构都开展了语音识别的研究，总体上，汉语连续语音识别的研究与国外先进技术相差不大。实际环境对语音识别的声学噪声鲁棒性要求越来越高,因此,提取具有鲁棒性和较强区分能力的特征向量对语音识别系统具有重要的意义.目前常用的声学特征参数有基于线性预测分析(lpc)的倒谱lpcc、基于mel频率弯折的倒谱mfcc及基于听觉模型的感知线性预测(plp)分析等.由于考虑到人耳的听觉特性，mel倒谱系数或感知线性预测系数已经成为目前主流的语音特征向量提取方法之一，加上它们的一阶、二阶差分以及对特征向量进行归一化处理以后，在大词汇量连续语音识别问题上取得不错的结果。为了使系统具有较好的鲁棒性，通常要对语音识别系统的前端进行预处理.虽然语音信号是非平稳信号，但在一个小的时段内具有相对的稳定性，因此在对语音信号进行分析时，我们总是假定语音信号在一个时间帧(frame)内是平稳信号，这就是语音信号的短时分析假设。通常一帧大约为20ms左右。对一帧信号通过加hamming 窗、hanning 窗或矩形窗后再进行特征分析就可以得到相应的一组特征，然后通过把分析窗移动一个偏移（称为帧移，通常为一帧的1/2或1/3)，然后进行下一帧的处理。1mfcc的计算mel频率倒谱参数(mfcc)，着眼于人耳的听觉特性。人耳所听到的声音的高低与声音的频率并不成线性正比关系，从人类听觉系统的研究成果来看，人耳分辨声音频率的过程犹如一种取对数的功能，而mel频率尺度则更符合人耳的听觉特性。类似于临界频带的划分，可以将语音频率划分成一系列三角形的滤波器序列，即mel滤波器组。mel频率和频率的关系如下：mel(f)=2595lg(1+f/700)mel频率带宽随频率的增长而变化，在1000hz以下，大致呈线性分布，带宽为100hz左右，在1000hz以上呈对数增长。将频谱通过24个三角滤波器，其中中心频率在1000hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000hz以下为线性分布，1000hz以上为等比数列分布。图1 mel三角滤波器mfcc的具体计算过程如下：1)由原始信号计算其dft，得到离散谱s n n n t ( ) = 1,2,., ；2)三角滤波器的输出则为此频率带宽内所有信号幅度谱加权和。l = 1,2,.,243)对所有滤波器输出作对数运算ln（y（l）l= 1,2,.,244)作离散余弦变换（dct）得到mel频率倒谱参数(mfcc)。i = 1,2,.,p，p为mfcc参数的阶数，取p12.2plp的计算感知线性预测(plp)技术涉及到听力、心理、物理学的三个概念：(1)临界波段频谱分辨率；(2)等响度曲线；(3)强度-响度功率定律。使用一个自回归全极点模型去逼近听觉频谱。5阶的全极点模型能有效地抑制听觉频谱中与话者有关的细节信息。与传统的线性预测(lp)分析相比，在强调听觉这方面，plp分析更为合理。plp分析流程：(1)使用fft用对原始信号从时域变换到频域，得到功率谱；(2)关键波段频谱分析（critical-band spectral resolution）：以不同于mel频谱分析的新的临界波段曲线进行分段离散卷积，产生临界波段功率谱的样点.(3)等响度预加重(equal-loudness pre-emphasis)：样值化的通过模拟的等响度曲线进行预加重(4) 利用强度-响度幂律(intensity-loudness power law)进行立方根幅度压缩(5) 自回归建模(auto-regressive modeling)：利用全极点频谱建模的自相关方法由全极点模型的频谱去逼近。基本原理是：对()进行逆dft变换，产生自相关函数。前m1个自相关值用于从yule-walker方程中解出m阶全极点模型的自回归系数。3.实验结果分别提取12维plp和mfcc特征参数，1维归一化短时能量，并求其一阶差分及二阶差分，共39维mfcc和plp特征参数.以音素为声学建模单元，采用5状态的连续hmm模型（见图2），其中1、5状态只起连接作用，没有观测概率，第2、3、4状态有gmm概率分布，假设特征参数是相互独立的，所以规定协方差矩阵为对角阵。图2 五状态hmm模型结构声学模型的训练基于4007句朗读式的特定人男声语料，共2.84小时，结合藏语语言学和语音学的研究成果，对拉萨话中全部50个音素进行分类，共划分了38个音素类别集，对全部72个声韵母设计了72个类别集，根据其前后语境分别建立决策树问题集，生成决策树，生成三音子模型后逐步增加高斯混合度。选择50句短句作为测试集，测试集与训练集为同一发音人，但发音文本完全独立，同时，测试集语料与语言模型的训练语料也完全独立，测试集共有885个单音节，其中界外词（oov）25个，全部为紧缩音节。当特征参数分别为plp和mfcc时，实验结果如下（三音子triphone模型的状态数为584）：由藏语大词表连续语音识别的实验结果来看，plp和mfcc的效果相差不大。参考文献1 lawrence rabiner, biing-hwang juang. fundamentals of speech recognitionm.北京：清华大学出版社.19932 郑方,吴文虎,方棣棠. 连续无限制语音流中关键词识别的研究现状c.第四届全国人机语音通讯学术会议,北京,19963 高升,徐波,黄泰翼.基于决策树的汉语三音子模型j.声学学报,2000,11(2):271-2764 julian james odell. the use of context in large vocabulary speech recognitiond. cambridge: university of cambridge,19955 郑方. 连续无限制语音流中关键词识别方法研究d.清华大学，19976 倪崇嘉,刘文举,徐波. 汉语大词汇量连续语音识别系统研究进展j.中文信息学报,2009,1:112-1286 / 6

展开阅读全文

PLP及MFCC在藏语连续语音识别系统中的比较

最新文档