孤立词语音识别中期报告.doc

资源描述

1课题研究的背景及意义国外的语音识别研究工作可以追溯到20世纪50年代AT&T贝尔实验室开发的第一个能实现十个英文数字的语音识别系统。我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别十个元音。直至1973年才由中国科学院声学所开始计算机语音识别。1986年3月我国高科技发展计划(863计划)启动，国家863智能计算机专家组为语音识别技术研究专门立项，每两年举行一次专题会议。现在我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势。国内有不少语音识别系统已研制成功。在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语-汉语语音翻译演示系统。在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。随着信息产业的迅速发展，人们倾向于使用高效，快捷，方便的电子产品。语音识别作为人机交互的一项关键领域，具备了实时，方便，快速等特点，在当今科学技术的发展上也有着日益重要的地位。在一些特定的环境或是对于一些特定的人，语音识别可以带来很大的方便。例如，驾驶员在高速行驶的汽车内电话拨号，飞行员在飞行过程中发出必要的命令等，都需要语音识别系统，另外语音识别也给失明者带来很大的帮助。课题任务探讨基于MATLAB的多个特定人孤立词语音识别的方法，期望在进行端点检测时，能进一步提高识别率。该设计要求采用TW算法。主要任务：1、理论分析，提出设计方案；2、语音采集；3、特征提取，形成训练集；4、特定人孤立词语音识别算法的程序实现。基本原理3.1语音识别的基本原理语音识别系统本质上是一种模式识别系统，因此它的基本结构与常规模式识别系统一样，包含有特征提取、模式匹配、参考模式库等三个基本单元。图1为语音识别系统的原理框图。失真测度识别识别结果训练模式匹配模型库逐帧特征提取预处理语音信号图1 语音识别系统的原理框图根据对说话人发音方式的不同，语音识别研究的内容可以分为孤立词识别系统、连续字语音识别系统及连续语音识别系统。本次毕设研究的是孤立词语音识别。3.2孤立词语音识别系统的设计孤立词语音识别系统指人在发音时，以单字的发音方式向语音识别系统输入语音，词语词之间要有足够的时间间隙，以便系统能够检测到始末点。采用这种方式的语音识别系统可以做到很高的识别率。图2为孤立词有语音识别系统的原理框图：预处理特征提取超音段特征提取参考模式库模式识别训练后处理器识别结果输入语音图2 孤立词语音识别系统3.2.1语音信号的采集Windows 自带了一个录音机程序（简称录音机），通过它可以驱动声卡采集、播放和简单处理语音信号。语音信号的采集可以用麦克风直接录制人的语音，也可以通过音频线或者MIDI 线将收音机、电视机或磁带录机中的语音信号采集到计算机中。在录音机中可以进行简单的声音处理，如加大或降低音量，加速或减速，声音的反转或添加回音效果等。加速或减速的改变可以完成变音功能，反转可以达到对声音文件保密的功能。通过windows自带的录音器，分别由我和同学录入了2组数据（1人1组），每组10个音频文件，分别为从“零”到“九”的汉语发音。其中一组为参考模板，另外一组为测试模板。3.2.2端点检测语音信号录制进来后，不论是识别孤立词还是识别连续词都必须做语音分段，即语音端点检测，找出语音段的开始和结尾，这可借助于语音信号的短时能量和过零率。有声音段的能量值较大，无声音段的过零率较高，因此可以通过计算短时能量大致判断语音的端点，然后使用过零率找到语音端点的相对精确位置，分解出每一个语音段。整个语音信号的端点检测可以分为四段：静音、过渡段、语音段、结束。系统中使用一个变量来表示当前所处的状态，在静音段，如能量或过零率超过了低门限，则开始标记起始点，进入过渡段。在过渡段，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。如果在过渡段中两个参数的任意一个超过了高门限，就可以确信进入语音段了。端点检测时，首先根据短时能量进行初步判断，此时对终点的检测已比较准确，但由于大多数声母是清声母，它的能量相当弱，依靠能量无法将其与无声段区分开，所以在进行起点检测时，很难仅仅通过短时能量进行判断，但对于清辅音而言，它的过零率明显高于无声段，所以可以根据短时过零率进一步准确检测。图3为端点检测的流程图：否否是是否发现终点？是否发现起点？开始自适应能量预加重、加窗、计算每帧能量能量状态跳转是结束图3 端点检测的流程图图3 端点检测程序流程图3.2.3特征提取由于直接采集得到的语音信号的数据量巨大，同时原始语音信号包含了许多随机因素，所以原始信号不能直接用来进行语音识别。因此需要从语音信号中提取合适的、有代表性的特征参数。特征提取就是通过对语音信号的分析，去除其中的冗余信息，得到影响语音识别的有用信息，语音信号的时域参数有短时平均能量、短时平均过零率、短时自相关函数和短时平均幅度差函数等。这是语音信号的一组最基本的短时参数，在各种语音信号数字处理技术中都要应用，下面分别讨论：短时平均能量清音段的幅度一般比浊音段的幅度小的很多。语音信号的短时能量给出了反映这些幅度变化的一个合适的描述方法。图4为短时平均能量的方框图如下表示：图4 短时平均能量的方框图表示短时过零率过零率分析是语音时域分析中最基本的一种。对于连续信号，过零率意味着时域波形通过时间轴。在离散时间信号情况下，当相邻的两次抽样具有不同的代数符号时就称为发生了过零。过零率是指单位时间内信号由正变负、由负变正的总次数。图5为短时平均过零率的方框图如下表示：低通滤波器一阶差分图5 短时平均过零数的实现框图3.2.4模式匹配语音识别过程是根据模式匹配原则，计算未知语音模式与语音模板库中的每一个模板的距离测度，从而得到最佳的匹配模式。语音识别所应用的模板匹配方法主要基于动态时间规整匹配的（DTW）识别算法、基于统计的隐含马尔可夫模型（HMM)识别算法和基于神经网络的识别算法。本次毕设我采用的是动态时间弯折（DTW)。DTW(dynamic time warping)动态时间规整匹配，是基于动态规划的思想，解决了发音长短不一的匹配问题，是语音识别中出现较早、较为经典的一种算法。动态时间规整是把时间规整和距离测度计算结合起来的一种非线性规整技术。假设测试和参考模板分别用T和R表示，为了比较它们之间的相似度，可以计算它们之间的距离DT,R ，距离越小则相似度越高。为了计算这一失真距离，应对T和R中各个对应帧之间的距离算起。在DTW算法中通常采用欧式距离，设n和m分别是T和R中任意选择的帧号，则有: 因为一般情况下参考模板和待匹配模板的长度不相等，即MN，因此要考虑将T和R对齐。对齐主要采用的是动态规划（DP）的方法。将测试模板的各个帧号n=1N在一个二维直角坐标系中的横轴上标出，把参考模板的各个帧号m=1M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点(n，m)表示测试模块中某一帧与训练模式中某一帧的交汇点。4仿真结果与分析本次毕设到现在为止，我已经完成了语音采集和端点检测这两项任务，端点检测时采用短时能量和短时过零率这两个特征参数，根据端点检测的程序得到如下图形：图6 语音信号波形图6显示了语音信号波形，从波形中可以看出，音频前后都有噪音，这是由于说话的短暂停留引起的。在语音信号的起始位置，从图中可以看出其幅值为零，在语音信号的结束位置可以看出信号波形做周期性的变化，可以判定其为浊音。图7 初始语音的端点检测结果分析上图可知，在语音的起始位置和结束位置，短时过零率较高，短时能量也较大。这与短时能量大时是浊音、能量小时是清音，短时过零率高时是清音、过零率低时是浊音相矛盾。故可知输入的原始语音有噪声干扰。在语音的结束位置，这两项参数都趋向于零。图8 语音“00”的双门限端点检测结果Vad函数的功能就是通过端点检测功能甄别出语音信号的起始点与结束点，图中的红线就是标记的语音信号始末点，可以看出，杂音基本被排除，效果是非常明显的。5总结作为一项具有实用性的技术，孤立词语音识别的应用越来越广。为了满足实际需求人们一直在致力于不断完善孤立词语音识别系统。语音具有便捷性、高效性、随机性、交互性等显着特点，是实现人机交互的一种重要通信方式，进一步提高社会的信息化和自动化程度。根据本次毕业设计的要求，探讨基于MATLAB的多个特定人孤立词语音识别的方法，期望在进行端点检测时，能进一步提高识别率。该设计要求的设计为主采用DTW算法。大部分内容要通过程序的编写来完成，不过主要的操作是对函数的调用，这就要求我熟悉MATLAB的一些函数的基本功能以及它们的基本语句。通过这次设计能够使我掌握大量关于语音信号分析的知识技能，对这门课程有深入的了解和认识，为将来的工作提供了资料，积累宝贵的经验。6参考文献 1 赵力，语音信号处理M第一版，北京：机械工业出版社，2003 2 王炳锡，屈丹，彭煊实用语音识别基础M.北京：国防工业出版社，2005 3 易克初，田斌，付强等语音信号处理M.北京：国防工业出版社，2000 4 高成华，聋儿康复事业的历史、现状和展望J，中国听力语言康复科学杂志，2003 5 杨行竣，迟惠生等，语音信号数字处理M.第一版，北京：电子工业出版社，1995 6 彭昭，吕冠中，梁洁，等. 基于P2P 的流媒体点播技术研究与展望J. 计算机科学，2008. 7 庄雷，常玉存，董西广. 一种P2P 文件共享系统中的激励机制J . 计算机应用研究，2009， (01) ：266-26 8 孙卫琴. JAVA 面向对象编程M . 北京:电子工业出版社, 2006, 8 9 庄雷，常玉存，董西广. 一种P2P 文件共享系统中的激励机制J . 计算机应用研究，2009， (01) ：266-268.10 周辉，董正宏.数字信号处理基础及MATLAB实现M.北京：北京希望电子出版社，2006.11 邹理和.语音信号处理M.北京：国防工业出版社，1985.12 梁晓辉, 周权.语音信号处理方法的可靠性研究J.电声技术，2010年04期. 13 吴艳花.语言短时幅度和短时过零率分析与应用J.电脑知识与技术.2009年33期.14 胡航.语音信号处理M.哈尔滨：哈尔滨工业大学出版社,2009.7.15 孙燕.语音频谱分析与应用J.计算机与现代化，2010年04期.16 孙卫琴. JAVA 面向对象编程M. 北京:电子工业出版社, 2006, 817 黄文梅，熊桂林，杨勇. 信号分析与处理MMATLAB语言及应用.长沙：国防科技大学出版社，2010年2月.18刘江华，程君实，陈佳品支持向量机训练算法综述J信息与控制，2002,31(1):45-49.19ZENG Qingning.Speech enhancement by array crosstalk resistantANC and spectrumSubtraction. 声学学报：英文版，2008年，27卷1期.20 GUAN Tian，GONG Qin，YE Datian.Effective use of the spectral information in speech processing of cochlear implant. 自然科学进展，2007年17卷3期.21侯风雷，王炳锡基于支持向量机的说话人辨认研究J.通信学报，2002,23(6):61-67.22周志杰.MLP语音信号非线性预测器J.解放军理工大学学报（自然科学版）,2001,2(5):1-4.23RIZVI A.Residual vector quantization using a multiplayer competiting neural networkJ.IEEE Trans .on SAC,1994,12(9):1452-1459.24RABINER L R ,SCHAFER R W.Digital processing of Speech SignalsM.Englewood Cliffs (New Jersey):Prentice-Hall Inc.,1978(祝雪龙等.语音信号数字处理M.北京：科学出版社,1983).

展开阅读全文