基于DSP的非特定人孤立词语音识别系统的研究和设计

上传人:e****s 文档编号:240504904 上传时间:2024-04-13 格式:PPT 页数:48 大小:2.51MB
返回 下载 相关 举报
基于DSP的非特定人孤立词语音识别系统的研究和设计_第1页
第1页 / 共48页
基于DSP的非特定人孤立词语音识别系统的研究和设计_第2页
第2页 / 共48页
基于DSP的非特定人孤立词语音识别系统的研究和设计_第3页
第3页 / 共48页
点击查看更多>>
资源描述
基于DSP的非特定人孤立词语音识别系统的研究与设计XXX主要内容Part 1 语音识别的背景及意义Part 2 预期实现功能及算法选取Part 3 语音信号的预处理和端点检测Part 4 特征参数的提取与仿真Part 5 模式匹配法与仿真Part 1 语音识别的背景及意义1.1 什么叫语音识别 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用,例如在翼卡车联网中,只需按一键通客服人员口述即可设置目的地直接导航,安全、便捷。语音识别的几个相关感念:(1)语音合成是让机器能说;(2)语音理解是利用知识表达和组织等人工智能技术进行语句自动识别和语意理解;(3)说话人识别(特征识别的一种)及其缺点;(4)语音增强是对带噪语音进行处理,降低噪声的影响,改善听觉的效果。1.2 语音识别系统的原理框图1.3 语音识别系统的分类 (1)按发音方式:孤立词语音识别系统,连接词语音识别系统、连续语音识别系统 (2)按应用对象:特定人和非特定人识别系统 (3)按识别词汇量:小词汇量、中等词汇量和大词汇量识别系统。1.4 语音识别未来展望人机交互技术的发展:键盘,鼠标,触摸屏,手势识别,语音识别(比如打 ,发短信(很多人不会打字),上网),脑电波识别等,任何一种技术都会作为一个过程存活一段时间。语音识别的应用:语言翻译机(实现不同国籍间人的自由交流,再也不用费劲的学习外语啦),智能家居,智能驾驶(无人驾驶,比如我进入汽车,自动识别我是谁,自动调成我喜欢的温度湿度,我喜欢的音乐,我只要说到哪,汽车自动把我送到某处,到目的后汽车提醒我到了,出差旅行变得很轻松),虚拟现实,和人工智能相结合,对语音进行深度理解,比如听我说话就知道我现在的心情。以后我们所使用的机器必然会越来越人性化,人性化我不知道大家对它是作何理解的,但我想是功能上更方便,feeling上更像人(或者说更友好),比如电子宠物Part 2 预期实现功能及算法选取2.1 预期实现功能我们的打算是,最终至少要实现一个简单的语音控制系统,该系统能对简单的命令进行识别,然后去做相应的处理(在这里我们用点亮发光二极管来进行模拟),基本功能实现后,再根据具体情况适当的增加识别难度并且在系统中添加一些其他功能。举个栗子:我们用开发板上的三个发光二极管和一个自锁按键来进行模拟。当按下按键后即可开始使用机器的语音识别功能,可识别指令分别为“注册、请靠近、请远离”,当语音识别通过,对应的LED点亮,否则播报“语音无法识别”,再次按下按键后即可关闭该功能。2.2 算法的选取模式匹配方法有很多成熟的,如果是孤立词识别,动态时间规整算法是一种比较经典的算法,在孤立词的识别中,其识别率和其他指标可以与HMM算法差不多等同。隐马尔可夫模型(Hidden Markov Models,简称HMM)作为语音信号的一种统计模型,今天正在语音处理各个领域中获得广泛的应用。它适用于大词汇量、非特定人的语音识别。该算法在识别阶段计算量较小,适应性强,但是前期需要很多的训练,系统资源占用比较大。由于我们识别的是简单的孤立词,并且DSP的系统资源有限,可能无法满足HMM算法前期训练所需要的系统资源,而动态时间规整算法可以满足我们的需要,所以采用的是动态时间规整(DTW)算法。Part 3 语音信号预处理和端点检测3.1 预处理无论是已知的或待检测的语音信号,都需要进行一 系列的预处理工作。预处理部分主要包括预加重、分帧加窗、端点检测等。该阶段主要实现了高频部分信号的提升、分帧加窗、检测信号的起始和终止点等作用。语音信号的预处理是语音识别的前提与基础,在语音识别 中具有举足轻重 的地位。3.1.1 信号的采样语音信号经过话筒变成电信号(薄膜后面有线圈,线圈中间有磁铁.声波震动薄膜,线圈在磁场中随声音运动(震动),产生电流.)后加在识别系统的输入端,通过带通滤波器滤波后再通过ADC进行采样。语音识别时常用的采样频率为8KHz(采样频率),10KHz,16KHz?人类的语音信号的频谱分量绝大部分集中在300Hz-3000Hz之间,其他基本上是谐波,口齿音,呼吸声等。所以我们可以设计一个带宽滤波器只让300Hz-3000Hz 的有用信号通过,主要滤除掉高于12采样频率的信号成分和50Hz交流电源干扰信号。采样定理:在进行模拟/数字信号的转换过程中,当采样频率大于信号中最高频率fmax的2倍时(fs.max2fmax),采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的510倍;采样定理又称奈奎斯特定理。这里我们打算选用的采样频率为,16Bit的ADC,这样就可以保证信号不失真啦。理论上说,采样频率越高越好,但这样会带来很多问题,比如系统功耗会非常高、成本高等。经过ADC采样后的语音数字信号按顺序存入原始数据区,一般采用循环队列的方式进行存储(数据的存储?)。以下各图有兴趣的童鞋可在去年嵌入式课小墙提供的软件上查看 由图可以看出语音信号具有很强的“时变特性”,有些波形段具有很强的周期性,有些波形段具有很强的噪声特性,且周期性语音和噪声性语音的特征也在不断的变化之中,此外,还有一些语音帧既有周期性又具有噪声特性。只有在较短的时间间隔内可以认为语音信号的特征基本保持不变。人类的发声系统产生不同的语音时的生理结构并不相同,产生的信号也是一个非平稳信号,但是由于生理器官变化速度有限,在一段时间(10一30ms)内可以认为人的声带、声道等特征基本保持不变,因此语音的短时谱具有相对的稳定性。语音可以分为清音和浊音两大类,两者在产生机理上有非常大的区别,特征上的差异也非常明显。清音没有明显的时域和频域特征,看上去类似于白噪声;而浊音在时域上有明显的周期性,其能量大部分集中在低频段内,且在频谱上表现出共振峰的结构。(语言学中,将发音时声带振动的音称为浊音,声带不震动的音称为清音。辅音有清有浊,浊音一般包括元音、半元音、鼻音、边音、部分辅音。)由于人自身的发音器官的运动,语音信号是一种典型的非平稳信号。但是相比于声波振动的速度,发音器官的运动就显得非常缓慢了。因此,工程技术人员通常认为1030ms这样长度的时间段中,语音信号是平稳信号。几乎所有的语音信号处理方法都是基于这个假设。短时分析的最基本手段是对语音信号进行加窗,即用一个有限长度的窗序列截取一段语音信号来进行分析。3.1.2 语音信号的预加重由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后,高频端大约在80OHz以上有6dB/倍频的衰减,为此在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)。预加重的目的是滤除低频干扰,尤其是50Hz低频电源干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。预加重可以通过两种渠道实现:一种可以放在A/D变换前在反混叠滤波之前进行,这样不仅能够进行预加重,而且压缩了信号的动态范围,有效地提高了信噪比;另一种可以放在A/D变换之后进行,利用一阶数字预加重滤波器实现。其函数为:其中u为预加重滤波器的系数,取值范围接近1,一般在0.930.97,我们打算取 从图中我们可以看出,预加重前后的语音信号的高频分量得到了提升。3.1.3 语音信号的分帧和加窗处理进行预加重数字滤波器处理后,接下来就要进行分帧加窗处理。将语音信号分成若干个短段,每一个短时的语音段称为一个分析帧,每个分析帧就好像是从一个具有固定特性的持续语音中截取出来的,对该分析帧进行处理就相当于对固定特性的持续语音进行处理,分析帧可以是连续的,也可以采用交叠分帧的方法。但是分帧一般要采用交叠分段的方法,这是为了帧与帧之间平滑过渡,保持其连续性(怎么实现的?)。前一帧与后一帧的交叠部分称为帧移,帧移与帧长的比值一般取在1/2到1/3之间。我们选取的帧长为256点,帧移为80点,如下图所示:分帧后就要对语音信号进行有限长的加窗运算,Window有几种形式,最常用的有矩形窗和汉明窗。矩形窗的定义为:汉明窗的定义为:我们使用的是窗,它是一种改进的升余弦函数,之所以在分帧后对每帧数据乘以哈明窗,是因为汉明窗具有以下特点:频率分辨率高,即主瓣狭窄、尖锐,通过卷积,由其它频率成分产生的频率泄漏少(为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的Gibbs效应),即旁瓣衰减大。这种改进的升余弦窗,能量更加集中在主瓣中,主瓣的能量约占99.96%,第一旁瓣的峰值比主瓣小40dB,但主瓣宽度和汉明窗相同,仍为8Pi/N。为什么汉明窗这样取呢?为什么选择汉明窗?因为之后我们会对汉明窗中的数据进行FFT,它假设一个窗内的信号是代表一个周期的信号。(也就是说窗的左端和右端应该大致能连在一起)而通常一小段音频数据没有明显的周期性,加上汉明窗后,数据形状就有点周期的感觉了。因为加上汉明窗,只有中间的数据体现出来了,两边的数据信息丢失了,所以等会移窗的时候,只会移1/3或1/2窗,这样被前一帧或二帧丢失的数据又重新得到了体现。简单的说汉明窗就是个函数,它的形状像窗,所以类似的函数都叫做窗函数。希望大家能明白。下图为语音信号4经分帧后第二十帧的时域波形和语音信号4第二十帧信号经加窗后的波形:3.2 端点检测 语音端点检测的定义:用计算机数字处理技术从包含语音的一段信号中找出字、词的起始点及结束点,从而只存储和处理有效语音信号。进行端点检测的基本参数主要有短时能量、幅度、过零率和相关函数等。端点检测最常见的方法是短时能量短时过零率双门限端点检测。人们在讲话的过程中有大量显著的停顿,因此听起来连续的语音信号其实是由一系列的无音片段组成的。特别是在人们对话的过程中,有音片段的持续时间大约只占整个说话时间的40%,在无音片段中主要以背景噪声为主,所携带的有用信息相对于有音片段要少很多。通俗点来说,语音的端点检测就是从包含有背景噪声的一段输入语音信号中判断出哪些是有音片段,哪些是无音片段,并且要准确找出起点和终点,也就是一个有声/无声判决的问题。一般来说,错误的端点检测所产生的起始音漏检或虚检情况会造成误判或以一串噪声为语音信号而产生识别错误,研究表明,即使在安静环境下语音识别系统一半以上的识别错误都来自于端点检测。端点检测的准确性甚至在某种程度上直接决定了整个语音识别系统的成败,没有足够准确的端点检测,精密优选特征类型或识别方法的工作往往劳而无功。3.2.1 短时能量短时能量 对第n帧语音信号的短时能量En的定义为:X(n)为原样本序列在窗函数所切取出的第n段短时语音,N为帧长。3.2.2 短时平均过零率短时平均过零率 短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号则称为过零。过零率就是样本改变符号次数,定义语音信号的短时过零率Zn为:其中,sgn为符号函数,3.2.3 短时能量积法短时能量积法短时能量与相应的短时过零率之积称为短时能零积,其定义为:(3)用短时能零积法进行语音端点检测的步骤用短时能零积法进行语音端点检测的步骤:a.确定噪声的门限阈值无音片段主要包括的是背景噪声,由于录音开始阶段往往有一段无音区,所以在实验室环境下通常取最开始的5帧信号作为背景噪声的分析,对这5帧信号按式(1)和式(2)分别按帧计算短时能量和短时平均过零率,并按式(3)计算短时能零积,通过多帧平均,就得到了平均短时能零积EZ,并按照下式确定噪声的门限阈值TH。TH=k*EZ (4)其中:k为经验值,通常取12。b.利用短时能零积进行语音端点检测计算每帧录音信号的短时能量积EZ,与噪声的门限阈值TH做比较。EZ大于TH,就以该帧的帧号作为有音片段的起点N1,表明进入了有音片段。如果由过去帧已经得到了N1,那么当EZ小于TH时,就以该帧的帧号作为有音片段的终点N1。相反,如果N1还未得到,那么当EZ小于TH时,表明当前帧仍处于无音片段。短时能量和过零率的应用:区分清音段和浊音段的特征参数在信噪比较高的情况下,可用作区分有声和无声的依据作为辅助的参数用于语音识别中3.3 复倒谱和倒谱复倒谱和倒谱 复倒谱是x(n)的Z变换取对数后的逆Z变换,其表达式如下:倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z变换,即 浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特点我们可以进行清浊音的判断,并且可以估计浊音的基音周期。Part 4 特征参数的提取与仿真 基本的特征参数主要有:能量、幅度、过零率、频谱、倒谱和功率谱等。常用的常用的语音识别参数有线性预测参数(LPC),线性预测倒谱参数(LPCC)和Mel尺度倒谱参数(MFCC)等。语音识别系统往往由于其训练使用不含噪的语音而导致识别的准确率在含噪的真实环境中会有大幅度的下降,其原因主要在于训练集和测试集的差别,因此识别系统的鲁棒性是其走向实用必须解决好的一个重要问题。在此,详细介绍下基于特征空间的鲁棒语音识别技术特征提取。(这段话的含义)特征提取是对语音信号进行数学处理后得到一个矢量序列,用这个矢量序列代表原始语音信号所携带的有用信息(去同存异)。在实际的语音识别系统中,特征参数的选择和提取是整个系统构建的基础,也是提高系统鲁棒性的理想方法。一般语音信号的特征矢量可分为两类:第一类为时域特征矢量,即对语音信号的时域采样直接构成矢量序列,如端点检测中常用的幅度、能量和过零率等等;第二类为变换域特征矢量,即对语音信号进行某种变换后产生的矢量序列,如线性预测系数 LPC、LPC倒谱系数、短时频谱以及Mel频率倒谱系数MFCC等。其中MFCC是通过对人耳听觉系统的仿真而获得符合人耳听觉特性的语音特征参数,而不像LPCC那样依赖全极点语音信号产生模型的假定,因此具有良好的鲁棒性,被多数识别系统所采用。所以我们采用了MFCC参数作为基线识别参数。4.1 LPC(线性预测系数)模拟人发音器官的声管模型,是一种基于语音合成的参数模型。在语音识别系统中很少直接使用LPC系统,而是由LPC系数推出的另一种参数LPCC。LPCC(线性预测倒谱系数)是LPC在倒谱域中的表示。该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数。LPCC的优点是计算量小,易于实现,对元音有较好的描述能力,缺点是对辅音描述能力较差。LPC线性预测仿真 LPC模型是基于发音模型建立的,LPCC系数也是一种基于合成的系数,这种参数没有充分利用人耳的听觉特性。实际上,人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。4.2 MFCC系数(Mel频率倒谱系数)人耳对不同频率的语音具有不同的感知能力,实验发现,在1000Hz以下,感知能力与频率成线性关系,而在I000Hz以上,感知能力则与频率成对数关系。为了模拟人耳对不同频率语音的感知特性,人们提出了Mel频率的概念,其意义为:1Mel为1000Hz的音调感知程度的l/1000。频率f与Mel频率B之间的转换关系如下图所示,其转换公式为:Mel频率倒谱系数即为基于上述Mel频率的概念而提出的,其提取及计算过程如下图所示:提取及计算过程解释如下:(1)原始语音信号s(n)经过预加重、分帧、加窗、端点检测等处理,得到每个语音帧的时域信号x(n)。(2)将时域信号x(n)后补若干0以形成长为N(一般取N=512)的序列,然后经过离散傅立叶变换DFT(或FFT)后得到线性频谱X(k),转换公式为:在实际应用中,常常通过快速傅立叶变换(FFT)般称之为DFT(或FFT)窗宽。(3)将上述线性频谱通过Mel频率滤波器组得到Mel频率,滤波器组如下图所示:其中Mel频率滤波器组为在语音的频谱范围内设置的若干个带通滤波器 ,M为滤波器的个数,滤波器的个数通常取为24一40之间,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值小时相邻f(m)之间的间隔也小,随着m的增加相邻f(m)的间隔逐渐变大。每个带通滤波器的传递函数为:f(m)定义为:(4)将上述对数频谱S(m)经过离散余弦变换(DCT)变换到倒频谱域,即可得到Mel频率倒谱系数(MFCC参数)c(n)MATLAB仿真结果如下:从图中可以看出,在噪声比较大的时候,其鲁棒性能不是很好。Part5 模式匹配法与仿真 DTW(Dynamic Time Warping,动态时间规整)语音识别中较为经典的一种算法。它寻找一个规整函数,将测试矢量的时间轴i非线性地映射到参考模板的时间轴j上,并使该函数满足:D就是处于最优时间规整情况下两矢量的距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配时累积距离最小所对应的规整函数,这就保证了它们之间存在的最大声学相似性。动态时间规正法(DTW)的原理Ck=(ilk,jk)C1=(1,1)CK=(I,J)j=i-rj=i+r时间伸缩函数时间伸缩函数 F匹配窗匹配窗 ijt1 t2 t3 ti tI TRr1 r2 rj rJ(1)时间伸缩函数 F F=c1,c2,cK ck=(ik,jk)(2)F 的累加距离 D(F)D(F)=d(ck)wk k wk k d(ck)=d(ik,jk)(3)最佳匹配失真测度D(T,R)D(T,R)=minD(F)F 动态时间规正法(DTW)的具体解法ck=(ilk,jk)(ilk,jk-1)(ik-1,jk)r4r3r2r1t1 t2 t3 t4 t5 ming(i-1,j)+d(i,j)g(i-1,j-1)+2d(i,j)g(i,j-1)+d(i,j)(1)约束条件 F=c1,c2,cK ck=(ik,jk)(2)D(F)式中分母部独立处理 D(F)=d(ck)wk k (I+J)k(3)DTW算法(部分优化法)g(ck)=g(ik,jk)=g(i,j)=D(T,R)=g(I,J)/(I+J)动态时间规正法(DTW)的计算实例ck=(ilk,jk)(ilk,jk-1)(ik-1,jk)min217515164724524334822151 19 19 20 20 23 23 26 26 17 17 22 22 16 16 22 22 16 16 18 18 15 15 19 19 12 12 11 11 15 15 16 16 7 7 9 9 17 17 13 13 4 4 5 5 10 10 11 11FEDCBA1 2 3 4RTg(i-1,j)+d(i,j)g(i-1,j-1)+2d(i,j)g(i,j-1)+d(i,j)DTW算法(部分优化法)g(ck)=g(ik,jk)=g(i,j)=D(T,R)=g(I,J)/(I+J)
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 幼儿教育


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!