语音识别技术介绍.ppt

上传人:xian****812 文档编号:20685753 上传时间:2021-04-13 格式:PPT 页数:34 大小:476.50KB
返回 下载 相关 举报
语音识别技术介绍.ppt_第1页
第1页 / 共34页
语音识别技术介绍.ppt_第2页
第2页 / 共34页
语音识别技术介绍.ppt_第3页
第3页 / 共34页
点击查看更多>>
资源描述
语音信号处理与识别 一、语音识别概述 二、语音识别系统基本原理 三、预处理及特征参数提取 四、模板匹配技术及相似性判断方法 五、语音识别系统的设计和实现 语音识别概述 让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。伴随计算机技 术发展,语音识别己成为信息产业领域的标志性技术,在人机交互应用中逐渐进 入我们日常的生活,并迅速发展成为“改变未来人类生活方式厅的关键技术之一 。 语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方 向 。其最终目标是实现人与机器进行自然语言通信。 发展和现状: 20世纪 50年代, AT (2)连接词语音识别系统 :其输入系统要求对每个词都清楚发音 ,开始出现一些 连音现象 ; (3) 连续语音识别系统 :连续语音输入自然流利的语音,会出现大量的连音和 变音。 另外 从识别系统的词汇量大小分 :小词汇量语音识别系统(几十个词);中等 词汇量语音识别系统(几百到上千个词);大词汇量语音识别系统(几千到几万 个词)。 语音识别概述 语音识别的基本方法 : 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模 板匹配的方法以及利用人工神经网络的方法。 (1)语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由 于其模型及语音知识过于复杂,现阶段没有达到实用的阶段 . (2)模板匹配的方法 模板匹配的方法发展比较成熟,目前己达到了实用阶段。常用的技术有三种 : 动态时间规整 (DTW)、隐马尔可夫 (HMM)理论、矢量量化 (VQ)技术。 (3)神经网络的方法 基于 ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构 成。由于基于神经网络的训练识别算法由于实现起来较复杂,目前仍只是处 于实验室研究阶段。 语音识别概述 目前语音识别的研究主流是大词汇量的非特定人的连续语音系统,但是事实 上,对于许多应用来说,一个语音识别系统只要一组词汇或命令,它就可能为用 户提供一个有效的工具,简单有效的孤立词特定人语音识别系统就能满足要求。 正是孤立词特定人语音识别系统广阔的应用前景以及优越性促使我们继续对它进 行研究 目前市场上出现的语音识别器大多数是特定人孤立单词语音识别系统。 孤立词语音识别系统中的难点问题: (1) 语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之间存在重大的差异,即 使同一人同一语音的不同次发音,也存在很大差异。 (2) 噪声影响 当实际环境中有噪声存在时,容易造成训练与测试环境不匹配导致语音识别 系统性能急剧下降。 (3) 端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误。 在安静环境 下有声段和无声段时能量存在很大差异,由此判断语音的起点。但是当噪声的能 量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误。 语音识别概述 (4) 词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短时周期特性将语音时域采样信号分 为若干段,计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语的 矢量序列在特征空间中存在混叠现象,甚至有些不同词语的混叠程度会超过同一 词语的不同次发音,从而降低识别率。 语音识别系统基本原理 语音信号产生模型 语音是由空气流激励声道产生的。对于浊音、清音和爆破音三种不同类型的 音来说,激励源是不同的。浊音激励源是位于声门处的准周期脉冲序列,清音的 激励源是位于声道的某个收缩区的空气湍流(类似于噪声),而爆破音的激励源 是位于声道某个闭合点处建立起来的气压及其突然释放。 语音生成系统分为三个部分,在声门 (声带 )以下,称为声门子系统,它产生 激励振动,是激励系统 :从声门到嘴唇的呼气通道是声道系统 :语音从嘴唇辐射出 去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型可以用三个子 模型 :激励模型、声道模型和辐射模型的串联表示。 语音信号产生的时域模型 语音识别系统基本原理 语音识别系统基本原理 语音信号分析基础 语音信号的分析主要有时域分析和频域分析两种,其他还有倒谱域、语谱分 析等。 语音信号是一种典型的非平稳信号。语音的形成过程与发音器官的运动密切 相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号可假定为 短时平稳的,其频谱特性和某些物理参数在 10-30ms时间段内是近似不变的,对 语音信号进行处理都是基于这个假设 语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等, 这些参数主要用在语音端点检测中。频域分析参数主要有基音频率、滤波器组参 数、线性预测系数 (LPC)、线性预测倒谱系数 (Linear Prediction Cepstrum Coefficient, LPCC)、线谱对参数 (Linear Spectrum Pair, LSP),MEL频率倒谱系 数 (Mel-Frequency Cepstrum Coefficient, MFCC)等 . 语音识别系统基本构成 语音识别系统基本原理 语音识别系统基本原理 预处理 预处理部分包括语音信号的采样、反混叠滤波、语音增强,去除声门激励和 口唇辐射的影响以及噪声影响等,预处理最重要的步骤是端点检测。 特征提取 特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号 特征的参数,如平均能量、过零数、共振峰、倒谱、线性预测系数等,以便训练 和识别。参数的选择直接关系着语音识别系统识别率的高低。 训练 训练是建立模式库的必备过程,词表中每个词对应一个参考模式,它由这个 词重复发音多遍,再经特征提取和某种训练中得到。 模式匹配 模式匹配部分是整个系统的核心,其作用是按照一定的准则求取待测语音特 征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。 预处理及特征参数提取 语音信号的数字化和预处理 1、 语音信号数字化 要了分析说话人的语音,就要将话筒中传来的语音信号转换成计算机所能处 理的数字信号。通过对语音信号特性的分析表明,浊音语音的频谱一般在 4KHz 以上便迅速下降。而清音语音信号的频谱在 4KHz以上频段反而呈上升趋势,甚至 超过了 8KHz以后仍没有明显下降的苗头。实验表明语音清晰度和可懂度有明显 影响的成分最高频率约为 5.7KHz。而语音信号本身的冗余度又比较大,少数辅 音清晰度下降并不明显影响语句的可懂度。因此语音识别时常用的采样频率为 10KHz或 16KHz。 2、预加重 为了消除声门激励和口鼻辐射的影响,需要对语音信号作预加重理。它的目 的在于消除低频干扰尤其是 50Hz的工作频率干扰,将对语音识别更为有用的高 频部分的频谱进行提升。使信号的频谱变的平坦,保持在低频到高频的整个频带 中,能用同样的信噪比求频谱, 以便于频谱分析。 预加重数字滤波器一般是一阶的数字滤彼器: ,其中 u的取值一般 介于 0.93和 0.98之间。 11)( zzH 预处理及特征参数提取 3、 语音分帧 语音信号常常可假定为短时平稳的,即在 10-20ms这样的时间段内,其频谱 特性和某些物理特征参量可近似地看作是不变的。这样就可以采用平稳过程的分 析处理方法来处理了。这种处理的基本方法是将语音信号分隔为一些短段即分帧 再加以处理。分帧可以采用连续分段的方法,也可采用交叠分段的方法。一般采 用交叠分段的方法,即帧与帧之间有交叠, 交叠 的目的是使帧与帧之间平滑过渡, 保持其连续性。语音信号处理的帧长一般取 20ms 为了减小语音帧的截断效应,需要加窗处理: 矩形窗: Hamming: Hann: )()()( nwnsns w 10,1)( Nnnw 10),12c os (46.054.0)( NnN nnw 10) ) ,12c o s (1(5.0)( NnN nnw 矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,汉明窗的主瓣 最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性, 应用更广泛。 预处理及特征参数提取 预处理及特征参数提取 语音信号的时域分析 1、 短时平均能量 短时平均能量反映了语音振幅或能量随着时间缓慢变化的规律。 可以从语音 中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大 很多 。其计算公式如下: 2、短时过零率 短时过零率表示一帧语音中语音信号波形穿过横轴的次数。对于连续信号, 过零率意味着时域波形通过时间轴 ;在离散时间信号情况下,当相邻的两次抽样 具有不同的代数符号时就称为发生了过零 .应用短时平均过零率可以得到谱特性 的粗略估计。短时平均过零率的定义为 : 浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高 频率段内,具有较高的过零率。 )(1 2 mnSE mN mn wm 1 0 0 )1()(2 1 N n ww nSSgnnSSgnZ 预处理及特征参数提取 预处理及特征参数提取 3、 端点检测 端点检测的目的就是从连续的声音中间检测出每一段语音的起始点和终止点, 从而达到节省系统资源,方便实时分析的效果。此外,端点检测的好坏还将直接 影响孤立词识别率的高低。 双门限前端检测算法是经典的起止点检测算法,这种端点检测技术主要利用 短时过零率特征和每帧的平均幅值特征来判断语音信号的起止点,采用矩形窗进 行分帧。 预处理及特征参数提取 端点检测效果图 预处理及特征参数提取 语音信号的特征参数提取 提取特征参数满足的要求: 1、能有效地代表语音特征,具有很好的区分性 2、参数间有良好的独立性 3、特征参数要计算方便,要考虑到语音识别的实时实现 常用的特征参数包括: 线性预测系数 (LPC); 线性预测倒谱系数 (Linear Prediction Cepstrum Coefficient, LPCC); MEL频率倒谱系数 (Mel-Frequency Cepstrum Coefficient, MFCC)。 预处理及特征参数提取 倒谱介绍 倒谱定义为时间序列的 z变换的模的对数的逆 z变换: 倒谱分析的基础是假设语音是激励函数与声道冲激响应的卷积。语音的倒谱 实际上是将语音的频谱(短时谱)取对数后再进行逆傅里叶变换(实际上代之以 DFT)得到的。因此,声道滤波器对于倒谱的贡献将表现为 =0附近的峰起;而 周期性脉冲激励对倒谱的贡献将表现为具有同样周期的冲击 。 )( ln)( 1 nxzznc 预处理及特征参数提取 线性预测系数 (LPC) 语音的线性预测基本思想是:语音信号的每个取样值可以用它过去的若干个 取样值的线性组合来表示;各加权系数的确定原则是使预测误差的均方值最小。 如果利用过去 p个取样值来进行预测,称为 p阶线性预测。 假设前提: 语音信号可以看成是一个线性时变系统在准周期脉冲序列(相当于浊音)或 随即噪声(相当于清音)激励下所产生的输出。对于除鼻音和摩擦音以外的大多 数语音来说,时变线性系统都可以用一个全极点系统来表示。这个全极点时变系 统的参数随着时间的变化是非常缓慢的,在一帧语音时间内可以近似地认为它是 非时变的。这样就可以根据该信号过去的 p个取样值对信号的当前值进行预测, 而且在均方误差最小的意义上这种预测是最佳的,预测系数必将等于全极点系统 的参数。 )()( 0 lnxanx p l pl p l l l za zH 1 1 1)( 预处理及特征参数提取 线性预测倒谱系数 (LPCC) 通过线性预测得到全极点系统函数为: 倒谱定义为时间序列的 z变换的模的对数的逆 z变换。因此 线性预测倒谱可 表示为: LPCC系数主要是模拟人的发声模型,未考虑人耳的听觉特性, 它对元音 有较好的描述能力,对辅音描述能力及抗噪性能比较差,其优点是计算量小,易 于实现。 p l l l za zH 1 1 1)( )(ln)( 1 zHznh 预处理及特征参数提取 MEL频率倒谱系数 MFCC MFCC参数是目前大多数语音识别系统中广泛使用的特征参数,它是基于人 耳的听觉特性。 人耳对声音音调的感受与其频率并不成线性关系。而 Mel倒谱尺 寸,则更符合人耳的听觉特性。 Mel频率尺度,它的值大体上对应于实际频率的 对数分布关系。 Mel频率与实际频率的具体关系可用下式表示 : MFCC的计算流程可以简单的概括为以下五个步骤: 1、分帧 2、 DFT计算谱系数 3、对谱系数的幅值取 log 4、将 3中的结果转化到 Mel 频标下 5、做 DCT变换 MFCC与基于线性预测的 LPCC相比,其突出优点是不依赖全极点语音产生 模型的假定,因而在噪声环境下表现出更强的鲁棒性,在非特定人语音识别方面 有利于减小因说话人不同的差异可能带来的影响。不足之处是 MFCC方法中多次 用到 FFT,故算法的复杂程度远大于 LPCC方法。 )7 0 0/1lg (*2 5 9 5)( ffM e l Mel滤波器组 预处理及特征参数提取 语音模板及相似性判断方法 模板训练方法 偶然性训练方法 每个单词的每一遍读音形成一个模板,在识别时,待识别语音特征矢量序列 用特定的匹配算法分别求得与每个模板的累计失真,然后判别它属于哪一类。 鲁棒性训练方法 将每一个词重复说多遍,直到得到一个一致性较好的特征矢量序列。最终得 到的模板是在一致性较好的特征矢量序列。 聚类训练法 对于非特定人语音识别,要想获得较高的识别率,就需要对多组训练数据进 行聚类,以获得可靠的模板参数。比如矢量量化方法 (VQ)。 语音模板及相似性判断方法 模式匹配方法 基于动态模板匹配技术的 DTW识别法 动态时间弯折 (DTW)基于动态规划的思想,解决了发音长短不一的匹配问题, 是语音识别中出现较早、较为经典的一种算法。 语音模板及相似性判断方法 模式匹配方法 基于聚类理论的矢量量化 (VQ)识别法 矢量量化是将 n维欧氏空间 中的矢量按某种准则用有限个矢量 来表示。在矢量量化理中, 称为输入矢量, 称为量化矢量、 码字或码矢, 称为码书或码本,码字数目 k称为码本大小。 码本设计常采用 LBG算法 nR k,2,1| iy i x iy k,2,1| iy i 语音模板及相似性判断方法 矢量量化示例: 语音模板及相似性判断方法 模式匹配方法 基于随机过程理论的 HMM模型 人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的 时变序列,是由大脑根据语法知识和言语需要 (不可观测的状态 )发出的音素的参 数流。 HMM合理地模仿了这一过程,它 对语音信号的时间序列建立统计模型, 很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模 型。 基于神经网络识别法 人工神经网络 (ANN)本质上是一个自适应非线性动力学系统,模拟了人类神 经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分 类能力和输入一输出映射能力在语音识别中都很有吸引力。但由于存在训练、识 别时间太长的缺点,目前仍处于实验探索阶段。 语音模板及相似性判断方法 语音识别中常用的特征及失真测度 特征参数 失真测度 线性预测系数 (LPC) 增益归一化似然比失真测度 线性预测倒谱系数 (LPCC) (加权 )倒谱欧氏距离测量 Mel频率倒谱系数 (MFCC) (加权 )倒谱欧氏距离测量 语音 4单词识别结果 Thank you!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!