奥运应用中的语音识别系统

资源描述

语音识别系统的应用核心技术噪声环境下的语音端点检测：可将语音端点检测的正确率相对提高到 15% 到 20% 。抗噪的语音特征提取：与传统的基于MFCC的特征相比，可降低相对错误率 8%以上。抗噪语音识别搜索算法：把识别置信度评价技术用于识别搜索过程，去掉置信度较低的搜索路径，提高了在噪声环境下的识别率（相对错误率下降约 6%）。噪声容错的语音搜索算法：把消噪过程的局部知识用于语音搜索过程，产生语音搜索过程对噪声的容错性，提高了噪声环境下的识别精度（相对错误率下降约 10% ）。构建了三个系统：奥组委网站语音导航系统、信息亭环境下使用的语音识别系统以及中文在 WinCE 下的嵌入式语音命令识别系统。中科信利的语音技术获得的奖励：2003 年度 863 中文语音识别评测第一名2003年美国标准局（NIST）语种识别评测全球第三名2004 年国家网络安全中心说话人/关键词检测语音评测第一名2004年度863中文语音识别评测第一名2006年国际音乐处理学术界举办的最高赛事（MIREX）中，获得哼唱检索评测的第一名链接研发的四个关键技术噪声环境下的语音端点检测。通常的端点检测算法用的参数是归一化能量或子带能量，科研人员增加了基音频率，频谱变化率等组成多维特征，通过分类器（如神经网络或混淆网络分类器）初步判定语音/噪声，然后结合解码过程得到相对准确的语音端点，另外结合了谐波检测技术，可将语音端点检测的正确率，相对提高约 15%到20%。抗噪的语音特征提取。研究了长时间跨度特征在噪声环境语音识别中的应用。研究了描述协同发音效果的声学特征矢量随时间变化的声学参数轨迹性态。从心理语言学与音韵学的事实知道，分段的长时间跨度的信息对不利环境（噪声环境，语音失真）下的语音理解是极其重要的。因此，长时间跨度特征，包括调制谱特征是我们研究的焦点，具体采用了 HLDA方法产生长时特征。虽然长时间跨度特征可能损失短时的细节，但是组合了分段特征和传统的短时特征，实验结果表明，与传统的基于MFCC的特征相比，可降低相对错误率8%以上。抗噪的声学模型建模。研究了基于动态贝叶斯网（dynamicbayesianne twork）研究框架的多特征多尺度声学模型建模方法，把长时间跨度特征、调制谱特征、短时频谱特征有机地结合在一起，各种不同的特征适用在不同的尺度（音素大类、音素、词、句子）上。综合利用不同尺度语音特征的抗噪性，提高了声学模型的抗噪性。抗噪语音识别搜索算法。研究了基于置信度的语音识别搜索算法。识别置信度评价技术用于评价识别结果正确的概率，即识别结果的可信度。传统的识别置信度评价技术主要用于对识别结果的后处理上，本研究把识别置信度评价技术用于识别搜索过程，去掉置信度较低的搜索路径，提高了在噪声环境下的识别率（相对错误率下降约 6%）。此外，还研究了一种噪声容错的语音搜索算法。在噪声环境下，尤其是在非平稳的噪声环境下，当前的前端噪声抵消算法对语音流中不同的噪声性态可表现出不同的可靠性和准确性。

展开阅读全文

奥运应用中的语音识别系统

最新文档