资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二层,第三层,第四层,第五层,2021/9/24,*,*,语音识别基础,上海交通大学计算机系,吴亚栋,E-mail:,Tel:62932057,第一章 绪论,2021/9/24,1,第一章 绪论,1.1 语音识别的重要性,1.2 语音识别的定义、原理和分类,1.3 本课程的内容与要求,1.4 语音识别的历史回顾,2021/9/24,2,1.1 语音识别的重要性,1.1.1 语音信息处理与语音识别,1.1.2 语音识别的重要性,人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人与机器之间也每时每刻都需要进行大量的信息交换。,(图1.1),计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响,*,。,2021/9/24,3,1.2 语音识别的定义、原理及分类,1.2.1,语音识别的定义,1.2.2,语音识别的基本原理,1.2.3,语音识别的分类,2021/9/24,4,1.3 本课程的内容与要求,本课程的,内容,本课程的,要求,参考,书籍,2021/9/24,5,1.4 语音识别的回顾,1.4.1,国外语音识别研究的历史,1.4.2,我国语音识别研究的历史,2021/9/24,6,第一章 回家作业,调查报告:,国内外语音识别技术研究开发最新动态,提交时间:,2021/9/24,7,图1.1,人与人之间、人与机器之间的语音信息处理过程,人与人之间的语音通信,(人),行,动,意,图,说话方,收听方,语言形成,发,音,收,听,认识,理解,传输系统,(编码、解码),空间传播,文本解析,语音合成,语音识别,文章输入,(机器),语音理解,计算机处理,应答文生成,:第一类人机,语音通信问题,:第二类人机,语音通信问题,2021/9/24,8,计算机模拟人类交流信息的过程:,(1)将大脑产生的思想转换成语言,(2)将语言转换成相应的语音,(3)识别表达语言的语音内容,(4)理解语音所表达的语言意义,自然语言生成,自然语言理解,语 音 合 成,语 音 识 别,2021/9/24,9,*,语音识别是一项具有巨大应用推广前景的工程,基于电话的语音识别技术,使计算机直接为客户提供 金融证券和旅游等方面的信息查询及服务成为可能,进而成为电子上午进展中的重要一环(Voice-Commerce)。,语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。,2021/9/24,10,*,主要先进国家都将此工程列为国家级研究项目,面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用。,微软,:让计算机能说会听,IBM,:,ViaVoice,仍居主流,Intel,:做语音技术倡导者,2021/9/24,11,微软,:让计算机能说会听,Bill Gates 在97年世界计算机博览会(COMDEX)主题演讲会上描绘IT事业的发展宏图时,率先指出:,下一代操作系统和应用程序的用户界面将是语音识别。工业界应对语音识别领域的重大突破做好充分准备,因为那将是一场席卷全球的另一次热潮。,1998年11月5日,微软中国研究院在北京成立。该中心的任务是重点研究计算机在中文环境下的易用性。,2021/9/24,12,IBM,:ViaVoice仍居主流,IBM公司潜心研究语音识别技术迄今已达30年之久,投资超过2亿美元。,IBM公司于1995年在北京成立了中国研究中心,中文语音信息处理成了该中心三大研究领域之一,并于1997年9月4日,在北京推出了中文连续语音识别产品ViaVoice。,2021/9/24,13,Intel,:做语音技术倡导者,1998年,英特尔公司也宣布致力于推广语音识别技术,除了在北京举办首届语音技术国际论坛之外,还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术”的宣传活动。,联合了七家世界著名学术机构(中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、WATERLLOO大学)成立了“国际语音技术研究组织”,致力于计算机语音技术的基础研究,以加速中文语音识别技术的发展。,2021/9/24,14,1.2.1,语音识别的定义,语音识别是研究如何采用数字信号处理技术自动提取以及决定,语音信号中最基本、最有意义的信息,的一门新兴的边缘学科。它是语音信号处理学科的一个分支。,语音识别所涉及的学科领域:信号处理、物理学(声学)、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学(研究软硬件算法以便更有效地实现用于识别系统中的各种方法)、心理学等。,2021/9/24,15,*,音韵信息与音律信息,有意义、有内容的信息是构成语音音韵特性、即语音的共性特征之基础,这类特征信息称为音韵信息。,语音信号中有关个人特征的信息、即语音的个性特征,,,如:音强、节奏、音高等,这类特征信息称为音律信息,。,从广义上讲,语音识别也包括了对说话人的识别,其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征(如:音律特性等),在这里专指有意义、有内容的识别。,2021/9/24,16,1.2.2,语音识别的基本原理,训练,(Training):预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中。,识别,(Recognition):待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。,失真测度,(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。,主要识别框架,:基于模式匹配的动态时间规整法(DTW:Dynamic Time Warping)和基于统计模型的隐马尔柯夫模型法(HMM:Hidden Markov Model)。,(图1.2),2021/9/24,17,图1.2,语音识别原理框图,构词规则,同音字判决,语法语义,背景知识,预处理,声学参数,分析,测度估计,失真测度,语音库,判决,专家知识库,训练,识别,结果,反混叠失真滤波器,预加重器,端点检测,噪声滤波器,欧氏距离,似然比测度,语音信号,输入,2021/9/24,18,1.2.3,语音识别的分类,按识别器的类型,:,按识别器对使用者的适应情况,:,按语音词汇表的大小,:,2021/9/24,19,按识别器的类型,:,孤立单词识别,(Isolated Word Recognition),识别的单元为字、词或短语,它们组成识别的词汇表(Vocabulary),,对它们中的每一个通过训练建立标准模板或模型。,连续语音识别,(Continuous Speech Recognition),连续单词识别,(Connected Word Recognition):,以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准,样板或模型也是字、词或短语,但识别时可以是它们中间几个的连续。,连续言语识别与理解,(Conversational Speech Recognition):,以多数词汇为对象,待识语音是一些完整的句子。虽不能完全准确,识别每个单词,但能够理解其意义,连续言语识别也称会话语音识别。,理解是在语音识别,之后,根据语言学知识来推断语音的含义内容的。,2021/9/24,20,按识别器对使用者的适应情况,:,特定人语音识别(Speaker-Dependent),语音识别的标准模板或模型只适应于某个人,实际上,该模板或模,型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。,其他人使用时,需同样建立自己的标准模板或模型。,非特定人语音识别(Speaker-Independent),语音识别的标准模板或模型适应于指定的某一范畴的说话人(如说,标准普通话),标准模板或模型由该范畴的多个人通过训练而产生。,识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的,同一范畴的发音人(圈外人)使用。,2021/9/24,21,按语音词汇表的大小,:,有限词汇识别,按词汇表中字、词或短句个数的多少,大致分为:,100,以下为小词汇;,100-1000,为中词汇;,1000,以上为大词汇。,无限词汇识别(全音节识别),当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全,音节语音识 别(音节字表:Lexicon)。全音节语音识别是实现无限,词汇或中文文本输入的基础。,2021/9/24,22,本课程的内容,:,第一章 绪论,第二章 语音的特征,第三章 用于语音识别的信号处理及分析方法,第四章 基于模式匹配方式的语音识别技术,第五章 基于统计模型(HMM)方式的语音识别技术,第六章 孤立字(词)语音识别系统,第七章 连续语音识别系统,第八章 语音识别的应用及展望,2021/9/24,23,本课程的要求,:,本课程的设置目的是试图通过对最有望的语音识别系统的基本原理的介绍,然后为大家提供一种能促使语音研究向前发展的框架。,通过本课程的学习,要求大家掌握语音识别的基本概念及原理,了解语音识别的基本技术和相关课题。,考核方法:笔试+实验报告,2021/9/24,24,参考书籍,:,(1)胡光锐:“语音处理与识别”,上海科学技术出版社,1994。,(2)陈永彬:“语音信号处理”,上海交通大学出版社,1990。,(3)姚天任:“数字语音处理”,华中理工大学出版社,1992。,(4)古井贞熙(朱家新,张国海,易武秀 译):“数字声音处理”,,人民邮电出版社,1993。,(5)Lawrence Rabiner,Biing-Hwang Juang:“FUNDAMENTALS,OF SPEECH RECOGNITION”,PTR Prentice-Hall,Inc,1993。,2021/9/24,25,1.4.1,国外语音识别研究的历史(1),1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。,大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展,*,。,进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,*,。,进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展,*,。,2021/9/24,26,1.4.1,国外语音识别研究的历史(2),DARPA(Defense Advanced Research Projects Agency),是在,70,年代由美国国防部远景研究计划局资助的一项,10,年计划,其旨在支持语言理解系统的研究开发工作,*,。,到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。,日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。1987年起,日本又拟出新的国家项目-高级人机口语接口和自动电话翻译系统。,2021/9/24,27,1.4.2,我国语音识
展开阅读全文