语音识别技术_装配图网

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,语音识别技术,西安邮电学院自动化学院,侯雪梅,1,（,1,）语言是人类特有的功能，声音是人类常用的工具，是相互传递信息的,最主要的手段,。,（,2,）语音和语言与人的智力活动密切相关，是人们构成思想疏通和感情交流的,最主要的途径,。,通过语音传递信息,是人类,最重要、最有效、最常用和最方便,的交换信息形式。,2,本,课程的要求,本课程的设置目的是试图通过对最有望的语音识别系统的基本原理的介绍，然后为大家提供一种能促使语音研究向前发展的框架。,通过本课程的学习，要求大家掌握语音识别的基本概念及原理，了解语音识别的基本技术和相关课题。,考核方法：笔试,3,1,、赵力,.,语音信号处理,.,机械工业出版社，,2003.,（教材）,2,、韩纪庆、张磊、郑铁然,.,语音信号处理,.,清华大学出版社,2004.,3,、杨行峻、迟惠生,.,语音信号数字处理,.,电子工业出版社，,2004.,4,、易克初、田斌,.,语音信号处理,.,国防工业出版社,2000.,5,、,Huang X D,Acero,A, Hon H,etal,. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. New Jersey: Prentice Hall PTR, 2001,参考书,4,第一章绪论,1.1,语音识别的重要性,1.2,语音识别的定义、原理和分类,1.3,语音识别的历史回顾,1.4,语音信号处理简介,1.5,语音技术概述,5,1.1,语音识别的重要性,1.1.1,语音信息处理,1.1.2,语音识别的重要性,人类利用语言相互交流信息，包括语音和文字两种表达方式。通过语音相互传递信息，这是人类最重要的基本功能之一。随着信息社会的发展，人与人之间，人与机器之间也需要进行大量的信息交换。,(,图,1.1),计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面，从而对计算机的发展以及推广应用产生深远的影响,*,。,6,1.2,语音识别的定义、原理及分类,1.2.1,语音识别的定义,1.2.2,语音识别的基本原理,1.2.3,语音识别的分类,7,1.3,语音识别的回顾,1.3.1,国外语音识别研究的历史,1.3.2,我国语音识别研究的历史,8,图,1.1,人与人之间、人与机器之间的语音信息处理过程,人与人之间的语音通信,(,人,),行,动,意,图,说话方,收听方,语言形成,发,音,收,听,认识,理解,传输系统,(,编码、解码,),空间传播,文本解析,语音合成,语音识别,文章输入,(,机器,),语音理解,计算机处理,应答文生成,：第一类人机,语音通信问题,：第二类人机,语音通信问题,9,计算机模拟人类交流信息的过程,:,(1),将大脑产生的思想转换成语言,(2),将语言转换成相应的语音,(3),识别表达语言的语音内容,(4),理解语音所表达的语言意义,自然语言生成,自然语言理解,语音合成,语音识别,10,*,语音识别是一项具有巨大应用推广前景的工程,基于电话的语音识别技术，,使计算机直接为客户提供金融证券和旅游等方面的信息查询及服务成为可能，进而成为电子商务中的重要一环,(Voice-Commerce),。,语音识别技术作为声控产业，,对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。可以预言，语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。,11,*,主要先进国家都将此工程列为国家级研究项目,面对如此广阔的应用领域，目前国内外众多公司正积极推动语音识别技术的应用。,微软,：让计算机能说会听,IBM,：,ViaVoice,仍居主流,Intel,：,做语音技术倡导者,12,微软,：让计算机能说会听,Bill Gates,在,97,年世界计算机博览会,(COMDEX),主题演讲会上描绘,IT,事业的发展宏图时指出：,下一代操作系统和应用程序的用户界面将是语音识别。工业界应对语音识别领域的重大突破做好充分准备，因为那将是一场席卷全球的另一次热潮。,1998,年,11,月,5,日，微软中国研究院在北京成立。该中心的任务是重点研究计算机在中文环境下的易用性。,13,IBM,：,ViaVoice,仍居主流,IBM,公司潜心研究语音识别技术迄今已达,30,年之久，投资超过,2,亿美元。,IBM,公司于,1995,年在北京成立了中国研究中心，中文语音信息处理成了该中心三大研究领域之一，并于,1997,年,9,月,4,日，在北京推出了中文连续语音识别产品,ViaVoice,。,14,Intel,：,做语音技术倡导者,1998,年，英特尔公司也宣布致力于推广语音识别技术，除了在北京举办首届语音技术国际论坛之外，还在北京、上海、成都、广州等地展开了“基于英特尔框架的语音识别技术”的宣传活动。,联合了七家世界著名学术机构（中科院自动化所、清华大学、香港科技大学、香港中文大学、麻省理工学院、俄勒岗研究院、,WATERLLOO,大学）成立了“国际语音技术研究组织”，致力于计算机语音技术的基础研究，以加速中文语音识别技术的发展。,15,1.2.1,语音识别的定义,语音识别是研究如何采用数字信号处理技术自动提取以及决定,语音信号中最基本、最有意义的信息,的一门新兴的边缘学科。它是语音信号处理学科的一个分支。,语音识别所涉及的学科领域：信号处理、物理学（声学）、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学（研究软硬件算法以便更有效地实现用于识别系统中的各种方法）、心理学等。,16,*,音韵信息与音律信息,有意义、有内容的信息是构成语音音韵特性、即语音的共性特征之基础，这类特征信息称为音韵信息。,语音信号中有关个人特征的信息、即语音的个性特征，如：音强、节奏、音高等，这类特征信息称为音律信息。,从广义上讲，语音识别也包括了对说话人的识别,，,其主要内容是提取语音信号中有关个人特征的信息、即语音的个性特征（如：音律特性等），在这里专指有意义、有内容的识别。,17,1.2.2,语音识别的基本原理,训练,(Training),：,预先分析出语音特征参数，制作语音模板,(Template),并存放在语音参数库中。,识别,(Recognition),：,待识语音经过与训练时相同的分析，得到语音参数，将它与库中的参考模板一一比较，并采用判决的方法找出最接近语音特征的模板，得出识别结果。,失真测度,(Distortion Measures),：,在进行比较时要有个标准，这就是计量语音特征参数矢量之间的“失真测度,”。,主要识别框架,：基于模式匹配的动态时间规整法,(DTW:Dynamic Time Warping),和基于统计模型的隐马尔柯夫模型法,(HMM:Hidden Markov Model),。,(,图,1.2),18,图,1.2,语音识别原理框图,预处理,特征提取,参考模式,模式匹配,判决规则,语音信号,识别结果,训练,识别,图语音识别的实现,不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图所示。,19,1.2.3,语音识别的分类,按识别器的类型,：,按,识别器对使用者的适应情况,：,按语音词汇表的大小,：,20,按识别器的类型,：,孤立单词识别,(Isolated Word Recognition),识别的单元为字、词或短语，它们组成识别的词汇表,(Vocabulary),，,对它们中的每一个通过训练建立标准模板或模型。,连续语音识别,(Continuous Speech Recognition),连续单词识别,(Connected Word Recognition),：,以比较少的词汇为对象，能够识别每个词。识别的词汇表和标准样板或模型也是字、词或短语，但识别时可以是它们中间几个的连续。,连续言语识别与理解,(Conversational Speech Recognition):,以多数词汇为对象，待识语音是一些完整的句子。虽不能完全准确,识别每个单词，但能够理解其意义，连续言语识别也称会话语音识别。,理解是在语音识别之后，根据语言学知识来推断语音的含义内容的。,21,特定人语音识别,(Speaker-Dependent),语音识别的标准模板或模型只适应于某个人，实际上，该模板或模,型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。,其他人使用时，需同样建立自己的标准模板或模型。,非特定人语音识别,(Speaker-Independent),语音识别的标准模板或模型适应于指定的某一范畴的说话人（如说,标准普通话），标准模板或模型由该范畴的多个人通过训练而产生。,识别时可供参加训练的发音人（圈内人）使用，也可供未参加训练的,同一范畴的发音人（圈外人）使用。,按识别器对使用者的适应情况,：,22,按语音词汇表的大小,：,有限词汇识别,按词汇表中字、词或短句个数的多少，大致分为：,100,以下为小词汇；,100-1000,为中词汇；,1000,以上为大词汇。,无限词汇识别（全音节识别）,当识别基元为汉语普通话中对应所有汉字的可读音节时，则称其为全,音节语音识别（音节字表：,Lexicon,）。,全音节语音识别是实现无限,词汇或中文文本输入的基础。,返回,23,1.3.1,国外语音识别研究的历史（,1,）,1952,年贝尔研究所,Davis,等人研究成功了世界上第一个能识别,10,个英文数字发音的实验系统。,1960,年英国的,Denes,等人研究成功了第一个计算机语音识别系统。,大规模的语音识别研究是在进入了,70,年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展,*,。,进入,80,年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型,(HMM),的技术思路。此外，再次提出了将神经网络技术引入语音识别问题的技术思路,*,。,进入,90,年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展,*,。,24,1.,.,国外语音识别研究的历史（,2,）,DARPA(Defense Advanced Research Projects Agency),是在,70,年代由美国国防部远景研究计划局资助的一项,10,年计划，其旨在支持语言理解系统的研究开发工作,*,。,到了,80,年代，美国国防部远景研究计划局又资助了一项为期,10,年的,DARPA,战略计划，其中包括噪声下的语音识别和会话（口语）识别系统，识别任务设定为“（,1000,单词）连续语音数据库管理”。到了,90,年代，这一,DARPA,计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。,日本也在,1981,年的第五代计算机计划中提出了有关语音识别输入,-,输出自然语言的宏伟目标，虽然没能实现预期目标，但是有关语音识别技术的研究有了大幅度的加强和进展。,1987,年起，日本又拟出新的国家项目,-,高级人机口语接口和自动电话翻译系统。,25,1.,.2,我国语音识别研究的历史,我国的语音识别研究起始于,1958,年，由中国科学院声学所利用电子管电路识别,10,个元音。直至,1973,年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，我国的语音识别研究工作一直处于缓慢发展的阶段。,进入,80,年代以后，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点，发展迅速。就在这种形式下，国内许多单位纷纷投入到这项研究工作中去,*,。,1986,年,3,月我国高科技发展计划,(863,计划,),启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在,863,计划的支持下，我国开始了有组织的语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。从此我国的语音识别技术进入了一个前所未有的发展阶段。,26,*,国外,70,年代所取得的实质性的进展,这,一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的,Velichko,和,Zagoruyko,、,日本的迫江和千叶，以及当时在美国的板仓等人的研究工作最具有代表性。,-,苏联的研究为模式识别应用于语音识别这一领域奠定了基础；,-,日本的研究则展示了如何利用动态规划技术在待识语音模式与标,准语音模式之间进行非线性时间匹配的方法；,-,板仓的研究提出了如何将线性预测分析技术,(LPC),加以扩展，使之,用于语音信号的特征抽取的方法。,目前在大词汇语音识别方面处于领先地位的,IBM,语音研究小组，就是在,70,年代开始了它的大词汇语音识别研究工作的。,AT&A,的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经,10,年，其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。,27,*,国外,80,年代所取得的重大进展,这一时期所取得的重大进展有：,（,1,）隐码尔柯夫模型,(HMM),技术的成熟和不断完善成为语音识别的主流方法。,（,2,）以知识为基础的语音识别的研究日益受到重视。在进行连续语,音识别的时候，除了识别声学信息外，更多地利用各种语言知,识，诸如构词、句法、语义、对话背景方面等的知识来帮助进,一步对语音作出识别和理解。同时在语音识别研究领域，还产,生了基于统计概率的语言模型。,（,3,）人工神经网络在语音识别中的应用研究的兴起。在这些研究中，大部分采用基于反向传播法（,BP,算法）的多层感知网络。人工,神经网络具有区分复杂的分类边界的能力，显然它十分有助于模式划分。,28,*,国外,90,年代所取得的实质性的进展,特别是在电话语音识别方面，由于其有着广泛的应用前景，成了当前语音识别应用的一个热点。,另外，面向个人用途的连续语音听写机技术也日趋完善。这方面，最具代表性的是,IBM,的,ViaVoice,和,Dragon,公司的,Dragon Dictate,系统。这些系统具有说话人自适应能力，新用户不需要对全部词汇进行训练，便可在使用中不断提高识别率。,29,*,70,年代美国,DARPA(,美国国防部高级计划局,),计划,CMU,（,卡内基梅龙大学）、,MIT,（,麻省理工学院）、,IBM,、,AT&T,等都参与了这一计划的开发工作。,该计划执行的结果是,1976,年推出了,HARPY(CMU),系统。虽然，这是有,限词汇和限定领域的识别系统，但改变了原来只利用声学信息的状况，开始应用高层次语言学知识（如构词、句法、语义、对话背景等）。,在这为期,10,年的阶段中尽管所有的研究计划均未能达到预期目标，,但它对语音识别和理解研究的发展起了重要的推动作用。通过这一阶,段的研究使人们认识到语音识别任务的艰巨性，总结出许多有意义的,经验教训，并且从此对语音识别提出了许多基础性的研究课题。这些,课题主要涉及到语音信号和自然语言的多变性和复杂性,*,。,30,*,语音信号和自然语言的多变性和复杂性,(1),连续语音词与词之间没有明显的停顿，词与词之间的,分割比较困难；,(2),每一个基本的声学识别基元（如音素）受前后音素发,音方式的影响（协同发音）使特征变得不稳定,(3),不同人、不同心理和生理以及在不同的说话环境下说,同一词时，声学信号特征会发生变化；,(4),一个词的读音不仅包含了词义特征，而且还包含了说,话人性别、年龄、情绪等大量与词义无关的信息，而,这些信息的分离是不容易的。,(5),自然语言的多变性难以借助于一些基本语法规则进行,描述，因而使计算机编程变得困难。,31,*,我国的语音识别技术的发展,(1),在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外，还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。,(,2),现在，国内有不少语音识别系统已研制成功。这些系统的性能各具特色。,-,在孤立字大词汇量语音识别方面，最具代表性的要数,92,年清华大学电子工程系与中国电子器件公司合作研制成功的,THED-919,特定人语音识别与理解实时系统。,-,在连续语音识别方面，,91,年,12,月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语,-,汉语语音翻译演示系统。,-,在非特定人语音识别方面，有清华大学计算机科学与技术系在,87,年研制的声控电话查号系统并投入实际使用。,32,1.4,语音信号处理简介,语音信号处理是研究,用数字信号处理技术对语音信号进行处理的一门学科。,语音信号处理的目的,:,得到某些参数以便高效传输或存储；或者是用于某种应用，如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等,。,33,语音信号处理的目标：,保障现代通信领域中人与人之间、人与机器之间的信息交换的顺畅和自然。,34,是研究将,数字信号处理,技术应用于,语音信号,处理中的一门学科。,通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或存储语音信号信息。,35,通过处理及其运算以达到某种用途。如语音识别，辨识出讲话者或识别出讲话内容，或从被噪声淹没的信号中提取有用信息，或进行语音合成，让计算机说话，达到人机交互的目的,。,36,语音信号的应用和发展,语音信号处理涉及语言学、声学、认知科学、生理学、心理学和数理统计等多学科知识。,用数字化的方法进行语音的传送、存储、合成、识别和增强等技术是整个数字化通信网中最重要最基本的组成部分。,语音技术应用广泛，包括工业、军事、交通和民用等各个领域。目前语音信号处理处于蓬勃发展时期，出现了,许多新算法和高性能的系统,，不断有产品开发研制成功。,37,语音电子电话号码簿的功能,:,使用者只要说出被查询人的中文姓名或单位名称，语音电子电话号码簿利用,语音识别、语音合成,等技术可以回放和显示出相应的电话号码并进行自动拨号。,38,从音乐中提取有用信号,39,语音玩具,国内典型产品：,语音识别：,海尔,PCBOYRSC300,伊莱克斯,HomoRSC300,晶鑫玩具,白雪公主,语音合成：,明日学而乐,(,点读机,),采用,SC-691,40,SONY,推出的,QRIO,家庭娱乐机器人,41,日本索尼自,2000,年发布,SDR-XX,系列机器人以来早已发展了多个系列的产品供消费者购买,以,QRIO,娱乐机器人系列为例，此机器人装备视角，听觉，语音系统，距离感应器，压力感应器，角速度感应器，加速感应器，负重感应器，脸形识别系统,置,3,个,CPU,，无线网卡，全身一共有,38,个可活动的关节，从,YouTobe,上的演示录像介绍来看可通过网络控制机器人，能够与人进行一些简单语音交流并具有学习记忆功能，机器人跳一些高难度的舞蹈动作，能凹凸不平的路面及倾斜路面上行走，在倾斜度不断变化的冲浪板上保持站立姿势，从跌倒的状态站立起来等,.,索尼,QRIO,世界首台会跑的双足机器人索尼开发出了会跑的双足行走机器人“,QRIO”,。据索尼介绍，此前世界上没有可以在不接触地面的状态下行走的机器人。此次开发的双足行走机器人在行走时可以有约,20ms,的不接触地面的时间。该机器人不仅可以行走，而且可以跳跃，在跳跃状态下不接触地面的时间可达,40ms,。行走速度为每分钟,14m,。如果假设其大小与人相同，换算过来相当于时速,2.5km,，给人以缓缓慢跑的印象。,42,Furby,Furby,是有五个传感器的机器玩具。最开始只会说一句没头没脑的“,furbish”,，玩的过程中，学说你的话，会记住一些词语，渐渐成长起来。在被触摸和被问到一些简单的问题时还能自己回答。例如，如果被打头时还会说：“好疼啊！”，在跌倒时还会说：“救命啊！”，它还能表达自己的情绪，比如会说“今天我感觉棒极了！”或者“我烦得很！”，经过设置，还能为主人送上生日祝福。,返回,43,欢迎使用微软中国研究院中文语音合成系统,采用,TTS,技术合成语音,http:/research.,M 语音命令,语音合成,IBM,ViaVoice,8.0,中文语音识别系统,45,语音信号处理,为多边学科的综合。包括：,声学,(,Acoustics,),语言学,(,linguistics),语音学,(phonetics),生理学,(,physiology),心理学,(,psychology),人工智能,(,Artificial Intellections),。,46,1.5,语音技术概述,语音技术的研究目标就是使信息时代的各种信息机器象人一样“能听会说”。,语音识别（,ASR,）,：,把声音变成文字,(,耳朵的功能,),，相当于给机器装上了人工的耳朵。,孤立词识别技术,连续语音识别,关键词识别技术,话者识别技术,47,语音合成（,TTS,）,：,把文字变成声音,(,嘴巴的功能,),；相当于给机器装上了人工的嘴巴；,语音应答系统,自动报站,信息查询,语言学习软件,TTS,（,Text to Speech,）技术,(,语音自动转换系统,),48,语音编码：,在保持可以接受的失真的情况下，采用尽可能少的比特数表示语音。,脉冲编码调制,自适应预测编码,自适应变换编码,线性预测编码,线性预测声码器,共振峰声码器,相位声码器,49,三、语音信号处理的进展,1876,年,Bell,发明电话。,1939,年,H.Dudley,研制成功第一个声码器。,1942,年,Bell,实验室发明了语谱仪。,1948,年美国,Haskin,实验室研制成功“语图回放机”。,1952,年,Bell,实验室研制成能识别十个英语数字的识别器。,60,年代前：,50,60,年代：,1956,年声控打字机,60,年代以后，随着计算机技术的发展，语音信号处理技术获得了长足的进步，计算机模拟实验取代了硬件研制的传统做法。各种突破性的思想不断涌现。,1960,年,Denes,等人用计算机实现自动语音识别，引入了时间归正算法改进匹配性能；,60,年代中期，,Martin,等人为邮局研制了邮政编码阅读机；,51,70,年代：,70,年代开始，人工智能技术开始引入到语音识别中。美国国防部,ARPA,组织了有,CMU,等五个单位参加的一项大规模语音识别和理解研究计划；,70,年代中，日本学者提出的动态时间弯折算法对小词表的研究获得了成功，从而掀起了语音识别的研究热潮；,70,年代末，,基于,矢量量化码本生成的,LBG,算法被提出，从而使矢量量化技术广泛地应用于语音识别、语音编码和说话人识别中；,52,目前：,从,70,年代末,80,年代初开始，,HMM,技术被应用到语音识别中；,1985,年,IBM,公司研制了,5000,词英语听写机,Tangora,90,年代初，,CMU,的,Lee,Kaifu,完成的,SPHINX,1997,年,IBM,推出的汉语听写机产品,Viavoice,1999,年,Intel,推出语音识别软件开发包,Spark3.0,；,Microsoft Voice,及基于,.net,的语音识别引擎。,53,(1),从语音的产生和语音的感知进行研究,五、语音信号处理的基础理论和算法,(2),将语音当作一种信号进行处理,六、语音信号处理的硬件和实用系统,计算机,+,数字信号处理板,通用或专用,DSP,芯片,+,辅助芯片,54,声卡，也叫音频卡，是,MPC(,多媒体个人计算机,),的必要部件，它是计算机进行声音处理的适配器。它有三个基本功能：一是音乐合成发音功能；二是混音器（,Mixer,）功能和数字声音效果处理器（,DSP,）功能；三是模拟声音信号的输入和输出功能。声卡处理的声音信息在计算机中以文件的形式存储。声卡工作应有相应的软件支持，包括驱动程序、混频程序（,mixer,）和,CD,播放程序等。,声卡的功能,55,Two types of audio file formats:,Raw format, no header,raw,Self-describing format, with a file header,Wav,Midi,Aiff, au, voc,Mpeg,（,Moving Pictures Experts Group/,Motin,Pictures Experts Group,，中文译名是动态图像专家组。,）,Rm,ra, ram,常见的声音文件,56,RealNetworks,公司所制定的音频视频压缩规范称为,RealMedia,，用户可以使用,RealPlayer,或,RealOnePlayer,对符合,RealMedia,技术规范的网络音频,/,视频资源进行实况转播并且,RealMedia,可以根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放。这种格式的另一个特点是用户使用,RealPlayer,或,RealOnePlayer,播放器可以在不下载音频,/,视频内容的条件下实现在线播放。,普通的,rm,格式是,real8.0,格式，采用的是固定码率编码。多见于,VCD,rm,，曾流行了一段时间。但由于,VCD,片源的先天不足，不够清晰，所以压出来的,rm,也不会清晰。,RMVB,比,RM,多了一个,VB,，,VB,指的就是,variable bit,，动态码率的意思！就是,real,公司的新的编码格式,9.0,格式。,rmvb,（,real9.0,）和,rm,（,real8.0,）在音频的编码上都仍旧是采用,8.0,格式，我们压片时至少采用,32kbps stereo music,，通常时,44K,，,MTV,类的有用到,96K,，再高就没必要压缩了！,57,*,.wav,wav,为,wavform,的缩写。 *,.wav,文件格式称为波形文件，它是将模拟音频信号取样、量化、编码得到音频数字文件，描述参数有：码长、取样频率、编码方式、声道数。,码长决定声音的音质，码长越大音质越好，一般码长定义为,8,位、,16,位、,32,位等。,取样频率决定录制声音的最高频率，取样频率越高录制声音频率越高，取样频率一般取,8kHz,、,16kHz,、,22kHz,等。,58,可在,MATLAB,中用,wavread,函数将*,.wav,的文件打开，将所有数据读入一个数组中，数组中每个数的范围在,-1,1,之间。,例如：,y,fs,Nbits,=wavread(,c:tts_30250.wav,);,wavread,函数读取,Microsoft,的,wav,格式音频文件，返回值是音频的数据向量，,fs,是采样频率（单位,Hz,），,Nbits,是每一个采样点的数据深度（即比特数）,运行结果：,fs,=16kHz,Nbits,=16,y=,.,0.0002,-0.0009,0.0081,.,59,speech signal in time-domain,60,

展开阅读全文

语音识别技术

最新文档