2第二章语音信号处理的基础知识语音信号处理课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,9/21/2024,1,9/21/2024,2,9/21/2024,3,9/21/2024,4,9/21/2024,5,9/21/2024,6,第二章语音信号处理的基础知识,2.2 语音和语言,2.3 汉语语音学,2.4 语音生成系统和语音感知系统,2.5 语音信号生成的数学模型,2.6 语音信号的特性分析,9/21/2024,7,2.2 语音和语言,一、语音与语言的关系,二、语音的基本声学特性,三、音节与音素,四、英语和汉语的音节构成,9/21/2024,8,9/21/2024,9,语音(Speech)=声音(Acoustic)+语言(Language),语音是由一连串的音组成语言的声音。,1.语音,：,人们讲话时发出的话语叫语音。是一种声音，是人们进行信息交流的声音，是组成语言的声音/带有语言信息的声音。,一、语音与语言的关系,9/21/2024,10,9/21/2024,11,9/21/2024,12,9/21/2024,13,9/21/2024,14,9/21/2024,15,9/21/2024,16,9/21/2024,17,语,音：人与人的沟通介面,9/21/2024,18,9/21/2024,19,9/21/2024,20,9/21/2024,21,（1）,语音中各个音的排列由一些规则所控制，对这些规则及其含义的研究称为,语言学,(linguistics),。,（2）,语音中各个音的物理特性和分类的研究称为,语音学,（phonetics）,。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。,2.,对,语音的研究包括两个方面,9/21/2024,22,3. 人类的说话过程分五个阶段,想说,说出,传送,接收,理解,人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。,9/21/2024,23,4. 语言(Language),人与人之间的沟通工具，,是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位，以及词法、句法和文脉等语法和语义内容。这些构成语言学的研究内容。,Phoneme(,音素,),Word formation,Grammar,Text (Option),9/21/2024,24,5. 语言学和语音信号处理的关系,语言学是语音信号处理的基础。,例如：可以利用句法和语义信息减少语音识别中搜索匹配范围，提高正确识别率。,9/21/2024,25,6. 语音学和语音信号处理的关系,语音学和语音信号处理联系更加紧密。,如：运用现代信号处理技术建立发音的数学模型，确定发音方法；用声学和非平稳信号分析理论来解释各种语音现象；语音信息的存储形式等。,9/21/2024,26,语音是发声器官发出的一种声波，具有一定的音色、音调和音强和音长。,音色: 又称为音质，是一种声音区别于另一种声音的基本特性。,音调：声音的高低，取决于声波的频率,音强：声音的强弱，它由声波的振动幅度所决定,音长：发音时间的长短,二、语音的基本声学特性,9/21/2024,27,句子的最小单位为单词，单词的最小单位为音节。,音节：发音时，被明显感觉到的语音片段为音节。,音素：是发音的最小单位，一个音节由一个音素或几个音素构成。分为元音和辅音。元音是构成音节的主干，从长度和能量来看，在音节中占主要位置；辅音只是出现在音节的前端或后端或前后两端，它们的时长和能量较小。,三、音节与音素,9/21/2024,28,人在说话时，空气由肺部压入，由嘴唇呼出，声门由此开启和闭合，构成声带振动，然后通过声道（喉腔、咽腔和口腔）响应,（,引起共振特性,）,变成语音，由于发不同音时，声带的振动情况,（基频）,和声道的形状不同,（谐振频率或共振峰频率）,，所以构成不同的声音。,元音的一个重要的声学特性,基频和,共振峰,1.,元音,9/21/2024,29,9/21/2024,30,语音的产生,9/21/2024,31,喉的生理结构,喉位于气管的上端，实际上是气管末端一圈软骨构成的一个框架，前方稍高处的软骨称为甲状软骨，前后方环成一圈的称为喉部环形软骨，喉中两片肌肉称为声带，声带之间的空隙为声门。,当声带张开时，声门打开，空气可自由呼出，正常呼吸就处于这种情况；当声带闭合，声门关闭。,发音机理,甲状软骨,声门,声带,环形软骨,人的前方,9/21/2024,32,当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。,声带靠拢,Tp,基音周期,声带的开启和闭合称为振动。这一振动过程周而复始，形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的a、i、u和o等。,9/21/2024,33,女声汉语拼音,a,的时域波形,9/21/2024,34,F,0,=1/Tp，,基音频率，由声带的质量来决定,。,F,0,的大小决定了声音的高低，称为音高。,男性的,F,0,大致分布在,： 60200Hz,女性和儿童的,F,0,大致分布在,：200450Hz,基音频率,（Fundamental Frequency）,F,0,9/21/2024,35,声道,气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。,讲话时，由于舌和唇的连续运动，使声道形状改变，随即改变谐振频率，使得发不同的音。声道的不同的形状，对应不同的谐振频率。,声带振动频率,输出气流的频率,声道的谐振特性,9/21/2024,36,鼻端,嘴唇,17cm,8.5cm,13cm,声道的无损模型,谐振频率的计算,谐振频率发生在：Fn=,（声道的横截面是均匀的，发元音e时，声道近似是均匀的。）,L=17cm，声道的长度,n=1,2,3 称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ，,c=340m/s,2n-1,4L,c,9/21/2024,37,女声英文,a,的时域波形,9/21/2024,38,女声英文,a,的频谱,9/21/2024,39,一种声道形状对应一套共振峰,不同人的声道大小不同，共振峰不同,同一人，发不同音，共振峰也不同,总结,前三个共振峰的大致范围（,Hz）,共振峰,成年男子,成年女子,带宽,f1,200800,2501000,4070,f2,6002800,7003300,5090,f3,13003400,15004000,60180,9/21/2024,40,鼻腔的作用,在软腭的帮助下，可使空气经过鼻腔排除人体外，由此产生的语音称为鼻音。如n、ng为鼻音韵母，m、n、l为鼻音声母。,鼻腔是一个谐振腔，由于形状固定，故其共振峰频率是确定的。,9/21/2024,41,（1）声带振动,（2）声道不发生极端的狭窄，维持稳定的形状,（3）和鼻腔不发生耦合，声音只是从口腔中辐射出去。,发元音的三个条件,9/21/2024,42,发元音的三个条件中，缺少任何一个时，发出的音就是辅音。分为塞音、鼻音、摩檫音和颤音等。,2.,辅音,9/21/2024,43,语音产生的另一种方式清音,声门完全封闭，声道不受声门周期脉冲气流的激励，而是利用口腔内存有的空气释放出来而发声。,由于该气流通过一个狭窄通道时在口腔中形成湍流，因而具有随机噪声的特点。发出的音称为清音。,如声母s、sh、h、x和f等为清音,。,9/21/2024,44,男声汉语拼音声母,s,的时域波形,9/21/2024,45,男声汉语拼音声母,s,的频谱,9/21/2024,46,利用,MATLAB,产生的高斯噪声,9/21/2024,47,3.元音、辅音和浊音、清音的关系,元音一定是浊音,。,辅音包括浊音和清音。,9/21/2024,48,四、英语和汉语的音节构成,英语中：由元音和辅音（这些都是音素）构成音节，由几个音节构成一个词。,汉语中：汉语中由元音和辅音构成声母和韵母，结合声调构成一个音节，一个音节就是一个字。,9/21/2024,49,话音的分类,浊音（voiced sounds）：声道打开，声带在先打开后关闭，气流经过使声带要发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。,清音（unvoiced sounds）：声带不振动，而在某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成清音。清音的激励源被等效为一种白噪声信号。,爆破音（plosive sounds）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。,9/21/2024,50,2.3 汉语语音学,一、汉语语音的特点,二、语音的拼音方法,三、汉语音节的一般结构,9/21/2024,51,（1）音系简单，在汉语中一个字就是一个音节，由一般为23个音素组成，而且具有音素少、音节少。英语中一个单词由若干个音节组成，一般为23个，一个音节由若干个音素组成，一般为14个。,（2）清辅音多，在听感上有清亮、高扬和舒服、柔和的感觉。,（3）有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。,一、汉语语音的特点,9/21/2024,52,在汉语中，由音素构成声母和韵母。,二、语音的拼音方法,声母：一个音节开始的辅音，声母完全由辅音充当，但辅音不等于声母，因为辅音还可以作为韵尾放在音节的末尾。,b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r,9/21/2024,53,韵母：在音节中占主要部分，音节中除了头上的声母以外的部分，由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。,a、o、e、i、u、单韵母（元音）,ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei 、e 复韵母,an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、 an、n 鼻韵母,i表示3个韵母，即韵母、舌尖前韵母和舌尖后韵母。,9/21/2024,54,韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。,区别不同韵母的重要参数,9/21/2024,55,声母、韵母和声调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调（音调）。声调是1个音节在念法上的高低升降的变化，汉语中有4个声调，即阴平（）、阳平（）、上声（,）、和去声（）。,三、汉语音节的一般结构,9/21/2024,56,声调的变化就是浊音基音周期的变化，,为了将调值描写地具体一些，一般采用“五度标记法”，用一条竖线表示声音的高低，从上而下用,1,、,2、3、4、5,依次表示低、半低、中、半高、高,。,5 高,4 半高,3 中,2 半低,1 低,阴平,阳平,上声,去声,调类,阴平,阳平,上声,去声,调值,55,35,214,51,9/21/2024,57,单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。,无声段,音节,声母,鼻音段,声母辅音段,元音段,送气段,前过渡段,后过渡段,韵母,9/21/2024,58,2.4 语音生成系统和语音感知系统,一、语音发音系统,二、语音听觉系统,9/21/2024,59,肺：能源；,喉：振动源，包括声带和声门；,声道（声门到嘴唇的呼气通道）：谐振腔；,其他发音器官：包括唇、齿、舌、面颊等，使谐振腔改变形状。,一、语音发音系统（,发音器官及其作用,）,9/21/2024,60,二、语音听觉系统（一个十分巧妙的音频信号处理器）,人类接收语音由人耳来完成，空气振动由耳廓收集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓室中的空气和听骨链也发生振动，听骨链的振动经前庭窗（卵圆窗）激励前庭淋巴，变为液波，液波使位于基底膜上的螺旋器受到刺激，将神经冲动经听神经传到中枢而产生听觉。,9/21/2024,61,正常人的听觉系统是极为灵敏的，可听声的范围为。,可听声的最小声压级(dB)称为听阈。-5 130dB，对低频和高频是不敏感的，听阈为60dB，在1kHz附近最敏感。,9/21/2024,62,声源,声压/Pa,声压级/dB,飞机附近,200,140,织布车间,20,100,地铁,0.63,90,繁华街道,0.063,70,普通谈话,0.02,60,安静房间,0.002,40,耳语,0.00063,30,树叶沙沙声,0.0002,20,农村静夜,0.000063,10,9/21/2024,63,9/21/2024,64,1.,耳的结构（外耳、中耳和内耳）和功能,外耳：对声源定位和对声音放大的作用，由耳廓和外耳道组成。,耳廓呈漏斗型，其作用是收集声音。,外耳道直至鼓膜，其中充满空气，是一谐振腔，使谐振频率附近的频率成分有某些放大作用，导致声音有某些失真。,9/21/2024,65,9/21/2024,66,外耳道的长度为，对波长为其4倍作用的声波能起到较好的放大作用，即有：4,2.5=10cm， 3000-4000Hz声波的波长为，因此外耳道对这部分频率的信号有扩音作用，10dB左右。,外耳道,9/21/2024,67,中耳,结构：总容量为2立方厘米，内含三块听小骨，锤骨、砧骨、镫骨，其中锤骨与鼓膜相接触，镫骨则与内耳的前庭窗相接触。,作用：进行阻抗变换，将中耳两端的声阻抗匹配起来；保护内耳。在一定声强范围内，听小骨实现声音的线性传递，而在特强声时，实现非线性传递。,9/21/2024,68,内耳,结构：主要部分是耳蜗，耳蜗长约，呈螺旋状盘绕圈，是一个密闭的管子，内部充满了淋巴液。,前庭窗,镫,骨,基底膜,9/21/2024,69,作用：将振动变换为神经冲动。当声音传入中耳时，镫骨的运动经过前庭窗引起耳蜗内液体压强的变化，从而引起行波沿基底膜的传输，引起基底膜的振动。不同频率的声音产生不同的行波，其峰值出现在基底膜的不同位置上。基底膜的振动导致沿基底膜分布的毛细胞的电位发生改变，引起神经冲动，传递给大脑，产生听觉。,9/21/2024,70,如果信号是一个多频率的信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度，从这个意义上讲，耳蜗就像一个频谱分析仪，将复杂信号分解成各种频率分量，这种作用称为人耳,的时频分析特性。,耳蜗在语音接收过程起着重要的作用。,9/21/2024,71,人工耳蜗是一种电子装置，能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官，把声音转换成编码的电信号传入内耳耳蜗，刺激分布在那里的听神经，再由大脑产生听觉。,人工耳蜗,9/21/2024,72,麦克风接收声音，并通过导线将其传至言语处理器；言语处理器对声音进行数字化、滤波编码等处理，并将编码信号经导线传至传输线圈；传输线圈将编码信号通过耦合传至皮下的接收器；接收器对编码信号进行解码；按信号选择一定位置的电极，刺激耳蜗内的听神经纤维，使其产生兴奋，将信号传入大脑，产生听觉。,人工耳蜗的工作原理,9/21/2024,73,2.,声音传入内耳的途径,由空气传导，称为气导，其过程为：,声波,耳廓,鼓膜,听骨,内耳,基底膜上,毛细胞电位改变,神经冲动,由骨传导，称为骨导，其过程为：,声波,颅骨,外淋巴振动,内耳,基底膜上毛细胞电位改变,神经冲动,9/21/2024,74,3.,人耳的两个重要特性,（1）耳蜗对声信号的时频分析特性,（2）人耳的掩蔽效应,人耳的掩蔽（masking phenomenon）效应:在一个强信号附近弱信号将变得不可闻，被掩蔽掉了。,9/21/2024,75,掩蔽阈值,被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值（masking threshold）,在这个掩蔽阈值以下的声音将被掩蔽掉。,掩蔽效应分为同时掩蔽(频域掩蔽)和短时掩蔽（时域掩蔽）。同时掩蔽是指存在一个弱信号和一个强信号，当其频率接近时，强信号会提高弱信号的阈值，就会导致弱信号变得不可闻。,9/21/2024,76,1kHz的听阈,1dB,20dB,4dB,可闻声,3dB,不可闻声,图形描述,9/21/2024,77,同时出现的A声和B声，若原来A声的阈值为50dB,由于另一个频率不同的B声的存在使得A声的阈值提高了68dB,则B声称为掩蔽声，A声称为被掩蔽声。掩蔽量为68dB50dB18dB。,数学描述,9/21/2024,78,掩蔽效应的作用,当只有A声时，必须将声压级在50dB以上的声音信号传送出去，50dB以下的声音是听不到的。当同时出现了B声，由于掩蔽效应，使得A声中的68dB以下的声音是听不到了，可以不予传送，只是传送50dB以上的信号。,同时掩蔽时，掩蔽声越强，掩蔽作用越大；掩蔽声和被掩蔽声的频率越接近，掩蔽效果越明显，当频率相同时，掩蔽效果最大。,9/21/2024,79,前向掩蔽：若被掩蔽声A出现后，相隔(0.05s,2s)之内出现了掩蔽声B，对A起掩蔽作用，因为A声尚未被人所反应接收而强大的B声已来临。,短时掩蔽前向掩蔽和后向掩蔽,后向掩蔽：掩蔽声B即使消失后，其掩蔽作用仍将持续一段时间，约(0.5s,2s)，这时由于人耳的存储效应所致。,9/21/2024,80,2.5 语音信号生成的数学模型,一、激励模型,二、声道模型,三、辐射模型,四、完整的语音信号的数学模型,9/21/2024,81,语音信号的短时分析技术,语音信号处理的复杂性源于语音信号是非平稳的随机过程，其特性随时间变化的，但这种变换很缓慢。在实际处理中，一般对其加窗，截取,1030ms,内的信号（,1,帧）进行处理。我们将这种技术称为短时分析技术。,t,第n帧,第n+1帧,第n+2帧,第n+3帧,第n+4帧,9/21/2024,82,为什么取1030ms，因为根据人的发声生理结构变化的连续性，在此时间段内，声带、声道、口腔的特性几乎不变，语音信号近似平稳。,9/21/2024,83,加矩形窗,分帧技术加窗,加汉宁窗 hanning,第n帧,第n+1帧,第n+2帧,各帧之间有01/2的重叠，由窗函数的定义决定的。,w(n)=0.5*1-cos(2n,/(N-1),第n+3帧,t,第n帧,第n+1帧,第n+2帧,第n+3帧,第n+4帧,9/21/2024,84,数学模型,声道,数学模型的特点：是一个终端模拟的近似模型，其内部结构与语音产生的物理过程并不一致，只是在输出端等效。,激励,辐射,9/21/2024,85,一、激励模型,u,G,(,n,),A,v,冲激序列,发生器,声门脉冲,模型,G(z),随机噪声,发生器,基音周期,T,P,A,u,清,/,浊音开关,浊音激励,清音激励,9/21/2024,86,发浊音时，声激励是一个准周期的单位脉冲串，,A,v,为增益参数；为了使浊音的激励信号具有声门振动气流脉冲的实际波形，需将冲激序列通过一个声门脉冲模型滤波器（实际上是一个斜三角波形）,G(z)。,最后形成一个以基音周期为周期的斜三角波形。,1.浊音激励,9/21/2024,87,单位脉冲串,单位脉冲串及幅值的Z变换形式：,9/21/2024,88,声门脉冲滤波器,N,1,N,2,9/21/2024,89,斜三角波形u(n),2.清音激励,清音激励模拟为随机噪声，实际中一般使用均值为0、方差为1的白噪声。,9/21/2024,90,将声激励分为两种情况，与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立起压力，然后除去这种障碍，使压力迅速释放，产生一种瞬时的激励。在上面的声学模型中未考虑。,应将两种激励按一定比例进行叠加，更符合实际情况。,9/21/2024,91,二、声道模型,(,共振峰模型,),线性系统,声道,V(z),u,G,(n),u,l,(n),语音信号是一个非平稳信号，激励和声道的谐振特性随时间变化。但在,2030ms,内语音信号是平稳的，即激励和声道的特性几乎不变，因此认为在此时间段内系统是线性的。,9/21/2024,92,1.级联型(元音),声道是一组串连的二阶谐振器（一个谐振腔对应1个共振峰频率）。,V,1,V,2,V,3,V,4,V,5,传输函数,N为极点个数，G是,增益参数,，a,k,为常系数。,T为采样周期,9/21/2024,93,传输函数是一个全极点的IIR滤波器，这些极点确定了声管的共振峰。若N取偶数，V(z)一般有N/2对共轭极点，r,k,exp(j2,F,k,T)，k=1N/2。各个w,k,值分别与语音的共振峰相互对应。 N的取值一般为812。,a,i,z,-1,z,-1,b,i,c,i,9/21/2024,94,9/21/2024,95,2.并联型(大部分辅音),传输函数，,零极点IIR滤波器,V,1,V,2,V,3,V,4,V,5,9/21/2024,96,3. 混合型（根据需要进行模型的切换）,V,1,V,2,V,3,V,4,V,5,V,1,V,2,V,3,V,4,V,5,9/21/2024,97,三、辐射模型,线性系统,唇辐射,R(z),u,l,(n),p,l,(n),P,l,(z)=R(z)U,l,(z),R(z)=R,0,(1-z,-1,),唇端辐射损耗在高频端较为显著，而在低频端影响较小，,R,(,z,),应具有高通特性。,9/21/2024,98,四、完整的语音信号的数学模型,A,v,冲激序列,发生器,声门脉冲,模型,G(z),随机噪声,发生器,基音周期,T,P,A,N,线性系统,声道,V,(,z,),辐射模型,R,(,z,),清/浊音开关,传输函数,9/21/2024,99,传输函数的具体表达式：,9/21/2024,100,数学模型的特点,在这个模型中，,T,P,、,A,v、,A,N、,清/浊音开关的位置以及声道滤波器的参数都是随时间而变化，在10-30ms的时间间隔内是保持不变的。这种特性称为短时性。,对于激励信号而言，大部分情况下，这一结论也是正确的，但有些音变化速度特别快，爆破音，取,5ms,比较更为恰当。,9/21/2024,101,2.6 语音信号的特性分析,一、语音信号的时域波形和频谱特性,二、语音信号的语谱图,三、语音信号的统计特性,9/21/2024,102,一、语音信号的时域波形和频谱特性,时域波形：幅度时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。,女声汉语拼音,a,的时域波形,9/21/2024,103,频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置。,女声英文,a,的频谱,9/21/2024,104,二、语音信号的语谱图,语音的时域分析和频域分析是语音分析的两种重要的方法，但是这两种方法均有局限性：时域分析对语音信号的频率特性没有直观的了解；而频域特性中又没有语音信号随时间的变化关系。因此人们致力于研究将时域分析和频域相结合，将时间依赖于傅立叶分析的显示图形称作为语谱图，横坐标为时间，纵坐标为频率，谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点，明显得展示了语音频谱随时间的变化情况。,9/21/2024,105,欢迎使用微软中国研究院中文语音合成系统,的时域波形和语谱图,9/21/2024,106,“毕业”,9/21/2024,107,9/21/2024,108,三、语音信号的统计特性,语音信号振幅分布的概率密度有两种逼近方法：,修正伽玛（Gamma）分布概率密度函数：,拉谱拉斯（Laplace）分布概率密度函数:,9/21/2024,109,T,H,A,N,K,S,9/21/2024,110,

展开阅读全文

2第二章 语音信号处理的基础知识 语音信号处理 课件

最新文档

2第二章语音信号处理的基础知识语音信号处理课件