给出共振峰频率课件

资源描述

第二章第二章语音信号产生的数字模型语音信号产生的数字模型 Speech Production Model Speech Production Model2.1 2.1 人类的语言器官和语音产生过程人类的语言器官和语音产生过程2.3 2.3 语音信号产生的数字模型语音信号产生的数字模型2.4 2.4 语音信号的特性语音信号的特性2.5 2.5 人类的听觉功能人类的听觉功能(speech perception)(speech perception)第二章语音信号产生的数字模型2.1 人类的语言1 12.1 人类的语言器官和语音产生过程人类的语言器官和语音产生过程人类的语音是由人体发音器官在大脑控制下的人类的语音是由人体发音器官在大脑控制下的生理运动产生的。发音器官包括：肺，喉，声道等。生理运动产生的。发音器官包括：肺，喉，声道等。空气由肺部排入喉部，经过声带进入声道，最后由空气由肺部排入喉部，经过声带进入声道，最后由嘴或鼻辐射出声波，形成了语音。嘴或鼻辐射出声波，形成了语音。鼻腔鼻腔口腔口腔声带声带声门声门2.1 人类的语言器官和语音产生过程人2Muscle force lung Vocal cords Nose outputMouth outputVelumNasal cavityMouth cavityThe complete physiological mechanism of speech production 声道声道excitationspeechMuscle force lung Vocal cords3喉的生理结构喉的生理结构喉位于气管的上端，实喉位于气管的上端，实际上是气管末端一圈软骨际上是气管末端一圈软骨构成的一个框架，前方稍构成的一个框架，前方稍高处的软骨称为甲状软骨，高处的软骨称为甲状软骨，前后方环成一圈的称为喉前后方环成一圈的称为喉部环形软骨，喉中两片肌部环形软骨，喉中两片肌肉称为声带，声带之间的肉称为声带，声带之间的空隙为声门。空隙为声门。当声带张开时，声门当声带张开时，声门打开，空气可自由呼出，打开，空气可自由呼出，正常呼吸就处于这种情况；正常呼吸就处于这种情况；当声带闭合，声门关闭。当声带闭合，声门关闭。甲状软骨甲状软骨声门声门声带声带环形软骨环形软骨人的前方人的前方喉喉喉的生理结构喉位于气管的上端，实际上是气管末端一圈软4 当说话时，声带在软骨的作用下相互靠当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。门再次打开，气流再次流过。声带靠拢声带靠拢Tp基音周期基音周期声带的开启和闭合称声带的开启和闭合称为振动。这一振动过程周为振动。这一振动过程周而复始，形成了一串周期而复始，形成了一串周期性脉冲气流送入声道。这性脉冲气流送入声道。这个过程发出的音称为浊音。个过程发出的音称为浊音。如汉语发音的如汉语发音的aa、ii、uu和和oo等。等。当说话时，声带在软骨的作用下相互靠近但不完全闭5Glottal Closure instant TGlottal Closure instant T6女声汉语拼音女声汉语拼音a的时域波形的时域波形女声汉语拼音a的时域波形7Tp基音周期基音周期 fundamental periodVoiced excitationUnvoiced excitation（声带不振动，声门开启）（声带不振动，声门开启）Tp基音周期 fundamental periodVoice8男声汉语拼音声母男声汉语拼音声母s的时域波形的时域波形男声汉语拼音声母s的时域波形9 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共某些频率，在频谱上形成相应位置的峰起，称为共振峰。振峰。讲话时，由于舌和唇的连续运动，讲话时，由于舌和唇的连续运动，使声道形状改变，随即改变谐振频率，使声道形状改变，随即改变谐振频率，使得发不同的音。声道的不同的形状，使得发不同的音。声道的不同的形状，对应不同的谐振频率。对应不同的谐振频率。声道声道气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，10发音的三种方式发音的三种方式excitationn浊音（浊音（voiced sounds）声带开启和闭合，在声门声带开启和闭合，在声门处产生一个准周期性脉冲序列处产生一个准周期性脉冲序列。（quasi-periodic sequence）n清音（清音（unvoiced sounds）声带完全舒展开来，声带完全舒展开来，声道的某个部位发生收缩形成了一个狭窄的通道，当声道的某个部位发生收缩形成了一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近空气流到达此处时被迫以高速冲过收缩区，并在附近产生空气的湍流，类似于白噪声。产生空气的湍流，类似于白噪声。（white noise）n爆破音（爆破音（plosive/stop sounds）声带完全舒展开声带完全舒展开来，声道的某个部位完全闭合在一起，当空气流到达来，声道的某个部位完全闭合在一起，当空气流到达时便在此处建立起空气压力，一旦闭合点突然开启便时便在此处建立起空气压力，一旦闭合点突然开启便会让气压快速释放，实际上也是一种空气的湍流。会让气压快速释放，实际上也是一种空气的湍流。（white noise）发音的三种方式excitation浊音（voiced so11 F0=1/Tp，基音频率，由声带的质量来决定基音频率，由声带的质量来决定。F0的大小决定了声音的高低，称为音高。的大小决定了声音的高低，称为音高。男性的男性的F0大致分布在大致分布在：50250Hz 女性和儿童的女性和儿童的F0大致分布在大致分布在：100500Hz基音频率基音频率(Fundamental Frequencypitch)F0 F0=1/Tp，基音频率，由声带的质量来决定。基音频12鼻端鼻端嘴唇嘴唇17cm17cm8.5cm13cm13cm声道的无损模型声道的无损模型声道的谐振频率声道的谐振频率format frequency谐振频率发生在：谐振频率发生在：Fn=Fn=（声道的横截面是均匀的，（声道的横截面是均匀的，发元音发元音e e时，声道近似是均匀时，声道近似是均匀的。）的。）L=17cmL=17cm，声道的长度，声道的长度n=1,2,3 n=1,2,3 称为第一共振峰称为第一共振峰F1=500Hz F1=500Hz、第二共振、第二共振峰峰F2=1500Hz F2=1500Hz、第三共振峰、第三共振峰F3=2500Hz F3=2500Hz，c=340m/sc=340m/s2n-12n-14L4Lc鼻端嘴唇17cm8.5cm13cm声道的无损模型声道的谐振频13基音频率基音频率输出气流的频率输出气流的频率共振峰频率共振峰频率女声英文女声英文a的频谱的频谱基音频率输出气流的频率共振峰频率女声英文a的频谱14男声汉语拼音声母男声汉语拼音声母s的频谱的频谱男声汉语拼音声母s的频谱15 一种声道形状对应一套共振峰一种声道形状对应一套共振峰不同人的声道大小不同，共振峰不同不同人的声道大小不同，共振峰不同同一人，发不同音，共振峰也不同同一人，发不同音，共振峰也不同总结总结前三个共振峰的大致范围（前三个共振峰的大致范围（Hz）共振峰成年男子成年女子带宽 f1 200800 2501000 4070 f2 6002800 7003300 5090 f3 13003400 15004000 60180 一种声道形状对应一套共振峰总结前三个共振峰16 时域波形：幅度时间图。大致得出音节的起时域波形：幅度时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。始点、清音和浊音以及浊音的基音频率。女声汉语拼音女声汉语拼音a的时域波形的时域波形时域波形：幅度时间图。大致得出音节的起始点、清音和17 频谱特性：幅度谱图。得出基音周期、频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置。共振峰频率及其位置。女声英文女声英文a的频谱的频谱频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置18鼻腔的作用鼻腔的作用在软腭的帮助下，可使空气经过鼻腔在软腭的帮助下，可使空气经过鼻腔排除人体外，由此产生的语音称为鼻音。排除人体外，由此产生的语音称为鼻音。如如nn、ngng为鼻音韵母，为鼻音韵母，mm、nn、ll为鼻音声母。为鼻音声母。鼻腔是一个谐振腔，由于形状固定，鼻腔是一个谐振腔，由于形状固定，故其共振峰频率是确定的。故其共振峰频率是确定的。鼻腔的作用在软腭的帮助下，可使空气经过鼻19Muscle force lung Vocal cords Nose outputMouth outputVelumNasal cavityMouth cavityThe complete physiological mechanism of speech production 声道声道excitationspeechMuscle force lung Vocal cords20uG(n)Av冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周期TPAu清清/浊音浊音开关开关浊音激励浊音激励清音激励清音激励2.3 语音信号产生的数字模型语音信号产生的数字模型一、激励模型一、激励模型uG(n)Av冲激序列声门脉冲随机噪声基音周期TPAu清/浊21声门脉冲滤波器声门脉冲滤波器N1N2声门脉冲滤波器N1N222二、声道模型二、声道模型(共振峰模型共振峰模型)短时线性系统短时线性系统声道声道V(z)1.1.级联型级联型(元音元音)V V1 1V V2 2V V3 3V V4 4V V5 5 声道是一组串连的二阶谐振器（一个谐振腔声道是一组串连的二阶谐振器（一个谐振腔对应对应1 1个共振峰频率）。个共振峰频率）。二、声道模型(共振峰模型)短时线性系统1.级联型(元音)V23 每个每个传输函数是一个全极点的传输函数是一个全极点的IIRIIR滤波器，这些滤波器，这些极点确定了声管的共振峰。若极点确定了声管的共振峰。若N N取偶数，取偶数，V(z)V(z)一般有一般有N/2N/2对共轭极点，对共轭极点，r rk kexp(j2exp(j2 F Fk kT)T)，k=1k=1N/2N/2。各各个个w wk k值分别与语音的共振峰相互对应。值分别与语音的共振峰相互对应。N N的取值一的取值一般为般为8 81212。a ai iz z-1-1z z-1-1b bi ic ci i 每个传输函数是一个全极点的IIR滤波器，这些极24传输函数传输函数N N为极点个数，为极点个数，G G是是增益参数增益参数，a ak k为常系数。为常系数。T T为采样周期为采样周期传输函数N为极点个数，G是增益参数，ak为常系数。T为采样周252.2.并联型并联型(大部分辅音大部分辅音)传输函数，传输函数，零极点零极点IIRIIR滤波器滤波器V V1 1V V2 2V V3 3V V4 4V V5 5 零极点零极点IIRIIR滤波器总是可以用全极滤波器总是可以用全极点点IIR IIR 滤波器来代替。因此可以用全滤波器来代替。因此可以用全极点模型来表示任何语音。极点模型来表示任何语音。2.并联型(大部分辅音)传输函数，零极点IIR滤波器V1V226三、辐射模型三、辐射模型R(z)=RR(z)=R0 0(1-z(1-z-1-1)唇端辐射损耗在高频端较为显著，而在低频唇端辐射损耗在高频端较为显著，而在低频端影响较小，端影响较小，R(z)应具有高通特性。对高频提升应具有高通特性。对高频提升大约为每倍频程大约为每倍频程6dB6dB。三、辐射模型R(z)=R0(1-z-1)唇端27四、完整的语音信号的数字模型四、完整的语音信号的数字模型A Av v冲激序列冲激序列发生器发生器声门脉冲声门脉冲模型模型G(z)G(z)随机噪声随机噪声发生器发生器基音周期基音周期T TP PA AN N线性系统线性系统声道声道V V(z z)辐射模型辐射模型R R(z z)清清/浊音浊音开关开关传输函数传输函数传输函数传输函数四、完整的语音信号的数字模型Av冲激序列声门脉冲随机噪声基音28传输函数的具体表达式：传输函数的具体表达式：传输函数的具体表达式：传输函数的具体表达式：传输函数的具体表达式：29模型的特点模型的特点在这个模型中，在这个模型中，T TP P、A Av v、A AN N、清清/浊音开关的位置浊音开关的位置以及声道滤波器的参数都是随时间而变化，在以及声道滤波器的参数都是随时间而变化，在10-10-30ms30ms的时间间隔内是保持不变的。这种特性称为短的时间间隔内是保持不变的。这种特性称为短时性。时性。对于激励信号而言，大部分情况下，这一结论对于激励信号而言，大部分情况下，这一结论也是正确的，但有些音变化速度特别快，爆破音，也是正确的，但有些音变化速度特别快，爆破音，取取5ms比较更为恰当。比较更为恰当。模型的特点在这个模型中，TP、Av、AN、清302.4 2.4 语音信号的特性语音信号的特性一、语音的声学特性一、语音的声学特性语音是发声器官发出的一种声波，具有一定的语音是发声器官发出的一种声波，具有一定的音色、音调和音强和音长。音色、音调和音强和音长。音色音色:又称为音质，是一种声音区别于另又称为音质，是一种声音区别于另一种声音的基本特性。一种声音的基本特性。音调：声音的高低，取决于声波的频率音调：声音的高低，取决于声波的频率音强：声音的强弱，它由声波的振动幅度音强：声音的强弱，它由声波的振动幅度所决定所决定音长：发音时间的长短音长：发音时间的长短2.4 语音信号的特性一、语音的声学特性语音是发声31（1 1）音系简单，在汉语中一个字就是一个音节，由）音系简单，在汉语中一个字就是一个音节，由一般为一般为2 23 3个音素组成，而且具有音素少、音节少。个音素组成，而且具有音素少、音节少。英语中一个单词由若干个音节组成，一般为英语中一个单词由若干个音节组成，一般为2 23 3个，个，一个音节由若干个音素组成，一般为一个音节由若干个音素组成，一般为1 14 4个。个。（2 2）清辅音多，在听感上有清亮、高扬和舒服、柔）清辅音多，在听感上有清亮、高扬和舒服、柔和的感觉。和的感觉。（3 3）有鲜明的轻重音和儿化韵，所以字词分隔清楚，）有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。语言表达准确而丰富。汉语语音的特点汉语语音的特点（1）音系简单，在汉语中一个字就是一个音节，由一般为23个32 在汉语中，由元音和辅音构成声母和韵母。在汉语中，由元音和辅音构成声母和韵母。二、汉语的拼音方法二、汉语的拼音方法声母：一个音节开始的辅音，声母完全由辅音充当，声母：一个音节开始的辅音，声母完全由辅音充当，但辅音不等于声母，因为辅音还可以作为韵尾放在音但辅音不等于声母，因为辅音还可以作为韵尾放在音节的末尾。节的末尾。b b、p p、m m、f f、d d、t t、n n、l l、g g、k k、h h、j j、q q、x x、zhzh、chch、shsh、z z、c c、s s、r r 在汉语中，由元音和辅音构成声母和韵母。二、汉语的拼音方法33 韵母：在音节中占主要部分，音节中除了头上的韵母：在音节中占主要部分，音节中除了头上的声母以外的部分，由单、双元音、元音带上辅音等几声母以外的部分，由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。种不同的形式组成。所有元音都是浊音。a a、o o、e e、i i、u u、单韵母（元音）单韵母（元音）ai ai、eiei、aoao、ouou、iaia、ieie、iaoiao、iouiou、uaua、uouo、uaiuai、uei uei、e e 复韵母复韵母 an an、enen、angang、engeng、ongong、ianian、inin、iangiang、inging、iongiong、uanuan、uenuen、uanguang、uengueng、an an、n n 鼻韵母鼻韵母i i表示表示3 3个韵母，即韵母、舌尖前韵母和舌尖后韵母。个韵母，即韵母、舌尖前韵母和舌尖后韵母。韵母：在音节中占主要部分，音节中除了头上的声母以外的34 韵母是由单、双元音、元音带上辅音等几种韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。和共振峰模式，它们是区别不同韵母的重要参数。区别不同韵母的重要参数区别不同韵母的重要参数韵母是由单、双元音、元音带上辅音等几种不同的形式组成35 声母、韵母和声调是汉语语音的三要素。声母、韵母和声调是汉语语音的三要素。汉语语音的一个不同于其他语言的是它具有声汉语语音的一个不同于其他语言的是它具有声调（音调）。声调是调（音调）。声调是1 1个音节在念法上的高低升个音节在念法上的高低升降的变化，汉语中有降的变化，汉语中有4 4个声调，即阴平（）、个声调，即阴平（）、阳平（阳平（）、上声（）、上声（）、和去声（）、和去声（）。）。三、汉语音节的一般结构三、汉语音节的一般结构声母、韵母和声调是汉语语音的三要素。汉语36 声调的变化就是浊音基音周期的变化，声调的变化就是浊音基音周期的变化，为了将为了将调值描写地具体一些，一般采用调值描写地具体一些，一般采用“五度标记法五度标记法”，用一条竖线表示声音的高低，从上而下用用一条竖线表示声音的高低，从上而下用1、2、3、4、5依次表示低、半低、中、半高、高依次表示低、半低、中、半高、高。5 5 高高4 4 半高半高3 3 中中2 2 半低半低1 1 低低阴平阴平阳平阳平上声上声去声去声调类调类阴平阴平阳平阳平上声上声去声去声调值调值553521451 声调的变化就是浊音基音周期的变化，为了将调值37四、四、语音信号的统计特性语音信号的统计特性语音信号振幅分布的概率密度有两种逼近方法：语音信号振幅分布的概率密度有两种逼近方法：修正伽玛（修正伽玛（GammaGamma）分布概率密度函数：）分布概率密度函数：拉谱拉斯（拉谱拉斯（LaplaceLaplace）分布概率密度函数）分布概率密度函数:四、语音信号的统计特性语音信号振幅分布的概率密度有两38给出共振峰频率课件39 人类接收语音由人耳来完成，空气振动由耳廓人类接收语音由人耳来完成，空气振动由耳廓收集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓收集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓室中的空气和听骨链也发生振动，听骨链的振动经室中的空气和听骨链也发生振动，听骨链的振动经前庭窗（卵圆窗）激励前庭淋巴，变为液波，液波前庭窗（卵圆窗）激励前庭淋巴，变为液波，液波使位于基底膜上的螺旋器受到刺激，将神经冲动经使位于基底膜上的螺旋器受到刺激，将神经冲动经听神经传到中枢而产生听觉。听神经传到中枢而产生听觉。2.5 人类的听觉功能人类接收语音由人耳来完成，空气振动由耳廓收集，经外耳40 正常人的听觉系统是极为灵敏的，可听声的范围正常人的听觉系统是极为灵敏的，可听声的范围为为20Hz-20kHz20Hz-20kHz。可听声的最小声压级可听声的最小声压级(dB)(dB)称为听阈。称为听阈。-5-5130dB130dB，对低频和高频是不敏感的，听阈为对低频和高频是不敏感的，听阈为60dB60dB，在，在1kHz1kHz附近附近最敏感。最敏感。正常人的听觉系统是极为灵敏的，可听声的范围为20Hz-41 如果信号是一个多频率的信号，则产生的如果信号是一个多频率的信号，则产生的行波将沿着基底膜在不同的位置产生最大幅行波将沿着基底膜在不同的位置产生最大幅度，从这个意义上讲，耳蜗就像一个频谱分度，从这个意义上讲，耳蜗就像一个频谱分析仪，将复杂信号分解成各种频率分量，这析仪，将复杂信号分解成各种频率分量，这种作用称为人耳种作用称为人耳的时频分析特性。的时频分析特性。耳蜗在语耳蜗在语音接收过程起着重要的作用。音接收过程起着重要的作用。耳蜗对声信号的时频分析特性耳蜗对声信号的时频分析特性如果信号是一个多频率的信号，则产生的行波将沿42 人工耳蜗是一种电子装置，能帮助重度及极重人工耳蜗是一种电子装置，能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官，把声音转换成编码的电信号传入内耳的听觉器官，把声音转换成编码的电信号传入内耳耳蜗，刺激分布在那里的听神经，再由大脑产生听耳蜗，刺激分布在那里的听神经，再由大脑产生听觉。觉。人工耳蜗人工耳蜗人工耳蜗是一种电子装置，能帮助重度及极重度耳43 麦克风接收声音，并通过导线将其传至言语麦克风接收声音，并通过导线将其传至言语处理器；言语处理器对声音进行数字化、滤波编处理器；言语处理器对声音进行数字化、滤波编码等处理，并将编码信号经导线传至传输线圈；码等处理，并将编码信号经导线传至传输线圈；传输线圈将编码信号通过耦合传至皮下的接收器；传输线圈将编码信号通过耦合传至皮下的接收器；接收器对编码信号进行解码；按信号选择一定位接收器对编码信号进行解码；按信号选择一定位置的电极，刺激耳蜗内的听神经纤维，使其产生置的电极，刺激耳蜗内的听神经纤维，使其产生兴奋，将信号传入大脑，产生听觉。兴奋，将信号传入大脑，产生听觉。人工耳蜗的工作原理人工耳蜗的工作原理麦克风接收声音，并通过导线将其传至言语处理器44人耳的掩蔽效应人耳的掩蔽效应人耳的掩蔽（人耳的掩蔽（masking phenomenonmasking phenomenon）效应）效应:在一个强信号附近弱信号将变得不可闻，被掩在一个强信号附近弱信号将变得不可闻，被掩蔽掉了。蔽掉了。人耳的掩蔽效应人耳的掩蔽（masking pheno45掩蔽阈值掩蔽阈值被掩蔽掉的不可闻信号的最大声压级称为被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值（掩蔽门限和掩蔽阈值（masking thresholdmasking threshold）,在这个掩蔽阈值以下的声音将被掩蔽掉。在这个掩蔽阈值以下的声音将被掩蔽掉。掩蔽效应分为同时掩蔽掩蔽效应分为同时掩蔽(频域掩蔽频域掩蔽)和短时和短时掩蔽（时域掩蔽）。同时掩蔽是指存在一个弱掩蔽（时域掩蔽）。同时掩蔽是指存在一个弱信号和一个强信号，当其频率接近时，强信号信号和一个强信号，当其频率接近时，强信号会提高弱信号的阈值，就会导致弱信号变得不会提高弱信号的阈值，就会导致弱信号变得不可闻。可闻。掩蔽阈值被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限461kHz1kHz的听阈的听阈1dB1dB20dB20dB4dB4dB可闻声可闻声3dB3dB不可闻声不可闻声图形描述图形描述1kHz的听阈1dB20dB4dB可闻声3dB不可闻声图形描47 同时出现的同时出现的A A声和声和B B声，若原来声，若原来A A声的阈值为声的阈值为50dB,50dB,由于另一个频率不同的由于另一个频率不同的B B声的存在使得声的存在使得A A声声的阈值提高了的阈值提高了68dB,68dB,则则B B声称为掩蔽声，声称为掩蔽声，A A声称为声称为被掩蔽声。掩蔽量为被掩蔽声。掩蔽量为68dB68dB50dB50dB18dB18dB。数学描述数学描述同时出现的A声和B声，若原来A声的阈值为50dB,由48 掩蔽效应的作用掩蔽效应的作用当只有当只有A A声时，必须将声压级在声时，必须将声压级在50dB50dB以上的声音以上的声音信号传送出去，信号传送出去，50dB50dB以下的声音是听不到的。当同以下的声音是听不到的。当同时出现了时出现了B B声，由于掩蔽效应，使得声，由于掩蔽效应，使得A A声中的声中的68dB68dB以以下的声音是听不到了，可以不予传送，只是传送下的声音是听不到了，可以不予传送，只是传送50dB50dB以上的信号。以上的信号。同时掩蔽时，掩蔽声越强，掩蔽作用越大；掩同时掩蔽时，掩蔽声越强，掩蔽作用越大；掩蔽声和被掩蔽声的频率越接近，掩蔽效果越明显，蔽声和被掩蔽声的频率越接近，掩蔽效果越明显，当频率相同时，掩蔽效果最大。当频率相同时，掩蔽效果最大。掩蔽效应的作用当只有A声时，必须将声压级在50dB4949 前向掩蔽：若被掩蔽声前向掩蔽：若被掩蔽声A A出现后，相隔出现后，相隔(0.05s,2s)(0.05s,2s)之内出现了掩蔽声之内出现了掩蔽声B B，对，对A A起掩蔽作用，起掩蔽作用，因为因为A A声尚未被人所反应接收而强大的声尚未被人所反应接收而强大的B B声已来临。声已来临。短时掩蔽短时掩蔽前向掩蔽和后向掩蔽前向掩蔽和后向掩蔽后向掩蔽：掩蔽声后向掩蔽：掩蔽声B B即使消失后，其掩蔽作用即使消失后，其掩蔽作用仍将持续一段时间，约仍将持续一段时间，约(0.5s,2s)(0.5s,2s)，这时由于人耳，这时由于人耳的存储效应所致。的存储效应所致。前向掩蔽：若被掩蔽声A出现后，相隔(0.05s,2s50语谱图语谱图(Spectrogram)语音的时域分析和频域分析是语音分析的两种重语音的时域分析和频域分析是语音分析的两种重要的方法，但是这两种方法均有局限性：时域分析对要的方法，但是这两种方法均有局限性：时域分析对语音信号的频率特性没有直观的了解；而频域特性中语音信号的频率特性没有直观的了解；而频域特性中又没有语音信号随时间的变化关系。因此人们致力于又没有语音信号随时间的变化关系。因此人们致力于研究将时域分析和频域相结合，将时间依赖于傅立叶研究将时域分析和频域相结合，将时间依赖于傅立叶分析的显示图形称作为语谱图，横坐标为时间，纵坐分析的显示图形称作为语谱图，横坐标为时间，纵坐标为频率，谱的色调的浓淡表示声音的强弱。它综合标为频率，谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点，明显得展示了语音频谱了频谱图和时域波形的优点，明显得展示了语音频谱随时间的变化情况。随时间的变化情况。语谱图(Spectrogram)语音的51Band-pass filter1Band-pass filter2Band-pass filterNSpeechtimefrequencyBand-pass filter1Band-pass fil52Every salt breeze comes form the seaWide bandnarrowbandEvery salt breeze comes form t53Matlab 命令：specgramWideband spectrogram：给出共振峰频率给出共振峰频率Narrow spectrogram：基音周期及其谐波：基音周期及其谐波 specgram computes the windowed discrete-specgram computes the windowed discrete-time Fourier transform of a signal using a time Fourier transform of a signal using a sliding window.The spectrogram is the sliding window.The spectrogram is the magnitude of this function.magnitude of this function.Matlab 命令：specgramWideband spe54给出共振峰频率课件55 欢迎使用微软中国研究院中文语音合成系统欢迎使用微软中国研究院中文语音合成系统的时域波形和语谱图的时域波形和语谱图欢迎使用微软中国研究院中文语音合成系统56“毕业毕业”“毕业”57给出共振峰频率课件58THANKSTHANKS59

展开阅读全文

给出共振峰频率课件

最新文档