语音信号处理21

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章语音信号产生的数字模型,Speech Production Model,2.1,人类的语言器官和语音产生过程,2.3,语音信号产生的数字模型,2.4,语音信号的特性,2.5,人类的听觉功能,(speech perception),2.1,人类的语言器官和语音产生过程,人类的语音是由人体发音器官在大脑控制下的生理运动产生的。发音器官包括：肺，喉，声道等。空气由肺部排入喉部，经过声带进入声道，最后由嘴或鼻辐射出声波，形成了语音。,鼻腔,口腔,声带,声门,Muscle force,lung,Vocal cords,Nose output,Mouth output,Velum,Nasal cavity,Mouth cavity,The complete physiological mechanism of speech production,声道,excitation,speech,喉的生理结构,喉位于气管的上端，实际上是气管末端一圈软骨构成的一个框架，前方稍高处的软骨称为甲状软骨，前后方环成一圈的称为喉部环形软骨，喉中两片肌肉称为声带，声带之间的空隙为声门。,当声带张开时，声门打开，空气可自由呼出，正常呼吸就处于这种情况；当声带闭合，声门关闭。,甲状软骨,声门,声带,环形软骨,人的前方,喉,当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。,声带靠拢,Tp,基音周期,声带的开启和闭合称为振动。这一振动过程周而复始，形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的,a,、,i,、,u,和,o,等。,Glottal Closure instant,T,女声汉语拼音,a,的时域波形,Tp,基音周期,fundamental period,Voiced excitation,Unvoiced excitation,（声带不振动，声门开启）,男声汉语拼音声母,s,的时域波形,气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。,讲话时，由于舌和唇的连续运动，使声道形状改变，随即改变谐振频率，使得发不同的音。声道的不同的形状，对应不同的谐振频率。,声道,发音的三种方式,excitation,浊音（,voiced sounds,）,声带开启和闭合，在声门处产生一个准周期性脉冲序列,。,（,quasi-periodic sequence,）,清音（,unvoiced sounds,）,声带完全舒展开来，声道的某个部位发生收缩形成了一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近产生空气的湍流，类似于白噪声。,（,white noise,）,爆破音（,plosive/stop sounds,）,声带完全舒展开来，声道的某个部位完全闭合在一起，当空气流到达时便在此处建立起空气压力，一旦闭合点突然开启便会让气压快速释放，实际上也是一种空气的湍流。,（,white noise,）,F,0,=1/Tp,，,基音频率，由声带的质量来决定,。,F,0,的大小决定了声音的高低，称为音高。,男性的,F,0,大致分布在,：,50250Hz,女性和儿童的,F,0,大致分布在,：,100500Hz,基音频率,(Fundamental Frequency,pitch),F,0,鼻端,嘴唇,17cm,8.5cm,13cm,声道的无损模型,声道的谐振频率,format frequency,谐振频率发生在：,Fn=,（声道的横截面是均匀的，发元音,e,时，声道近似是均匀的。）,L=17cm,，声道的长度,n=1,2,3,称为第一共振峰,F1=500Hz,、第二共振峰,F2=1500Hz,、第三共振峰,F3=2500Hz,，,c=340m/s,2n-1,4L,c,基音频率,输出气流的频率,共振峰频率,女声英文,a,的频谱,男声汉语拼音声母,s,的频谱,一种声道形状对应一套共振峰,不同人的声道大小不同，共振峰不同,同一人，发不同音，共振峰也不同,总结,前三个共振峰的大致范围,（,Hz,）,共振峰,成年男子,成年女子,带宽,f1,200800,2501000,4070,f2,6002800,7003300,5090,f3,13003400,15004000,60180,时域波形：幅度时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。,女声汉语拼音,a,的时域波形,频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置。,女声英文,a,的频谱,鼻腔的作用,在软腭的帮助下，可使空气经过鼻腔排除人体外，由此产生的语音称为鼻音。如,n,、,ng,为鼻音韵母，,m,、,n,、,l,为鼻音声母。,鼻腔是一个谐振腔，由于形状固定，故其共振峰频率是确定的。,Muscle force,lung,Vocal cords,Nose output,Mouth output,Velum,Nasal cavity,Mouth cavity,The complete physiological mechanism of speech production,声道,excitation,speech,u,G,(,n,),A,v,冲激序列,发生器,声门脉冲,模型,G(z,),随机噪声,发生器,基音周期,T,P,A,u,清,/,浊音开关,浊音激励,清音激励,2.3,语音信号产生的数字模型,一、激励模型,声门脉冲滤波器,N,1,N,2,二、声道模型,(,共振峰模型,),短时线性系统,声道,V(z,),1.,级联型,(,元音,),V,1,V,2,V,3,V,4,V,5,声道是一组串连的二阶谐振器（一个谐振腔对应,1,个共振峰频率）。,每个,传输函数是一个全极点的,IIR,滤波器，这些极点确定了声管的共振峰。若,N,取偶数，,V(z,),一般有,N/2,对共轭极点，,r,k,exp(j2,F,k,T),，,k=1,N/2,。各个,w,k,值分别与语音的共振峰相互对应。,N,的取值一般为,8,12,。,a,i,z,-1,z,-1,b,i,c,i,传输函数,N,为极点个数，,G,是,增益参数,，,a,k,为常系数。,T,为采样周期,2.,并联型,(,大部分辅音,),传输函数，,零极点,IIR,滤波器,V,1,V,2,V,3,V,4,V,5,零极点,IIR,滤波器总是可以用全极点,IIR,滤波器来代替。因此可以用全极点模型来表示任何语音。,三、辐射模型,R(z,)=R,0,(1-z,-1,),唇端辐射损耗在高频端较为显著，而在低频端影响较小，,R(z,),应具有高通特性。对高频提升大约为每倍频程,6dB,。,四、完整的语音信号的数字模型,A,v,冲激序列,发生器,声门脉冲,模型,G(z,),随机噪声,发生器,基音周期,T,P,A,N,线性系统,声道,V,(,z,),辐射模型,R,(,z,),清,/,浊音开关,传输函数,传输函数的具体表达式：,模型的特点,在这个模型中，,T,P,、,A,v,、,A,N,、,清,/,浊音开关的位置以及声道滤波器的参数都是随时间而变化，在,10-30ms,的时间间隔内是保持不变的。这种特性称为短时性。,对于激励信号而言，大部分情况下，这一结论也是正确的，但有些音变化速度特别快，爆破音，取,5ms,比较更为恰当。,2.4,语音信号的特性,一、语音的声学特性,语音是发声器官发出的一种声波，具有一定的音色、音调和音强和音长。,音色,:,又称为音质，是一种声音区别于另一种声音的基本特性。,音调：声音的高低，取决于声波的频率,音强：声音的强弱，它由声波的振动幅度所决定,音长：发音时间的长短,（,1,）音系简单，,在汉语中一个字就是一个音节，由一般为,2,3,个音素组成，而且具有音素少、音节少。英语中一个单词由若干个音节组成，一般为,2,3,个，一个音节由若干个音素组成，一般为,1,4,个。,（,2,）清辅音多，在听感上有清亮、高扬和舒服、柔和的感觉。,（,3,）有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。,汉语语音的特点,在汉语中，由元音和辅音构成声母和韵母。,二、汉语的拼音方法,声母：一个音节开始的辅音，声母完全由辅音充当，但辅音不等于声母，因为辅音还可以作为韵尾放在音节的末尾。,b,、,p,、,m,、,f,、,d,、,t,、,n,、,l,、,g,、,k,、,h,、,j,、,q,、,x,、,zh,、,ch,、,sh,、,z,、,c,、,s,、,r,韵母：在音节中占主要部分，音节中除了头上的声母以外的部分，由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。,a,、,o,、,e,、,i,、,u,、,、,单韵母（元音）,ai,、,ei,、,ao,、,ou,、,ia,、,ie,、,iao,、,iou,、,ua,、,uo,、,uai,、,uei,、,e,复韵母,an,、,en,、,ang,、,eng,、,ong,、,ian,、,in,、,iang,、,ing,、,iong,、,uan,、,uen,、,uang,、,ueng,、,an,、,n,鼻韵母,i,表示,3,个韵母，即韵母、舌尖前韵母和舌尖后韵母。,韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式，它们是区别不同韵母的重要参数。,区别不同韵母的重要参数,声母、韵母和声调是汉语语音的三要素。汉语语音的一个不同于其他语言的是它具有声调（音调）。声调是,1,个音节在念法上的高低升降的变化，汉语中有,4,个声调，即阴平（）、阳平（,）、上声（,）、和去声（,）。,三、汉语音节的一般结构,声调的变化就是浊音基音周期的变化，,为了将调值描写地具体一些，一般采用,“,五度标记法,”,，用一条竖线表示声音的高低，从上而下用,1,、,2,、,3,、,4,、,5,依次表示低、半低、中、半高、高,。,5,高,4,半高,3,中,2,半低,1,低,阴平,阳平,上声,去声,调类,阴平,阳平,上声,去声,调值,55,35,214,51,四、,语音信号的统计特性,语音信号振幅分布的概率密度有两种逼近方法：,修正伽玛（,Gamma,）分布概率密度函数：,拉谱拉斯（,Laplace,）分布概率密度函数,:,人类接收语音由人耳来完成，空气振动由耳廓收集，经外耳道而抵达鼓膜，鼓膜随之振动，使鼓室中的空气和听骨链也发生振动，听骨链的振动经,前庭窗（,卵圆窗,）,激励前庭淋巴，变为液波，液波使位于基底膜上的螺旋器受到刺激，将神经冲动经听神经传到中枢而产生听觉。,2.5,人类的听觉功能,正常人的听觉系统是极为灵敏的，可听声的范围为,20Hz-20kHz,。,可听声的最小声压级,(,dB,),称为听阈。,-5,130dB,，,对低频和高频是不敏感的，听阈为,60dB,，在,1kHz,附近最敏感。,如果信号是一个多频率的信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度，从这个意义上讲，耳蜗就像一个频谱分析仪，将复杂信号分解成各种频率分量，这种作用称为人耳,的时频分析特性。,耳蜗在语音接收过程起着重要的作用。,耳蜗对声信号的时频分析特性,人工耳蜗是一种电子装置，能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官，把声音转换成编码的电信号传入内耳耳蜗，刺激分布在那里的听神经，再由大脑产生听觉。,人工耳蜗,麦克风接收声音，并通过导线将其传至言语处理器；言语处理器对声音进行数字化、滤波编码等处理，并将编码信号经导线传至传输线圈；传输线圈将编码信号通过耦合传至皮下的接收器；接收器对编码信号进行解码；按信号选择一定位置的电极，刺激耳蜗内的听神经纤维，使其产生兴奋，将信号传入大脑，产生听觉。,人工耳蜗的工作原理,人耳的掩蔽效应,人耳的掩蔽（,masking phenomenon,）效应,:,在一个强信号附近弱信号将变得不可闻，被掩蔽掉了。,掩蔽阈值,被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值（,masking threshold,）,在这个掩蔽阈值以下的声音将被掩蔽掉。,掩蔽效应分为同时掩蔽,(,频域掩蔽,),和短时掩蔽（时域掩蔽）。同时掩蔽是指存在一个弱信号和一个强信号，当其频率接近时，强信号会提高弱信号的阈值，就会导致弱信号变得不可闻。,1kHz,的听阈,1dB,20dB,4dB,可闻声,3dB,不可闻声,图形描述,同时出现的,A,声和,B,声，若原来,A,声的阈值为,50dB,由于另一个频率不同的,B,声的存在使得,A,声的阈值提高了,68dB,则,B,声称为掩蔽声，,A,声称为被掩蔽声。掩蔽量为,68dB,50dB,18dB,。,数学描述,掩蔽效应的作用,当只有,A,声时，必须将声压级在,50dB,以上的声音信号传送出去，,50dB,以下的声音是听不到的。当同时出现了,B,声，由于掩蔽效应，使得,A,声中的,68dB,以下的声音是听不到了，可以不予传送，只是传送,50dB,以上的信号。,同时掩蔽时，掩蔽声越强，掩蔽作用越大；掩蔽声和被掩蔽声的频率越接近，掩蔽效果越明显，当频率相同时，掩蔽效果最大。,前向掩蔽：若被掩蔽声,A,出现后，相隔,(0.05s,2s),之内出现了掩蔽声,B,，对,A,起掩蔽作用，因为,A,声尚未被人所反应接收而强大的,B,声已来临。,短时掩蔽前向掩蔽和后向掩蔽,后向掩蔽：掩蔽声,B,即使消失后，其掩蔽作用仍将持续一段时间，约,(0.5s,2s),，这时由于人耳的存储效应所致。,语谱图,(,Spectrogram),语音的时域分析和频域分析是语音分析的两种重要的方法，但是这两种方法均有局限性：时域分析对语音信号的频率特性没有直观的了解；而频域特性中又没有语音信号随时间的变化关系。因此人们致力于研究将时域分析和频域相结合，将时间依赖于傅立叶分析的显示图形称作为语谱图，横坐标为时间，纵坐标为频率，谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点，明显得展示了语音频谱随时间的变化情况。,Band-pass filter1,Band-pass filter2,Band-pass,filterN,Speech,time,frequency,Every salt breeze comes form the sea,Wide band,narrowband,Matlab,命令：,specgram,Wideband spectrogram,：,给出共振峰频率,Narrow spectrogram,：基音周期及其谐波,specgram,computes the windowed discrete-time Fourier transform of a signal using a sliding window. The spectrogram is the magnitude of this function.,欢迎使用微软中国研究院中文语音合成系统,的时域波形和语谱图,“毕业”,T,H,A,N,K,S,

展开阅读全文

语音信号处理21

最新文档