语音信号处理课件作业.ppt

资源描述

第02章基础知识1,第2章语音信号基础知识,人类的语言器官语音产生过程语音信号产生的数字模型语音信号的特性人类的听觉功能,第02章基础知识2,1.人类的语言器官,人类能以语言沟通，进而累积知识，形成文化，其中一个主要的原因，就是人类具有较其它生物优越的发音器官。人类的发音器官能够产生多样性的声音，构成丰富的词汇，无疑是最关键的因素。声音是一种波，能被人耳听到，它的振动频率在2020000Hz之间。,1、人类的语言器官,第02章基础知识3,1.人类的语言器官,人体发音器官肺、气管、喉（包括声带）和声道，肺是语音产生的能源所在；声带为产生语音提供主要的激励源；声道是指声门至嘴唇的所有器官：咽、鼻腔、口腔等，它们具有非均匀截面，且随时间变化，起共鸣器（或谐振器）的作用。,1、人类的语言器官,第02章基础知识4,1.人类的语言器官,图2-1人类的发音器官,注：喉部以上的部分统称为声道；气管和肺在声门以下,1、人类的语言器官,第02章基础知识5,1.人类的语言器官,图2-2最重要的发音器官之一：声带,(a)闭合状态(b)张开状态,甲状软骨杓状软骨环状软骨声门声带,1、人类的语言器官,第02章基础知识6,2.语音产生过程,肺,声带,声道,直流气流,声音,嘴唇,声压波,速度波,能源,激励源,谐振源,辐射源,交流气流,2、语音信号产生过程,第02章基础知识7,声门气流和嘴部声压,2、语音信号产生过程,第02章基础知识8,物理模型,2、语音信号产生过程,第02章基础知识9,2.语音产生过程,语音的形成过程空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，形成语音。浊音(Voicedsounds)：声带绷紧，气流通过时会使得开口变成一开一闭的周期性动作，这时候就造成周期性的激发气流，如a，o；清音（UnvoicedorFricativesounds）：声带完全舒展，声道某部位收缩形成一个狭窄的通道，产生空气湍流，如t，d；爆破音：声带完全舒展，声道的某部位完全闭合，一旦闭合点突然开启，空气压力快速释放，如b，p。能被人耳听到，它的振动频率在2020000Hz之间,2、语音信号产生过程,第02章基础知识10,2.语音产生过程,语音的两个重要声学特性：浊音的基音频率(F0)：由声带的尺寸、特性和声带所受张力决定，其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80500Hz左右。共振峰(Fn,n=1,2,.)：声道是一个谐振腔，它放大声音气流的某些频率分量而衰减其他频率分量，被放大的频率我们称之为共振峰或共振峰频率。声道具有的一组共振峰，声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。实际应用中，头三个共振峰最重要,越多越精确。,2、语音信号产生过程,第02章基础知识11,口腔对声源频谱的调制共振峰,2、语音信号产生过程,第02章基础知识12,共振峰是声道的重要声学特性。声道对于一个激励信号的响应，可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性，它决定信号频谱的总轮廓，或称谱包络。语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性，即音色。元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。在声学语音学中通常考虑F1和F2，但在语音识别技术中至少要考虑三个共振峰，而在语音合成技术中考虑五个共振峰是最为现实的。声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数，称为声道截面积函数，它决定共振峰的特性。,第02章基础知识13,前三个共振峰的频率范围,2、语音信号产生过程,第02章基础知识14,2.语音产生过程,理想状态下共振峰的计算：假设声道截面是均匀的（此时可把声道看作一个粗细均匀的圆筒），从喉到唇的距离L=17cm，音速c=340m/s，则共振峰将发生在：谐振频率发生在500Hz的奇数倍,2、语音信号产生过程,第02章基础知识15,3.语音信号产生的数字模型,在研究了发声器官和语音的产生过程以后，便可以建立一个离散时域的语音信号产生的数字模型，它将是我们将数字信号处理技术应用于语音信号的基础。下图是一个完整的语音信号产生的数字模型：,3、语音信号产生的数字模型,第02章基础知识16,语音产生模型(SpeechProduction/GenerationModel),4、语音信号的特性,第02章基础知识17,语音信号(SpeechSignal),4、语音信号的特性,第02章基础知识18,数字语音信号表示（RepresentationsofSpeechSignals）,4、语音信号的特性,第02章基础知识19,(1)激励模型,由此模型框图，我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出，此模型可分为三个部分：激励模型、声道模型、辐射模型激励模型根据发浊音和发清音的机理又分为：(a)浊音激励(b)清音激励,3、语音信号产生的数字模型,第02章基础知识20,(a)浊音激励由前面所讲发音过程可知，发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波，其周期为基音周期，单个脉冲的波形类似于斜三角波，故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入，其输出就是浊音激励。由于人类语音的频率范围主要集中在300Hz3400Hz，数字模型中的信号取样率一般为8KHz。,3、语音信号产生的数字模型,(1)激励模型,第02章基础知识21,由图可见，它是一个低通滤波器。频率分析表明，其幅度谱按12dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型的形式，有G(z)1/(1-g1z-1)(1-g2z-1)如果g1和g2的值都接近于1，则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然，上式表明斜三角波可描述为一个二阶极点的模型。需要指出，不同人、不同语音，其声门脉冲的形状不一定相同，但在语音合成中对其形状要求不很苛刻，只要其傅里叶变换有近似的特性就可以了。,第02章基础知识22,周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式E(z)AV/(1-z-1)(2-5)所以整个激励模型可表示为U(z)G(z)E(z)AV/(1-z-1)1/(1-g1z-1)(1-g2z-1)(2-6),3、语音信号产生的数字模型,(1)激励模型,第02章基础知识23,(b)清音激励发清音时声道被阻碍形成湍流，所以可把清音激励模拟成随机白噪声。此处用均值为0方差为1并在幅值上为平稳分布的序列,具体实现时可采用随机噪声发生器来产生此序列。,3、语音信号产生的数字模型,(1)激励模型,第02章基础知识24,(2)声道模型两种建模方法：(a)声管模型(b)共振峰模型共振峰模型将声道视为一个谐振腔，按此原则导出。基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型：(a)级联型(b)并联型(c)混合型,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识25,(a)级联型：适用于一般单元音,认为声道是一组串联的二阶谐振器：,这是一个全极点模型，极点就是这个多项式的根：,若P为偶数，解其根会得到共扼复数(conjugatecomplex)的根，表示成：,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识26,F=1/T-取样频率i/-共振峰的频宽。Fi是-共振峰(formant)的中心频率,这样分解则每一个二阶因式均对应一个共振峰，其幅频特性是典型的二阶谐振特性，谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型，且具有明显的谐振特性。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识27,(b)并联型适用于鼻音、复合元音及大部分辅音，发这些音时发音腔体具有反谐振特性，必须在模型中加入零点以减弱谐振强度，故要考虑用零、极点模型：,通常PR，假设分子与分母无公因子且分母无重根，则此式可分解为以下部分分式之和的形式：,这就是并联型共振峰模型，每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识28,前面两种共振峰模型各自都只能适用于部分语音，级联或并联的级数取决于声道的长度，一般成人取3到5级。级联型结构较为简单，并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识29,(c)混合型我们可以根据发音的需要自动切换串联或并联通路，此外并联部分还有一条直通路径，其幅度控制因子为AB，这是专为一些频谱特性较为平坦的音素如f、p、b而考虑的，以增强反谐振特性。,3、语音信号产生的数字模型,(2)声道模型,第02章基础知识30,在发音腔道内形成的气流经由嘴唇端辐射出来，到达听者耳朵的这段过程，声音信号会衰减，而且有高通滤波的特性，我们常用一个一阶的数字高通滤波器拟这个现象，这个滤波器又叫做辐射模型(radiationmodel)，其数学式如下,完整的数字模型的系统函数由激励模型、声道模型和辐射模型的级联来表示：,3、语音信号产生的数字模型,(3)辐射模型,第02章基础知识31,第02章基础知识32,总结：,1.到此为止组成语音产生的数字模型的三个组成部分己介绍完毕。此模型并非最完备的模型，因为它对一些音是不适用的如浊音中的摩擦音，这种音要有发浊音和清音的两种激励，而不是简单的叠加关系，对这些音我们可用更精确的模型来模拟。2.语音产生的数字模型中增益控制（对Av或AN）代表了输出语音的音响强度；时变线性系统主要用来模拟声道的特性；3.数字语音处理中两个基本问题，即语音分析和语音合成，都是基于这个模型来实现的；4.此数字模型的特点：系统参数固定不变短时分析；全极点性质零点可由多个极点逼近；激励源和声道互相独立适用于大多数数字语音处理。,3、语音信号产生的数字模型,第02章基础知识33,4.语音信号的特性,语音学和语言学概要语音的声学特性语音的时间波形和频谱特性语音信号的统计特性,4、语音信号的特性,第02章基础知识34,4.1语言学和语音学概要,对语音学和语言学的详尽讨论对我们来讲离题太远，但是对语音信号加以处理以改善或提取信息时，如果我们对语音信号的结构(信号中信息编码的方法)有尽可能多的知识则是很有帮助的。1.语言学：是以人类的语言为研究对象的一门科学，主要对控制语音中各个音的排列规则及其含义进行研究。语言(Language)是从千百万个人的言语(Speech)中概括总结出来的规律性的符号系统。所以，研究语言首先要了解一下人的言语(说话)过程。,4、语音信号的特性,第02章基础知识35,4.1语言学和语音学概要,图3-1人的说话过程分为五个阶段,(1)想说阶段：人的说话首先是客观现实在大脑中的反映，经大脑的决策产生了说话的动机；接着讲话神经中枢选择恰当的单词、短语以及按语法规则的组合，以表达他想说的内容和情感。这个阶段与大脑中枢的活动有关。,(2)说出阶段：由上阶段中枢的决策，以脉冲形式向发音器官发出指令，使它们各自相关的肌肉协调地动作发出声音来。另外还开动另一个“反馈系统”即讲话者的听觉系统，来帮助修正语音。,(3)传送阶段：说出来的话语是一连串的声波，凭借空气为媒介传到听话者耳中。,(4)接收阶段：听话者从外耳收集到的声波信息，经过中耳的放大作用，到达内耳，经内耳基底内膜振动转化为耳蜗内的毛细胞的电位变化，由听觉神经传给大脑。,(5)理解阶段：讲话者大脑听觉神经中枢收到脉冲信息后，辨认出说话的人及其所说的信息，从而听懂讲话者的话。,4、语音信号的特性,第02章基础知识36,4.1语言学和语音学概要,从五个阶段来看，言语的过程包含着相当复杂的因素，其中有心理的、生理的、物理的以及个人的和社会的因素。这里，个人的因素还指讲活者的口音和用词造句的特色以及听话者的听音和理解能力；社会的因素则是指讲话者和听话音对用于进行交际的手段有共同的理解的社会基础。语言是从言语中概括出来的一个符号系统。包括形式和内容两个方面，即语音的形式和语义的内容。将这两个基本要素相结合起来，可以构成语言的语素、词、短语和句子等的不同层次的单位；这个构成规则就是语法。目前我们可以利用语法和语义信息减小语音识别中搜索匹配范围，提高语音识别率。,4、语音信号的特性,第02章基础知识37,4.1语言学和语音学概要,2.语音学：研究语音中各个音的物理特征和分类的学科。从某种意义上讲，语音学与语音信号处理这门学科联系更紧密。大多数语言包括汉语在内可以用一组不同的音即音素来加以描述。对于汉语来说约有六十个音素,包括元音、复合元音和辅音。研究语音学的途径有很多种,例如语言学家研究音素的不同特性或特征。而对我们来讲,只要研究不同的声学特征就够了,这包括发音的部位、姿态、波形和这些声音的频谱即语谱特征。本章后面几个话题均以语音学为基础。,4、语音信号的特性,第02章基础知识38,4.2语音的声学特性,1.物理属性音色、音调、音强和音长；音色：也叫音质，是一种声音区别于另一种声音的基本特征，是由声道的位置和形状决定。音调：声音的高低，决定于声波的频率的高低,而声波频率的高低又由语音的基音频率F0所决定。F0高则音调高，低则音调低。一般说来,老年男性音调偏低，小孩和青年女性音调偏高。音强：声音的强弱，由声波的振幅所决定。音长：声音的长短，取决于发音时间的长短。,4、语音信号的特性,第02章基础知识39,4.2语音的声学特性,2.语音的构成音节(syllable)、音素音素(phoneme)：语音发音的最小单位。分类：(1)国际标准分类清音：发清音时声带不振动。浊音：发浊音时声带振动。(2)我国传统分类元音（韵母）：是当声带振动发出的声音气流在声道中不受阻碍,这种情况下产生的语音称为元音。元音属于浊音。辅音（声母）：从声门呼出的声音气流，在声道通路中某一部分封闭起来或受到阻碍不能畅通，为克服发音器官的这种阻碍而产生的语音称为辅音。,4、语音信号的特性,第02章基础知识40,4.2语音的声学特性,音节：说话时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段。一个音节可由一个音素或几个音素构成。音节最典型的结构，就是以一个元音或双元音(diphthong)为主体，其前面或后面可能连接一个或多个辅音。3.汉语语音的特点声、韵、调，音节在汉语中占有主要地位，它是由声母、韵母和声调按一定的方式构成的，是语言的最小使用单位；音节结构简单，与其它语言相比汉语语音音节和音素都很少。,4、语音信号的特性,第02章基础知识41,4.2语音的声学特性,4.语义：语音总是和一定的意义相联系着，一定的语音要表达一定的思想和意义；另外，语音还能表达出一定的语气、情感，甚至表达许多“言外之意”。5.元音的共振峰特性：元音构成一个音节的主干，无论从发音长度还是从能量看，元音在音节中都占主要部分。所以有必要在此研究一下元音的共振峰特性或者说研究其频谱特性。,4、语音信号的特性,第02章基础知识42,4.2语音的声学特性,影响元音共振峰特性的发音机制：(1)舌头的形状；(2)舌头在口腔中的位置，简称舌位；(3)嘴唇的形状，即口形；其中由舌位的高低前后位置改变，可以发出不同的音素，也就是说舌位与元音的共振峰特性有密切关系。,4、语音信号的特性,第02章基础知识43,4.2语音的声学特性,图4-1汉语单元音舌位梯形图,(1)F1与舌位高低有关，舌位越高F1越低；由于舌位越低嘴张得越大,也称舌位高低为开口度。(2)F2与舌位前后密切相关，舌位越靠前F2就越高。(3)F1、F2和嘴唇的圆展程度有关，嘴唇越圆,F1、F2越低。(4)F3与舌位关系不密切，但受舌尖活动影响；舌尖抬高卷起时F3就明显下降。,4、语音信号的特性,第02章基础知识44,各种语音表示的信息率,4、语音信号的特性,第02章基础知识45,4.3语音的时间波形和频谱特性,语音可以直接用它的时间波形来表示，根据时间波形可以看出语音信号的一些主要特性。就其本性而言，语音波形是时间的连续函数，是随时间而变化的，但比较缓慢,1030ms,4、语音信号的特性,第02章基础知识46,4.3语音的时间波形和频谱特性,语音的频谱特性由声道的形状和尺寸决定，随时间变化短时谱（清浊音的不同、对数和线性振幅谱）；语谱图（浊音和清音的不同、宽带和窄带语谱图）,4、语音信号的特性,第02章基础知识47,4.3语音的时间波形和频谱特性,左图中的u(n)就是前面所讲的声音激励ug(n),由于声门波脉冲模型g(n)引入两个极点，故在语音信号约0.8至1.0kHz以上的频率造成12db/倍频程的衰减,4、语音信号的特性,第02章基础知识48,4.3语音的时间波形和频谱特性,语音信号时域波形示意图:静息波脉冲波（清塞音）准周期波（浊音）噪声波（摩擦音）,4、语音信号的特性,第02章基础知识49,4.3语音的时间波形和频谱特性,图4-2声音的语谱图,4、语音信号的特性,第02章基础知识50,4.3语音的时间波形和频谱特性,窄频带的语谱图(narrowbandspectrograms)语谱图的产生是用傅里叶转换(Fouriertransform)，当我们用较长的分析窗口(analysiswindows)，约20ms，对应频宽约为45Hz，得到的频率分辨率较高，频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条，其间距就是基频(F0)。,4、语音信号的特性,第02章基础知识51,4.3语音的时间波形和频谱特性,宽频带的语谱图(widebandspectrograms)若是在转换演算时用较少的取样点，分析窗口大约3ms，对应频宽约300Hz，则频谱上看不到谐振成分，在语谱图上看不到等距的黑白相间。频率分辨率较低，反而是时轴上的分辨率较高，看到明显的垂直线条。,4、语音信号的特性,第02章基础知识52,4.3语音的时间波形和频谱特性,共振峰(formant)在频域上，能量集中处就是共振峰(formant)之所在，在语谱图上就是颜色较深的位置。在发元音时，音强较大，声带振动而呈现出基频及其谐振频率，也可以明显看到共振峰，能量集中在低频。如果是发辅音，而且声带不振动，就看不到谐振频率。通常辅音的音强小，颜色看来就比较淡，而且能量较集中在高频。若是在没有语音的空档，则语谱图上呈现的，就是有一段空白。,4、语音信号的特性,第02章基础知识53,4.3语音的时间波形和频谱特性,元音与辅音的声学特性(一)元音发元音的声音时，声带是振动的，音强也较大，波形上可以看到大的振幅，而且呈现周期性。其周期就是音高周期，对应的频率就是基频，通常以F0表示。正常说话时，元音的音长大约是50到400ms之间。元音在频谱上会呈现能量集中的现象，集中处的频带称为共振峰。在5kHz的语音频带范围内，会有5个共振峰，分别以F1F2F3F4与F5代表，其中F1F2与F3比较明显。,4、语音信号的特性,第02章基础知识54,4.3语音的时间波形和频谱特性,图4-3三个元音的语谱图（分别对应汉语拼音的元音i,a,u）,4、语音信号的特性,第02章基础知识55,4.3语音的时间波形和频谱特性,图4-4双元音在语谱图上共振峰转移(过渡)的现象分别对应汉语拼音的双元音ai,ei,ao,ou,4、语音信号的特性,第02章基础知识56,4.3语音的时间波形和频谱特性,(二)辅音辅音是对元音的前或后作修饰。带声的辅音会有类似元音的共振峰，因为声带振动，所以和元音一样有谐振的成分，但相对于元音，能量小得多。不带声的摩擦音（如f,s,sh,x,h）类似噪音，能量倾向在高频。发鼻音时，鼻腔的共振效果使得低频成分受到压抑，虽然是声带振动而有共振峰，但低频的共振峰能量较弱。下图分别对应汉语拼音辅音：b,p,m,f,j,q,x,zh,ch,sh,4、语音信号的特性,第02章基础知识57,4.3语音的时间波形和频谱特性,图4-5塞音（或爆破音）出现在元音前的例子下图分别对应ba,da,ga,pa,ta,ka,在一个音节的开始若有塞音，当气流放出之后，随着就发元音，声带开始振动，在语谱图上可以观察到一小段时间之后，才有明显的共振峰出现，这一小段时间就叫做嗓音的起始时间(voiceonsettime)，简称VOT。,返回,4、语音信号的特性,第02章基础知识58,4.4语音信号的统计特性,语音信号可以看成是一个遍历性随机过程的样本函数；语音信号的统计特性可以用它的振幅概率密度函数和一些平均量（均值和自相关函数）来描述概率密度的估算、逼近方法及意义；自相关函数的估计及影响因素（语音段和滤波情况）；语音信号的统计特性也可以用功率谱来描述长期平均功率谱可以用周期图来估计；,4、语音信号的特性,第02章基础知识59,语音信号时域波形,4、语音信号的特性,第02章基础知识60,语音信号的波形与频谱,4、语音信号的特性,第02章基础知识61,语音波形幅度分布,4、语音信号的特性,第02章基础知识62,基频变化范围,4、语音信号的特性,第02章基础知识63,元音(Vowels),由固定声道形状产生，可持续的声音声带振动浊音声道的截面积决定了元音的频率响应和声音质量舌的位置（高度，前后），唇的形状对确定元音发音有重要的作用一般持续期相对长（歌唱时可以保持的），有规则的频谱形状,4、语音信号的特性,第02章基础知识64,元音的产生,4、语音信号的特性,第02章基础知识65,美式英语中元音,4、语音信号的特性,第02章基础知识66,元音发音器官形状,4、语音信号的特性,第02章基础知识67,元音波形与谱图,4、语音信号的特性,第02章基础知识68,元音共振峰平均,4、语音信号的特性,第02章基础知识69,元音持续期,4、语音信号的特性,第02章基础知识70,第02章基础知识71,5.人类的听觉功能,用语言作沟通，就是说话的人能让对方听懂他在说些什么，双方用说与听来达成信息交换与感情交流。而语言的学习过程，更是不断地听，然后学习会说，所以语言与听觉有密切的关联性。本节将说明人类听觉器官的构造，以及如何听声音。并且对于人耳在听觉上的一个重要特性，听觉掩蔽效应做了简要叙述，这是语音处理中常常会用到的听觉特性。,5、语音感知,第02章基础知识72,语音通信SpeechCommunication,5、语音感知,第02章基础知识73,听觉系统中声音表示框图,5、语音感知,第02章基础知识74,听觉器官,5、语音感知,第02章基础知识75,语音感知模型(SpeechPerceptionModel),5、语音感知,第02章基础知识76,5.人类的听觉功能,外耳从耳翼(pinnas)到鼓膜(eardrum)这一段叫做外耳。耳翼的功能在帮助判断声音的来源方向，它对于听者前方来的声音比较敏感。耳翼到鼓膜之间的通道叫做耳道（meatus)，这是一个长约2.7公分直径约0.7公分的通道。对于声波的传播而言，这条通道等于是一个四分之一波长的共振腔，它的第一个共振频率大约是3kHz，这个共振作用将35kHz的声波放大15dB左右，因此使得我们的听觉对于35kHz的频率范围比较敏感。,5、语音感知,第02章基础知识77,5.人类的听觉功能,中耳在鼓膜与耳蜗之间有一个大约6立方公分的小空间，称之为中耳。在这个小空间内，有三块小骨头，分别是槌骨(hammer，或称为malleus)，砧骨(anvil或称为incus)与镫骨(stapes，或称为stirrup)。槌骨黏接在鼓膜上，声波造成的空气振动会使鼓膜振动，进而推动槌骨的振动，镫骨贴在耳蜗的椭圆形窗(ovalwindow)上，槌骨的振动经过砧骨与镫骨的传递，将振动信号传到耳蜗内的淋巴液，所以中耳可以看成是声波到淋巴液的信号转换，在此转换过程中，对于1kHz以上的信号做了-15dB/10倍频程的衰减，可以看成是一个低通滤波器(lowpassfilter)。,5、语音感知,第02章基础知识78,5.人类的听觉功能,人类在分辨声音时，是取决于频域上的分辨率，听觉器官等于是将时域的声音波形转换成在频域的频谱，能否听到声音或分辨声音，是取决于音强(intensity)与频谱(spectrum)。一般人的听觉器官可以感知频率范围16Hz到18kHz的声音，动态范围约1000倍。超出人类听觉感知范围，如20kHz以上的声波，我们称之为超音波(ultrasonic)。人耳对于1kHz到5kHz的声音最为敏感，但是对于1kHz以下与5kHz以上的声音，就要较大的音强才听得到。,5、语音感知,第02章基础知识79,5.人类的听觉功能,图5-4人类听觉的范围,5、语音感知,第02章基础知识80,5.人类的听觉功能,掩蔽效应(maskingeffect)当一个声音存在时，它会将另一个声音的感知临界值提高，也就是说当某一频率的声音，有一特定音强存在时，另一个不同频率的声音要将音强提高才会被听到，这就是听觉掩蔽效应。同时存在的声音，常常是低频的声音倾向于掩蔽掉高频的声音，这是一种频率掩蔽(frequencymasking)的现象。某一段时间存在一个声音，在此声音刚结束的一小段时间内，其它的声音会听不见这种掩蔽现象叫做时间掩蔽(temporalmasking)。这个现象也会发生在此存在声音之前，这是由于声音在听觉器官中传递时延迟所造成的。,5、语音感知,第02章基础知识81,5.人类的听觉功能,图5-5频率掩蔽的情形,5、语音感知,第02章基础知识82,听觉/感知的黑匣模型,5、语音感知,第02章基础知识83,听阈,听阈定义成在一频率下刚刚能被听到的纯音的强度级听阈0dB,在1000Hz感觉阈120dB痛阈140dB直接损伤160dB阈值随频率变化，因人而异最大灵敏点在大约3000Hz,5、语音感知,第02章基础知识84,响度与响度级,响度(Loudness,L)是一种主观心理量，人类主观感觉到的声音强弱程度一般说，声音频率一定时，声强越强则响度越大，但响度与频率有关，相同声强，频率不同时响度也可能不同响度可以像声强一样用相对值表示，即响度级(LoudnessLevel,LL)。它以1000Hz纯音的声强级来表示。响度级是表示响度的主观量，它是以1000赫兹的纯音作为基准，其噪声听起来与该纯音一样响时，就把这个纯音的声压级称为该噪声的响度级，单位为方（phon）。例如一个噪声与声压级是85分贝的1000赫兹纯音一样响，则该噪声的响度级就是85方。响度级是一个相对量，不能直接进行加减运算，为了计算绝对值和百分比，引入一个响度单位宋（Sone）。1宋是频率为1000赫兹、声压级为40分贝的纯音的感觉反应量，即：40方为1宋。响度级每增加10方，响度相应改变1倍，50方为2宋，60方为4宋，等等。,5、语音感知,第02章基础知识85,听觉系统与语音感知小结,耳朵的行为如一个声道，传感器，频谱分析器耳蜗类似于一个多通道的，对数间隔的，恒定Q值的滤波器组频率和沿基底膜的位置被内耳细胞传感成事件来表示，这些事件再由脑处理，因此使声音非常鲁棒于噪声及回波听觉从听阈到痛阈横跨巨大的范围，感知属性尺度和物理属性有很大的不同，如loudness,pitch掩蔽能隐藏纯音或噪声，形成感知编码的基础（MP3）感知和可懂度是难于量化的概念，但他们对理解语音处理系统的性能又是非常关键人耳能感知声音频谱，还有声音方向（双耳效应，cocktailpattyeffect),5、语音感知,第02章基础知识86,作业,1、什么是共振峰频率？它跟什么有关？什么是音色？它跟共振峰频率有什么关系？2、什么是语音信号分析中采用的“预加重”和“去加重”技术？3、汉语语音有哪些不同于英语的特点？它有多少音素？多少音节？4、什么是声音三要素？它们的含义分别是什么？,

展开阅读全文