数字语音处理基础.ppt

上传人:max****ui 文档编号:14551654 上传时间:2020-07-23 格式:PPT 页数:65 大小:4.31MB
返回 下载 相关 举报
数字语音处理基础.ppt_第1页
第1页 / 共65页
数字语音处理基础.ppt_第2页
第2页 / 共65页
数字语音处理基础.ppt_第3页
第3页 / 共65页
点击查看更多>>
资源描述
大连海事大学 信息科学技术学院 光电信息工程研究所,主讲人:乌旭 E-Mail: Tel: 86958567,语音信号处理,第二章 数字语音处理基础,2.1 语音信号的基本特性 2.2 发音的生理器官与过程 2.3 听觉和感知 2.4 语音信号的特性分析方法简介 2.5 语音学基础及波形特征,2.1 语音信号的基本特性(1),语音信号(Speech Signal): 一般地,语音信号是指由人的发音器官所发出的声音信号;广义 地说,我们所研究地语音信号可能包括人或其他动物所发出的声音信 号以及环境噪声和其他机械装置(如乐器)所产生的声音信号。其能 量(信息)主要集中在 04000Hz带宽范围内。 音频信号(Audio Signal): 人的听觉系统所能感知的声音信号,其频率范围在2020,000Hz。 电话语音信号 由于语音信号的能量主要集中在04000Hz的频带内,因此传统的电 话语音通信系统中采用3003400Hz的带通滤波器来限制通过电话网络传 输的语音信号。 语音信号处理研究的对象主要还是由人的发音器官所产生的语言声音信号。,语音信号的基本特征: 频谱分量集中在3003400Hz 短时平稳性 在 550ms 的短时内,信号的其本特征具有平稳性: 能量 过零率 频谱 周期性 语音信号的组成结构 音素是语音信号的基本组成单位。 音素(Phoneme)- 音节(Syllable)- 词(Word)-句子(Sentence),元音(Vowel),辅音(Consonant),音素,音素,浊音 (Voice),清音(UnVoice),静音 (Silence),2.1 语音信号的基本特性(2),浊音 声带振动 有周期性 频谱上表现出共振峰特性 清音 声带不振动 频谱上有噪声特性 静音 环境噪声产生的信号,与人的发音系统无关,2.1 语音信号的基本特性(3),清音与浊音,浊音(Voiced Speech ) 声带的振动产生准周期的声门脉冲激励声道产生浊音; 在时域是准周期的(quasi-periodic),在频域具有谐波结构; 周期脉冲的频率就是基频(Fundamental Frequency)或基音(Pitch); 清音(Unvoiced Speech ) 当气流在声道中受到阻碍时,产生湍流,此时生成清音。 清音在时域类似随机噪声,在频域具有宽带特征;,语音信号的时域波形,时变特性: 有时准周期性 、有时随机噪声特性 平稳性:在短时内保持相同特性 幅度特性:幅度时大时小,男人可以在社会上参加一切活动,男。人,可。以。,语音信号的短时谱(1),语音短时谱:从语音信号流中利用加窗的方法取出其中的一段,再对其进行傅立叶变换,可以得到该“短时语音” 的短时频谱。,浊音谱,清音谱,语音信号的短时谱(2),浊音谱: 频谱曲线比较规则,频谱中具有几个明显的周期性起伏点。这些峰值点称为共振峰(Formant),其对应的频率成为共振峰频率,用F1、F2.表示,分别成为第一共振峰、第二共振峰、。 一般地,共振峰有57个,其中前三个携带大量地语音信息,对区分不同地语音非常重要。 清音谱: 谱结构较平坦,无明显的周期性起伏结构; 没有明显的共振峰特性; 类似一般的随机噪声谱特性。,2.2 发音的生理器官与过程,2.2 发音的生理器官与过程,发声器官主要由四个功能部分构成: 肺和气管 :动力部分 喉:激励生成机构 声道:受激励系统,它对声音进行调制,形成语音 嘴:完成声道气流的辐射,形成声波,2.2 发音的生理器官与过程,语音产生的机理图,肺活量,声带 (声门),咽腔,软腭,鼻腔,口腔,气管及支气管,鼻音,口音,主声道 :声门以上,经咽喉、口腔的管道。 鼻 道 :经小舌和鼻的管道称为鼻道。 次声门系统:经肺、气管和支气管的管道。,肌力,喉的构造,肺部气流通过喉部构成发音的动力激励部分 喉部发音器官的关键部位声带 声带之间的空隙声门 声带功能: 吃东西时闭合,防止食物误入肺中; 来自肺部的发音气流通过声门时,声带的开放与闭合,形成一个气流脉冲,构成发音的动力部分。 发浊音时,气流冲击声带振动,产生周期性的气流脉冲 发清音时,声带张开,气流顺利通过声门,2.2 发音的生理器官与过程,激励,125Hz基因频率时,声带开启的面积和时间的关系,声带每开启/闭合一次的时间(即声带的振动周期)就是语音的基因周期,其倒数称为基因频率,通常约为50450Hz 成年男性:50250 成年女性:200450,2.2 发音的生理器官与过程,通过声门的周期性气流的周期Tp称为基音周期(Pitch Period) Fp1/Tp称为基音频率(Fundamental Frequency) 不同年龄、不同性别的人发出的声音的基因频率有不同的特征: 老年人的声带松弛,基因频率低 小孩的声带短,基因频率高 女人的基因频率普遍比男人高,基音频率是我们区分不同人的声音的主要特征之一,2.2 发音的生理器官与过程,2.2 发音的生理器官与过程,声道纵剖面图调制,2.2 发音的生理器官与过程,气流从喉向上经过口腔或鼻腔后从嘴或鼻孔辐射出来所经过的通道,即为声道。声道由咽喉、口腔和鼻腔组成。口腔是声道最重要的部分,大小和形状可通过调制舌、唇、齿和腭来改变。在调制发音时,舌是最活跃的部分 声道是发音系统中的受激励部分,声道器官构成的空腔系统对来自喉部的激励信号进行调制(滤波),形成语音信号。 声道具有短时平稳性,即其在短时间内(如20-50ms)的机械特性保持不变。 声道中决定其空腔特性的两个重要器官: 软腭其位置决定鼻音和非鼻音; 舌决定声道最小橫截面积出现的位置,也是声道频率特性的决定因素。,2.2 发音的生理器官与过程,声道可以看作一种具有某种谐振特性的腔体,其腔体不同位置的谐振频率就是对应的共振峰频率。语音信号的频率特性一方面取决于声门脉冲串特性,另一方面取决于声道特性。一般成年男子声道长约为17cm, 最大横截面积可达20cm2,声门,鼻孔,软腭,嘴唇,鼻孔和嘴唇完成声道气流的辐射,产生声波。嘴的形状会影响语音的频谱特性,但较之声道是次要的。一般成年男子鼻腔长约为10cm,2.2 发音的生理器官与过程,发不同音时咽腔的形状变化,2.3 听觉和感知(1),人的发音器官构成了语音产生系统,人的听觉器官则是语音信号的接收系统。 具有显著的物理机械特性,比较客观,因此目前人类对发音器官的研究已经比较透彻;但是听觉系统则比较复杂,它与人的大脑和神经系统紧密结合,形成人类对语言声音的理解能力,目前对该领域的研究还很不完善。 虽然人们对听觉和感知系统的研究还很肤浅,但其中的很多成果仍在语音编码、语言合成和语音识别系统中发挥了显著效果。例如人耳的听觉掩蔽效应广泛应用于中低速率语音编码系统;在MP3编码器中采用的心理声学模型;在语音识别系统中,根据听觉系统的处理特点所采用的预处理模块。 以下对人耳的基本结构和人耳的感知特性作一个基本介绍。,听觉和感知-人耳的基本结构(2),外耳,其主要作用是(1)对声源的定位;(2)对声音的放大。 外耳道共振峰频率约3000Hz。,中耳,其主要作用是(1)三块听小骨构成的链连接外耳和内耳,实现声阻抗的匹配;(2)保护内耳。,内耳,其主要构成部分是耳蜗。它是听觉的受纳器,声音的机械振动在耳蜗被转换成神经脉冲信号,并通过神经系统传送到大脑语言中枢。,听觉和感知-耳蜗的频率响应(3),听觉产生过程 声波 骨膜振动 听小骨传递 耳蜗基底膜振动 产生神经脉冲,听觉和感知-人耳的感知特性(4),声音的物理参数: 频率,振幅,频谱特性,时间长度 人耳对声音的心里响应: 音调,响度, 音色 1。听觉阈 人耳能接收的声音信号频率范围: 2020000Hz 人耳能忍受且感知的声音强度: 130dB 几个声学量概念定义如右:,听觉和感知-响度和响度级(5), 响度和响度级Loudness and Loudness Level 响度单位: Sone(宋)1kHz单音,声强级40dB时听到的响度。 响度级单位: Phon(方)数值上等于具有等响度的1kHz的单音的声强级。,听觉和感知-响度和响度级(6),听觉和感知-音调(7),听觉和感知-掩蔽效应(8), 掩蔽效应 Masking Effect 同时有两个声音进入耳朵,响度比较大的声音对弱的声音有干扰,使人的耳朵对弱的声音反映不敏感,称为掩蔽效应。 纯音对纯音的掩蔽通常低音容易掩蔽高音 噪声对纯音的掩蔽 临界带宽:当白噪声的总能量与纯音的能量相同时所对应的带宽。,与声音有关的几个术语,音高是人对声波频率的主观属性,它首先与声波的频率有关。声波的振动频率高,我们听到的声音就高,反之亦然,但它们之间并非线性关系。 音色是声波波形的主观属性。不同的发音体所发出的音波都有自己的特异性。声波的类型是多种多样的,一般可分为纯音和复合音两大类。 语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音,辅音主要是不能连续发出的短促的噪音,元音与辅音合成汉语音节。 响度是声波振幅的主观属性,它是由声波的振幅引起的。振幅越大则响度越大,但它们之间也不是线性关系。,声音质量的评价,我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。声音质量的评价是一个很困难的问题,也是一个值得研究的课题。目前来看,声音质量的度量有两种基本方法,一种是客观质量度量,另一种是主观质量的度量。,声音客观质量的度量方法,声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:,评价值的测量 响度和响度级,噪音级,清晰度指数,噪音评价数。 声源的测量 频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。 音质的测量 混响时间,隔音量,吸音量。,声音客观质量的度量方法,声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。 度量声音客观质量的一个主要指标是信噪比SNR(Signal to Noise Ration),信噪比是有用信号与噪声之比的简称。其单位是分贝(dB)。,声音客观质量的度量方法,声音主观质量的度量,采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。,平均判分(Mean Opnion Scose-MOS)过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见表4-。,声音主观质量的度量,声音主观质量的度量,声音质量分级与带宽,声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。,按照带宽可将声音质量分为4级:,数字激光唱盘质量 ,通常又CD-DA质量,这种质量也就是我们常说的超高保真,即Super HiFi(High Fidelity)。 调频无线电广播,简称FM(Frequency Modulation)质量。 调幅无线电广播,简称AM(Amplitude Modulation)质量。 电话(Telephone)质量。,4级声音质量的频率范围,2.4 语音信号的特性分析方法简介,语音信号的特性:主要指其声学特性、时域波形、频谱特性以及信号的统计特性。,声学特性:包括前面讲述的语音信号的产生机理、感知过程、屏蔽效应等。,统计特性:包括波形振幅概率密度函数和一些统计量如均值和自相关函数等。如概率密度的估算方法就是根据长时间范围内一段话音信号的大量样本数据的幅度绝对值计算出幅度直方图,然后,再根据统计的振幅直方图,寻找近似的概率密度表达式。,语音信号的时域波形实例1,采样频率:8kHz 量化精度:16bit,A点开始s,C点开始k,都是清辅音,波形似白噪声,振幅小,没明显周期性;,B点开始ou, D点开始的e,都是元音,波形具有明显的周期性,振幅较大,它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔从波形可计算估计值;考察其中一小段元音语音波形,从频率特性大体可以看出它们的共振峰特性。,语音信号的频谱特性元音ou,作法:从波形图180ms处开始,取256个样本:采样率8k,则该音段持续时间为32ms。做FFT前,用hamming窗加权,并用附加零点的办法将信号延长一倍,以提高频率分辨率。,在01.83k之间有6个峰点,因此基音频率约为301Hz。观察波形图225250ms之间大约有8个周期,由此可推断周期约为300Hz.,另外,图中明显的几个凸起点,它们出现的频率即为共振峰频率。,元音频谱具有明显的共振峰特性,语音信号的频谱特性清辅音k,可以看出,频谱峰点之间的间隔是随机的,表明清辅音k中没有周期分量,与原来预计是一样的。,语音信号的语谱图实例2,“同舟共济”的波形图及对应语图,窄带语谱图,宽带语谱图,语谱图相关概念,实现方法:横轴为时间,纵轴为频率,沿时间轴计算给定时刻范围(窗函数)的短时谱,任一给定频率成分在指定时刻的强弱用相应点的灰度或色调的浓淡来表示。其本质是一种动态的频谱。,窄带语谱图,采用至少为两个基音周期的“长”窗,通常选择45Hz的带宽。窄带语谱图具有较好的频率分辨率,有利于显示基音频率及其各次谐波。但它的时间分辨率较差,不利于观察共振峰(声道谐振)的变化。,宽带语谱图:选择长度小于一个基音周期的“短”窗,通常带宽为300Hz,频域上表现为一个较宽的滑动窗,有良好的时间分辨率和较差的频率分辨率。宽带谱能给出语音共振峰频率及清辅音的能量汇集区,在语图上共振峰呈现为黑色的条纹。,语谱图相关概念,语谱图特点:花纹有横杠(bar)、乱纹和竖直条等。,横杠:在(c)中与时间轴平行的几条深黑色带纹,相应于短时谱中的几个凸起点,即共振峰。从横杠对应的频率和宽度可确定相应的共振峰频率和带宽。,竖直条:又叫直冲条,是语图中出现与时间轴垂直的一条窄黑条。每个竖条相当于一个基音,条纹的起点相当于声门脉冲的起点,条纹之间的距离表示基音的周期,条纹越密表示基音频率越高。如图中的tong中的0,ji 中的 i,指示了共振峰的存在。,乱纹:轻擦音在语图中的表现形式。如图中的 zh 和 j。乱纹的深浅和上下限反映了噪声能量在频域着那个的分布。,2.5 语音学基础及波形特征,语音流的单位:音素、音节、词、节奏群和句子,音素:语音信号的最基本组成单位,音素可分为清音和浊音两大类,音节:由音素结合而成的语音流最小单位,是发声的最小单位,词:由音节结合而成的更大单位,节奏群和句子:词的进一步结合,同一音素与不同音素结合时,发音不同,如音素sh在发“诗”这个音与发“书”这个音时,发音方式不完全一样,前者是非圆唇音,后者是圆唇音。这种同一音素的不同发音方式称为音素变体,语音分类,音节的构成,音节:包括元音和辅音,元音(Vowel):由声带振动发出来的乐音,构成了一个音节的主干,元音在音节中占主要部分。所有元音都是浊音,辅音(Consonant):由呼出的声流克服发音器官的阻碍而产生的,发辅音时如果声带不振动,发出的辅音称为清辅音,如果声带振动,发出的辅音则称为浊辅音,辅音出现在音节的前端或后端或前后端,在汉语普通话中,每个音节都是由“辅音元音”构成(C V结构),在汉语语音中,辅音也称为声母,元音也称为韵母,14段属于声母(辅音),69段属于韵母(元音),第5段是声母和韵母的过度段,对一个具体指定的音节,有可能只包含其中的某几段,但第7段(主要元音段)是每一个音节都具有的,一个音节的发音都可能由9部分组成,汉语的四声,在汉语语音中,通常采用声、韵、调的系统分析方法,即每个“字音”分析为声母(21个)和韵母(39个)两部分,每个“字音”又有阴平、阳平、上声和去声四种声调,声调:发浊音时,声带振动的基频轨迹。无论在说一个单音节或说一段连续语音时,各个音节中韵母段的基频都是随时间变化的。,声调的构字辨意作用:相同声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的汉字,例如搭、达、打、大。在许多其它语种中,声调没有这样的重要作用。,声调的曲线或轨迹开始于韵母的起始端,到韵母的终止端结束。,阴平:曲线几乎与时间横轴线平行,且平均值很高。,阳平:曲线从较低的频率一直上升到较高的频率 , 或起始处稍下降后一直上升。,上声:曲线先降后升。,普通话4种声调的典型曲线,去声:曲线从较高频率出发一直下降到极低的频率。,注意:连续语音中的声调曲线与单独说一个音节的声调曲线不完全相同。,元音,元音(vowels)是因素中成员最多的一类,元音根据舌头贴近上腭的位置(前部、中部和后部)分为三个子类。,声源:元音声源是准周期气流,声带会以某一基本频率振动,系统:每个元音对应一种不通的声道形态:,元音波形、语谱图及共振峰表示,元音特征会由于说话人的不同而有很大变化,舌头隆起的位置和收紧程度、声道截面积和长度,进而声道的共振锋,都会随说话人的不同而变化,因而有利于说话人的识别。,语谱图:声道的形状决定了它的共鸣特性。元音/a/的第一共振锋占主导作用的大致在800Hz,第二、第三稍弱,分别在1200Hz和2300Hz;元音/i/,第一共振锋大致在400Hz,第二、第三分别在2000Hz和3000Hz,第三共振锋幅度比/a/的第三共振锋要强。,鼻音,鼻音(nasals): 最接近元音。,声源:也是从振动的声带处喷射出的准周期性气流。,系统:软腭下沉,气流主要通过鼻腔,口腔通道紧缩,声音从鼻孔处辐射出来。鼻音根据口腔通道中舌头成阻的位置进行区分:,鼻音波形、语谱图及共振峰表示,语谱图:鼻腔有较大容积,频谱成分主要为低频谐振。高频能量较低。,摩擦音浊摩擦音和清摩擦音,清摩擦音声源:声带处于放松状态,不振动,口腔通道中某个收紧处的湍流会产生噪声声源,摩擦音声道的收紧程度比元音还要窄。,清摩擦音系统:舌头成阻的位置位于口腔通道后部、中部或前部,以及牙齿和嘴唇处。,浊摩擦音有着类似清摩擦音的噪声般声源和系统特征,不同处是声道收紧处产生噪声时,声带经常会同时振动,能看到噪声气流的周期现象。,摩擦音波形、语谱图及共振峰表示,浊摩擦音有音栅结构,对应的频谱就具有相应的谐波结构。,清摩擦音没有类似特征。,爆破音浊爆破音和清爆破音,声源和系统,清爆破音:“爆破”产生原因是因为口腔通道中完全受阻处后方的气压积聚并释放所致。,浊爆破音:不同的是释放气流的同时时,声带发生振动。,爆破音VOT,结论:浊爆破音比清爆破音的VOT短得多,通常,VOT在20ms以内,认为是浊音,否则为清音。,VOT: 爆破与随后元音开始发生之间的时延,爆破音音波形、语谱图及共振峰表示,清爆破音/k/,从静默然后出现突然的爆破,然后是送气噪声。,浊爆破音/g/,爆破之前有一段低频的音栅,VOT短。,过渡语音,双元音:类似元音的特征,即声带发生振动。但双元音不能在声道保持稳定形态下产生,他们是由时变的声道在两个元音间平滑过渡而得到的,其特征在于从一个元音向另一个“目标”元音移动。如:hide,out,boy,new等。,可以看出共振锋会快速移动, 这种共振锋过渡构成了双元音的本质特征,共振峰(Formant)进一步说明:,共振峰:气流流过声道时在腔体内产生的一组谐振频率,是元音的一个重要声学特征,共振峰参数:是区别不同元音的重要参数,一般包括共振峰频率的位置和频带宽度 (Formant Bandwidth) 。不同的元音对应于一组不同的共振峰参数。一般的浊音中可以辨别的共振峰有5个,为精确描述语音,应尽可能使用多个共振峰,但实际中,用前三个即可:F1、F2和F3,头三个共振峰对于区别不同语音至关重要。,共振峰产生原因:声道可看成是一根具有非均匀截面的声管,在发音时起共鸣器的作用。当元音激励进入声道时会引起共振特性,产生一组共振频率。,声道的频谱特性:由共振峰的位置及峰的宽度决定,声道的形状和尺寸:决定共振峰频率及其带宽,第三共振峰F2:虽与舌位关系不密切,但受舌尖活动的影响,舌尖抬高卷起时,F3明显下降。,F1和F2和嘴唇的圆展程度也有关系,如圆唇可使F2降低等,第一共振峰F1:与舌位高低有关,舌位高, F1低;舌位低, F1高。,第二共振峰F2:与舌位前后密切相关,舌位靠前, F2高;舌位靠后, F2低。如前元音i的舌位靠前,它的F2高达2000Hz; 后元音u的舌位靠后,它的F2只有500Hz。,共振峰(Formant)进一步说明:,舌位、唇形和开口度对F1和F2的影响,表2.3 汉语拼音七个韵母的共振峰频率(Hz),
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!