数字语音处理复习题介绍

资源描述

第一章绪论1 .语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d32 .语音信号处理的应用技术列举：语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏（语音信息伪装、语音数字水印技术）、语音增强等p4d33 .当前语音信号处理应用的3个主流技术：矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3第二章语音信号处理基础知识1 .语音是组成语言的声音,是声音（ Acoustic）和语言（Language）的组合体。p5d22 .语音的基本声学特性包括音色，音调，音强、音长。p7d2音色：也叫音质，是一种声音区别于另一种声音的基本特征。音调：是指声音的高低，它取决于声波的频率。音强：声音的强弱，它由声波的振动幅度决定。音长：声音的长短，它取决于发音时间的长短。3 .说话时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段叫音节（Syllable ）。一个音节可以由一个音素（Phoneme）构成,也可以由几个音素构成。音素是语音发音的最小单位。p7d34 .任何语言都有语音的元音（ Vowel）和辅音（Consonant）两种音素。p7d38 .当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，这些声腔完全开放，气流顺利通过，这种音称为元正p7d39 .呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为辅音 p7d310 发辅音时由声带是否振动引起浊音和清音的区别，声带振动的是浊音，声避不振动的是清置。p7d311 元音构成音节的主干（因为无论从长度还是能量看，元音在音节中都占主要部分。）p7d312 元音的一个重要声学特性是共振峰（Formant）。共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（Formant Frequency）的位置禾口频带宽度（Formant Bandwidth ）。p7d516.人类的声道和鼻道可以看作是非均匀截面的声道管，声道管的谐振频率称为共振峰频率（共振峰）。p7d510 .汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字，每个汉字是一个音节。p10d611 .发浊音时，气流通过声门时使声带发生振动，产生准周期激励脉冲串，这个脉冲串的周期就称为基音周期（pitch）,其倒数成为基音频率。12 .汉语是一种声调语言，声调的变化就是浊音基音周期（或基音频率）的变化。p14d513 .无论是单音节语音还是连续语音，其中浊音段的基因频率是随时间而变化的，基因频率的不同轨迹成为声调。p9d1114 .当两个响度不同的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象成为掩蔽效里15 .语音信号的牛成模型可由激励模型、声道模型和辐射模型二个子模型构成,三者是串联（串联/并联）的关系。p21-2616 .语音信号激励模型一般分为浊音激励和清音激励，发浊音时激励模型为脉冲波。p21d617 .语音信号激励模型一般分为浊音激励和清音激励，发清音时激励信号通常被模拟为随机白噪声。p22d216 .语音信号生成模型的辐射模型是一阶类高通滤波器。p25d217 .设截取的一段语音共有 160个样本，而采样频率为 8kHz,则该段语音持续时间为20ms。18 .设采样频率为8kHz,则25ms长的语音共有200个采样值。18 .研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图 (Sonogram, 或者 Spectrogram) p29d119 .语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。p29d1M20 .传输函数形式为 V(z)=n a工的共振峰模型为(2)数学模型；i41-bjZ -qz1 .全零点；2 .全极点；3 .极零点；4 .以上都不是；M21.传输函数形式为V(z)=n a 2的共振峰模型在结构上为(1)模型;12T 1 - biz -qz1 .级联型2 .并联型；3 .混合型；4 .以上都不是；M A22.传输函数形式为 V(z)= ?的共振峰模型为(3)数学模型；y1 BizGz21 .全零点；2 .全极点；3 .极零点；4 .以上都不是；23.传输函数形式为MV(z)=、i=112.21 - Biz -Gz的共振峰模型在结构上为(2)模型;1 .级联型2 .并联型；3 .混合型；4 .以上都不是;24 .简述语音产生过程的三个模型:25 .基音频率、共振峰、语谱图的概念，会从语音波形中识别基音周期与共振峰频率。发浊音时，气流通过声门时使声带发生振动，产生准周期激励脉冲串，这个脉冲串的周期就称为基音周期（pitch）,其倒数成为基音频率。一般来说，男性说话的基音频率大致分布在50-200HZ范围内，女性和小孩的基因频率在200-450HZ之间。人类的声道和鼻道可以看作是非均匀截面的声道管，声道管的谐振频率成为共振峰频率，简称共振峰。共振峰由低到高依次为第一共振峰、第二共振峰、第三共振峰、。，相应的频率用F1、F2、F3。表示。一般浊音中可以辨识的共振峰有5个，其中前三个对于区别不同语音至关重要。语谱图描述了语音信号随时间而变化的频谱特性。纵轴对应于频率、横轴对应于时间，图像的黑白度对应于信号的能量。26 .汉语中的四种声调与基音频率的关系是什么？无论是单音节语音还是连续语音，其中浊音段的基因频率是随时间而变化的，基因频率的不同轨迹成为声调。29.音调：音调是听觉分辨声音高低时，用于描述这种感受的一种特性。音调与声音的频率并不成正比，还与声音的强度及波形有关。描述音调的单位是美（mel）。一个高于听阈40dB、频率为1KHz的纯音所产生的音调定位1000mel,如果一个纯音听起来比 1000mel的声音调子高一倍，则其音调为 2000melo音调与频率的关系近似表示为：Tmei 3323.23lg（1 0.001口）27.掩蔽效应：当两个响度不同的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象成为掩蔽效应。第三章语音信号分析21.语音信号分析采用短时分析技术。p32d220 .语音信号分析，根据所分析出的参数的性质的不同可以分为：时域分析、频域分析、倒 _ 频域分析、线性预测分析等。根据分析方法的不同，分为模型分析方法和非模型分析方法两种。p32d322 .由于辐射模型的影响，语音信号高频部分衰减较大，所以在预处理中需采用预加重技术，即提升高频部分，使信号的频谱变得平坦。23 .不论是分析怎么样的参数以及采用什么分析方法，在按帧进行语音分析，提取语音参数之前，有一些经常使用的、共同的短时分析技术必须预先进行，如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等24 .语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等（列举两个）。25 .对于频率分布为03400Hz的语音信号，最低无失真采样频率应为6800Hz26 .若信号波形的变化足够大，或量化间隔A足够小时，以下有关量化噪声描述错误的是（4）p33d21 .是平稳的白噪声过程2 .量化噪声与输入信号不相关3 .量化噪声在量化间隔内均匀分布，即具有等概率密度分布4 .是服从高斯分布的随机过程26.以下那种分析不属于语音信号时域分析？ (4)1 .短时过零率分析；2 .短时相关分析；3 .短时平均幅度差函数；4 .同态分析；短时能量的主要用途不包括以下那一项(4) p38d51 .可以区分浊音段和清音段；2 .可以用来查找声母和韵母的分界；3 .可以用来查找无声和有声的分界；4 .可以区分高频和低频分量；24.采用自相关函数法对基音周期进行估计时，先用60900Hz的带通滤波器对语音信号进行滤波，以下描述错误的是(4) p71d21 .可减少共振峰的影响；2 .可抑制50Hz的电源干扰；3 .可保留基音频率的一、二次谐波；4 .为了防止8kHz采样时发生混叠干扰；定义语音信号 xn(m)的短时自相关函数 Rn(k) 为N 4-kR(k。 xn m xn m)k (表述错误的是(2)： p40d3 m zS(1)如果xn(m)是周期的，则Rn(k)是同周期的周期函数；2 2) Rn(k)是奇函数； Rn(0) |Rn(k)|7 .设序列x(n)的短时能量定义为：O0En -、lx(m)w(n - m) I2.m 二：二其中窗函数表示为：Jm 一、八/ 、3，m-0w(m)=、0,m S1-S2-S34 .对于语音识别用 HMM ,可用六个参数 M = S,O, A,B, n ,F 来定义，这六个参数分别表示什么？S是模型中状态的有限集合；O是输出的观测值序号的集合；A是状态转移概率的集合；B是输出观测值概率的集合；pai是系统初始状态概率的集合；F是终了状态的集合。1 .从左到右型HMM （即状态的转移只能从左到右或者停留在原状态，不能返回到以前的状态）的状态转移矩阵具有何种形式？（1）2 .上三角矩阵；3 .下三角矩阵；4 .对称矩阵；5 .非奇异矩阵；2.针对给定的HMM模型，寻找与给定观察字符序列对应的最佳状态序列可采用（3）1 .前向算法；2 .后向算法；3 .Viterbi 算法；4 .Baum-Welch 算法训练HMM模型采用（4）1 .前向算法；2 .后向算法；3 .Viterbi 算法；4 .Baum-Welch 算法；下图是一个三状态 HMM , S1是起始状态，S3是终了状态，该 HMM只能输出a和b两种符号，试求解：（参考P98）1 .该HMM的转移概率矩阵 A;2 .从S1出发到S3截止，输出符号序列 abb的概率；3 .最大可能的状态序列;第七章语音编码1语音编码（Speech Coding）的目的是在保证语音质量和可懂度的条件下，采用尽可能少的比特数来表示语音。即降低数码率。2 .信源编码主要解决有效性问题；信道编码主要解决可靠性回题3 .语音编码通常分为三类：波形编码、参数编码与混合编码。4 .波形编码力图使重建后的语音时域信号的波形与原语音信号保持一致。具有适应能力强、话音质量好等优点，缺点是编码速率高。5 .参数编码又称声码器技术,从听觉感知的角度注重语音的重现，通过建立语音信号的产生模型，提取其特征参数来编码，波形上不要求与原信号匹配。优点是编码速率低；缺点是语音质量差，自然度低，对环境噪声敏感。6 .若普通电话通信中采用8kHz采样，并进行12bit量化，则数码率为 96Kbit/s。7 .对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。8 .人的听觉生理和心理特性对于语音感知的影响主要表现在：1）人类听觉系统具有掩蔽效应；2）人耳对不同频段声音的敏感程度不同；3）人耳对语音信号的相位变化不敏感。9 .感觉加权滤波器是根据人耳的掩蔽效应来设计的。p138d110 .均匀量化的特点是：大信号时量化信噪比大，小信号时量化信噪比小。11 .在增量调制（DM）中，语音信号波形发生急剧变化时，容易出现译码波形不能充分跟踪这种急剧变化而产生失真的现象，称为斜率过载。p150d312 .利用参数编码实现语音通信的设备通常称为声码黑 p161d313 .LPC声码器采用的编码方式为参数编码（波形编码/参数编码）。4 ）属于7语音信号中存在多种冗余度是语音信号可进行压缩的重要依据，下列选项中（频域冗余度（1）语音信号幅度非均匀分布性(2)语音信号样本间的强相关性(3)浊音语音段具有的准周期性(4)非均匀的长时功率谱密度9.下列选项中，()不属于波形编码方式(1) PCM(2) APCM(3) DM(4) LPC声码器8.语音中最基本的元素是音素，设语音的音素共有128个，并假设通常的说话速度为每秒平均发出10个音素，请从信息论角度计算语音彳t号压缩编码的极限码率。p13611.一帧典型的LPC参数包括1bit清浊音信息、5bit增益常数、6bit基因周期、每个 LPC系数6bit,共8个LPC系数，如果一帧时长 20ms,请计算该LPC声码器的码率。p162解：(1+5+6+6*8 ) /0.02=3000bit/s第八章语音合成共振峰合成法属于(3 )1 .波形合成法；2 .LPC合成法；3 .参数合成法；4 .规则合成法；第九章语音识别1 .语音识别从所识别的对象来分，可分为：(1)孤立词语音识别系统：(2)连接词语音识别系统；(3)连续语音识别系统；(4)语音理解；(5)会话识别。2 .语音识别按词汇量来分，可分为：小词汇量、中词汇量、大词汇量语音识别系统。3 .语音识别从讲话人范围来分，可分为单个特定讲话人识别系统、多讲话人、与讲话者无关。4 .以下是一个矢量序列与模板的距离参数，输入适量长度为4,模板长度为5,利用DTW原理计算最佳路径5OOOO0.30.14OO0.10.1OO3OO0.20.2OO20.20.1OOOO10.1OOOOOOJ I1234

展开阅读全文

数字语音处理复习题介绍

最新文档