语音的产生机理优秀PPT

上传人:沈*** 文档编号:244589245 上传时间:2024-10-05 格式:PPT 页数:128 大小:4.07MB
返回 下载 相关 举报
语音的产生机理优秀PPT_第1页
第1页 / 共128页
语音的产生机理优秀PPT_第2页
第2页 / 共128页
语音的产生机理优秀PPT_第3页
第3页 / 共128页
亲,该文档总共128页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物认证技术,Biometrics,第五章 声纹识别,内容,历史,2.,语音产朝气理,3.,语音特征,4.,系统架构,5.,引言,1.,引言,声音是携带信息的极其重要的媒体(20),声音是通过空气传播的一种连续的波,叫声波,也具有反射、折射和衍射现象。,声音信号是由很多频率不同的重量信号组成的复合信号。复合信号的频率范围称为带宽。,带宽为20Hz20kHz的信号称为音频(audio)信号,可以被人的耳朵感知。,声音是时基类媒体。,说的是什么内容?,是谁在说话?,计算机去说话?,怎么把话说好?,语音识别,声纹识别,文语转换,说话水平评估,说的是什么语言?,语种识别,引言,语音处理探讨的基本内容,引言,Speaker, or voice, recognition is a biometric modality that uses an individuals voice for recognition purposes.,说话人识别(声纹识别)是一项依据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。,It is a different technology than “speech recognition”, which recognizes words as they are articulated, which is not a biometric.,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的特性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。,引言,The speaker recognition process relies on features influenced by both the physical structure of an individuals vocal tract and the behavioral characteristics of the individual.,声音是个困难的信号,说话人有关的差异是声道在解剖学上的差异和后天的说话习惯差异的综合的结果。在说话人识别中,全部的这些差异都可以被用来区分不同的用户。,它涉及到说话人发音器官上的特性差异、发音声道之间的特性差异、发音习惯之间的特性差异等不同级别上的差异。,说话人识别是交叉运专心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性探讨课题。,引言,说话人识别的特殊优势,对用户干扰少,易被用户接受,最经济的方法之一,输入设备造价低廉,语音获得非接触,具备卫生方面的平安性,适用基于电信网络的应用中,因此,说话人识别探讨具有巨大应用前景,引言,声纹分析技术的应用领域:,信息查询领域的应用,在电话交易的应用,在,PC,以及手持式设备上面的应用,在保安系统以及证件防伪中的应用,与二维条码技术相结合的防伪应用,挑战,说话人的发音常常与环境、心情、健康状态有亲密关系。,语音信号或者称为“声纹(voiceprint)”与指纹(fingerprint)不同,指纹是静态的、固定不变的生理特性,而说话人特征具有长时变动特性,会随时间、年龄的变更而变更。,如感冒、声道管疾病,都有可能使发出的声音变更。,心情变更也是一个因素,大声喊叫的时候,声道的形态明显同正常状态有很大的不同。,挑战,声音往往是可以仿照的,还可以预先录制起来,如何区分真假声音也是很头痛的事情。特殊是对于远程电话身份认证,不能接受同用户的其他特征相结合的方法。,挑战,线路传输所带来的线路噪声,包括不同线路噪声状况可能不同、同一线路在不同时期噪声状况也会不同,噪声的处理也很有难度。,噪声可能导致语音信号在整个时域空间上的污染,甚至有可能也对频域特征造成污染,这就给提取出正确的反映说话人的特征,造成了很大的困难。,内容,历史,2.,语音产朝气理,3.,语音特征,4.,系统架构,5.,引言,1.,历史,以人们的语音作为身份认证的手段,据说是从1660 年英国查尔斯一世之死的判决起先的,首次利用语音作为推断犯人作案的线索。,其后随着技术的发展,电话克服了距离的障碍,录音手段克服了时间的障碍,从而使得对语音的说话人特性的分析得到了关注。,历史,从1937 年起先,以C. A. Lindbergh 先生的儿子拐骗事务为开端,对语音的说话人特性开展了科学的测量和探讨。,1945 年,美国贝尔试验室的R. K. Pooter 独创了语音频谱图,能把所谓的声纹(voiceprint)动描述出来。,1962 年,贝尔试验室的L. G. Kersta 第一次介绍了接受上述方法进行说话人识别的可能性。,1966 年,美国法院第一次接受此方法进行了取证。,历史,原先的说话人识别,往往是用视觉来推断声音频谱图,或者用听觉推断是谁的声音。,随着计算机的发展,自动说话人识别(ASR)的探讨得到了快速的发展。,自动说话人识别是指利用计算机技术,不须要人们的干预,自动的进行身份认证。,内容,历史,2.,语音产朝气理,3.,语音特征,4.,系统架构,5.,引言,1.,语音的产朝气理,众所周知,发声从肺部挤出空气起先,空气通过振动声带造出振动波。由于这个振动波在自声带到口为止的“3个箱子”各自振动,进一步强化共振,最终构成声音。,这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音的3个箱子中,口腔扮演了重要的角色。因为通过舌头能够变更空间的容积。假如容积变更,则发音也变更了,3个频率的组合产生声音。,语音的产朝气理,语音产生器官,发声器官语音合成,肺、气管、喉(包括声带)、咽、鼻、口。它们共同形成一条形态困难的管道,声带和声门,喉与气管的接口处称为声门,声道,其中喉以上的部分称为声道,随着发出语音的不同其形态是变更的,语音的产朝气理,产生语音的能量,绝大多数来源于正常呼吸时肺部,呼出,的稳定气流,有极少数语种,如某些非洲语言,是利用,吸气,气流来发音的,声带,最重要的发声器官,既是一个阀门又是一个振动部件,呼吸时左右两声带打开(声门开),在说话的时候合拢,肺部气流经气管形成冲击“,打开,-,闭合,-,打开,-,闭合,-”,声门,从而,冲击声带产生振动,,然后通过,声道响应,变成语音,声道调制,声道,咽、口腔和鼻腔,从声门延长至口唇的非匀整截面的声管,约17cm,功能,谐振腔:放大某一频率而衰减其他频率重量,谐振频率:由每一瞬间的声道外形确定,又称为共振峰,是声道的重要声学特征,语音的频率性质,音调周期/基音周期,声门开启-闭合一次的时间即振动周期,基频,基音周期的倒数,声带振动的基本频率,音调,声带振动的频率(即基音)确定了声音频率的凹凸,频率快则音调高,否则音调低,人的基音范围,70350HZ,儿童和青年女性偏高,男性偏低,语音的产朝气理,浊音(,voiced sounds,):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。,如发,/U/,、,/d/,、,/i/,等音,清音(,unvoiced sounds,):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。,如发,/,音,爆破音(,plosive sounds,):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。,如发,/ t/,音时,发声过程小结,人的发声过程包括两个步骤,声门,/,声带产生不同频率的声音,准周期气流脉冲或白噪声,声道对声源的调制作用,激励过程,(声门),调制过程,(声道),语音辐射,语音的产朝气理,肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。,气流、声门可以等效为一个,激励源,,声道可以等效为一个时变,滤波器,(共振峰)。,话音信号具有很强的相关性(长期相关、短期相关)。,语音的产朝气理,语音信号的产生数学模型,激励模型,声道模型,辐射模型,激励模型,激励模型特别困难,声门脉冲模型,浊音,声带振动,声门脉冲,如:斜三角形脉冲串,随机白噪声,清音,声带不振动,随机白噪声,内容,历史,2.,语音产朝气理,3.,语音特征,4.,系统架构,5.,引言,1.,声纹识别流程,图,1,说话人识别模型,声纹识别系统的组成,声纹识别系统主要包括两部分,即特征检测和模式匹配。,特征检测的任务是选取唯一表现说话人身份的有效且稳定牢靠的特征.,模式匹配的任务是对训练和识别时的特征模式做相像性匹配。,特征,Speech samples are waveforms with time on the horizontal axis and loudness on the vertical access.,Voice Sample: The voice input signal (top of image) shows the input,loudness with respect to the time domain. The lower image (blue) depicts the,spectral information of the voice signal. This information is plotted by,displaying the time versus the frequency variations,特征,特征提取是指用各种模拟和数字处理技术、运用软件和硬件的手段,处理语音信号,选择和提取表征语音信号的特征。,特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必需是“特性化”特征,而语音识别的特征对说话人来讲必需是“共性特征”。,较好的特征,应当能够有效地区分不同的说话人,但又能在同一说话人语音发生变更时保持相对的稳定;不易被他人仿照或能够较好地解决被他人仿照问题;具有较好的抗噪性能。,特征提取的信息来源是说话人所说的话,其语音信号中既包含了说话人所说的话的信息,也包含了说话人的特性信息,是话音特征和特性特征的混合体。,目前还没有将说话人的特性特征从所发语音的语音特征中分别出来的较好方法,从而给有效的特征提取带来了很大的难度。,全部提取出来的特征向量中,虽然在确定程度上表征了说话人的特性特征,不行避开的包含有特定话音的特征。,语音信号分析方法分类,时域特征,干脆从时域信号计算得到,反应了语音信号时域波形的特征。,如短时平均能量、短时平均过零率、共振峰、基音周期等。,频域及倒谱域特征,由时域信号进行频谱变换得到,反映语音信号的频域特性,包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱,听觉特征,不干脆对声道模型进行探讨,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征,如感知线性预料(PLP)分析,依据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简洁、最直观的方法,它干脆对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。,短时分析技术,语音信号是非平稳时变信号,语音信号的特性是随时间而变更的,幸运的是具有短时平稳性,短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳准平稳过程,短时分析技术,即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理,每一分段成为一“帧”:一般1030ms为一帧,短时分析的不足,对语音识别,应接受HMM来分析,以处理语音信号的瞬变和非平稳特性,语音信号的预处理,在对语音信号进行数字处理之前,首先要将模拟语音信号s(t) 离散化为s(n). 实际中获得数字语音的途径一般有两种,正式的和非正式的。,正式的是指大公司或语音探讨机构发布的被大家认可的语音数据库,非正式的则是探讨者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。,语音信号的频率范围通常是3003400Hz,一般状况下取采样率为8kHz即可。,有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。,语音信号的预加重处理,预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频辨别率。可通过一阶FIR高通数字滤波器来实现:,设,n,时刻的语音采样值为,x,(,n,),,,经过预加重处理后的结果为,高通滤波器的幅频特性和相频特性如下,预加重前和预加重后的一段语音信号时域波形,预加重前和预加重后的一段语音信号频谱,语音信号的加窗处理,由于发音器官的惯性运动,可以认为在一小段时间里(一般为,10ms30ms,)语音信号近似不变,即语音信号具有短时平稳性。这样,可以把语音信号分为一些短段(称为分析帧)来进行处理。,说话人识别(,9/14,),语音信号的分帧实现方法:,接受可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数约为33100帧。,分帧一般接受交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为01/2。,图,3.3,给出了帧移与帧长示意图。,加窗常用的两种方法:,矩形窗,窗函数如下:,汉明,(Hamming),窗,窗函数如下,矩形窗及其频谱如下,汉明窗及其频谱如下,思索:两种窗效果有何异同?,加窗方法示意图:,窗长的选择,一般选取100200。缘由如下:,当窗较宽时,平滑作用大,能量变更不大,故反映不出能量的变更。,当窗较窄时,没有平滑作用,反映了能量的快变细微环节,而看不出包络的变更。,语音信号的分帧处理,事实上就是对各帧进行某种变换或运算。设这种变换或运算用T 表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n)有关的滤波器,则各帧经处理后的输出可以表示为:,几种常见的短时处理方法是:,1.,对应于能量;,2.,,,对应于平均过零率;,3.,对应于,自相关函数,;,短,时平均能量,1,短时平均能量定义,定义,n,时刻某语音信号的短时平均能量,E,n,为:,当窗函数为矩形窗时,有,若令,则,短时平均能量,可以写成:,2. En特点:En反映语音信号的幅度或能量随时间缓慢变更的规律 。,3. 窗的长短对于能否由短时能量反映语音信号的幅度变更,起着确定性影响。,假如窗选得很长,En不能反映语音信号幅度变更。,窗选得太窄,En将不够平滑。,通常,当取样频率为10kHz时,选择窗宽度N=100200是比较合适的。,不同矩形窗长,N,时的短时能量函数,短时平均能量的主要用途如下:,1)可以作为区分清音和浊音的特征参数。,2)在信噪比较高的状况下,短时能量还可以作为区分有声和无声的依据。,3)可以作为协助的特征参数用于语音识别中。,MATLAB的具体实现如下 :,1、用Cooledit读入语音“我到北京去”。,2、将读入的语音文件wav保存为txt文件,设置采样率为8kHz,16位,单声道。,3、把保存的文件zqq.txt读入Matlab。,fid=fopen(zqq.txt,rt); x=fscanf(fid,%f);,fclose(fid);,4、对采集到的语音样点值进行分帧。,3.4,短时平均,幅度函数,为了克服短时能量函数计算,x,2,(,m,),的缺点,定义了短时平均幅度函数,:,Mn与En的比较:,1. Mn能较好地反映清音范围内的幅度变更;,2. Mn所能反映幅度变更的动态范围比En好;,3. Mn反映清音和浊音之间的电平差次于En。,短时平均幅度函数随矩形窗窗长N变更的状况,短时平均过零率,1. 定义,在离散时间语音信号状况下,假如相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为,在上式中,用,1/2,N,作为幅值,是考虑了对该窗口范围内的过零数取平均的意思,。,考虑到,w,(,n-m,),的非零值范围为,n-m,0,,即,m,n,,以及,n-m,N,-1,故,m,n-N,+1,,因此,短时平均过零率,可以改写为:,(定义式),2.,实现短时平均过零率,女声“我到北京去”的短时平均过零次数的变更曲线:,3. 应用,清音过零率高,浊音过零率低。,局限性:浊音和清音重叠区域只依据短时平均过零率不行能明确地判别清、浊音。,端点检测,端点检测目的:从包含语音的一段信号中确定出语音的起点及结束点。,有效的端点检测不仅能使处理时间减到最少,而且能抑制无声段的噪声干扰,提高语音处理的质量。,时域特征,短时平均能量,N,为分析窗的宽度,,S,t,(,n,),表示第,t,帧中第,n,个采样点的信号值,短时平均过零率,过零率,t,S,(,t,),One frame,20ms,One frame,20ms,时域特征,能量和过零率参数的缺点,对于说话人和背景噪声的鲁棒性较差,目前时域参数多用在语音的预处理上,如端点检测,推断语音的起先与结束,也有人把它作为模型参数进行运用,频域分析,为什么要进行频域分析?,稳态语音的生成模型由线性系统组成,其被一随时间做周期变更或者随机变更的源所激励,因而系统输出频谱反映了激励与声道频率响应特性,语音信号的频谱具有特别明显的语音、声学意义,可以获得重要的语音特征,如共振峰,共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的确定因素,而且反映了声道(共振腔)的物理特征。,声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新安排,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减,得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不匀整,强的部分犹如山峰一般,故而称之为共振峰。,在语音声学中,共振峰确定着元音的音质,广义频域分析,广义频谱分析,频谱,倒频谱,功率谱,频谱包络,常用频谱分析方法,傅里叶变换法,线性预料法,带通滤波器组法,频域分析,基本工具傅里叶变换,标准傅里叶变换,适用于周期、平稳随机信号,不适合于非平稳的语音信号,短时傅里叶变换,短时谱,有限长度的傅里叶变换,即对某一帧语音进行傅里叶变换,窗选语音信号的标准傅里叶变换,特殊适用于“语音分析和语音合成”,因为其可以精确的复原语音波形,反卷积问题定义,语音信号的产生模型,线性非移变系统的输出,即声门激励信号和声道冲激响应的卷积,A = L * R,问题,已知A,如何求解L和R?,解卷(反卷积),由卷积结果求得参与卷积的各个信号重量,反卷积方法,倒谱(同态)分析,线性预料分析,同态分析,基本思路,三步走:,Z变换: 卷积信号乘积信号,对数运算:乘积信号加性运算,逆Z变换: 得到满足加性的时域信号,分析得到的逆Z变换结果称为复倒频谱,Complex Cepstrum,倒谱 ,同态分析/同态滤波/倒谱分析,Spectrum,倒谱,(,同态,),分析应用,倒谱分析可以得到某些参数的近似表示,声门激励的,基音周期,声门的振动特征,区分,浊音与清音,浊音:声带振动,声门开闭,清音:声带不振动,声道响应的,共振峰频率,声道(咽、口腔和鼻腔)特征,反卷积方法,倒谱(同态)分析,线性预料分析,线性预料分析概况,线性预料 Linear Prediction, LP,1947年,维纳首次提出,1967年,板仓等人应用于语音分析和合成中,LP是首次得到成功好用的语音分析技术,功能,估计基本的语音参数,包括基音、共振峰、谱、声道面积函数,用于低带宽传输和存储语音,优势,精确估计参数;参数少但可以有效而精确的表示语音波形及其频谱性质;速度快,效率高。,线性预料分析基本思路,基本概念,一个语音的采样可以用过去若干个语音采样的线性组合来靠近,分析思路,通过使实际语音采样和线性预料采样之间差值的平方和达到最小值,即进行最小均方误差的靠近,能够确定唯一的一组线性预料系数,线性预料分析基本思路,线性预料分析模型,将信号看作某一模型(系统)的输出,将语音生成的,激励、声道和辐射模型,全部谱效应简化为一个,时变的数字滤波器,用模型参数来描述信号,其参数包括:,浊音,/,清音判决,浊音基音周期增益常数,数字滤波器参数等,语音信号的线性预料分析,求解数字滤波器的参数和增益常数的过程即语音信号的线性预料分析,输出LPC, LP coefficients,线性预料系数:参数、增益常数,留意,语音信号具有时变性,所以系数的预料同样要按帧进行,线性预料系数(LPC)的计算方法,问题转化,最终问题转化求解线性方程组的问题,LPC的计算方法,自相关法,格型法,引入正向预料/反向预料的概念,协方差矩阵法,对协方差矩阵进行特征分解,LPC+,倒谱,= LPCC,基于LP的倒谱分析,LPC是语音信号的基本表示参数,可以变换为其他形式的参数,在求得LPC 后,运用下面的递推公式可以计算出该帧语音的LPC 倒谱(LPCC)系数,基于,LPC,的倒谱系数,LPCC,基于,Mel,频率的倒谱,MFCC,生理支持,依据人类听觉系统的特性,人耳辨别声音频率的过程犹如一种取对数的功能,基于此,出现了Mel 频率的倒谱系数(MFCC),MFCC: Mel-Frequency Cepstrum Coefficients,特点,MFCC 比LPCC 更能反映听觉特性,在语音识别系统中有着广泛的应用,是目前公认的性能最好的特征参数之一,Mel-,频率,目的,模拟人耳对不同频率语音的感知,人的耳朵由外耳、中耳和内耳构成,起重要作用的是内耳耳蜗。对于不同的声音频率,耳蜗内的基底膜运动的幅度也不同。通常在几百赫兹以上的声音信号,频率沿基底膜是对数分布的;几百赫兹以下是线性分布的。通过耳蜗处理,把时域语音信号分解成在不同的空间轴位置上有不同频率特性的信号,这就是耳蜗的频率分解。,Mel-,频率,人类对不同频率语音有不同的感知实力,1kHz以下,与频率成线性关系,1kHz以上,与频率成对数关系,Mel频率,将频谱转换到基于Mel频标的非线性频谱,在Mel频域内,人对音调的感知实力为线性关系,假如两段语音的Mel频率差两倍,人在感知上也差两倍,Mel-,频率,公式:,频率,Mel-,频率:,-,频率,- Mel-,频率,Mel-,频率,频率,(Hz),MFCC,计算过程,计算流程:,DFT,时域信号,线性谱域,Mel,滤波器组,Log,DCT,Mel,谱域,对数谱域,MFCC,Mel,带通滤波,利用,D,个三角带通滤波器分别与离散谱,S,t,(k),做卷积,其中三角滤波器的中心频率和边界频率与相应的,Mel,频标对齐(带宽在,Mel,标度上是相等的),倒谱系数计算,求出每个频段的对数能量输出,三角滤波器的输出,最终用DCT将这些系数变换到倒谱域,倒谱系数的维数,通常取DCT系数的前12维,声学特征小结,短时平均能量/幅度/功率,短时平均过零率,线性预料系数(LPC),LPC倒谱特征(LPCC),Mel 倒谱参数(MFCC),内容,历史,2.,语音产朝气理,3.,语音特征,4.,系统架构,5.,引言,1.,说话人识别(,10/14,),说话人识别模型主要有三类:,基于模板的模型:,K-NN,(,K,近邻法),DTW,(动态时间规整),VQ,(矢量量化),随机模型:,GMM,(高斯混合模型),HMM,(隐马尔可夫模型),基于人工神经网络的模型,NN,(神经元网络),SVM,(支持向量机),说话人识别(,11/14,),Feature 1,Feature 2,: class-A point,: class-B point,: point with unknown class,Circle of 3-nearest neighbors,The point is class B via 3-NNR.,K近邻法 (K-NNR):,1. 对给定的点找到前K个最近的邻居.,2. 对这K个最近的邻居通过投票法确定这个特征点属于哪个类.,说话人识别(,12/14,),一维高斯混合模型,二维高斯混合模型,说话人识别(,13/14,),三维高斯混合模型,说话人识别(,14/14,),情感和情感语音(,1/7,),一般心理学/现代心理学,简明牛津英语词典从心理学的角度给心情下的定义是:“心情是一种不同于认知或意志的精神上的情感或感情。”,心情(emotion)是人对客观事物的看法和体验。这是从最广泛的意义上给心情下的定义。心情是人(包括动物)所具有的一种心理形式。它与相识活动不同,具有主干的体验形式(如喜怒悲剧惧等感受色调)、外部表现形式(如面部表情),以及独特的生理基础(如皮层下等部位的特定活动)。,情感和情感语音(,2/7,),心情可以分为基本心情和复合心情,口语中心情表达一般不猛烈,更多的是复合心情而不是某一种基本心情。目前用的最多的基本心情分类为:胆怯、生气、兴奋、难过、惊异、厌恶。,情感和情感语音(,3/7,),探讨热点,情感语音库,情感语音分析,情感语音识别,情感语音合成,语音产生语音理解生理过程,图,1,中性语音“你是个好人”的语音特征,情感和情感语音(,4/7,),语音信号中的情感特征,基音频率,发音持续时间,能量,韵律结构,音质,世间的问题, 原来极复杂的,可以用极简单的事例,加以说明,情感和情感语音(,5/7,),情感与语音参数之间的关系,汉语,语速,稍快,较快,但有时较慢,稍慢,很快,非常慢,平均音高,非常高,很高,稍低,非常高,非常低,音高范围,很宽,很宽,稍窄,很宽,稍宽,音节基频高线变化,陡峭,在重读音节处,平滑,上升变化,下降变化,正常,宽,下降终端变化,音节基频低线变化,没有太多变化,平滑,上升变化,下降变化,正常,下降终端变化,音强,较高,较高,较低,正常,较低,音质,有呼吸声,胸腔声调,有呼吸声,响亮,共鸣声,不规则发声,嘟囔的胸鸣声,清晰度,焦急,正常,模糊,准确,正常,情感和情感语音(,6/7,),情感和情感语音(,7/7,),传统说话人识别面临挑战,中性语音,低层的短时声学特征,人机交互中情感计算的加强,说话人发声状态的情感变异,语速,音高,音长,因此,须要情感鲁棒说话人识别模型,内容,情感和情感语音,2.,情感与说话人识别,3.,说话人识别技术,1.,情感语音对说话人识别系统性能影响(,1/4,),识别率,情感语音对说话人识别系统性能影响(,2/4,),与训练语音的文本相关性,文本的情感,建模方式,得分选择策略,情感语音对说话人识别系统性能影响(,3/4,),训练文本的情感,对于中性语音,诱发情感信息,对于情感语音,更好地表达情感,情感语料越多越好,但是情感语料的增加破坏了系统的友好性,一般每种情感可录,10s,;,与训练语音的文本的相关性,文本内容丰富,文本相关的系统性能要好,情感语音对说话人识别系统性能影响(,4/4,),建模方法,情感语料足够时,单独为每个说话人的每种情感建立一个说话人模型,得分选择策略,在无法自动识别情感状态的状况下,可接受取最高得分策略,建设抗情感变更的说话人系统的对策(1/2),前台诱发用户,通过文本提示框,训练时,供应文本内容丰富,文本情感丰富的语料,测试时,供应文本相关的语料,建设抗情感变更的说话人系统的对策(2/2),系统后台处理(算法改进),在模型训练时,是说话人模型尽可能包涵不怜悯感下的特征变更信息,通过对说话人分类情感模型,使得训练与测试情感下的情感能够匹配。,优化得分及选择合适的取得分策略,情感鲁棒,说话人系统,模型,决策,特征,情感鲁棒说话人识别模型(,1/2,),情感鲁棒说话人识别模型(,2/2,),特征层,图,1,基于情感拓展的说话人识别模型,模型层,得分层,拓展情感信息,情感语音聚类,语音帧得分规整,如何拓展情感信息,,使说话人模型包容不同情感下的特征变化信息,如何有效利用情感信息,,来建立说话人模型,如何通过规整,,消除情感差异,增强目标说话人模型的可信度,情感鲁棒说话人识别探讨现状(1/2),探讨机构,日内瓦高校,浙江高校,清华高校,情感鲁棒说话人识别探讨现状(2/2),方法,特征,合适的语音参数,倒谱线性补偿,依据基频去帧,跟据情感模型间参数迁移规律,基于规则的特征修正,模型,结构化训练方法,Emotion attribute projection,Emotion-added,基于情感语音聚类的说话人建模方法,得分,E-Norm,FLRS,基于情感拓展的比较(,MASC,),特征修正对生气、兴奋和惊惶较好,聚类改善了中性和哀痛,得分对说话人确认系统提高更大,32.13%,39.71%,45.68%,20.44%,展望,情感特征提取方面,运用更多形式的情感特征,更精确的特征提取方法,特征建模方面,如何接受一个更好的模型来刻画高层信息,刻画低层的声道特征与高层信息之间的联系,将补偿算法与情感状态联系起来,得分方面,找寻更合适的归整算法,其他,评价情感补偿算法的标准,高层信息表现情感特性,声纹识别技术的优缺点,优势:,1.蕴含声纹特征的语音获得便利、自然,声纹提取可在不知不觉中完成,因此运用者的接受程度也高;,2.获得语音的识别成本低廉,运用简洁,一个麦克风即可,在运用通讯设备时更无需额外的录音设备;,3.适合远程身份确认,只须要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;,4.声纹分辨和确认的算法困难度低;,5.协作一些其他措施,如通过语音识别进行内容鉴别等,可以提高精确率等等。,声纹识别技术的优缺点,缺点:,1.同一个人的声音具有易变性,易受身体状况、年龄、心情等的影响;,2.不同的麦克风和信道对识别性能有影响;,3.环境噪音对识别有干扰;,4.混合说话人的情形下人的声纹特征不易提取等等,Questions?,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!