语音信号处理第8章-语音信号情感处理课件

上传人:494895****12427 文档编号:242660305 上传时间:2024-08-30 格式:PPT 页数:58 大小:5.77MB
返回 下载 相关 举报
语音信号处理第8章-语音信号情感处理课件_第1页
第1页 / 共58页
语音信号处理第8章-语音信号情感处理课件_第2页
第2页 / 共58页
语音信号处理第8章-语音信号情感处理课件_第3页
第3页 / 共58页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第,8,章 语音信号情感处理,南京工程学院 梁瑞宇,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,南京工程学院 梁瑞宇,第,8,章 语音信号情感处理,第,8,章 语音信号情感处理,情感的声学特征分析,实用语音情感的识别算法,概述,情感理论与情感诱发实验,应用与展望,第8章 语音信号情感处理情感的声学特征分析实用语音情感的识别,何为情感?,何为情感?,语音信号处理第8章-语音信号情感处理课件,语音信号处理第8章-语音信号情感处理课件,吃惊,眉毛向上挑,眼睛圆睁,嘴唇无意识地张开,吃惊,恐惧,双眉上扬,聚拢,上眼皮上扬,眼袋紧绷,双唇向两耳水平方向略微拉伸,恐惧,语音信号处理第8章-语音信号情感处理课件,语音信号处理第8章-语音信号情感处理课件,语音信号处理第8章-语音信号情感处理课件,悲伤,上层眼皮下垂,两眼无光,两侧嘴角微微下拉,悲伤,情感行为识别:,面部表情识别,语音情感识别,姿态识别,生理模式识别:,皮肤电反应,呼吸,心率,体温,脑电波等,多模态情感识别,情感行为识别:多模态情感识别,8.1,概述,计算机要能够更加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感类型来调整交互对话的方式。对于情感信息处理技术的研究包括多个方面,主要有情感特征分析、情感识别(如肢体情感识别、面部情感识别和语音情感识别等)、情感模拟(如情感语音合成等)。,近年来,语音情感的研究进展可以大致分为四个方面:一、情感特征的选择和优化;二、建模算法的研究;三、自然情感数据库的建立;四、关注情感模型适应能力的环境自适应方法,如上下文信息、跨语言、跨文化,和性别差异等。,8.1概述计算机要能够更加主动的适应操作者的需要,首先必须,MIT,CMU,东京大学,早稻田大学,日内瓦大学 情绪研究实验室,伯明翰大学,国内外研究现状,MIT国内外研究现状,中科院计算所:研究带有表情和动作的虚拟人。,中科院自动化所:基于生物特征的身份验证。,中科院心理学所、生物所:情绪心理学、生理学研究,中科院软件所:智能用户界面,浙江大学:虚拟人物、情绪系统构造,北京工业大学:多功能感知机同情感计算的融合研究。,东南大学:语音情感识别,南京航空航天大学:语音情感计算。,中国科技大学:基于内容的交互式感性图像检索的研究,中科院计算所:研究带有表情和动作的虚拟人。,重庆大学:智能服务、增强现实、环境感知、智能手表等,注重软件方面的研究。,海南大学:军用无线局域网结构中的可穿戴计算机。,哈工大:,“,具有六种面部表情及视觉的类人头像型机器人及行为研究,”,,于,2004,年研制出具有八种面部表情的仿人头像机器人系统,并进行了表情实验,实现了喜、怒、哀、乐、悲伤、严肃、吃惊、自然,(,中性,),等,8,种表情。,重庆大学:智能服务、增强现实、环境感知、智能手表等,注重软件,索尼公司的,AIBO,狗 :第一个实现规模商品化的宠物机器人(,2006,年生产,6,万只,收益,10,亿美元),,QRIO,、,SDR-4X,等宠物机器人。为有情感交互能力的机器人及相关的研究打开了想象的空间。,典型应用,索尼公司的AIBO狗 :第一个实现规模商品化的宠物机器人(2,Pepper,是一款人形机器人,由日本软银集团和法国,Aldebaran Robotics,研发,可综合考虑周围环境,并积极主动地作出反应。机器人配备了语音识别技术、呈现优美姿态的关节技术,以及分析表情和声调的情绪识别技术,可与人类进行交流。,Pepper是一款人形机器人,由日本软银集团和法国Aldeb,8.2,情感理论与情感诱发实验,1,)基本情感论,8.2.1,情感的心理学理论,基本情感论认为,人类的复杂的情感是由若干种有限的基本情感构成的,基本情感按照一定的比例混合构成各种复合情感。基本情感论认为情感可以用离散的类别模型来描述,目前大部分的情感识别系统,都是建立在这一理论体系之上的。,在心理学领域对基本情感类别的定义还没有一个统一的结论,然而在语音情感识别的文献中,较多的研究者采用的是六种基本情感状态:,“,喜悦”、,“,生气”、,“,惊讶”、,“,悲伤”、,“,恐惧”和,“,中性”。,8.2情感理论与情感诱发实验1)基本情感论8.2.1 情感,人类情绪的基本类型,快乐 愤怒 恐惧 悲哀,人类情绪的基本类型 快乐 愤怒,1.,快乐:追求并达到所盼望的目的。,快乐,:,盼望的目的达到后继之而来的紧张解除时的情绪体验。,1.快乐:追求并达到所盼望的目的。快乐:盼望的目的达到后继,愤怒,:,愿望不能达到或事与愿违,并一再受到妨碍的情况下产生的情绪体验。,愤怒:愿望不能达到或事与愿违,并一再受到妨碍的情况下产生的,恐惧,:由于缺乏处理或摆脱可怕的情景或事物的能力引起的情绪体验。,恐惧:由于缺乏处理或摆脱可怕的情景或事物的能力引起的情绪体验,悲伤:,与失去所热爱的事物或所盼望的东西有关的体验。,悲伤:与失去所热爱的事物或所盼望的东西有关的体验。,8.2.1,情感的心理学理论,2,)维度空间论,维度模型,是由效价度和唤醒度组成的二维空间:,1,)效价度或者快乐度,其理论基础是正负情感的分离激活,主要体现为情感主体的情绪感受,是对情感和主体关系的一种度量;,2,)唤醒度或者激活度,指与情感状态相联系的机体能量激活的程度,是对情感的内在能量的一种度量。,8.2.1 情感的心理学理论2)维度空间论维度模型,是由效价,8.2.2,实用语音情感数据库的建立,1,)概述,语音情感数据库的建立,是研究语音情感的必需的研究基础,具有极为重要的意义。目前国际上流行的语音情感数据库有,AIBO,(,Artificial Intelligence Robot,)语料库、,VAM,(,The Vera am Mittag,)数据库、丹麦语数据库(,Danish Emotional Speech,,,DES,)、柏林数据库、,SUSAS,(,Speech under Simulated and Actual Stress,)数据库等。,8.2.2 实用语音情感数据库的建立1)概述语音情感数据库,8.2.2,实用语音情感数据库的建立,2,)实用语音情感数据库的需求,情感语料可以分为自然语音、诱发语音和表演语音三类。表演语料的优点是容易采集,缺点是情感表现夸张,与实际的自然语音有一定的差别。早期基于表演语料的识别系统,它的情感模型在实验室条件下是符合样本数据的,在实验测试中也能获得较高的识别率,但是在实际条件下,系统的情感模型与真实的情感数据不能符合的很好,导致应用中的技术瓶颈。,面向实际应用的需求,实用语音情感数据库必须要保证语料的真实可靠,不能采用传统的表演方式采集数据。通过实验心理学中的方法来诱发实用语音情感数据,可尽可能的使训练数据接近真实的情感数据。,8.2.2 实用语音情感数据库的建立2)实用语音情感数据库,8.2.2,实用语音情感数据库的建立,3,)建立过程和一般规范,参考国内外著名语料库及其相关的规范,实用语音情感数据库建立的流程主要包含五个步骤:制定情感诱发方式、情感语音采集、数据检验与补录、语句切分与标注和听辨测试。,8.2.2 实用语音情感数据库的建立3)建立过程和一般规范,8.2.2,实用语音情感数据库的建立,4,)数据检验,录音过程通常在安静的实验室内进行。每次录音后,应进行数据的检验与补录,及时对语音文件进行人工检验,以排除录音过程中可能出现的错误。例如,查看并剔除语音中的信号过载音段、不规则噪声(如咳嗽等)和非正常停顿造成的长时静音等。对于错误严重的录音文件,必要时进行补录。,8.2.2 实用语音情感数据库的建立4)数据检验录音过程通,8.2.3,情感语料的诱发方法,1,)通过计算机游戏诱发情感语料,因为人类声音中蕴含的情感信息受到无意识的心理状态变化的影响,以及社会文化导致的有意识的说话习惯的控制,所以实用语音情感数据库的建立需要考虑语音中情感的自然流露和有意识控制。,通过计算机游戏诱发情感的方法的优势在于通过游戏中画面和音乐的视觉、听觉刺激,能提供一个互动的、具有较强感染力的人机交互环境,能够有效的诱发出被试的正面情感与负面情感。,8.2.3 情感语料的诱发方法1)通过计算机游戏诱发情感语,8.2.3,情感语料的诱发方法,2,)通过认知作业诱发情感语料,除了游戏诱发以外,通过认知作业可诱发包括烦躁、疲劳和自信等心理状态下的情感。在一个重复的、长时间的认知作业中,采用噪声诱发、睡眠剥夺等手段可辅助诱发负面情绪。认知作业现场的情感识别具有重要的实际意义,特别是在航天、航空、航海等长时间的、高强度的工作环境中,对工作人员的负面情感的及时检测和调控具有非常重要的意义。烦躁、疲劳和自信等心理状态对认知过程有重要的影响,是评估特殊工作人员的心理状态和认知作业水平的一个重要因素。,8.2.3 情感语料的诱发方法2)通过认知作业诱发情感语料,8.2.4,情感语料的主观评价方法,为了保证所采集的情感语料的可靠性,需要进行主观听辨评价,每条样本由,10,名未参与录音的人员进行评测。一般认为人类区分信息等级的极限能力为,7,2,,故可以引入九分位的比例标度来衡量信息等级。例如,采用标度,1,、,3,、,5,、,7,、,9,表示情感的五种强度,对应极弱,较弱,一般,较强,极强五个等级。,由于采取多人评测,为了得到第,条情感样本的评价结果,需要将所有听辨人的测评结果进行融合,采用加权融合的准则得到该条情感样本的评判结果为:,8.2.4 情感语料的主观评价方法为了保证所采集的情感语料,8.3,情感的声学特征分析,8.3.1,情感特征提取,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征三种类型:,1,)韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。最常用的韵律特征有时长、基频、能量等。,2,)基于谱的相关特征被认为是声道形状变化和发声运动之间相关性的体现,使用的谱特征一般有线性预测系数、线性预测倒谱系数、美尔倒谱系数等。,3,)声音质量是人们赋予语音的一种主观评价指标,用于衡量声音质量的声学特征一般有:共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等。,8.3情感的声学特征分析8.3.1 情感特征提取用于语音,8.3.1,情感特征提取,8.3.1 情感特征提取,8.3.2,特征降维算法,由于受到训练样本规模的限制,特征空间维度不能过高,需要进行特征降维。在具体的算法训练当中,几乎所有的算法都会受到计算能力的限制,特征数量的增加,最终会导致“维度灾难”的问题。,常用的特征降维方法:,LDA,(,Linear Discriminant Analysis,)、,PCA,(,Principal Components Analysis,)、,FDR,(,Fisher Discriminant Ratio,)、,SFS,(,Sequential Forward Selection,)等。,8.3.2 特征降维算法由于受到训练样本规模的限制,特征空,8.3.2,特征降维算法,1,),LDA,降维原理,LDA,用来特征降维的具体步骤如下:,(,1,)中心化训练样本,并计算其类内离散度矩阵,和类间离散度矩阵 。,(,2,)计算样本的协方差矩阵,并对其特征值分解,将特征向量按照其特征值的大小进行降序排列,取前若干个特征向量组成投影矩阵。,(,3,)计算投影到投影矩阵上的样本的类内离散度矩阵 和类间离散度矩阵 。,8.3.2 特征降维算法1)LDA降维原理LDA用来特征降,8.3.2,特征降维算法,1,),LDA,降维原理,(,4,)对,进行特征值分解,并将其特征向量按其特征值大小进行降序排列,取前,c-1,个特征值对应的特征向量组成新的投影矩阵。,(,5,)将训练样本按照新的投影矩阵进行投影。,(,6,)对测试样本进行中心化处理,并按照新的投影矩阵进行投影。,(,7,)选择合适的分类算法进行分类。,8.3.2 特征降维算法1)LDA降维原理(4)对,8.3.2,特征降维算法,2,),PCA,降维原理,PCA,是经常使用的特征获取方法之一,被称作是模式分类中的著名算法之一,是一种使用相当广泛的降低数据维度方法。,PCA,的目的就是利用一组向量基去再次表征获得的信息量,使新的信息量能够尽可能表达初始信息之间的关联,最后从中获取“主分量”,很大程度上减小多余信息的干扰。为了使得重构信号误差最小,需要选取特征矩阵特征值较大的特征矢量,而用该特征矢量重构系数作为信号的低维特征。,8.3.2 特征降维算法2)PCA降维原理PCA是经常使用,8.4,实用语音情感的识别算法,8.4 实用语音情感的识别算法,8.4.1 K,近邻分类器,K,近邻(,KNN,)分类算法,是一种较为简单直观的分类方法,但在语音情感识别中表现出的性能却很好。,KNN,算法分为如下四步:,1,)提取训练样本的特征向量,构成训练样本特征向量集合,X,1,X,2,X,n,;,2,)设定算法中,K,的值。,K,值的确定没有一个统一的方法(根据具体问题选取的,K,值可能有较大的区别)。一般方法是先确定一个初始值,然后根据实验结果不断调试,最终达到最优。,3,)提取待测样本的特征向量,X,,并计算,X,与,中每一样本的欧式距离,D(X,X,l,),。,4,)统计,D(X,X,l,),中,K,个最近邻的类别信息,给出,X,的分类结果。,8.4.1 K近邻分类器K近邻(KNN)分类算法,是一种较,8.4.2,支持向量机,支持向量机是由,Cortes,和,Vapnik,等人提出的一种机器学习的算法,它是建立在统计学习理论和结构风险最小化的基础之上的。支持向量机在诸多模式分类应用领域中具有优势,如解决小样本问题、非线性模式识别问题以及函数拟合等。,SVM,算法是统计学习理论的一种实现方式。最基本思路就是要找到使测试样本的分类错误率达到最低的最佳超平面,也就是要找到一个分割平面,使得训练集中的训练样本距离该平面的距离尽量的远以及平面两侧的空白区域最大。,8.4.2 支持向量机支持向量机是由Cortes和Vapn,8.4.2,支持向量机,在,n,维空间,R,n,中,对于两类问题进行分类时,设输入空间中的一组样本为,(x,i,y,i,),,,y,i,+1,-1,是类别标号。,+1,-1,在线性可分的情况下,存在多个超平面将两类样本分开,其中可以使得两个类别离超平面最近的样本与它的距离最大的那个超平面,称为最优超平面。,8.4.2 支持向量机在n维空间Rn中,对于两类问题进行分,8.4.2,支持向量机,设超平面方程为,使得,推得,则分类函数就是,g(x)=wx+b,,且分类函数归一化以后,两类中的所有样本都满足,|g(x)|,1,,距离分类超平面最近的样本满足,|g(x)|,=,1,,分类间隔即为,2/|w|,。当,|w|,最小时,分类间隔最大。,8.4.2 支持向量机设超平面方程为,8.4.2,支持向量机,寻找最优分类面的问题就简化成一个简单的优化问题,即当约束条件为,,使得,最小。,引入拉格朗日算子,,原问题变成了一个约束条件下的二次优化问题:,通过对系数,w,和,b,求导,并代入上式,则当约束条件为,使得,8.4.2 支持向量机寻找最优分类面的问题就简化成一个简单,8.4.2,支持向量机,引入非线性映射后,假设,是低维输入空间,R,n,到高维特征空间,F,的一个映射,核函数,k,对应高维特征,F,中向量内积运算,即,最优分类问题转化为一个约束条件,下的二次优化问题:,得到最佳分类函数为,8.4.2 支持向量机引入非线性映射后,假设是低维输入空,8.4.2,支持向量机,1,)多项式形式的核函数:,2,)径向基形式的核函数:,3,),S,形核函数:,8.4.2 支持向量机1)多项式形式的核函数:,8.4.2,支持向量机,上面介绍的是两类样本的分类问题,如果需要对,类问题进行分类,则需要对,SVM,进行组合。组合的策略有,“,一对一,”,和,“,一对多,”,。,“,一对多,”,的思想是在该类样本和不属于该类的样本之间构建一个超平面,假设总共有,k,个类别,则需要构建,k,个分类器,每个分类器分别用第,类的样本作为正样本,其余的样本作为负样本。该方法的缺点是样本数目不对称,负样本比正样本要多很多,故分类器训练的惩罚因子很难选择。,“,一对一,”,的方式是每两类样本间构造一个超平面,一共需要训练,k(k-1)/2,个分类器,最后识别样本时采用后验概率最大法选定待识别样本的类型,,“,一对一,”,的方法的缺点是训练的分类器比较多。,8.4.2 支持向量机上面介绍的是两类样本的分类问题,如果,8.4.3,人工神经网络,人工神经网络(,ANN,)是一种由大量简单处理单元构成的并行分布式数学模型。人工神经网络主要从两方面模仿大脑工作:从外界环境中学习和用突触权值存储知识。神经元是神经网络处理信息的基本单位,是由突触权值、加法器、激活函数三部分构成的非线性模型。,8.4.3 人工神经网络人工神经网络(ANN)是一种由大量,8.4.3,人工神经网络,对于多层感知器,通常采用著名的,BP,算法来修正连接权值。下面简单介绍用于,MLP,训练的,BP,算法。训练分两步:第一步是计算,MLP,的输出值;第二步是用,BP,算法更新网络的连接权值。,8.4.3 人工神经网络对于多层感知器,通常采用著名的BP,8.4.3,人工神经网络,具体步骤如下:,1,)设置初始权值及阈值,即设所有的权值及节点的阈值为一个小的随机数。,2,)给定新的输入值,x,1,x,N,及相应的理想输出信号,d,1,d,M,。,3,)计算当输入,x,1,x,N,通过网络时的实际输出值,y,1,y,M,。,对于网络中任一节点,j,,它的输出的计算步骤为:,8.4.3 人工神经网络具体步骤如下:,8.4.3,人工神经网络,4,)修正每个权值和阀值。从输出节点开始逐步向前递推,直到第一层。,当节点,j,是输出节点时,理想输出明确,,j,可表示为,当节点,j,是隐含节点时,理想输出不明确,,j,定义为,5,)转移到第,2,步重复进行,直到各,,,稳定为止。,8.4.3 人工神经网络4)修正每个权值和阀值。从输出节点,8.4.3,人工神经网络,MLP,的训练属于用,LMS,准则使某目标函数极小的搜索程序。当输入信号未到来时,所有输出节点的值都为低值,(0,或,0.9),。该训练是有教师的训练且训练属迭代型,随着各训练样本的重复进入,权值逐步调整,直到目标函数降到容许值或权值不再变动为止。一般,为了使权值变化更加平滑,还要在,BP,算法更新权值时加入一个动量,即,反向误差传播算法(,BP,算法)虽然可以很精确地实现函数的逼近和模式的分类。但是从本质上讲,,BP,算法仍然是一种梯度算法,因此不可避免地存在局部最小值问题。,8.4.3 人工神经网络MLP的训练属于用LMS准则使某目,8.4.3,人工神经网络,网络结构的输出节点的选择,决定了两种人工神经网络模型在模式识别中的应用方式,:,(,1,)多输出型,所谓多输出型,即对于多个类别,只有一个人工神经网络模型,而这个网络有多个输出节点,每一个输出节点对应一个类别。网络的结构是输入节点数对应于样点数或者样本的特征维数,而输出层的节点数等于类别数。,(,2,)单输出型,所谓单输出型,即一个人工神经网络模型只有一个输出。这样要识别多个类别,势必要准备多个人工神经网络模型。,8.4.3 人工神经网络网络结构的输出节点的选择,决定了两,8.5,应用与展望,载人航天中的应用,儿童情绪能力评估,情感多媒体搜索,智能机器人,服务质量评估,8.5 应用与展望载人航天中的应用,载人航天中的应用,载人航天中的应用,儿童情绪能力评估,情感计算是近年来新兴的一个多学科交叉的研究领域,是重大科学挑战课题之一,儿童的情绪能力和性格,儿童情感特质的培养和校正,儿童的性格培养和早期教育具有较大的指导作用,本项目是以情感语音、人脸表情和情感电生理参数为主的多模态儿童情绪分析与分类的研究,通过每个儿童的行为表现方式体现出来,儿童情绪能力的评测技术,对儿童往后的表现产生相当积极正面的影响,儿童情绪能力评估情感计算是近年来新兴的一个多学科交叉的研究领,情感多媒体搜索,情感多媒体搜索,智能机器人,智能机器人,服务质量评估,非特定说话人,声学特征,情感识别模型,服务质量考评,特征规整化,服务质量评估非特定说话人声学特征情感识别模型服务质量考评特征,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!