最新语音声纹识别技术及应用.ppt

资源描述

最新语音声纹识别技术及应用,2018年1月,主要内容,2,声音处理, 声音的三要素, 音质,声音的三要素是音调、音色和音强,音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。,音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不同振幅的混合声音。,音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振幅越大，强度越大。,对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。,音质与声音还原设备有关。,音质与信号噪声比(SNR)有关。, 文件,数字化的音频文件主要分为4类：,波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是“.wav”。,MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名是“.mid”。,CD-DA音频文件。标准激光盘文件，扩展名是“.cda”。,压缩音频文件。在数字音频领域，一种MP3格式的压缩音频文件很流行，该格式的文件简称MP3文件。,声音处理,声音处理,获取声音, 获得CD中的声音, 录音, 声音转换,如果希望把音乐CD中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音，这就是“采样”。可以使用Easy CD-DA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。,要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高的采样频率。可以使用Windows系统自带的“录音机”进行录音。,声音的转换只能从高质量向低质量进行，声音的转换不需要专门的软件，使用Windows的“录音机”转换即可，并且转换功能很强。如果要进一步处理，可采用CoolEdit(Adobe Audition）工具软件。,短时能量和过零率,语音分帧每帧10-30ms, 帧间隔10ms 短时能量对数平方和绝对值过零率(ZCR),6,参数提取的预处理,预加重：减少尖锐噪声影响，提升高频部分加窗：Hamming 减少Gibbs效应,7,各种参数的比较,Linear Prediction Cepstrum Coefficients (LPCC) 假定所处理信号为自回归信号（不适用辅音）；计算简单，但抗噪性差。 Mel-Frequency Cepstrum Coefficients (MFCC) 模拟人的听觉模型；强调低频部分，屏蔽噪声影响；识别率高，但计算量大。能量辅助作用，需归一化。音调对算法要求高，适于二次判别。,8,Mel-频率,目的：模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力 1kHz以下，与频率成线性关系 1kHz以上，与频率成对数关系 Mel频率定义 1Mel1kHz音调感知程度的1/1000,9,Mel-频率,公式：频率Mel-频率：,- 频率,- Mel-频率,Mel-频率,频率(Hz),10,MFCC,计算流程：,11,DFT,时域信号,线性谱域,Mel 滤波器组,Log,DCT,Mel谱域,对数谱域,MFCC,主要内容,12,语音识别,Automatic Speech Recognition (ASR) 的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话，实现从声音到文字的转换。,13,语音识别基本术语,特定人和非特定人（话者相关或话者无关）词汇量（大，小）孤立词，连接词，关键词和连续语音自然发音和朗读发音口音（方言）背景噪音（环境噪音）信道差异（固定电话，麦克，手机等）声学模型（HMM，mono-phone，bi-phone，tri-phone）声学特征（MFCC）解码（Viterbi）,14,语音识别基本术语,识别指标： SER（Sentence Error Rate，句子错误率） WER（Word Error Rate，词错误率） CER（Character Error Rate，字错误率） PER（Phone Error Rate，音节错误率）采样率，8kHz（电话或手机），16kHz（麦克风）时域，频域端点检测，静音检测或有效音检测（VAD）,15,语音识别分类,16,语音识别发展历史,50年代AT&T Bell Lab，可识别10个英文数字 60年代LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。 70年代DTW（Dynamic Time Warp）技术基本成熟，实现了基于LPC和DTW技术相结合的特定人孤立词语音识别系统。 80年代HMM模型和人工神经元网络（ANN）在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。 90年代大规模应用，工业标准，理论进展缓慢。,17,语音识别潜在应用,18,语音识别系统框架,19,特征提取,训练,模式匹配,拒识,语法,模型,结果,语音,说话人自适应,语音识别过程,20,HMM基础(1),隐含Markov模型观测可见，状态隐含基本要素 N - 模型状态数 =i - 初始概率分布 A=aij - 状态转移矩阵 B=bj(k) - 输出概率矩阵,21,HMM基础(2),转移概率矩阵 aij状态i到状态j发生跳转的概率,22,HMM基础(3),输出概率 bi(x) x属于状态i的概率,23,HMM基础(4),HMM的三个基本问题 - 模型评估问题(如何求：P(O|) - 最佳路径问题(如何求：Q=q1q2qT) - 模型训练问题(如何求：A、B、),24,模型评估问题(如何求：P(O|),前向概率给定HMM参数，在t时刻处于状态i，部分观察序列为o1o2ot 的概率后向概率给定HMM参数，在t时刻处于状态i，部分观察序列为ot+1ot+2oT 的概率,25,模型评估问题(如何求：P(O|),前向和后向递推的示意图,26,最佳路径问题(如何求：Q=q1q2qT),前向后向算法的缺点计算量的浪费状态路径不能明确判定 Viterbi算法不完全的状态空间搜索保留状态转移路径的信息,27,最佳路径问题(如何求：Q=q1q2qT),Viterbi算法的搜索空间,28,Viterbi识别算法和路径回溯,29,模型训练问题(如何求：A、B、),优化问题优化目标：P(O|)最大 Lagrange数乘法，辅助函数：,30,Baum-Welch参数重估算法：,31,模型训练问题(如何求：A、B、),连续HMM算法,连续的含义参数重估识别算法,32,“连续”的含义,连续混合高斯概率密度函数(pdf): 每个状态表示为若干函数fn(x)的线性组合 fn(x)是连续高斯概率密度函数,33,连续HMM参数重估(1),需要重估的参数：起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差,34,连续HMM参数重估(2),t时刻序列处于状态j、混合高斯密度l的概率,35,连续HMM参数重估(3),pdf的无溢出参数重估公式,36,识别算法,概率计算: P(O|) Viterbi算法对数形式与离散HMM相似，只需替换bjl(x),37,实际HMM系统的具体问题,起始概率的问题转移概率的问题模型的自适应区别性训练,38,起始概率的问题,自左向右结构的HMM，起始概率为： 1, 0, 0, 0 即：只能从第一个状态开始,39,转移概率的问题,大量实验证明：转移概率对识别性能的影响是微不足道的训练过程中，常常将其设定为常数： aij=0.5 识别过程中，不进行log(aij)的累加仅考虑bi(.)的作用,40,模型的自适应(1),自适应的必要性口音感冒. MAP自适应算法 MAP: 最大后验概率准则本质上是重新训练一次，对原B矩阵进行微调特点：简单，对每个HMM单独自适应，只需一次发音,41,模型的自适应(2),MLLR算法 MLLR：最大似然线性回归本质：将原模型的参数进行线性变换后再进行识别特点：少量语音可以对所有模型进行自适应，只要得到线性变换矩阵即可,42,区别性训练,传统HMM训练算法的缺陷 MCE算法 MCE：最小分类误差准则使用场合：小词表识别系统需要细致调整算法参数，才能保证收敛,43,中文语音识别的特点,相对于西方语言来说，中文有自己的独特之处。中文是有调语言，发音的基本单元是声母和韵母并且以音节为自然单位，一个音节就是一个字甚至词，以至字词的时长很短，混淆度更大。另外，中文用415个基本的无调音节来构成7000多个基本汉字的发音，多音字很多。特别是，中文的发音和字是独立的，仅仅是中国大陆地区就有很多的方言，口音问题非常严重。特别是在做中文孤立词和短语命令识别的时候，由于没有上下文的信息并且语音的长度很短，口音会严重地降低识别率。,44,中文语音建模基元比较,45,语音识别应用举例,嵌入式语音识别：智能玩具：语音对话娃娃、语音声控机器人智能家电：语音识别台灯、语音识别插座智能手机：语音拨号电话语音识别：语音电话簿：电信增值智能语音总机：企业应用,46,嵌入式语音识别,47,智能玩具语音对话娃娃,智能玩具语音声控机器人,语音增值业务,企业电话簿：会议通知、语音信箱、传真信箱、企业邮箱、信息发布、定向广告。个人电话簿：个人邮件、数据同步、资讯定制、个人财经、业务定制。语音门户：天气、股票、航班查询。,50,主要内容,51,生物识别技术优势,声纹的独特性,声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。每个人，无论别人说话模仿的多么相似，都具有独一无二的声纹，这是由每个人的发声器官在成长过程中形成的。,声纹特征的唯一性可以用来唯一确定一个用户的身份,声纹识别流程,声纹注册,声纹数据库,InterVeri,提取声纹特征,可通过自动语音提示录音完成注册过程支持8k/16k ，8 bit a/u-law和 16 bit pcm格式的语音注册有效语音在2s60S之间，完成注册并加密存储在数据库中注册后的声纹可以存储在数据库中，并采用ODBC接口，支持SQL Server，ORACLE，DB2,声纹不是音频文件，即使被偷窃也不能重播。,文本无关确认,声纹验证时有效语音长度8-60s之间，最低可支持15s有效语音，以上数据可以根据需要进行配置, 与语音无关，内容和注册也无关,通过文本内容识别+声纹确认，可有效防止录音欺骗。,特征比对,文本相关确认,提取声纹特征,结果,通过,拒绝,特征比对,文本识别,注册时需要将密码重复5遍，验证身份时说出之前的密码才可以通过验证，该方式识别率高，录音时间短。,特征比对,声纹密码确认,提取声纹特征,结果,通过,拒绝,通过和数据库中已经注册的所有人做对比，挑选出最有可能的说话人列表,特征比对,声纹鉴别,提取声纹特征,ID 得分,99,65,60,60,声纹识别两个方向,声纹系统的优点,与其他生物识别技术（如脸型、掌形、虹膜识别等）相比较：,1,2,3,衡量声纹系统效果指标,Imposter False Accept Rate (FAR),User False Reject Rate (FRR),错误接受率(False Accept Rate) 指非本人被错误的认为是本人的次数占总共测试次数的比值错误拒绝率(False Reject Rate) 指本人被错误的认为是非本人的次数占总共测试次数的比值相等错误率(Equal Error Rate) 指FA等于FR时的百分比。是衡量声纹验证效果的重要依据,声纹系统准确率,基于科大讯飞深厚的研究积累，整合国际说话人识别大赛第一名的领先技术，提供业界领先的高准确率，帮助语音应用获得最佳安全性。,第三方评测,64,64,参赛单位有：CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、Motorola研究中心、IBM 研究院等国内外43家著名语音研究机构,由NIST（美国国家标准技术研究院）举办，是国际上规模与影响力最大的说话人识别评测 1996年第一次评测，之后每两年评测一次，2008年说话人识别任务难度接近大规模实际应用环境（不同信道、不同环境干扰）科大讯飞首次参赛就获得综合指标第一名的好成绩,声纹产品系统结构,一、应用目标,通过声纹识别提升金融领域风险业务办理的安全性，整个系统对用户透明，因此用户体验不会受到影响,应用案例一,应用案例二,一、应用流程,监控矫正对象身份,发起要求进行声纹验证,返回矫正对象身份是否通过验证,社区矫正管理平台,说出最近一段时间近况,应用案例二,一、系统目标,保外人员按照规定需要定期至当地派出所汇报当前情况，管理成本较高，采用声纹识别系统和手机定位可以有效的进行自动监控。,需求分析,采用基础语料数据，训练提供基本业务包，建设基线系统，通过内部测试，效果达到业务基本要求(一个月）,选取试点进行试运营，收集实际应用语料，进行分析与优化，对系统参数和模型进行自适应（三个月）,效果、性能、稳定性达到项目要求，正式上线，持续统计分析应用情况，进行有针对性的优化提升，不断提升识别率和减少环境多系统的影响,定制优化,声纹项目实施过程,生物识别技术比较,声纹识别技术,声纹识别（又称说话人识别）技术是从说话人发出的语音信号中提取声纹信息，并对说话人进行身份验证的生物识别技术。,声纹识别基本术语,类型分类：文本相关(Text-dependent) 文本无关(Text-dependent) 任务分类：说话人辨认(Speaker Identification) 说话人确认(Speaker Verification) UBM(Universal Background Model)，通用背景模型 GMM(Gaussian Mixture Model)，高斯混合模型背景噪音（环境噪音）信道差异（固定电话，手机，麦克风）身体差异，语速快慢，时间间隔,声纹识别基本术语,FAR（False Accept Rate），错误接受率；FRR（False Reject Rate），错误拒绝率。 EER（Equal Error Rate），等错误率；即FAR=FRR时的错误率。多说话人识别，分割,声纹识别基本术语,经典模型GMM(1),GMM高斯混合模型基本原理：根据从语音信号中提取的特征参数，为每一个说话人建立一个GMM。为处理的方便，人为的使不同说话人的模型的概率密度函数在形式上都是一样的，不同的只是函数中的参数。优点：简单高效，可以很好的描述从语音信号中提取的特征参数等不规则的数据。 GMM是当今应用于说话人识别的最主流模型,经典模型GMM(2),一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到，如下：其中M是混合模型的阶数，X是一个D维随机向量 wi是混合权重，满足： bi(X)是子分布，每个子分布是D维的联合高斯概率分布，表示为：是均值向量，是协方差矩阵,经典模型GMM(3),完整的高斯混合模型由参数均值向量、协方差矩阵和混合权重共同描述。因此，一个模型可表示为如下一个三元组： GMM计算结构：,经典模型GMM(4),GMM的说话人鉴别(Speaker Identification)系统,UBM,UBM通用背景模型 UBM也是一个GMM，只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布，这种特征是大多数说话人的共性特征。,GMM-UBM,建模说话人需要建立自己的模型时，就可以通过自适应UBM来得到个性特征，即修正后的参数，从而得到自己的GMM。 GMM-UBM优点实现信道均衡少量训练数据得到比较理想的说话人模型,说话人确认系统,研究热点,技术难题：跨信道、噪声,实验室理想条件 ,解决办法,信道补偿支持向量机（SVM）联合因子分析（JFA）迁移学习（Transfer Learning）,SVM训练,声纹识别应用产品,USB Voice Key,声纹证件,公安系统,银行系统,01,02,03,声纹监听多人识别声纹比对,银行（电话，网上）证券银行卡，身份卡声纹密匙,高档酒店，会员俱乐部，贵族商城等玩具汽车个人电脑（家庭分级密码）,公安领域？,金融领域？,生活领域 ,声纹识别潜在应用,典型应用司法鉴定,我们开发的智能声纹识别系统，已成功应用在司法鉴定等领域。目前已成功完成多个声纹鉴定（同一性认定）、声音完整性认定等项目，为司法部门提供了可靠的判断依据。,典型应用科技馆,典型应用教育系统,典型应用教育系统,配置选项在线测试离线测试添加说话人添加新模型累积训练删除说话人删除模型说话人确认说话人身份确认波形图实时语音波形静音检测,典型应用基于声纹识别技术的电话语音远程考勤系统,电话通信中，通过识别来电号码（必须是固定电话）和来电者说话声音的个人特征，我们的系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所执行任务，以及记录在该场所停留的时间长度。这个技术方案主要应用在电话远程考勤、移动办公、医疗服务监控、监狱管理、劳改犯人的狱外服刑以及对假释犯罪嫌疑人的自动监控等方面。,参考资料,X.D. Huang, A. Acero, and H.-W. Hon, Spoken Language Processing: a Guide to Theory, Algorithm, and System Development, Upper Saddle River, New Jersey: Prentice Hall, 2001. L.R. Rabiner and B.-H. Juang, Fundamentals of Speech Recognition, Prentice-Hall, Englewood Cliffs, 1993. T. Kinnunen, H.Z. Li, An overview of text-independent speaker recognition: From features to supervectors, Speech Communication, Volume 52, Issue 1, January 2010, Pages 12-40. HTK: http:/htk.eng.cam.ac.uk/ Sensory: TalentedSoft: CTI论坛： ,

展开阅读全文