语音声纹识别技术及应用-课件

资源描述

最新语音声纹识别技术及应用最新语音声纹识别技术及应用20182018年年1 1月月语音声纹识别技术及应用主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示2精品资料语音声纹识别技术及应用你怎么称呼老师？如果老师最后没有总结一节课的重点的难点，你是否会认为老师的教学方法需要改进？你所经历的课堂，是讲座式还是讨论式？教师的教鞭“不怕太阳晒，也不怕那风雨狂，只怕先生骂我笨，没有学问无颜见爹娘”“太阳当空照，花儿对我笑，小鸟说早早早”语音声纹识别技术及应用声音处理声音处理声音处理声音处理声音的三要素声音的三要素声音的三要素声音的三要素音质音质音质音质声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强声音的三要素是音调、音色和音强 vv音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。vv音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不同振幅的混合声音。同振幅的混合声音。同振幅的混合声音。同振幅的混合声音。vv音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振幅越大，强度越大。幅越大，强度越大。幅越大，强度越大。幅越大，强度越大。vv对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。vv音质与声音还原设备有关。音质与声音还原设备有关。音质与声音还原设备有关。音质与声音还原设备有关。vv音质与信号噪声比音质与信号噪声比音质与信号噪声比音质与信号噪声比(SNR)(SNR)(SNR)(SNR)有关有关有关有关。语音声纹识别技术及应用文件文件文件文件数字化的音频文件主要分为数字化的音频文件主要分为数字化的音频文件主要分为数字化的音频文件主要分为4 4类：类：类：类：vv波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是“.wav”wav”。vvMIDIMIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名是是是是“.mid”mid”。vvCD-DACD-DA音频文件。标准激光盘文件，扩展名是音频文件。标准激光盘文件，扩展名是音频文件。标准激光盘文件，扩展名是音频文件。标准激光盘文件，扩展名是“.cda”.cda”。vv压缩音频文件。在数字音频领域，一种压缩音频文件。在数字音频领域，一种压缩音频文件。在数字音频领域，一种压缩音频文件。在数字音频领域，一种MP3MP3格式的压缩音频文件很流行，该格式的压缩音频文件很流行，该格式的压缩音频文件很流行，该格式的压缩音频文件很流行，该格式的文件简称格式的文件简称格式的文件简称格式的文件简称MP3MP3文件。文件。文件。文件。声音处理声音处理声音处理声音处理语音声纹识别技术及应用声音处理声音处理声音处理声音处理获取声音获取声音获取声音获取声音获得获得获得获得CDCD中的声音中的声音中的声音中的声音录音录音录音录音声音转换声音转换声音转换声音转换如果希望把音乐如果希望把音乐如果希望把音乐如果希望把音乐CDCD中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音，这就是换成计算机能够处理的数字化声音，这就是换成计算机能够处理的数字化声音，这就是换成计算机能够处理的数字化声音，这就是“采样采样采样采样”。可以使用。可以使用。可以使用。可以使用Easy CD-Easy CD-DA ExtractorDA Extractor、CoolEditCoolEdit等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。等音频处理软件对音频进行编辑和处理。要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高的采样频率。可以使用的采样频率。可以使用的采样频率。可以使用的采样频率。可以使用WindowsWindows系统自带的系统自带的系统自带的系统自带的“录音机录音机录音机录音机”进行录音。进行录音。进行录音。进行录音。声音的转换只能从高质量向低质量进行，声音的转换不需要专门的软件，声音的转换只能从高质量向低质量进行，声音的转换不需要专门的软件，声音的转换只能从高质量向低质量进行，声音的转换不需要专门的软件，声音的转换只能从高质量向低质量进行，声音的转换不需要专门的软件，使用使用使用使用WindowsWindows的的的的“录音机录音机录音机录音机”转换即可，并且转换功能很强。转换即可，并且转换功能很强。转换即可，并且转换功能很强。转换即可，并且转换功能很强。如果要进一步处理，可采用如果要进一步处理，可采用如果要进一步处理，可采用如果要进一步处理，可采用CoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe AuditionCoolEdit(Adobe Audition）工具软件。）工具软件。）工具软件。）工具软件。语音声纹识别技术及应用短时能量和过零率短时能量和过零率语音分帧语音分帧每帧10-30ms,帧间隔10ms短时能量短时能量对数平方和绝对值过零率过零率(ZCR)8语音声纹识别技术及应用参数提取的预处理参数提取的预处理预加重：预加重：减少尖锐噪声影响，提升高频部分减少尖锐噪声影响，提升高频部分加窗：加窗：Hamming 减少减少Gibbs效应效应9语音声纹识别技术及应用各种参数的比较各种参数的比较Linear Prediction Cepstrum Coefficients(LPCC)假定所处理信号为自回归信号（不适用辅音）；计算简单，但抗噪性差。Mel-Frequency Cepstrum Coefficients(MFCC)模拟人的听觉模型；强调低频部分，屏蔽噪声影响；识别率高，但计算量大。能量能量辅助作用，需归一化。音调音调对算法要求高，适于二次判别。10语音声纹识别技术及应用Mel-频率频率目的：模拟人耳对不同频率语音的感知目的：模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力人类对不同频率语音有不同的感知能力1kHz以下，与频率成线性关系1kHz以上，与频率成对数关系Mel频率定义频率定义1Mel1kHz音调感知程度的1/100011语音声纹识别技术及应用Mel-频率频率公式：公式：频率频率Mel-频率：频率：-频率-Mel-频率Mel-频率频率(Hz)12语音声纹识别技术及应用MFCC计算流程：计算流程：13DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCC语音声纹识别技术及应用主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示14语音声纹识别技术及应用语音识别语音识别Automatic Speech Recognition(ASR)的中文含意是自动语音识别。语音识别技的中文含意是自动语音识别。语音识别技术的目标是让机器能够术的目标是让机器能够“听懂听懂”不同人说不同人说的话，实现从声音到文字的转换。的话，实现从声音到文字的转换。15语音声纹识别技术及应用语音识别语音识别基本术语基本术语特定人和非特定人（话者相关或话者无关）特定人和非特定人（话者相关或话者无关）词汇量（大，小）词汇量（大，小）孤立词，连接词，关键词和连续语音孤立词，连接词，关键词和连续语音自然发音和朗读发音自然发音和朗读发音口音（方言）口音（方言）背景噪音（环境噪音）背景噪音（环境噪音）信道差异（固定电话，麦克，手机等）信道差异（固定电话，麦克，手机等）声学模型（声学模型（HMM，mono-phone，bi-phone，tri-phone）声学特征（声学特征（MFCC）解码（解码（Viterbi）16语音声纹识别技术及应用语音识别语音识别基本术语基本术语识别指标：识别指标：SER（Sentence Error Rate，句子错误率）WER（Word Error Rate，词错误率）CER（Character Error Rate，字错误率）PER（Phone Error Rate，音节错误率）采样率，采样率，8kHz（电话或手机），（电话或手机），16kHz（麦克风）（麦克风）时域，频域时域，频域端点检测，静音检测或有效音检测（端点检测，静音检测或有效音检测（VAD）17语音声纹识别技术及应用语音识别语音识别分类分类孤立词识别识别单元是有限的，单个的词；优点：速度快，识别正确率高缺点：应用范围窄，不能识别词表外的词应用案例：语音命令，手机语音拨号连续语音识别识别单元可以是字，词或者句子优点：应用范围广缺点：速度慢，识别率不高，尤其是词表较大的时候应用案例：语音翻译，语音短信，听写机，语音邮件关键词识别识别单元是词，判断输入语音中是否含有词表中的词优点：能够处理连续语音，词表可定制缺点：速度较慢，词表越大，错误率越多应用案例：电话呼叫服务，电话安全监听18语音声纹识别技术及应用语音识别发展历史语音识别发展历史 50年代年代AT&T Bell Lab，可识别，可识别10个英文数字个英文数字60年年代代LP较较好好地地解解决决了了语语音音信信号号产产生生模模型型,DP则则有有效效解解决决了不等长语音的匹配问题。了不等长语音的匹配问题。70年年代代DTW（Dynamic Time Warp）技技术术基基本本成成熟熟，实实现现了了基基于于LPC和和DTW技技术术相相结结合合的的特特定定人人孤孤立立词词语语音音识识别别系系统。统。80年年代代HMM模模型型和和人人工工神神经经元元网网络络（ANN）在在语语音音识识别别中中成成功功应应用用。1988年年美美国国CMU大大学学基基于于VQ/HMM开开发发SI-CSR系统系统 SPHINX。90年代大规模应用，工业标准，理论进展缓慢。年代大规模应用，工业标准，理论进展缓慢。19语音声纹识别技术及应用语音识别语音识别潜在应用潜在应用语音监听语音拨号语音命令语音导航语音搜索语音听写语音翻译20语音声纹识别技术及应用语音识别系统框架语音识别系统框架特征提取训练模式匹配拒识语法模型结果语音说话人自适应21语音声纹识别技术及应用语音识别过程语音识别过程22语音声纹识别技术及应用HMM基础基础(1)隐含隐含Markov模型模型观测可见，状态隐含基本要素基本要素N -模型状态数=i-初始概率分布A=aij -状态转移矩阵B=bj(k)-输出概率矩阵23语音声纹识别技术及应用HMM基础基础(2)转移概率矩阵转移概率矩阵aij状态i到状态j发生跳转的概率24语音声纹识别技术及应用HMM基础基础(3)输出概率输出概率bi(x)x属于状态i的概率25语音声纹识别技术及应用HMM基础基础(4)HMM的三个基本问题的三个基本问题 -模型评估问题模型评估问题(如何求：如何求：P(O|)-最佳路径问题最佳路径问题(如何求：如何求：Q=q1q2qT)-模型训练问题模型训练问题(如何求：如何求：A、B、)26语音声纹识别技术及应用模型评估问题模型评估问题(如何求：如何求：P(O|)前向概率前向概率给定HMM参数，在t时刻处于状态i，部分观察序列为o1o2ot 的概率后向概率后向概率给定HMM参数，在t时刻处于状态i，部分观察序列为ot+1ot+2oT 的概率27语音声纹识别技术及应用模型评估问题模型评估问题(如何求：如何求：P(O|)前向和后向递推的示意图前向和后向递推的示意图28语音声纹识别技术及应用最佳路径问题最佳路径问题(如何求：如何求：Q=q1q2qT)前向后向算法的缺点前向后向算法的缺点计算量的浪费状态路径不能明确判定Viterbi算法算法不完全的状态空间搜索保留状态转移路径的信息29语音声纹识别技术及应用最佳路径问题最佳路径问题(如何求：如何求：Q=q1q2qT)Viterbi算法的搜索空间算法的搜索空间30语音声纹识别技术及应用Viterbi识别算法和路径回溯识别算法和路径回溯31语音声纹识别技术及应用模型训练问题模型训练问题(如何求：如何求：A、B、)优化问题优化问题优化目标：P(O|)最大Lagrange数乘法，辅助函数：32语音声纹识别技术及应用Baum-Welch参数重估算法：参数重估算法：模型训练问题模型训练问题(如何求：如何求：A、B、)33语音声纹识别技术及应用连续连续HMM算法算法连续的含义连续的含义参数重估参数重估识别算法识别算法34语音声纹识别技术及应用“连续连续”的含义的含义连续混合高斯概率密度函数连续混合高斯概率密度函数(pdf):每个状态表示为若干函数fn(x)的线性组合fn(x)是连续高斯概率密度函数35语音声纹识别技术及应用连续连续HMM参数重估参数重估(1)需要重估的参数：需要重估的参数：起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差36语音声纹识别技术及应用连续连续HMM参数重估参数重估(2)t时刻序列处于状态时刻序列处于状态j、混合高斯密度、混合高斯密度l的概的概率率37语音声纹识别技术及应用连续连续HMM参数重估参数重估(3)pdf的无溢出参数重估公式的无溢出参数重估公式38语音声纹识别技术及应用识别算法识别算法概率计算概率计算:P(O|)Viterbi算法算法对数形式与离散HMM相似，只需替换bjl(x)39语音声纹识别技术及应用实际实际HMM系统的具体问题系统的具体问题起始概率的问题起始概率的问题转移概率的问题转移概率的问题模型的自适应模型的自适应区别性训练区别性训练40语音声纹识别技术及应用起始概率的问题起始概率的问题自左向右结构的自左向右结构的HMM，起始概率为：起始概率为：1,0,0,0即：只能从第一个状态开始41语音声纹识别技术及应用转移概率的问题转移概率的问题大量实验证明：转移概率对识别性能的影大量实验证明：转移概率对识别性能的影响是微不足道的响是微不足道的训练过程中，常常将其设定为常数：训练过程中，常常将其设定为常数：aij=0.5识别过程中，不进行识别过程中，不进行log(aij)的累加的累加仅考虑仅考虑bi(.)的作用的作用42语音声纹识别技术及应用模型的自适应模型的自适应(1)自适应的必要性自适应的必要性口音感冒.MAP自适应算法自适应算法MAP:最大后验概率准则本质上是重新训练一次，对原B矩阵进行微调特点：简单，对每个HMM单独自适应，只需一次发音43语音声纹识别技术及应用模型的自适应模型的自适应(2)MLLR算法算法MLLR：最大似然线性回归本质：将原模型的参数进行线性变换后再进行识别特点：少量语音可以对所有模型进行自适应，只要得到线性变换矩阵即可44语音声纹识别技术及应用区别性训练区别性训练传统传统HMM训练算法的缺陷训练算法的缺陷MCE算法算法MCE：最小分类误差准则使用场合：小词表识别系统需要细致调整算法参数，才能保证收敛45语音声纹识别技术及应用中文语音识别的特点中文语音识别的特点相对于西方语言来说，中文有自己的独特之处。中相对于西方语言来说，中文有自己的独特之处。中文是有调语言，发音的基本单元是声母和韵母并且文是有调语言，发音的基本单元是声母和韵母并且以音节为自然单位，一个音节就是一个字甚至词，以音节为自然单位，一个音节就是一个字甚至词，以至字词的时长很短，混淆度更大。以至字词的时长很短，混淆度更大。另外，中文用另外，中文用415415个基本的无调音节来构成个基本的无调音节来构成70007000多个多个基本汉字的发音，多音字很多。基本汉字的发音，多音字很多。特别是，中文的发音和字是独立的，仅仅是中国大特别是，中文的发音和字是独立的，仅仅是中国大陆地区就有很多的方言，陆地区就有很多的方言，口音问题口音问题非常严重。特别非常严重。特别是在做中文孤立词和短语命令识别的时候，由于没是在做中文孤立词和短语命令识别的时候，由于没有上下文的信息并且语音的长度很短，口音会严重有上下文的信息并且语音的长度很短，口音会严重地降低识别率。地降低识别率。46语音声纹识别技术及应用中文语音建模基元比较中文语音建模基元比较47语音声纹识别技术及应用语音识别应用举例语音识别应用举例嵌入式语音识别：嵌入式语音识别：智能玩具：语音对话娃娃、语音声控机器人智能玩具：语音对话娃娃、语音声控机器人智能家电：语音识别台灯、语音识别插座智能家电：语音识别台灯、语音识别插座智能手机：语音拨号智能手机：语音拨号电话语音识别：电话语音识别：语音电话簿：电信增值语音电话簿：电信增值智能语音总机：企业应用智能语音总机：企业应用48语音声纹识别技术及应用嵌入式语音识别嵌入式语音识别49语音声纹识别技术及应用智能玩具智能玩具语音对话娃娃语音对话娃娃序号序号问句句应答句答句1你好3条2你叫什么名字？3条3你从哪里来?3条4你会什么?1条5背首诗15首诗6讲个故事6个故事7我要听笑话4个笑话8唱首歌5首歌曲9来首英文歌5首英文歌10你喜欢玩什么？5条11你好可爱3条12我很喜欢你3条语音声纹识别技术及应用智能玩具智能玩具语音声控机器人语音声控机器人问句句回答回答前进前进后退后退左转左转右转右转跳舞跳舞语音声纹识别技术及应用语音增值业务语音增值业务企业电话簿：会议通知、语音信箱、传真信箱、企企业电话簿：会议通知、语音信箱、传真信箱、企业邮箱、信息发布、定向广告。业邮箱、信息发布、定向广告。个人电话簿：个人邮件、数据同步、资讯定制、个个人电话簿：个人邮件、数据同步、资讯定制、个人财经、业务定制。人财经、业务定制。语音门户：天气、股票、航班查询。语音门户：天气、股票、航班查询。52语音声纹识别技术及应用主要内容主要内容声音处理技术语音识别技术声纹识别技术技术演示53语音声纹识别技术及应用生物识别技术优势生物识别技术优势语音声纹识别技术及应用声纹的独特性声声纹识别属于生物属于生物识别技技术的一种，是一的一种，是一项根据根据语音波形中反映音波形中反映说话人生理人生理和行和行为特征的特征的语音参数，自音参数，自动识别说话人身份的技人身份的技术。每个人，无。每个人，无论别人人说话模仿的多么相似，都具有独一无二的声模仿的多么相似，都具有独一无二的声纹，这是由每个人的是由每个人的发声器官在成声器官在成长过程中形成的。程中形成的。声纹特征的唯一性可以用来唯一确定一个用户的身份语音声纹识别技术及应用声纹识别流程语音声纹识别技术及应用声纹注册声纹数据库InterVeri提取声纹特征可通过自动语音提示录音完成注册过程支持8k/16k，8bita/u-law和16bitpcm格式的语音注册有效语音在2s60S之间，完成注册并加密存储在数据库中注册后的声纹可以存储在数据库中，并采用ODBC接口，支持SQLServer，ORACLE，DB2声纹不是音频文件，即使被偷窃也不能重播。语音声纹识别技术及应用文本无关确认声纹验证时有效语音长度8-60s之间，最低可支持15s有效语音，以上数据可以根据需要进行配置,与语音无关，内容和注册也无关用户IVRWEBIVRInterVeri身份确认自动交互安全人工坐席语音声纹识别技术及应用通过文本内容识别+声纹确认，可有效防止录音欺骗。特征比对特征比对文本相关确认提取声纹特征结果结果通过通过拒绝拒绝特征比对特征比对文本识别文本识别语音声纹识别技术及应用注册时需要将密码重复5遍，验证身份时说出之前的密码才可以通过验证，该方式识别率高，录音时间短。特征比对特征比对声纹密码确认提取声纹特征结果结果通过通过拒绝拒绝语音声纹识别技术及应用通过和数据库中已经注册的所有人做对比，挑选出最有可能的说话人列表特征比对特征比对声纹鉴别提取声纹特征ID 得分得分 99656060语音声纹识别技术及应用声纹识别两个方向文本无关声纹识别文本相关声纹识别注册与测试可采用任意不同文本注册与测试必须采用相同的文本注册与测试录音要求较长（注册20s，测试8s）注册与测试录音要求较短(注册、测试均只需13s)注册与测试语音不必强求一致注册与测试录音尽量要求相似适合后台监控，海量数据检索可以作为声纹密码，一对一服务虚警相对较高准确度很高语音声纹识别技术及应用声纹系统的优点与其他生物识别技术（如脸型、掌形、虹膜识别等）相比较：与其他生物识别技术（如脸型、掌形、虹膜识别等）相比较：123语音声纹识别技术及应用衡量声纹系统效果指标Imposter False Accept Rate(FAR)User False Reject Rate(FRR)安全性高安全性高Balance易用性强易用性强EER:FR=FAX阈值阈值=4X阈值阈值=2错误接受率(FalseAcceptRate)指非本人被错误的认为是本人的次数占总共测试次数的比值错误拒绝率(FalseRejectRate)指本人被错误的认为是非本人的次数占总共测试次数的比值相等错误率(EqualErrorRate)指FA等于FR时的百分比。是衡量声纹验证效果的重要依据语音声纹识别技术及应用声纹系统准确率系统EER时长标准InterVeri(非声纹密码系统)综合7%注册语音：20秒测试语音：10秒声纹密码系统0.5%（冒认者不知道密码）2.5%（冒认者知道密码）注册和测试：2秒左右基于科大讯飞深厚的研究积累，整合国际说话人识别大赛第一名的领先技术，提供业界领先的高准确率，帮助语音应用获得最佳安全性。语音声纹识别技术及应用第三方评测代号代号代表机构代表机构三大核心测试指标三大核心测试指标在在4444个系统中排名个系统中排名MinDCFMinDCFEEREERDCFDCFMinDCFMinDCFEEREERDCFDCFiflyifly科大科大讯飞0.107 2.625 0.187 1 11 13 3i4uCMU、新加坡IIR与科大科大讯飞、澳大利亚新南威尔士、南洋理工合作提交的系统0.123 3.225 0.178 221 1lpt意大利Loquendo公司0.145 3.188 0.188 34466参赛单位有：CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、Motorola研究中心、IBM 研究院等国内外43家著名语音研究机构由NIST（美国国家标准技术研究院）举办，是国际上规模与影响力最大的说话人识别评测1996年第一次评测，之后每两年评测一次，2008年说话人识别任务难度接近大规模实际应用环境（不同信道、不同环境干扰）科大讯飞首次参赛就获得综合指标第一名的好成绩66语音声纹识别技术及应用声纹产品系统结构语音声纹识别技术及应用ISV2.1（Verification）根据系统提示自动完成身份确认，依照权限进入下一步操作当确认是VIP客户时提醒坐席人员一、一、应用目用目标通过声纹识别提升金融领域风险业务办理的安全性，整个系统对用户透明，因此用户体验不会受到影响应用案例一语音声纹识别技术及应用应用案例二一、一、应用流程用流程监控矫正对象身监控矫正对象身份份发起要求进行声发起要求进行声纹验证纹验证返回矫正对象身返回矫正对象身份是否通过验证份是否通过验证社区矫正管理平台社区矫正管理平台说出最近一段时说出最近一段时间近况间近况语音声纹识别技术及应用应用案例二一、系一、系统目目标保外人员按照规定需要定期至当地派出所汇报当前情况，管理成本较高，采用声纹识别系统和手机定位可以有效的进行自动监控。语音声纹识别技术及应用需求分析采用基础语料数据，训练提供基本业务包，建设基线系统，通过内部测试，效果达到业务基本要求(一个月）选取试点进行试运营，收集实际应用语料，进行分析与优化，对系统参数和模型进行自适应（三个月）效果、性能、稳定性达到项目要求，正式上线，持续统计分析应用情况，进行有针对性的优化提升，不断提升识别率和减少环境多系统的影响基线系统基线系统试运行试运行上线投产上线投产定制优化声纹项目实施过程语音声纹识别技术及应用生物识别技术比较生物识别技术比较错误接受率错误拒绝率容易实用性处理速度/人指纹识别很低较低好2s-5s掌纹识别低5%使用困难5s-10s人脸识别低0.2%非常好5s虹膜识别很低约10%需要培训才能使用，手工操作对虹膜有困难仪器自动对准虹膜需要3s-5s，手工操作需要5s-25s视网膜识别未知未知不好15s-30s声声纹识别低低低低可以可以1s-3s签名识别低10%一般5s-10s语音声纹识别技术及应用声纹识别技术声纹识别技术声纹识别（又称说话人识别）技术声纹识别（又称说话人识别）技术是从说话人是从说话人发出的语音信号中提取声纹信息，并对说话人发出的语音信号中提取声纹信息，并对说话人进行身份验证的生物识别技术。进行身份验证的生物识别技术。语音声纹识别技术及应用声纹识别声纹识别基本术语基本术语类型分类：文本相关(Text-dependent)文本无关(Text-dependent)任务分类：说话人辨认(Speaker Identification)说话人确认(Speaker Verification)UBM(Universal Background Model)，通用背景模型GMM(Gaussian Mixture Model)，高斯混合模型背景噪音（环境噪音）信道差异（固定电话，手机，麦克风）身体差异，语速快慢，时间间隔语音声纹识别技术及应用声纹识别声纹识别基本术语基本术语FAR（False Accept Rate），错误接受率；FRR（False Reject Rate），错误拒绝率。EER（Equal Error Rate），等错误率；即FAR=FRR时的错误率。多说话人识别，分割语音声纹识别技术及应用声纹识别声纹识别基本术语基本术语0.10.20.51251020404020105210.50.20.1错误接受的概率(%)错误拒绝的概率(%)等错误率(ERR)=1%平衡点减少错误接受的可能，提高系统的安全。但是由于错误拒绝率高，会给用户使用带来不便。高安全性高方便性对于安全性要求不高的应用场景，可以适当提高错误接受率，使得用户容易进入系统。DET(DetectionErrorTradeoff)曲线语音声纹识别技术及应用经典模型经典模型GMM(1)GMM高斯混合模型基本原理：基本原理：根据从语音信号中提取的特征参数，为每一个说话人建立一个GMM。为处理的方便，人为的使不同说话人的模型的概率密度函数在形式上都是一样的，不同的只是函数中的参数。优优点：点：简单高效，可以很好的描述从语音信号中提取的特征参数等不规则的数据。GMM是当今应用于说话人识别的最主流模型语音声纹识别技术及应用经典模型经典模型GMM(2)一个M阶高斯混合模型的概率密度函数是由M个高斯概率密度函数加权求和得到，如下：其中M是混合模型的阶数，X是一个D维随机向量wi是混合权重，满足：bi(X)是子分布，每个子分布是D维的联合高斯概率分布，表示为：是均值向量，是协方差矩阵语音声纹识别技术及应用经典模型经典模型GMM(3)完整的高斯混合模型由参数均值向量、协方差矩阵和混合权重共同描述。因此，一个模型可表示为如下一个三元组：GMM计算结构：语音声纹识别技术及应用经典模型经典模型GMM(4)GMM的说话人鉴别(SpeakerIdentification)系统语音声纹识别技术及应用UBMUBM通用背景模型UBM也是一个GMM，只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布，这种特征是大多数说话人的共性特征共性特征。语音声纹识别技术及应用GMM-UBM建模说话人需要建立自己的模型时，就可以通过自适应UBM来得到个性特征，即修正后的参数，从而得到自己的GMM。GMM-UBM优点实现信道均衡少量训练数据得到比较理想的说话人模型语音声纹识别技术及应用说话人确认系统说话人确认系统GMM-UBM说话人确认系统语音声纹识别技术及应用研究热点研究热点技术难题：技术难题：跨信道、噪声跨信道、噪声实验室理想条件实验室理想条件实际应用场合（远程、噪声背景）实际应用场合（远程、噪声背景）训练阶段训练阶段识别阶段识别阶段语音声纹识别技术及应用解决办法解决办法信道补偿信道补偿支持向量机（支持向量机（SVM）联合因子分析（联合因子分析（JFA）迁移学习（迁移学习（Transfer Learning）语音声纹识别技术及应用SVM训练训练语音声纹识别技术及应用声纹识别声纹识别应用产品应用产品USBUSBVoiceVoiceKeyKey声纹证声纹证件件公安系公安系统统银行系银行系统统语音声纹识别技术及应用声纹监听多人识别声纹比对银行（电话，网上）证券银行卡，身份卡声纹密匙高档酒店，会员俱乐部，贵族商城等玩具汽车个人电脑（家庭分级密码）公安领域？金融领域？生活领域声纹识别声纹识别潜在应用潜在应用语音声纹识别技术及应用典型应用典型应用司法鉴定司法鉴定我我们开开发的智能声的智能声纹识别系系统，已成功，已成功应用在司法用在司法鉴定等定等领域。域。目前已成功完成多个声目前已成功完成多个声纹鉴定（同一性定（同一性认定）、声定）、声音完整性音完整性认定等定等项目，目，为司法部司法部门提供了可靠的判断提供了可靠的判断依据。依据。语音声纹识别技术及应用典型应用典型应用科技馆科技馆语音声纹识别技术及应用典型应用典型应用教育系统教育系统语音声纹识别技术及应用典型应用典型应用教育系统教育系统配置选项在线测试离线测试添加说话人添加新模型累积训练删除说话人删除模型说话人确认说话人身份确认波形图实时语音波形静音检测语音声纹识别技术及应用典型应用典型应用基于声纹识别技术的电话语音远程考勤系统基于声纹识别技术的电话语音远程考勤系统电话通信中，通过识别来电号电话通信中，通过识别来电号码（必须是固定电话）和来电码（必须是固定电话）和来电者说话声音的个人特征，我们者说话声音的个人特征，我们的系统就可以快速的自动判断的系统就可以快速的自动判断被监控人是否在规定的时间出被监控人是否在规定的时间出现在规定的场所执行任务，以现在规定的场所执行任务，以及记录在该场所停留的时间长及记录在该场所停留的时间长度。度。这个技术方案主要应用在电话这个技术方案主要应用在电话远程考勤、移动办公、医疗服远程考勤、移动办公、医疗服务监控、监狱管理、劳改犯人务监控、监狱管理、劳改犯人的狱外服刑以及对假释犯罪嫌的狱外服刑以及对假释犯罪嫌疑人的自动监控等方面。疑人的自动监控等方面。

展开阅读全文

语音声纹识别技术及应用-课件

最新文档