09语音信号处理(temp) _ New

资源描述

单击此处编辑母版标题样式,*,/83,数字信号处理,Amplitude,Time,Frequency,(,a),9,语音信号处理,2,引言,语音信号处理：,以语音学和数字信号处理为基础，目的是要得到一些语音参数以便高效的传输或存储，或者通过处理的某种运算以达到某种用途的要求，例如人工合成出语音，辨识出说话者，识别讲话的内容等。,3,引言,基本内容,说的是什么内容？,是谁在说话？,计算机去说话？,怎么把话说好？,语音识别，如电话订票系统,声纹识别，如“芝麻开门”系统,语音合成，如公交车报站台名,说话水平评估，如普通话测试系统,说的是什么语言？,语种识别，如国际电话翻译,4,引言,语音四要素,（,1,）,音高,指声音的高低，取决于发音体振动的快慢。发音体振动越快，发出的声音越高，反之声音则低。,（,2,）,音强,是指声音的强弱，它取决于发音体振动幅度的大小。,（,3,）,音长,指声音的长短，也就是声波延续的长度，它取决于发音体振动持续的时间。,在语音中，再长的音实际上也很短，音长一般决定于发音动作持续的时间。,（,4,）,音质,又叫音色，是一个声音能区别于其他声音的本质特点。声波的振动方式与共鸣器的共振作用，都决定着音质的差别。,5,引言,1.,浊音的基音频率,(F,0,),：,由声带的尺寸、特性和声带所受张力决定，其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在,60Hz,至,450Hz,左右。,2.,共振峰：,声道是一个谐振腔，当激励的频率达到至声道的固有频率，则声道会以最大的振幅振荡，此时的频率称之为共振峰或共振峰频率。,声道具有的一组共振峰，声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。,实际应用中，头三个共振峰最重要。,两个重要特性,6,9.1,基本操作,y,Fs,nbits,=,wavread(filename,),filename,：为指定载入的,WAV,格式的文件名称；,y,：为所读取的音频数据样本；,Fs,：为采样频率；,nbits,：为文件中每个样本的字节数。,一、读文件,7,9.1,基本操作,sound(y,Fs,),wavplay(y,Fs,),audioplayer,(y,Fs,),y,：音频信号；,Fs,：采样频率。,二、播放语音,MATLAB,自带的声音：,load chirp,sound(y,Fs,),%,鸟声,load gong,sound(y,Fs,),%,锣声,load,handel,sound(y,Fs,),%,哈里路亚,load laughter,sound(y,Fs,),%,笑声,load splat,sound(y,Fs,),%,啪哒声,load train,sound(y,Fs,),%,火车,8,9.1,基本操作,改变采样频率的效果：,Fs=8192;,pause on,sound(sin(pi,*(1:4000)/2),2*Fs);,pause(1),sound(sin(pi,*(1:4000)/2),1.5*Fs);,pause(1),sound(sin(2*pi*25*(1:4000)/100);,pause(1),sound(sin(pi,*(1:4000)/2),0.75*Fs);,pause(1),sound(sin(pi,*(1:4000)/2),0.5*Fs);,pause(1),sound(sin(pi,*(1:4000)/2),0.25*Fs);,pause(1),sound(sin(pi,*(1:2000)/2),0.1*Fs);,pause off,9,例,1,：,播放音乐,播放歌曲：,y,Fs,nbits,=,wavread,(,从头再来,.wav,);,sound(y,，,Fs);,10,例,1,：,停止播放,clear all;,y,Fs,nbits,=,wavread,(,再别康桥,.wav);,player=,audioplayer,(y,Fs,);,play,(player,);,%,播放,pause(50);,stop,(player,);,%,停止,11,9.1,基本操作,y=,wavrecord(n,Fs,),使用基于,PC,的音频输入设备录音,n,：记录音频信号采样；,Fs,：采样率。默认为,11025Hz,。,注：在高版本中用,audiorecorder,代替。,例如：,Fs=11025;,y=wavrecord(5*Fs,Fs,int16);,%,录音,pause(10);,%,暂停,10,秒,wavplay(y,Fs);,%,播放,三、录音,12,9.1,基本操作,wavwrite(y,filename,),：将,y,存储到一个名为,filename,的,WAVE,文件数据。,wavwrite(y,Fs,filename,),：将,y,存储到一个名为,filename,的,WAVE,文件数据。该数据具有的,Fs,赫兹采样率，假定为,16,位。,wavwrite(y,Fs,N,filename,),：将,y,存储到一个名为,filename,的,WAVE,文件数据。该数据具有的,Fs,赫兹采样率和为,N,位，其中,N,为,8,，,16,，,24,或,32,。,四、保存音频文件,13,例,2,模拟录音,fs,=11025;,y =wavrecord(3*,fs,fs,int16);,%,声音录入,wavwrite(x,fs,Mysound.wav,);,%,保存,14,练习,1,自制乐曲：,A4=440;,pt=44100;p0=pt/2;,scale12=A4/2(9/12)*2.(0:11)/12);,map=1 3 5 6 8 10 12;,%,七音符,score=1 1 5 5 6 6 5,.,%,乐谱,4 4 3 3 2 2 1,.,5 5 4 4 3 3 2,.,5 5 4 4 3 3 2,.,1 1 5 5 6 6 5,.,4 4 3 3 2 2 1;,rhythm=repmat(1 1 1 1 1 1 2,1,6);,%,节拍,for i=1:length(score),%,播放,wavplay(sin(1:rhythm(i)*p0)/pt*2*pi*scale12(map(score(i),pt);,end,15,9.2,语音的时域分析,我们说：,信号处理的宗旨：,将信号中蕴藏的信息显露出来,。,信号处理的全部：,映射,变换,16,9.2,语音的时域分析,语音可以直接用它的时间波形来表示，根据时间波形可以看出语音信号的一些主要特性。,Chirp,信号波形,一、时域表示,17,9.2,语音的时域分析,由于语音信号通常是准稳态信号，所以我们在处理语音信号时，一般是一小段一小段地观察语音信号的变化，也就是以音窗也可称作语音帧为单位，对每一语音帧内的信号，抽取出代表语音的特征参数，这就是短时语音处理,分帧。,对于一段语音的离散时间信号,y(m,),，用一个固定长度的窗口,(window),套上去，只看窗口内的信号，对这些信号做计算，用以求出在这窗口内的语音特征,(speech features),。这样的处理方式，就叫加,窗,(windowing),，而套上去的这一段语音即称为,语音帧,(frame),。,通常窗口的长度是取,1040,毫秒,(ms),，这样一段语音信号，足以计算出语音的特征参数,(feature parameters),。,二、短时处理思想,18,9.2,语音的时域分析,窗口的移动距离，大约会取,520 ms,，让前后的语音帧有部分重叠（也称,帧移,M,），帧移与帧长的比例一般设为,1:2,，这样能观察到语音特征改变的延续性以保证分析的准确性。,19,9.2,语音的时域分析,n,是加窗位置标示，可以看出只有当,m,在,n-N+1mn,之间，,才不会是,0,，也就是,y(m,),在,n-N+1m=0,b(i,)=1;,else,b(i,)=-1;,end,if y(i+1)=0,b(i+1)=1;,else,b(i+1)=-1;,end,w(i,)=abs(b(i+1)-b(i);,%,求出每相邻两点符号的差值的绝对值,end,30,例,5,：,过零率,k=1;,j=0;,while(k+N-1)x(2),或,y(1)y(2),图像是左右或上下反转的。,x,和,y,对,C,中的元素没有影响，它们仅仅影响坐标轴的标注。如果,length(x,)2,或,length(y,)2,imagesc,函数会忽略向量中除第一个和最后一个元素之外的元素的值。,61,使用相关函数,load,mtlb,;,y=,mtlb,;,subplot(2,1,1);plot(0:4000,y);,xlabel(n);ylabel(y(n,);,R=256;,%FFT,长,window=,hamming(R,);,%,窗函数长度,N=512;,%FFT,长,L=35;,%,步长,fs,=7418;,%,采样率,B,f,t,=,specgram,(x,N,fs,window,R,-L);,subplot(2,1,2);,imagesc,(t,f,log10(abs(B);,%,画语谱图,colormap(jet,);,xlabel,(,时间,);,ylabel,(,频率,);,62,例,7,简单信号的时频分析,Fs=1000;,N=128;,t=0:1/Fs:.3;,y=cos(200*pi*t)+sin(600*pi*t);,subplot(2,2,3);,plot(y,);,%,时域波形,subplot(2,2,2);,Hs=,spectrum.welch,;,psd(Hs,y,Fs,Fs,);,%,功率谱,subplot(2,2,1);,specgram(x,);,%,语谱图,subplot(2,2,4);,Xk,=,abs(fft(x,N,);,plot(Xk(1:N/2);,%,幅度谱,63,例,7,含噪信号的时频分析,Fs=1000;,N=128;,t=0:1/Fs:.3;,y=cos(2*pi*t*200)+randn(size(t);,subplot(2,2,3);,plot(y,);,subplot(2,2,2);,Hs=,spectrum.welch,;,psd(Hs,y,Fs,Fs,);,subplot(2,2,1);,specgram(y,);,subplot(2,2,4);,Xk,=,abs(fft(y,N,);,plot(Xk(1:N/2);,64,例,7,chirp,信号的时频分析,clear,all;clc,;,load chirp;,subplot(2,1,1);plot(y);,%,原始语音波形,title(chirp,信号波形,);,subplot(2,1,2);specgram(y);,%,原始语音语谱,title(chirp,信号语谱图,);,65,9.5,语音增强,平滑,锐化,低通,高通,带通,带阻,66,9.5,语音增强,低通滤波,clear all;,Load chirp;,sound(y,Fs,);,%,设计滤波器,fp,=2500;,%,初始化,fs,=3000;,wp,=2*pi*,fp,/Fs;,%,参数转化,ws,=2*pi*,fs,/Fs;,B=,ws-wp,;,%,计算过渡带的宽度,N=ceil(8*pi/B);,%,计算阶数,N,wc,=(wp+B/2)/pi;,hn,=fir1(N-1,wc);,z=,fftfilt,(hn,y,);,%,进行滤波,pause(5);,sound(z,Fs,);,67,练习,2,高通,带通,带阻,68,9.6,语音叠加,时域叠加,频域叠加,69,9.6,语音叠加,时域叠加,当两股声波信号相遇时，会发生叠加现象。这是音频信号合成的最基本的形式，也是自然界中最常见的现象。,1.,相同声波,等相位叠加,振幅翻倍,2.

展开阅读全文

09语音信号处理(temp) _ New

最新文档