09语音信号处理(temp) _ New

上传人:痛*** 文档编号:247321353 上传时间:2024-10-17 格式:PPT 页数:83 大小:1.95MB
返回 下载 相关 举报
09语音信号处理(temp) _ New_第1页
第1页 / 共83页
09语音信号处理(temp) _ New_第2页
第2页 / 共83页
09语音信号处理(temp) _ New_第3页
第3页 / 共83页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,*,/83,数字信号处理,Amplitude,Time,Frequency,(,a),9,语音信号处理,2,引言,语音信号处理:,以语音学和数字信号处理为基础,目的是要得到一些语音参数以便高效的传输或存储,或者通过处理的某种运算以达到某种用途的要求,例如人工合成出语音,辨识出说话者,识别讲话的内容等。,3,引言,基本内容,说的是什么内容?,是谁在说话?,计算机去说话?,怎么把话说好?,语音识别,如电话订票系统,声纹识别,如“芝麻开门”系统,语音合成,如公交车报站台名,说话水平评估,如普通话测试系统,说的是什么语言?,语种识别,如国际电话翻译,4,引言,语音四要素,(,1,),音高,指声音的高低,取决于发音体振动的快慢。发音体振动越快,发出的声音越高,反之声音则低。,(,2,),音强,是指声音的强弱,它取决于发音体振动幅度的大小。,(,3,),音长,指声音的长短,也就是声波延续的长度,它取决于发音体振动持续的时间。,在语音中,再长的音实际上也很短,音长一般决定于发音动作持续的时间。,(,4,),音质,又叫音色,是一个声音能区别于其他声音的本质特点。声波的振动方式与共鸣器的共振作用,都决定着音质的差别。,5,引言,1.,浊音的基音频率,(F,0,),:,由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在,60Hz,至,450Hz,左右。,2.,共振峰:,声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。,声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。,实际应用中,头三个共振峰最重要。,两个重要特性,6,9.1,基本操作,y,Fs,nbits,=,wavread(filename,),filename,:为指定载入的,WAV,格式的文件名称;,y,:为所读取的音频数据样本;,Fs,:为采样频率;,nbits,:为文件中每个样本的字节数。,一、读文件,7,9.1,基本操作,sound(y,Fs,),wavplay(y,Fs,),audioplayer,(y,Fs,),y,:音频信号;,Fs,:采样频率。,二、播放语音,MATLAB,自带的声音:,load chirp,sound(y,Fs,),%,鸟声,load gong,sound(y,Fs,),%,锣声,load,handel,sound(y,Fs,),%,哈里路亚,load laughter,sound(y,Fs,),%,笑声,load splat,sound(y,Fs,),%,啪哒声,load train,sound(y,Fs,),%,火车,8,9.1,基本操作,改变采样频率的效果:,Fs=8192;,pause on,sound(sin(pi,*(1:4000)/2),2*Fs);,pause(1),sound(sin(pi,*(1:4000)/2),1.5*Fs);,pause(1),sound(sin(2*pi*25*(1:4000)/100);,pause(1),sound(sin(pi,*(1:4000)/2),0.75*Fs);,pause(1),sound(sin(pi,*(1:4000)/2),0.5*Fs);,pause(1),sound(sin(pi,*(1:4000)/2),0.25*Fs);,pause(1),sound(sin(pi,*(1:2000)/2),0.1*Fs);,pause off,9,例,1,:,播放音乐,播放歌曲:,y,Fs,nbits,=,wavread,(,从头再来,.wav,);,sound(y,,,Fs);,10,例,1,:,停止播放,clear all;,y,Fs,nbits,=,wavread,(,再别康桥,.wav);,player=,audioplayer,(y,Fs,);,play,(player,);,%,播放,pause(50);,stop,(player,);,%,停止,11,9.1,基本操作,y=,wavrecord(n,Fs,),使用基于,PC,的音频输入设备 录音,n,:记录音频信号采样;,Fs,:采样率。默认为,11025Hz,。,注:在高版本中用,audiorecorder,代替。,例如:,Fs=11025;,y=wavrecord(5*Fs,Fs,int16);,%,录音,pause(10);,%,暂停,10,秒,wavplay(y,Fs);,%,播放,三、录音,12,9.1,基本操作,wavwrite(y,filename,),:将,y,存储到一个名为,filename,的,WAVE,文件数据。,wavwrite(y,Fs,filename,),:将,y,存储到一个名为,filename,的,WAVE,文件数据。该数据具有的,Fs,赫兹采样率,假定为,16,位。,wavwrite(y,Fs,N,filename,),:将,y,存储到一个名为,filename,的,WAVE,文件数据。该数据具有的,Fs,赫兹采样率和为,N,位,其中,N,为,8,,,16,,,24,或,32,。,四、保存音频文件,13,例,2,模拟录音,fs,=11025;,y =wavrecord(3*,fs,fs,int16);,%,声音录入,wavwrite(x,fs,Mysound.wav,);,%,保存,14,练习,1,自制乐曲:,A4=440;,pt=44100;p0=pt/2;,scale12=A4/2(9/12)*2.(0:11)/12);,map=1 3 5 6 8 10 12;,%,七音符,score=1 1 5 5 6 6 5,.,%,乐谱,4 4 3 3 2 2 1,.,5 5 4 4 3 3 2,.,5 5 4 4 3 3 2,.,1 1 5 5 6 6 5,.,4 4 3 3 2 2 1;,rhythm=repmat(1 1 1 1 1 1 2,1,6);,%,节拍,for i=1:length(score),%,播放,wavplay(sin(1:rhythm(i)*p0)/pt*2*pi*scale12(map(score(i),pt);,end,15,9.2,语音的时域分析,我们说:,信号处理的宗旨:,将信号中蕴藏的信息显露出来,。,信号处理的全部:,映射,变换,16,9.2,语音的时域分析,语音可以直接用它的时间波形来表示,根据时间波形可以看出语音信号的一些主要特性。,Chirp,信号波形,一、时域表示,17,9.2,语音的时域分析,由于语音信号通常是准稳态信号,所以我们在处理语音信号时,一般是一小段一小段地观察语音信号的变化,也就是以音窗也可称作语音帧为单位,对每一语音帧内的信号,抽取出代表语音的特征参数,这就是短时语音处理,分帧。,对于一段语音的离散时间信号,y(m,),,用一个固定长度的窗口,(window),套上去,只看窗口内的信号,对这些信号做计算,用以求出在这窗口内的语音特征,(speech features),。这样的处理方式,就叫加,窗,(windowing),,而套上去的这一段语音即称为,语音帧,(frame),。,通常窗口的长度是取,1040,毫秒,(ms),,这样一段语音信号,足以计算出语音的特征参数,(feature parameters),。,二、短时处理思想,18,9.2,语音的时域分析,窗口的移动距离,大约会取,520 ms,,让前后的语音帧有部分重叠(也称,帧移,M,),帧移与帧长的比例一般设为,1:2,,这样能观察到语音特征改变的延续性以保证分析的准确性。,19,9.2,语音的时域分析,n,是加窗位置标示,可以看出只有当,m,在,n-N+1mn,之间,,才不会是,0,,也就是,y(m,),在,n-N+1m=0,b(i,)=1;,else,b(i,)=-1;,end,if y(i+1)=0,b(i+1)=1;,else,b(i+1)=-1;,end,w(i,)=abs(b(i+1)-b(i);,%,求出每相邻两点符号的差值的绝对值,end,30,例,5,:,过零率,k=1;,j=0;,while(k+N-1)x(2),或,y(1)y(2),图像是左右或上下反转的。,x,和,y,对,C,中的元素没有影响,它们仅仅影响坐标轴的标注。如果,length(x,)2,或,length(y,)2,imagesc,函数会忽略向量中除第一个和最后一个元素之外的元素的值。,61,使用相关函数,load,mtlb,;,y=,mtlb,;,subplot(2,1,1);plot(0:4000,y);,xlabel(n);ylabel(y(n,);,R=256;,%FFT,长,window=,hamming(R,);,%,窗函数长度,N=512;,%FFT,长,L=35;,%,步长,fs,=7418;,%,采样率,B,f,t,=,specgram,(x,N,fs,window,R,-L);,subplot(2,1,2);,imagesc,(t,f,log10(abs(B);,%,画语谱图,colormap(jet,);,xlabel,(,时间,);,ylabel,(,频率,);,62,例,7,简单信号的时频分析,Fs=1000;,N=128;,t=0:1/Fs:.3;,y=cos(200*pi*t)+sin(600*pi*t);,subplot(2,2,3);,plot(y,);,%,时域波形,subplot(2,2,2);,Hs=,spectrum.welch,;,psd(Hs,y,Fs,Fs,);,%,功率谱,subplot(2,2,1);,specgram(x,);,%,语谱图,subplot(2,2,4);,Xk,=,abs(fft(x,N,);,plot(Xk(1:N/2);,%,幅度谱,63,例,7,含噪信号的时频分析,Fs=1000;,N=128;,t=0:1/Fs:.3;,y=cos(2*pi*t*200)+randn(size(t);,subplot(2,2,3);,plot(y,);,subplot(2,2,2);,Hs=,spectrum.welch,;,psd(Hs,y,Fs,Fs,);,subplot(2,2,1);,specgram(y,);,subplot(2,2,4);,Xk,=,abs(fft(y,N,);,plot(Xk(1:N/2);,64,例,7,chirp,信号的时频分析,clear,all;clc,;,load chirp;,subplot(2,1,1);plot(y);,%,原始语音波形,title(chirp,信号波形,);,subplot(2,1,2);specgram(y);,%,原始语音语谱,title(chirp,信号语谱图,);,65,9.5,语音增强,平滑,锐化,低通,高通,带通,带阻,66,9.5,语音增强,低通滤波,clear all;,Load chirp;,sound(y,Fs,);,%,设计滤波器,fp,=2500;,%,初始化,fs,=3000;,wp,=2*pi*,fp,/Fs;,%,参数转化,ws,=2*pi*,fs,/Fs;,B=,ws-wp,;,%,计算过渡带的宽度,N=ceil(8*pi/B);,%,计算阶数,N,wc,=(wp+B/2)/pi;,hn,=fir1(N-1,wc);,z=,fftfilt,(hn,y,);,%,进行滤波,pause(5);,sound(z,Fs,);,67,练习,2,高通,带通,带阻,68,9.6,语音叠加,时域叠加,频域叠加,69,9.6,语音叠加,时域叠加,当两股声波信号相遇时,会发生叠加现象。这是音频信号合成的最基本的形式,也是自然界中最常见的现象。,1.,相同声波,等相位叠加,振幅翻倍,2.
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!