音频压缩技术课件

上传人:文**** 文档编号:242112686 上传时间:2024-08-13 格式:PPT 页数:233 大小:8.76MB
返回 下载 相关 举报
音频压缩技术课件_第1页
第1页 / 共233页
音频压缩技术课件_第2页
第2页 / 共233页
音频压缩技术课件_第3页
第3页 / 共233页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,北京邮电大学信息与通信工程学院多媒体技术中心门爱东,Men Aidong, Multimedia Center, SICE, BUPT,信息与通信工程学院多媒体技术中心,北京邮电大学信息与通信工程学院多媒体技术中心门爱东,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,内容提要,数字音频压缩技术,引言,听觉特性和声学基础,性能评价和现有标准,基于分析-综合的声码器,MPEG,音频压缩算法,AC3,音频压缩算法,1内容提要数字音频压缩技术,2,引言:,数字化,数字化是趋势,信息量非常大,高传输带宽或存储容量,5.1,声道环绕立体声:,648KHz16bits,4.608Mbit/s,减少代表原始声音信号的信息量,更好利用现有频率资源,便于计算机处理和存储,宽带网中高质量传输,2引言:数字化 数字化是趋势 减少代表原始声音信号的信息量,3,引言:,声音压缩编码理论基础,冗余(,Redundance),信号一部分可由另一部分重建或另外表达形式简单说明,称为信号有冗余,去除冗余实现压缩编码,信号冗余是变化的,故不能产生恒定码流输出,不相关 (,Irrelevance),听觉不能感觉的那部分信号,它对声音信号的确定或音色和发音位置没有贡献,不相关信号部分不传输,利用掩蔽效应来掩盖量化失真,人耳听觉特性,人耳分辨能力,人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感,人耳对语音信号的相位不敏感,人耳掩蔽效应,Masking Effect,3引言:声音压缩编码理论基础冗余(Redundance),4,引言:,语音信号的时域冗余度,幅度非均匀分布,小幅度样本出现的频率高,样本之间的相关性,当取样频率为,8KHz,时,相邻样本间的相关系数大于,0.85,;,周期之间的相关性,在特定瞬间,某段声音往往只是总频带,3003400Hz,的少数几个频率分量在起作用,象某些振荡波一些,在周期与周期之间存在一定的相关性,基音之间的相关性,男声基音周期为,520ms,,而典型的浊音持续,100ms,静止系数(话音间隙),全双工话路的典型效率约为,40%,(静止系数为,0.6,),长期相关性(,long term correlation,),如几十秒内的相关性,4引言:语音信号的时域冗余度幅度非均匀分布,5,引言:,语音信号的频域冗余度,从频域考察语音信号的功率谱密度:,非均匀的长时间功率谱密度,长时间功率谱呈现强烈的非平坦性,高频能量较低,时域上相邻样本相关,语音特有的短时功率谱密度,语音的短时功率谱,在某些频率出现峰值(该频率称为共振峰频率),在另外一些频率上出现谷值。,出现共振峰的频率不止一个,最主要的是前两个,决定了不同的语音特征,整个谱也随频率增加而递减,功率谱的细节以基音频率为基础,形成高次谐波结构,另外,人的声道形状及其变化规律是有限的,按一定的时间段(帧)来计算声道滤波器的参数或语音谱包络,5引言:语音信号的频域冗余度从频域考察语音信号的功率谱密度:,6,引言:,语音信号的短时功率谱,浊音,清音,6引言:语音信号的短时功率谱浊音清音,7,内容提要,数字音频压缩技术,引言,听觉特性和声学基础,性能评价和现有标准,基于分析-综合的声码器,MPEG,音频压缩算法,AC3,音频压缩算法,7内容提要数字音频压缩技术,8,人类的发音器官,人的发音器官由三个部分组成:,(1),肺和气管产生,气源,;,(2),喉和声带称为,声门,;,(3),由咽腔、口腔、鼻腔组成的,声道,(从声带延展到嘴,成人平均声道,长度为,17cm,),声带,声道,舌头,嘴唇,鼻腔通道,肺,当肺部中的受压空气通过声门沿着声道发出时就产生了话音,声音的基音由声道的形状变化(主要通过移动舌头)和移动嘴唇控制。,强度(响度)通过改变从肺部发出的气体的量改变。,人的声音变化很慢,,肺的操作很慢,声道的形状变化很慢,所以语音的基音和强度变化也很慢。,表现在相邻样本间很相似,,即使是帧(,20ms,)也是强相关的。,这种相关性正是语音压缩的基础。,8人类的发音器官人的发音器官由三个部分组成:声带声道舌头嘴唇,9,人类的收音器官,人的收音器官,:,外耳接受外界的声音,,并沿着耳道引起鼓膜震动,中耳鼓膜的震动引起锤骨、镫骨和砧骨三块小骨相,震动,,将声音传到内耳,内耳可,产生神经冲动,,冲动沿听神经转为,神经能,,这样声音的信息就传到了大脑。,一般情况下,音量达,100dB,时,时间较长可造成不可恢复性听力损伤;当音量高达,110,分贝时,足以使内耳毛细胞死亡,严重者会造成听力丧失。实际上,任何高于,85,分贝的声音都能造成听力损伤,,每天,8,个小时,90,分贝,足以造成逐步和不可逆转的听力损伤,9人类的收音器官人的收音器官:,10,人对声音强度的生理感觉,强弱,与声音信号强度大体成对数关系,从而引出,声压级、声强级,概念,听觉特性:对,不同强度的感觉,10人对声音强度的生理感觉强弱与声音信号强度大体成对数关系,,11,人对,不同频率,的声音感受强度不同,引出,等响曲线,和,响度级,( phon,,方值,),参量。,听觉特性:,对不同频率的响应,11人对不同频率的声音感受强度不同,引出等响曲线和响度级 (,12,由,等响曲线,可以看出不同的,声音强度,,人的,听觉频响,不同!,听觉特性:,听觉频响,12由等响曲线可以看出不同的声音强度,人的听觉频响不同!听觉,13,将,不同强度,的,听觉频响,典型曲线规范成,计权曲线,,用于模拟听觉频响,听觉特性:,计权曲线,13将不同强度的听觉频响典型曲线规范成计权曲线,用于模拟听觉,14,掩蔽效应,掩蔽效应,: 一个声音的存在掩蔽了另一个声音的存在,掩蔽效应是一个较为复杂的心理和生理现像,掩蔽程度与两个声音的相关性有密切联系,分为频域效应和时域掩蔽效应,准稳态,(,短时稳态,),信号特性,利用频域掩蔽效应,对于声音的时域结构特性,利用时域掩蔽特性,听觉特性:,掩蔽效应(1),静音门限和掩蔽门限,(灰色区域中的声音听不到),14掩蔽效应听觉特性:掩蔽效应(1) 静音门限和掩蔽门,15,人的听觉生理,掩蔽效应,,声音听起来才不显得混乱!,较弱的听不见的声音信息就可以舍弃!而不必再进行编码,这是数字声码压缩的生理基础之一。,听觉特性:,掩蔽效应(,2,),15人的听觉生理掩蔽效应,声音听起来才不显得混乱!较弱的听不,16,时域掩蔽效应,(Temporal masking effect),:,在时间上相邻的声音之间存在的掩蔽现象,听觉特性:,掩蔽效应(3),后向掩蔽,:,一个声音影响了在时间上先于它的声音的听觉能力,同时掩蔽:,在一定时间内一个声音对另一个声音发生了掩蔽效应,前向掩蔽:,一个已经结束的声音,对另一个声音的听觉能力还起着影响,利用时域掩蔽效应,将时间上相继的一些取样值并归成块,降低码率。,三种时域掩蔽效应的时间关系,16时域掩蔽效应 (Temporal masking eff,17,人的听觉生理,延时效应,,声信号在时域上的听觉融合!,较弱的延迟声听不到!,较弱的先到声听不到!,听不到声信号的数码当然可以舍弃,以压缩码率,!,听觉特性:,掩蔽效应(,4,),17人的听觉生理延时效应,声信号在时域上的听觉融合!较弱的延,18,频域掩蔽,(Frequeney domain masking effect),同时发出的两个声音,一个较弱的信号被另一个相近频率的较强信号的声音所掩蔽,两个声音频率相同时,掩蔽效应最明显,在高频端,随着两者频率偏离,掩蔽效果缓慢减弱,在低频端,随着两者频率偏离,掩蔽效应急剧减小,例:,1KHz,的声音的掩蔽效应,听觉特性:,掩蔽效应(5),18频域掩蔽(Frequeney domain maskin,19,临界频带,(Critical Band),:,由于声音频率与掩蔽曲线不是线性关系,,为从感知上统一度量声音频率,引入了“临界频带”的概念。,一个声音可被另一个声音掩蔽的频率范围称为,临界频带,人耳不能区分临界频带内的频率,听觉特性:,掩蔽效应(6),临界频带的单位叫,Bark(,巴克,),,,1 Bark =,一个临界频带的宽度,19临界频带 (Critical Band):由于声音频率与,20,时域和频域掩蔽效应的折衷,稳态信号,滤波器组要有好的频谱分辨力,这意味着需要一个长的窗函数或长的,FIR,滤波器。,瞬态信号,滤波器组要有好的时间分辨力,这就要求短的窗函数和,FIR,长度。,听觉特性:,掩蔽效应(7),20时域和频域掩蔽效应的折衷听觉特性:掩蔽效应(7),21,量化噪声,是模拟信号和数字样值之间的差值。,听觉特性:,掩蔽与量化,N Bits = 2,N,levels,21量化噪声 是模拟信号和数字样值之间的差值。听觉特性:掩蔽,22,随着量化电平数的增加,模拟信号的数字样值更逼近原始模拟信号,量化误差变的更小。,听觉特性:,掩蔽与量化,Bits,Levels,22随着量化电平数的增加,模拟信号的数字样值更逼近原始模拟信,23,听觉特性:,掩蔽与量化噪声,23听觉特性:掩蔽与量化噪声,24,听觉特性:,子带编码,m,m-1,m+1,24听觉特性:子带编码mm-1m+1,25,每个频率子带编码的,比特数,等于,量化噪声低于对应子带最小掩蔽门限,的所需要的最少比特数。,听觉特性:,掩蔽,/,比特分配,25每个频率子带编码的比特数等于量化噪声低于对应子带最小掩蔽,26,听觉特性:,声音的方位,人对低频和高频声的方向判别灵敏度都有所降低,;,大多数声音是多频谱的,人的听觉心理会使人根据声音中的中频成分的方向(判断方向灵敏度较高的频段),来判断那些含有低频成分的声音的方向。,麻省理工学院(,MIT,)的,Bose,实验室对具体频率作了详尽研究,认为电声系统如能将声信号中的,120,Hz,以上频率,的中频成分的声像方向控制住,那么含有低频成分的整个声音的声像方向则会被“,牵引到,”这些中频成分声像的角度上;,这个结论很有实用意义,因为在家庭影院中五个主通道可以使用小扬声器播放,高于120,Hz,以上的频率分量,而将那个,低频效果(,LFE,),扬声器用作,辅助低音(,SW,),而不会误解方向!,立体声中高频信号,对声源的定位不起作用,多个声道信号的高频部分耦合(Coupling)或动态串音(Cross_Talk)到一个公共声道,实现压缩编码,.,26听觉特性:声音的方位人对低频和高频声的方向判别灵敏度都有,27,声信号时程,呈现,稳态,特性与,瞬态,特性,声信号,时程,稳态特性和瞬态特性,;,信号时程的,起始段,和,结束段,明显的,瞬态特性,;,信号时程的,中间段,明显的,稳态特性,;,时间应用中,混合滤波器组具有可变的,的频率分辨率和时间分辨率,即窗函数长度不同,以正确反映声音信号的瞬态和稳态特性,即,声信号的,起始段,和,结束段。,声学基础:,声音的瞬态和稳态特性,起始段,中间段,结束段,27声信号时程,呈现稳态特性与瞬态特性声信号时程,稳态特性和,28,以室内声为例说明,在有边界的有限空间内,声源发声后的传播和收听点得到的信号示意,声学基础:,声场,28以室内声为例说明 在有边界的有限空间内,声源发声后的,29,现代立体声的,总体科学分类,立体声分类,扬声器立体声,耳机立体声,实 现 方 式,借助扬声器声场,使用耳机耦合信号,利 用 原 理,听觉错觉或模拟声场,听觉错觉,立体声特点,听者进入声场,声音直接耦合,必然产生衍射,不会产生衍射,节 目 制 作,使用传声器,*,使用模拟人头,*,*:这两种信号可以经信号处理互换。,声像真实度,可能很高,可以很高,环境自然度,可能很高,很高,声学基础:,现代立体声(,1,),29现代立体声的总体科学分类立体声分类 扬声器立体,30,声学基础:,现代立体声(,2,),扬声器,立体声的,科学分类,立,体 声 分,类,模拟声场型,听觉错觉型,立体声实现方式,在相应方向上摆放扬声器,利用听觉错觉产生幻象,典,型 使 用 例,公众影院立体声,.,家用,3D,立体声,.,家用环绕立体声,.,AC3,型数字立体声,家用二声道强度,型立体声,家用二声道界外立体声,虚拟立体声,SRS,立体声信号特点,各声道信号相对独立,声道间有特定关系,准,确 听 觉 区,较,广,特定位置,声,象 真 实 度,很,高,当处理完美时较高,环,境 自 然 度,很,高,当处理完美时较高,码,率 压 缩 比,可以较高,受到限制,30声学基础:现代立体声(2)扬声器立体声的科学分类立 体,31,强度型扬声器立体声的声像规律:立体声,“,正弦定理,”,和,“,正切定理,”,当向扬声器对馈送内容相同,但强度不同的信号(称为,“,强度型立体声,”,),时,处在分割中线位置的听者会感到只有一个声音(声像),它处在两只扬声器 之间(界内),但声像的高低频 角度略有不同,除了扬声器附 近,高频的声像角会稍略大于 低频的声像角,见右图:,定量描述声像角规律需用立体声,“,正弦定理,”,(当听者面对正前方时)或,“,正切定理,”,(听者稍为偏转一点角度),这是强度型立体声的,“,欧姆定理,”,!,声学基础:,现代立体声(,3,),31强度型扬声器立体声的声像规律:立体声“正弦定理”和“正切,32,不难看出,强度型扬声器立体声,是一种“,错觉型,”立体声,如果听者不在中心线处,声像将不准确!故而将中线位置俗称“,皇帝位,”!,当频率,低于,700Hz,时:,当频率,高于,700Hz,时:,声学基础:,现代立体声(,4,),强度型扬声器立体声的声像规律:立体声,“,正弦定理,”,和,“,正切定理,”,32不难看出,强度型扬声器立体声是一种“错觉型”立体声,如果,33,解决立体声重放时一个声音的高频成分的声像比低频成分偏大的问题,第一种方法是在信号传输时进行和差矩阵变换,将,差信号的高频衰减,1.4,倍,(,3dB,)后再进行和差变换得到新的左右信号,这时由于两路信号差的高频成分降低,其声像方向角可降低至与低频相近,见右图:,第二种方法是将,扬声器高频单元向里移,(,减小高频的,q,Y,),其原理不难,从立体声正弦定理看出。,声学基础:,现代立体声(,5,),33解决立体声重放时一个声音的高频成分的声像比低频成分偏大的,34,公众影院立体声放送扬声器布置,杜比公司提出的公众影院立体声电声系统和扬声器布置图,这里多只环绕声扬声器围绕着观众,(,听众,),以造成,环境声是来自四面八方环绕听者的效果,也即,环绕声的声像来自四面八方而不是在某一个方向!,声学基础:,现代立体声(,6,),34公众影院立体声放送扬声器布置杜比公司提出的公众影院立体声,35,标准的杜比环绕声,(,Dolby Surround,),含有,4,个声道的信号,其中左前声道,(,L,),、,中前声道,(,C,),、,右前声道,(,R,),信号携带着模拟出现在听者前方的声像的直达声,前期反射声和前面方位的混响声信息,;,而,环绕声道,(,S,),携带着模拟听者左、右、后方的前期反射声和混响声,(,环绕着听者,),的信息,也可携带画面以外的 “效果” 声信息。,在电影院,这个声道的扬声器按上页所绘图的布局安放,。,在家庭的小房间内,可以将,环绕声道扬声器的数量减少至两个,(,左侧,右侧各一个,),不过这时要将环绕扬声器做成,全指向特性,的,而不是仅仅将声波集中辐射向听者,以得到准确的模拟具有 “,扩散,”特性的混响声效果。,声学基础:,现代立体声(,7,),公众影院立体声放送扬声器布置,35标准的杜比环绕声(Dolby Surround)含有 4,36,家庭影院,节目制作,时的扬声器布置例,杜比公司提出的制作家庭影院,5,.,1,声道环绕立体声节目的典型扬声器布置,此时,环绕声可能出现在某个方向,而不来自四面八方,这与公众影院不同,!,声学基础:,现代立体声(,8,),36家庭影院节目制作时的扬声器布置例杜比公司提出的制作家庭影,37,ITU,推荐的家庭影院,重放,扬声器布置,注意其两个环绕扬声器设置在,110,度上!,声学基础:,现代立体声(,9,),1989,年,SMPTE,提出,后,ITU,、,EBU,同意,5.1,声道:,5,指五个主声道(中心声道,C,、左声道,L,、右声道,R,、左环绕,Ls,、右环绕,Rs,),0.1,指低频效果声道,LFE,3,2,配置:三个前声音加两个环绕声道,37ITU推荐的家庭影院重放扬声器布置 注意其两个环绕扬声器,38,ITU,推荐的扬声器布置产生的,弊端,经我国谢菠荪博士理论推导和组织试听证明,将两个环绕扬声器设置在,110,度时,必然在上图,阴影的角度范围内不能得到声像,的弊端!,声学基础:,现代立体声(,10,),38ITU推荐的扬声器布置产生的弊端经我国谢菠荪博士理论推导,39,改善家庭影院产生声像弊端的,物理方法,和,信号处理方法,物理方法,将左右环绕扬声器的放置角度,减小到,90,度,这可以减小那个“,声像死区,”的范围,!,而由此产生的反射声空间扩散不足的问题可以用增加一个正后方的环绕扬声器声道来解决。,信号处理方法,将个声道信号进行,“,人头传输函数,”,卷积处理,产生虚拟声像,!,声学基础:,现代立体声(,11,),39改善家庭影院产生声像弊端的物理方法和信号处理方法物理方法,40,注意,!,左,右环绕声扬声器,应该安放在听者的,左方和右方,而不是放置在听者的,左后方和右后方,这样可以改善,+,45,o,+,90,o,角度范围和,-,45,o,-,90,o,角度范围的声象质量,!,杜比公司在网页上公布的家庭影院环绕立体声,(AC-3),的扬声器布置,其两个环绕扬声器,已经不设置在,110,度,上了!,改善声像弊端的,物理方法,:,改变环绕扬声器位置,声学基础:,现代立体声(,12,),40注意! 左 右环绕声扬声器应该安放在听者的左方和右方,41,7.1,声道环绕声,声学基础:,现代立体声(,13,),417.1 声道环绕声声学基础:现代立体声(13),42,声学基础:,电声产品的听感测试,什么声信号,有资格进行电声产品的听感测试,?,声信号样件的,充分性,: 信号样件应尽量多地反映各种声音特征,声信号样件的,代表性,: 信号样件应能够充分代表同类声音信号,对电声产品的,听觉缺欠判断能力,: 能够较容易地判断电声产品的听觉缺欠,什么声环境,有资格进行电声产品的听感测试,?,重放环境的,反射声必须足够弱,: 重放房间产生的“二次反射声”会对电声产品的重放声产生干扰和附加“染色”,因而重放房间应该进行相当强的吸声处理,称为保证“声学比”。,重放环境的,背景噪声必须足够低,: 环境噪声对判断电声产品的听觉质量会有影响,因而重放房间应该进行严格的隔声处理,称为保证“信噪比”。,什么人,有资格进行电声产品的听感测试,?,听感测试人,(,听感评价人,),的,听觉生理,: 不言而喻,听感测试人必须具有良好的听觉生理,能够判断重放声的细微差异,以及具备不受参考声影响而能记住常遇到的声源声色的绝对记忆能力。,听感测试人,(,听感评价人,),的,音乐水平,: 不言而喻,听感测试人必须具有相当的音乐水平,对常遇到的器乐和声乐作品和乐理相当熟悉,42声学基础:电声产品的听感测试什么声信号有资格进行电声产品,43,内容提要,数字音频压缩技术,引言,听觉特性和声学基础,性能评价和现有标准,基于分析-综合的声码器,MPEG,音频压缩算法,AC3,音频压缩算法,43内容提要数字音频压缩技术,44,性能评价:,客观评价,编码速率,(,Kbps,、,Kb/s,),信号带宽,:可懂度、自然度、透明度,2003400Hz,、,507000Hz,、,2015000Hz,、,1020000Hz,采样速率,:,8KHz,、,16KHz,、,32KHz,、,44.1/48KHz,样值比特数,(,bit/,样点),总速率,R,(,kbit/s,),固定码率及可变码率,重建语音质量,客观评价,:,信噪比,分段信噪比,(一般,15dB,以上较好,,20dB,以上相当好),44性能评价:客观评价编码速率(Kbps、Kb/s),45,性能评价:,主观评价,主观评价,MOS,分(,Mean Opinion Score,),51,分:,Excellent,、,Good,、,Fair,、,Poor,、,Bad,4,分:长途通信质量,(toll, transparency-,电话线,),3.5,分:通信质量,(communication),判断韵律测试,DRT,(,Diagnostic Rhyme Test,),95%,以上 优秀、,85%94%,良好、,75%84%,中等,65%74%,差、,65%,以下不能接受,判断可接受度测试,DAT,(,Diagnostic Acceptability Test,),多维因素测试,调制噪声参考单位,MNRU,(,Modulated Noise Reference Unit,),量化失真单位,QDU,(,Quantization Distortion Unit,) 一次,PCM,编解码,45性能评价:主观评价主观评价,46,性能评价:,延时、复杂度和其他,编解码延时(,ms,),公众网(,25ms,)、点对点、广播、存储,回声控制或回声抵消,正常通话秩序,与重建质量关系,算法复杂度,硬件、成本,浮点、定点,MIPS,、,RAM,、,ROM,其他,抗随机误码和突发误码能力,抗丢包和丢帧能力,对不同信号编码能力,级联或转接能力,46性能评价:延时、复杂度和其他编解码延时(ms),47,波形编码,将波形直接变换成数字码流。特点:比特率较高、解码后质量较高、延时较小。可以分为:,时域波形编码,如PCM、ADPCM、,M,等;,频域波形编码,如:子带编码(SBC)、自适应变换编码(ATC),等。,PCM原理(1937年,法Alec Reeres),电子管 PCM(46年,Bell实验室),晶体管 PCM(62年,市话扩容,64kb/s),单片IC PCM(70年代,微波、卫星、光纤),增量编码原理(1946年,法 De Loraine),自适应增量 CVSD(60年代末,军用,32、16kb/s),CVSD(Continuously Variable Slope Delta Modulator),(连续变化斜率增量调制器),其他编码(,70年代,ADPCM、SubBand、ATC、APC等),在16kb/s以上得到较好的话音质量。,特点:话音质量好,但编码速率高。,现有标准:,语音编码标准,(1),47波形编码现有标准:语音编码标准 (1),48,参数编码,从信源信号的某个域中提取特征参数,,并变换成数字码流。如:各种声码器。,波形编码通道声码器(,39,年,,Dudly,,二次大战保密电话),LPC,声码器(,67,年,,Atal,、,Schroeder,),同态声码器(,69,年,,Oppenheim,),共振峰声码器(,71,年,,Rabiner,、,Schafer,、,Elanagan,),MBE,声码器(,88,年,,Griffin,、,Lim,),波形插值(,91,年,,W.B. Kleijn,),2.4kb/s,、,1.2kb/s,、较好;,600-800b/s,可懂。,特点:编码速率低,自然度差,、,解码后质量较低、延时较大,。,现有标准:,语音编码标准,(2),48参数编码现有标准:语音编码标准 (2),49,混合编码器,将以上二种方法混合,,利用线性预测、VQ、A-B-S、感觉加权、后滤波等技术。,如:G723.1,G728,G729,GSM 的语音编码,IS-95 的语音编码等。,多脉冲激励线性预测(MPELP 1982 Atal、Remde),规则脉冲激励线性预测(RPELP 1985 Deprettere、Kroon),码本激励线性预测(CELP 1985 Manfred、Schroeder、Atal),8-16kb/s,高质量。特点:话音质量高、编码速率低,但算法复杂。,现有标准:,语音编码标准,(3),49混合编码器现有标准:语音编码标准 (3),50,宽带语音,:主要应用于会议电视,相当于调幅广播的质量,1988,年,CCITT,制定了,G.722,标准:,SB-ADPCM,1996,年左右,美国,PictureTel,公司提出,PTC-PictureTel Transform Coder,1999,年,9,月发布:“,ITU-T G.722.1 proposed for decision:,7 kHz Audio,- Coding At 24 And 32kbit/s For Hands Free Operation In Systems With Low Frame Loss,。”,现有标准:,语音编码标准,(4),50宽带语音:主要应用于会议电视,相当于调幅广播的质量现有标,51,现有标准:,语音编码标准,(5),51现有标准:语音编码标准 (5),52,PCM:脉冲编码调制,ADPCM:自适应差分脉冲编码调制,LD-CELP:低延时码本激励线性预测编码,CS-ACELP:共轭结构代数码本激励线性预测编码,ACELP:代数码本激励线性预测编码,MP-MLQ:多脉冲激励最大似然量化,SB-ADPCM:子带自适应差分脉冲编码调制,LPC-10:线性预测编码-10,MELP:混合激励线性预测编码,CELP:码本激励线性预测编码,RPE-LT:长时间预测规则脉冲激励线性预测编码,VSELP:矢量和激励线性预测编码,IMBE:Inmarsat多带激励语音编码,QCELP:Qualcomm码本激励线性预测编码,EVRC:增强型变速率编码,现有标准:,语音编码标准,(6),52PCM:脉冲编码调制现有标准:语音编码标准 (6),53,主要应用于娱乐与鉴赏,对于重建信号的音质有很高的要求,目前采用比特率较高的波形编码技术进行压缩。,可以直接在时域进行,也可以转到频域或其他变换域进行。,1982,年激光唱盘,(CD: Compact Disk),上市。,MD,:,Mini-Disk,,日本索尼公司采用,ATRAC,Adaptive Transform Acoustic Coder,压缩技术。,1987,数字音频磁带录音,(DAT: Digital Audio Tape),问世。,DAB (Digital Audio Broadcasting),源于欧洲。,AC3,来自,Dolby,公司,.,现有标准:,宽带音频(,1,),53主要应用于娱乐与鉴赏,对于重建信号的音质有很高的要求,目,54,现有标准:,宽带音频(,2,),电视,MPEG1,1992,MPEG2,1994,AAC,1997,MPEG4,1999,电影,ATRAC,(Sony),1992,AC-3,(Dolby),1995,PAC,(Lucent),1992,TwinVQ,(NTT),1995,Coherent,Acoustics,(DTS),1996,MLP,(Meridian),1997,Internet,G2,(Realnet),1998,WMA,(,微软,),1999,54现有标准:宽带音频(2)电视MPEG1MPEG2AACM,55,MP3,MPEG-1 layer 3,最多用户,对于苛刻素材,,192kbps,时接近,CD,质量,Ogg Vorbis,开发源码,免费,IPR free,质量与,MP3,相近,但不同素材之间变化很大,AAC,MPEG2,和,MPEG4,对于,CD,质量的要求,它具有最低的码率,对于苛刻素材,约,128kpbs,时接近,CD,质量,对于高码率 ,,Quicktime and RealAudio,采用,AAC,Windows Media,微软专有,通过,Window OS,,具有巨大用户量,好于,MP3,,,WMA9,质量上接近,AAC,包括无失真和多声道编码,现有标准:,Internet Codecs,(,1,),55MP3现有标准:Internet Codecs(1),56,RealAudio,对于高码率,采用,AAC,专有的低码率编解码器,与早期版本相同,专有的多声道编解码器,用于流媒体,ATRAC,Sony,专有,ATRAC3, 用于低码率,(=64kbps),ATRAC3,用于高码率,在高码率中,类似,MP3,的质量,在低码率时好于,AAC,现有标准:,Internet Codecs,(,2,),56RealAudio现有标准:Internet Codec,57,WM9,和,RealAudio10,包含多声道编码,,AAC,和,AAC+,支持多声道编码,AC3 (Audio Coding, Dolby),专有,最大的用户数量,质量与,MP3,相当,DTS (Digital Theater Systems),专有,高码率,高质量,MLP (Meridian Lossless Packing),专有,无失真,SDDS (Sony Dynamic Digital Sound),专有,基于,ATRAC,现有标准:,多声道编码,57WM9 和 RealAudio10 包含多声道编码,AA,58,压缩率,1/3-1/2,,依赖于素材,FLAC (Free Lossless Audio Coding),免费,Monkeys Audio,免费,Windows Media,存在许多其它的无失真编解码器,MPEG,正在制定标准化工作,现有标准:,无失真编码,58压缩率 1/3-1/2,依赖于素材现有标准:无失真编码,59,基于,G.722,的电话会议编解码器,低质量,AAC-LC,MPEG 4,质量好于,MP3,大多数普通的编解码器都不满足双向通信的时延要求,特别是,AAC,有非常高的时延。,现有标准:,低时延编码,59基于 G.722 的电话会议编解码器现有标准:低时延编码,60,内容提要,数字音频压缩技术,引言,听觉特性和声学基础,性能评价和现有标准,基于分析-综合的声码器,MPEG,音频压缩算法,AC3,音频压缩算法,60内容提要数字音频压缩技术,61,语音信号产生的数字模型,激励模型:,浊音:周期脉冲信号,清音:随机噪声,声道模型:,M,阶全极点滤波器,/AR,模型,线性预测,清,/,浊转换,声道模拟,滤波器,基音周期,脉冲序列,发生器,随机噪声,发生器,输出语音,s(n),LPC,系数,增益,x(n),u(n),61语音信号产生的数字模型激励模型:清/浊转换声道模拟基音周,62,分析,综合编码,编码器:将语音信号分片,/,帧,对每帧进行,分析,激励信号参数,声道滤波器参数,解码器:根据模型和收到的参数,合成,语音,出现过很多不同的分析,综合语音压缩方法,线性预测声码器器,(Linear predictive Coder, LPC),码激励线性预测,(Code excited linear prediction, CELP),正弦声码器,混合激励线性预测,(mixed excitation linear prediction, MELP),62分析综合编码编码器:将语音信号分片/帧,对每帧进行分析,63,线性预测声码器,(LPC),激励:二元激励源,浊音:基音周期脉冲,清音:随机噪声,声道:线性滤波器,G,脉冲序列,随机噪声,声道滤波器,V/U,合成语音,信号能量,基音周期,参数:浊音,/,清音标记,基音周期,信号能量,63线性预测声码器(LPC)激励:二元激励源G脉冲序列随机噪,64,LPC-10,声码器,M=10: LPC-10,美国国家标准,输入语音:8000 样本/秒,180 样本/帧 (22.5ms),语音信号在 1030ms 内具有短时平稳的特点,输出带宽:,2.4 kbps,54,比特,/,帧,44.44,帧,/,秒,(22.5ms),64LPC-10 声码器M=10: LPC-10,65,浊音,/,清音检测,浊音:,振值大,能量高,清音:,频率高,过零率高,65浊音/清音检测浊音:清音:,66,浊音,/,清音检测,(2),LPC-10,中,输入信号通过,1kHz,低通滤波器,低带能量,过零率,平均振幅差值函数,(average magnitude difference function, AMDF),的最大值和最小值之比,最后对基音值、清、浊音判决结果用动态规划算法,在三帧范围内进行平滑和误差范围校正,得出前一帧的基音周期、清、浊音判决结果,共,4,种状态:,稳定的清音,清音向浊音转换,浊音向清音转换,稳定的浊音,66浊音/清音检测 (2)LPC-10中,输入信号通过 1k,67,基音周期,浊音信号为准周期信号:相隔周期,T,的两个样本之间很接近:长时相关性,一种方式:直接计算样本的自相关函数,R,yy,(k),当,k,为基音周期时,R,yy,(k),最大,可以平滑噪声,浊音语音并不是严格周期的,只能以阈值方法找到最大值,但受噪声和声道回声的干扰,很难选择合适的阈值,67基音周期浊音信号为准周期信号:相隔周期 T 的两个样本之,68,基音周期,(2),LPC-10,中采用的方法与自相关函数法密切相关:,平均振幅差值函数,(average magnitude difference function, AMDF),如果,y,n,为周期为,P,0,的序列,相隔,P,0,个样本应该很接近,因此,AMDF,函数在,P,0,处会有一个最小值。,通过利用人的基音周期在,2.519.5ms,内,可简化,AMDF,的计算,采样率为,8000,样本,/,秒,则,P = 20160,68基音周期 (2)LPC-10 中采用的方法与自相关函数法,69,基音周期,(3),AMDF,还可以用于识别浊音,/,清音,浊音的,AMDF,函数,清音的,AMDF,函数,69基音周期(3)AMDF还可以用于识别浊音/清音浊音的AM,70,声道滤波器参数,声道:线性滤波器,参数,a,i,求解方法,自相关系数方法,假设在帧内为平稳信号,通常加平滑过渡窗口,如,Hamming,窗,协方差方法,格型方法,70声道滤波器参数声道:线性滤波器,71,声道参数,(2),通过,最小化,预测误差的期望,得到声道滤波器系数,a,i,71声道参数 (2)通过最小化预测误差的期望,72,声道参数,(3),假设信号在一帧内是平稳的,,则,R,为,Toeplitz,矩阵,:,对称,对角线和副对角线上的元素相等,72声道参数 (3)假设信号在一帧内是平稳的,R 为Toep,73,声道参数,(4),R,为,Toeplitz,矩阵,可用,Levinson-Durbin,算法求解:,偏相关,(partial correlation, p,arcor,),系数,73声道参数 (4)R 为 Toeplitz 矩阵,可用 L,74,声道参数,(5),LP,系数,a,i,的动态范围大,不宜用较少的比特来量化,a,i,对微小变动较为敏感,一个系数的微小误差就可能会严重影响整段语音频谱包络的形状,甚至会使,LP,滤波器工作不稳定,因此,偏相关系数,k,i,代替,亦称为反射系数,(Reflection Coefficient, RC),反射系数稳定的条件:,|,k,i,| 1,这在量化过程中容易满足,偏相关系数,Parcor,还可用于浊音,/,清音判断,浊音的前两个系数值接近,1,,而清音的头两个系数值很小,74声道参数 (5)LP 系数 ai 的动态范围大,,75,声道参数,(6),如果不假设帧内信号平稳,定义,协方差,得到等式,CA=S,,其中,其中,c,ij,可以估计为:,A = C,-1,S,可通过,Cholesky,分解实现,LPC-10,采用协方差方法计算,parcor,系数,75声道参数 (6)如果不假设帧内信号平稳,定义协方差,76,信号能量,/,增益,增益,G,通过计算帧内信号的均方根,(root mean squared, RMS),得到,其中,N,为帧的长度,76信号能量/增益增益 G 通过计算帧内信号的均方根 (ro,77,参数量化与编码,基音周期:,log-,压扩量化,量化为,60,个值,60,个基音值用,Hamming,权重为,3,或,4,的,7,比特,Gray,码进行编码,清音帧用,7,比特全零矢量表示,过渡帧用,7,比特全,1,矢量表示,其余基音值用,Hamming,权重,3,或,4,的,7,比特矢量表示,77参数量化与编码基音周期:log-压扩量化,78,参数量化与编码,(2),滤波器参数,浊音:,M=10,清音:,M=4,当,|,k,i,| 1,时,声道滤波器对反射系数的误差很敏感,当,i=1, 2,时,,k,i,很有可能接近,1,,此时采用非均匀量化,其中,A,i,、,A,i+1,正好是声管第,i,节和第,i+1,节的面积,因此称为对数面积比,变换的结果是使得对数面积比系数,g,i,具有相当均匀的幅度分布,而且参数之间的相关性很低,有利于参数的量化和传输,增益,RMS,参数:,5,比特,log-,压扩量化,对数值在,2,到,512,之间的,RMS,值用步长为,0.773dB,的对数码表进行编码,78参数量化与编码 (2)滤波器参数,79,参数量化与编码,(3),信号能量,(,增益,),清音,过渡音,浊音基音周期,声道滤波器参数,同步码,79参数量化与编码(3)信号能量 (增益)清音声道滤波器参数,80,LPC-10,问题和改进,存在的问题,语音的自然度较差,:,采用过于简单的二元激励,使合成的语音听起来不自然。在实际的语音余量信号中,相当一部分既非周期脉冲又非随机噪声,非周期能量没有得到恢复,主观听觉上会感觉合成语音有明显的“嗡嗡”声,如果浊音用噪声信号激励,听起来会觉得沙哑,鲁棒性差,:,在有噪声的情况下,不易准确提取基音周期和不能正确判决清浊音。当背景噪声比较强时,系统性能显著恶化,不能有效对抗传输信号中误码的破坏作用,主要改善以下方面:,激励源,基音提取方法,声道滤波器参数量化方法,线谱对,(,Line Spectrum Pair, LPS,),80LPC-10 问题和改进存在的问题,81,多脉冲线性预测编码,(MP-LPC),多脉冲线性预测编码,(multipluse linear predictive coding, MP-LPC),:,对清音,/,浊音,用有限个脉冲经过最优估值后作为激励信号源,脉冲的间隔根据不同码本的模式决定,分析过程:,混合编码,对每帧原始语音先用,LP,分析方法计算,LP,系数,然后对当前帧的子帧用合成分析法估计一次激励脉冲,将激励脉冲输入到合成器中,得到合成语音,将合成语音与原始语音相减,得到误差信号并输入到,感觉加权滤波器,,得到加权误差信号,根据,最小加权均方误差准则,,分析出一组位置、幅度最佳的激励脉冲,然后,最佳激励索引,与,LP,系数,一起编码送入信道,81多脉冲线性预测编码 (MP-LPC)多脉冲线性预测编码,82,多脉冲线性预测编、解码器,激励发生器,LPC,综合滤波器,多脉冲信息,输出合成语音,线性预测系数,激励发生器,线性预测综合滤波器,合成器,均方误差最小估值,感觉加权滤波,LP,分析,传送至信道的多脉冲信息,原始语音信号,+,-,编码器,解码器,82多脉冲线性预测编、解码器激励发生器LPC综合滤波器多脉冲,83,多脉冲线性预测编码的变种,码激励线性预测编码,(Code-Excited Linear Prediction, CELP),:,矢量量化码书中的码字作为激励源,对每帧,计算最佳匹配的激励矢量,美国联邦标准,FS1016,G.728,标准,规则脉冲激励线性预测,(,RPE-LPC,),激励码字中,非零值规则出现,规则脉冲激励,非零值可为多个不同的值,RPE- LTC,(长时间预测):,GSM,标准,,13kbps,83多脉冲线性预测编码的变种码激励线性预测编码(Code-E,84,码激励线性预测编码,(Code-Excited Linear Prediction, CELP),CELP,:,矢量量化,+,线性预测,码书中每个码矢量代替余量信号作为可能的激励信号源,在编码时对码书中的码矢量逐个搜索,找到与输入语音误差最小的合成语音的激励码矢量,将这个码矢量的索引传送给接收端,在接收端用存储的同样码书,根据收到的码本索引恢复出相应的码矢量作为激励,4.816kb/s,范围内可以得到质量相当高的合成语音,并且抗噪声和多次转接性能也比较好。,然而当速率进一步降低时,由于没有足够的比特表示激励矢量,余量的量化将产生较大的误差,致使合成语音质量迅速下降,84码激励线性预测编码(Code-Excited Line,85,CELP,声码器,码书:,自适应码书:逼近语音的长时周期性(基音)结构,固定的随机码书:语音的经过短时、长时预测后的余量信号,从两个码本中搜索出来的最佳码矢量,乘以各自的最佳增益后相加,其和就是,CELP,激励信号源,将激励信号经过,M,阶,LP,综合滤波器,得到合成语音信号,合成语音信号与原始语音信号的误差经过感觉加权滤波器,得到感觉加权误差,e(n),。,CELP,用感觉加权的最小平方预测误差作为搜索最佳码矢量及其幅度的度量准则,使得感觉加权误差平方最小的码矢量就是最佳码矢量。,85CELP 声码器码书:,86,CELP,声码器,用一个自适应码本中的码字来逼近语音的长时周期性(基音)结构。,用一个固定的随机码本中的码字来逼近语音的经过短时、长时预测后的余量信号。,86CELP 声码器用一个自适应码本中的码字来逼近语音的长时,87,CELP,声码器,计算速度的提高,自适应码本和随机码本的搜索过程在本质上是一致的,不同之处在于码本结构和目标矢量的差别,为了减少计算复杂性,自适应码本和随机码本的搜索分为两级顺序进行:,第一级自适应码本搜索的目标矢量是加权,LP,余量信号,第二级随机码本搜索的目标矢量是第一级搜索的目标码本减去自适应码本搜索得到的最佳码矢量激励综合加权滤波取得结果,CELP,编码器的计算量主要是对码本中最佳码矢量及幅度的搜索,87CELP 声码器计算速度的提高,88,FS 1016,CELP,编码中基于合成分析的搜索过程、感觉加权矢量量化和线性预测技术,FS 1016,采用,CELP,声码器中的声道滤波器:,其中,P,为基音周期, 为基音周期的贡献,CELP,采取分帧技术进行编码,帧长,30ms,:,240,个样本,每帧分为,4,个子帧,对每个子帧,搜索最佳码矢量,基音周期计算:当前子帧的基音周期在前一个子帧周期的,32,个样本内,两个码书:自适应码本和随机码书,随机码书:,512,个码字,通过高斯随机数产生,被量化为,-1, 0, 1,,量化边界为,1.2,自适应码书:包含以前帧的码字,每产生一个新的码字,被增加到码书中,码书与局部统计相适应,88FS 1016CELP 编码中基于合成分析的搜索过程、感,89,G.728,语音编码标准,G.728,:短延时码本激励线性预测编码,(LD-CELP),短延时:,2ms,,(,5,个样本,/,帧, 0.,625 ms),输出码率:,16kbps, 2,比特,/,样本, 10,比特,/,帧,语音质量优于,32kbps,的,G.726 ADPCM,算法,声道滤波器参数:后向自适应,每,4,帧更新一次,10,比特,/,帧可全用于编码激励,后向自适应,编码器复杂,噪声环境:放弃提取基音周期,改用,50,阶的声道滤波器,足够对女性的基音周期建模,不能利用男性的基音周期信息,并没有严重降低性能,激励源:,10,比特,3,比特:增益,7,比特:码字索引,码书更小,码字搜索复杂度低,89G.728 语音编码标准G.728:短延时码本激励线性预,90,G.728,语音编码标准,(2),90G.728 语音编码标准 (2),91,正弦声码器,(Sinusoidal Coder),激励信号:一组时变正弦波之和,正弦波的幅值、频率和相位都随一定的时间,(,帧长,),变化,合成语音时帧间需平滑,为了节约码率,采用调和分析,声道滤波器:线性系统,91正弦声码器 (Sinusoidal Coder)激励信号,92,正弦变换编码,(STC),在分析端,输入信号通过快速,Fourier,变换,(FFT),进行谱分析,由于浊音信号的功率谱具有谐振结构,而清音信号的功率谱具有随机分布的峰值,利用峰值检测算法可确定峰值点的频率以及幅度和相位,对这些参数进行编码传给解码端,在解码端把这些参数作为正弦波的参数来合成语音,在实际的低码率编码中,为了提高编码效率,往往只对谱包络、幅值符号,基音频率和浊音概率频率进行编码,谱包络:谱峰的绝对幅值,浊音概率频率将语音谱分成两部分:,低频段:浊音,高频段:清音,92正弦变换编码 (STC)在分析端,输入信号通过快速 Fo,93,混合激励线性预测,(mixed excitation linear predication, MELP),采用更复杂的方式产生激励:,多带混合激励,语音分为清音、浊音和抖动浊音三种状态,浊音:周期脉冲,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!