传统音频编码_装配图网

资源描述

音频编码技术,组员：王剑博,刘遥,1,目录,1,2,3,传统音频编码,音频编码标准,Dolby Digital & DTS,2,传统音频编码,1,2,音频编码技术简介,常见音频编码技术,3,音频编码技术简介,声音的基本特征,数字音频处理技术,4,音频编码技术简介,物理学中的声音,通过一定介质（如空气、水等）传播的连续的波,根据不同声音的特性，通常我们将其分为两类：不规则声音和规则声音,规则的声音通常分为语音、音乐和音效,语音是指具有语言内涵和人类约定俗成的特殊媒体,音乐是规范的、符号化的声音,音效是指人类熟悉的其他声音，如动物和机器产生的声音等,声音的三要素,音调：人对声音频率的感觉,音色：声音信号中的高次谐波分量,音强,:,又称响度，用来描述声音的强度，取决于声音的幅度,5,数字音频编码技术简介,数字音频,是指用一系列的数字来表示音频符号，即把模拟音频信号转换成有限个数字表示的离散序列，从而实现音频数字化。,把模拟信号转换成数字信号的过程称为,模,/,数转换,，它主要包括,：,采样,:,在时间轴上对信号数字化,量化,:,在幅度轴上对信号数字化,编码,:,按一定格式记录采样和量化后的数字数据,声音数字化过程示意图,6,数字音频编码技术简介,语音通信中的信息量越来越大，为了节约带宽和有利于传输（相对）,使得语音在链路产生误码、网络抖动和突发传输时具有鲁棒性。,用于军用的保密功能,音频编码器的目的,：,7,数字音频编码技术简介,音频编码器的类型,：,波形编码器,声码器,混合编码器,感知编码器,8,数字音频编码技术简介,音频编码器的类型,：,波形编码器,波形编码器是将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后将幅度样本分层量化，并用代码表示。,特点,：具有适应能力强、语音质量好,所用的编码速率高，数据量大,举例：,脉冲编码调制（,PCM,）和增量调制（,M,），以及它们的各种改进型自适应增量调制（,ADM,），自适应差分编码（,ADPCM,）等,9,数字音频编码技术简介,声码器,工作原理及过程：,频谱分析，利用其周期性提取参数进行线性预测,鉴别清浊音，测定浊音基频，进而选取清,-,浊判断、浊音基频和频谱包络作为特征参量,提取特征参量，编码、加密和信道匹配,经信道传递到接受端，根据特征参量恢复原始波形,特点：,对话音存储和话音加密处理很有利，有算法，速度快,质量好且结构简单，适合于窄带、昂贵和劣质信道条件下的数字,电话通信,工作过程复杂，价格高，音质有点差，,对噪声敏感,10,数字音频编码技术简介,声,码器,声码器工作原理示意图,11,数字音频编码技术简介,音频编码器的类型,：,混合编码,器,目前常用的语音编码器是混合编码器，它融合了波形编码器和声码器的长处。它的另一特点是它工作在非常低的比特率,(416 kbps),。混合编码器采用合成分析,(AbS),技术。,举例,：,1,、线性预测合成分析编码器,2,、参数语音编码器,12,数字音频编码技术简介,音频编码器的类型,：,感知,编码,器,基本原理：,以上三种编码器都是基于信息论，利用信号的统计特性进行压缩,人类听觉系统存在局限性，不能感知到所接受的声音中的所有信号成分，感知编码器的基本思想是去除音频信号中所不能感知到的成分，从而大大提高编码增益，且不会损耗信号的感知质量,基本特点,:,压缩率高，感知质量好,结构相比其他编码器复杂得多,13,数字音频编码技术简介,音频编码器的类型,：,感知,编码,器,感知音频编解码器基本框图,14,常见数字编码处理技术,音频编码器的标准,：,音频,编码,标准各参数对照,15,常见数字音频编码技术,PCM,（脉冲编码调制）,采样,:,均匀采样,PCM,在通信中主要用于时分多路复用和频分多路复用,.,模拟信号,低通防失真滤波器,波形编码器,量化器,PCM,样本,16,常见数字音频编码技术,PCM,（脉冲编码调制）,脉冲编码调制就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样，再对样值幅度量化，编码的过程,17,常见数字音频编码技术,PCM,的主要问题,:,1,、任何脉冲编码调制数字音频系统需要在其输入端设置,急剧升降,的滤波器，仅让,20Hz-22.05kHz,的频率通过,2,、,PCM,是无损压缩，数据量大，冗余量大,18,常见数字音频编码技术,APCM,（自适应编码调制）,:,产生背景：,PCM,精度越高，样本位数越大音频数据量越大,大信号出现的机会并不多，为提高精度增加的样本位数没有充分利用,基本原理：,根据输入信号幅度大小来自适应的改变量化阶大小,两种方法：,前向自适应：,根据未量化的样本值来估算输入信号电平，来确定量化阶大小,后向自适应,:,从量化器刚输出的过去样本中提取量化阶信息,19,常见数字音频编码技术,DPCM(,差值编码,):,工作原理：,语音信号的相邻抽样点具有一定的幅度相关性，故可根据以前时刻的样值来预测现时刻的样值，只需传预测值和实际值之差，不需要每个样值都传。,特点：,都是无损压缩,成倍的降低了编码大小,20,常见数字音频编码技术,ADPCM,（自适应差分,PCM,）,该算法利用了语音信号样点间的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化，综合了,APCM,的自适应特性和,DPCM,系统的差分特性，是一种性能比较好的波形编码。,核心思想：,1,、利用自适应的思想改变量化阶的大小，即使用小的量化阶去编码小的差值，使用大的量化阶去编码大的差值；,2,、使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。,优点：算法复杂度低，压缩比小（,CD,音质,400kbps,），编解码延时最短（相对其它技术）,缺点：声音质量一般,21,常见数字音频编码技术,CELP,（码激励线性预估）,CELP,是近,10,年来最成功的语音编码算法，用线性预测提取声道参数，用一个包含许多典型的激励矢量的码本作为激励参数，每次编码时都在这个码本中搜索一个最佳的激励矢量，这个激励矢量的编码值就是这个序列的码本中的序号。,特性,：,1,、对误差信号进行感觉加权，利用人类听觉的掩蔽特性来提高语音的主观质量,2,、用分数延迟改进基音预测，使浊音的表达更为准确，尤其改善了女性语音的质量；,3,、使用修正的,MSPE,准则（最小平方预测误差）来寻找 “最佳”的延迟，使得基音周期延迟的外形更为平滑；,4,、使用基于信道错误率估计的自适应平滑器，在信道误码率较高的情况下也能合成自然度较高的语音。,22,常见数字音频编码技术,杜比数字音频技术,:,在全世界上千家影院和数百万家庭中，总体上，杜比数字是环绕声技术，特别是,5.1,声道环绕声技术的主宰性标准。杜比数字技术能传输单声道、立体声、或者多达,5.1,声道的环绕声（分离式多声道音频）。,5.1,声道：,1992,年,DOLBY,实验室在,AC-2,的基础上，又开发了,DOLBY AC-3,的数字音频编码技术。,AC-3,提供了五个声道的从,20Hz,的全通带频响，即正前方的左（,L,）、中（,C,）和右（,R,），后边的两个独立的环绕声通道左后（,LS,）和右后（,RS,）。,AC-3,同时还提供了一个,100Hz,以下的超低音声道供用户选用，以弥补低音之不足。因为此声道仅为辅助而已，故定为,0.1,声道。所以,AC-3,被称为,5.1,声道。,23,二、音频编码格式与标准,2,1,音频编码标准,2,音频文件格式,24,1,1.,音频编码标准,根据音频质量来区分，可以分为以下三类标准：,1.1,电话质量的音频压缩标准,1.2,调幅广播质量的音频压缩标准,1.3,高保真立体声音频压缩标准,25,2,电话质量语音信号的频率范围是,2003400HZ,，采用脉冲编码调制（,PCM,）方法，当采样频率为,8Khz,，量化位数为,8,位时，对应的码率为,64Kbps,为了压缩音频数据，国际上从,ITU-T,最初的,G.711,标准开始，已制定了一系列的语音压缩编码的标准。,1.1,电话质量的音频压缩标准,26,3,1989,年美国公布的数字移动信息标准,CTIA,，采用矢量和激励线性预测技术（,VSELP,），速率为,8Kbps,。,为了适应保密通信的要求，美国国家安全局,NSA,分别于,1982,年和,1989,年制定了基于,LPC,，速率为,2.4Kbps,和基于,CELP,，速率为,4.8Kbps,的编码方案。,1983,年欧洲电信管理局（,European Telecommunication Administration,）下属的一个工作小组,CEPT-CCH-GSM,（,Group Special Mobile,）推出了欧洲移动电话的压缩标准,GSM,GSM,采用的算法为长时预测规则码激励（,RPE-LTP,Regular-Pulse Excitation/Long Term Prediction,）,采样频率为,8KHz,，运行速率,13Kbps,。,欧美国家语音通信标准,27,4,ITU,建议的用于电话质量的语音压缩标准,标准,编码类型,码率,（,Kbps,）,平均音质,MOS,复杂性,时延,（,ms,）,G.711,PCM,64,4.3,1,0.125,G.721,ADPCM,32,4.0,10,0.125,G.723.1,ACPLP,6.3,3.8,25,37.5,G.728,LD-CELP,16,4.0,50,0.625,G.729,CSA-CELP,8,4.0,30,、,15,15,GSM,RPE-LPT,13,3.7,5,20,28,5,调幅广播质量音频信号的频率范围是,507000Hz,，,1988,年,ITU,制定了,G.722,标准，,G.722,标准使用,16KHz,的采样频率和,16,位的量化位数时，信号速率为,224Kbps,。，他可把信号速率压缩成,64Kbps,。,1.2,调幅广播质量的音频编码标准,G.722,标准采用基于子带,ADPCM,技术，将现有的带宽分成两个独立的子带信道，使输入信号进入滤波器组分成高子带信号和低子带信号。然后分别进行,ADPCM,编码，最后进入混合器形成输出码流。利用,G.722,标准可以在窄带,ISDN,的一个,B,信道上传输调幅广播质量的音频信号。由于这种压缩方法能够在,8Kbps,的存储量下给出相当好的音乐信号，因此也适合于需要存储大量高质量音频信号的多媒体系统使用。,29,6,1.3,高保真立体声音频压缩编码标准,高保真立体声音频信号的频率范围是,1022000Hz,，在,44.1KHz,采样频率下用,16,位量化，信号速率为每声道,705Kb/s,。目前，世界上第一个高保真立体声音频压缩标准为,MPEG,音频压缩算法，虽然,MPEG,音频标准是,MPEG,标准的一部分，但它也完全可以独立适用。,30,7,MPEG,音频不是单个一种压缩算法，而是三种音频编码和压缩方案的一个系列，称为,MPEG,声音,Layer 1,，,Layer 2,，,Layer 3,。随着层数的增加，算法的复杂度也增大，所有三层都分级兼容。,MPEG,声音标准规定其音频采样率可选择为,32KHz,、,44.1KHz,或,48KHz,；音频带宽可选择,15KHz,和,20KHz,，其中,15KHz,对应的采样频率为,32KHz,，,20KHz,对应的采样频率为,44.1KHz,和,48KHz,；压缩码率可选择从,32320kbps,的一些特定比特率。它支持单声道、双声道、立体声和联合立体声四种声音模式。,31,8,MPEG-2,也定义了音频标准，由两部分组成，即,MPEG-2,音频（,Audio,，,ISO/IEC 13818-3,）和,MPEG-2 AAC,（先进的音频编码，,ISO/IEC 13818-3,）。,MPEG-2,音频编码标准是对,MPEG-1,后向兼容的、支持二至五声道的后继版本。主要考虑到高质量的,5+1,声道、低比特率和后向兼容性，以保证现存的两声道解码器能从,5+1,个多声道信号中解出相应的立体声。,MPEG-2 AAC,除后向兼容,MPEG-1,音频外，还有非后向兼容的音频标准。,MPEG-4 Audio,标准（,ISO/IEC 14496-3,）可集成从话音到高质量的多通道声音，从自然声音到合成声音，编码方法还包括参数编码,(parametric coding),，码激励线性预测,(CELP,，,code excited linear predictive),编码，时间,/,频率,(T/F,，,time/frequency),编码，结构化声音,(SA,，,structured audio),编码，文语转换,(TTS,，,text-to-speech),的合成声音，和,MIDI,合成声音等。,32,9,MPEG,音频标准,33,10,2,、音频文件格式,无损音频格式：,CD,、,WAV,、,FLAC,、,APE,有损音频格式：,MP3,、,MP3pro,、,WMA,、,AAC,、,Dolby-AC3,、,DTS,有两类主要的音频文件格式：,34,11,格式名：,.cda,类型：,Audio,制定者：,Sony,和,Philip,采样率：,44.1KHz,码率：,1.38Mbps,（双声道）,特性：,CD,音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，但是它们占用的带宽很高，需要,1.38Mbps,。,优点：,音质最好,缺点：,占用的带宽很高，数据量很大,可交换性：,很差,应用领域：,voip,版税方式：,Free,CD,35,12,格式名：,.wav,类型：,Audio,发布时间：,1991,制定者：,microsoft,采样率：,11KHz,码率：,176.4kbps,（单声道）,特性：,“,.wav”,格式支持,MSADPCM,、,CCITT A LAW,等多种压缩算法，支持多种音频位数、采样频率和声道。,优点：,符合,PIFF,（,Resource Interchange,）文件规范，便于交换播放；支持编码算法较多；音质与,CD,相差无几,缺点：,数据量大（,PCM,）,可交换性：,良好,应用领域：,voip,版税方式：,Free,WAV,36,13,格式名：,.mp3,类型：,Audio,发布时间：,1995,制定者：,MPEG,采样率：,32KHz,、,44.1KHz,、,48KHz,码率：,112kbps-128kbps,特性：,是一种有损压缩，具有,10,：,112,：,1,的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中,12KHz,到,16KHz,高音频这部分的质量来换取文件的尺寸,优点：,高压缩率，音质较好,缺点：,丢失高频信息,可交换性：,良好,应用领域：,voip,版税方式：,Free,MP3,37,14,格式名：,.mp3,类型：,Audio,发布时间：,2001.6,制定者：,Thomson,和,Faunhofe IIS,采样率：,44.1KHz,码率：,64Kbps,特性：,采用,MP3+SB,频段复制技术混合编码，在低位率的时候，压缩效率非常高，且与原,MP3,兼容,优点：,在一般音质下，压缩率高于,MP3,和,WMA,，三者之中音质最好,缺点：,编码算法较复杂，专利费高昂，未流行开,可交换性：,仅适用于播放,MP3pro,的专用播放器,应用领域：,voip,版税方式：,一次性付费,MP3pro,38,15,格式名：,.wma,类型：,Audio,发布时间：,1999,制定者：,microsoft,码率：,64Kbps,特性：,以减少数据流量但保持音质的方法来达到比,MP3,压缩率更高的目的，,WMA,的压缩率一般都可以达到,1,：,18,左右,优点：,压缩率高、可加入安全保护措施，支持流技术,缺点：,随着码率升高，音质提升并不明显,可交换性：,较好,应用领域：,voip,版税方式：,Free,WMA,39,16,格式名：,.AAC,类型：,Audio,发布时间：,1997,制定者：,Dolby&,Fraunhofer IIS,&,AT&T,&,Sony,码率：,96-128kbps,特性：,AAC,可以支持,1,到,48,路之间任意数目的音频声道组合，具有,48,个主要音频通道，,16,个低频增强通道，,16,个集成数据流, 16,个配音，,16,种编排。,优点：,在保持音质的条件下有较高的压缩率，遵循,MPEG-2,缺点：,可交换性：,较好,应用领域：,voip,版税方式：,一次性收费,备注：,AAC,主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字,AM,、以及数字电视及影院系统等方面。,AAC,40,17,格式名：,.AC3,类型：,Audio,发布时间：,1994,制定者：,Dolby,码率：,64-640Kbps,特性：,提供的环绕立体声系统由,5,个全频带声道加一个超低音声道组成，,6,个声道的信息在制作和还原过程中全部数字化，压缩比为,12:1,优点：,环绕立体声，信息损失很少，细节丰富，具有真正的立体声效果,缺点：,可交换性：,较好,应用领域：,voip,版税方式：,按个收取,Dolby AC-3,41,18,格式名：,.DTS,类型：,Audio,制定者：,DTS,码率：,768Kbps/1536Kbps,特性：,DTS,同,AC,3,一样具有全音域的,5.1,声道，属于利用心理声学原理来对声轨进行编码的有损的数字压缩技术，压缩比为,34:1,优点：,保留更多的音频信息，使得声场的层次性、细腻性好,缺点：,数据量大,可交换性：,较差,应用领域：,voip,版税方式：,DTS,42,19,格式名：,.APE,类型：,Audio,制定者：,MonkeysAudio,特性：,对压缩后的音频可以进行无损的恢复，文件大小为,CD,一半,优点：,令人满意的压缩比以及飞快的压缩速度，无损的音质,缺点：,要求较大的带宽,可交换性：,较好,应用领域：,voip,版税方式：,备注：,广泛成为音乐发烧友的最佳选择,APE,43,20,格式名：,.flac,类型：,Audio,发布时间：,2001,制定者：,Xiphophorus,码率：,特性：,无损压缩，可还原,CD,音质，开源,优点：,类似于,MP3,被广泛支持，可实时播放，,FLAC,可自由选择压缩率及压缩时间,缺点：,可交换性：,很好,应用领域：,voip,版税方式：,Free,备注：,可作为很好的保存音频于电脑的最佳方法之一,FLAC,44,Dolby Digital & DTS,3,Dolby Digital,DTS,45,Dolby Digital,杜,比实验室,著名的有损数据压缩的,多媒体存储格式,杜比数字（,AC-3,）,共有,5.1,个声道：前左、前右、中间、左后环绕、右后环绕,5,个声道,，“,.1”,是指分离的低频效果声道（,20-120,赫兹）,46,AC-3,编码原理,Dolby Digital,分析滤波器：把音频表达式从一个,PCM,时间样本的序列变换为一个频率系数样本块的序列,接下来的浮点数变换过程将转换系数集分成指数与尾数对,。,频谱包络编码：指数的集合被编码为信号频谱的粗略表达式，称作频谱包络。,47,AC-3,编码原理,Dolby Digital,比特指派：核心的比特指派例行程序用这个频谱包络，确定每个单独尾数需要多少比特进行编码。,尾数量化：将频谱包络和,6,个音频样本块粗略量化的尾数，格式化成一个,AC-3,数据帧。,48,AC-3,编码原理,Dolby Digital,AC-3,位分配的模型按照心理声学掩蔽效应来确定给定频带内的尾数位数的多少。根据掩蔽效应的程度，某些尾数只需要极少量的位，甚至无需任何,位。,全局,数位集合,，高频,耦合,技,术,49,AC-3,帧结构,Dolby Digital,SYNC,、,SI,：同步信息,CRC,：误码检测,BSI,：各种参数,AUDIO BLOCK,：每个编码声道包含,256,个,PCM,取样,AUX,：辅助数据,50,AC-3,解码原理,Dolby Digital,Lo,Ro,立体声信号：,Lo=1.0L+clevC+slevLs,Ro=1.0R+clevC+slevRs,51,Dolby Digital,杜比数字环绕,EX,6.1,声道：加入第三,个环绕声道，位置在原来左环绕和右环绕中间,国内首档采用杜比数字,环绕声,播出的综艺节目,52,Dolby Digital,杜比数字,Plus(E-AC-3),最高码率提升至,6Mbps,支持多达,16.1,声道,53,Dolby Digital,杜比,TrueHD,100%,无损的编码技术,支持多达八个分离式,24,比特,/96 kHz,全频带声道,96,kHz,上,采样技术,杜比,耳机,不是一个耳机，而是一种信号处理系统,使用杜比耳机技术后，立体声耳机能够产生逼真的模拟五只扬声器回放系统所产生的音响效果,54,DTS,DTS(Digital,Theatre,System),采用,CAC,(,Coherent,Acoustics Coding,，相干声学,编码,),，属于,利用心理声学原理来对声轨进行编码的有损的数字压缩技术,采取特殊,的声画分离的数字立体声，数字声迹录在光盘上，由专用的光盘驱动器读取,数字压缩,比较低，在,DVD,中标准的数据流量为,1536kbps,55,DTS,编码原理,DTS,多,相滤波器：将每个声道的全频带,24bit,线性,PCM,源信号分割到一定数目的子带中去。（子带编码技术）,子,带,ADPCM,：每个子带中进行差分信号编码，去除信号中的客观冗余量。,客观及主观声学模型：通过对信号的对比分析，心理声学及信号瞬态的分析可以判断信号中的感知冗余信息。,56,DTS,编码原理,DTS,比特指派程序：管理所有音频声道中子带信息的编码指派和分配。,音频数据复用器：将所有声道中子带数据加上附加的辅助信息进行打包，形成特殊数据语法格式的编码数据流,57,DTS,帧结构,DTS,同步字：同步位流。,帧头信息：包含帧的结构信息、编码器配置信息、音频数据排列信息和各种操作特性信息。,子帧：包含,5.1,声道中的核心数据，每帧最多,16,个子帧。,可选信息：一些辅助信息。,扩展音频：包含基本声道可能有的扩展频段信息，或,5.1,声道以外附加声道的所有频率成分数据。,58,DTS,解,码原理,DTS,音频数据解复用：对编码的多声道音频数据流进行同步，获得音频数据流中一帧数据（可能进行检错和误码校正），根据辅助信息解出压缩的差分音频数据。,子带差分反量化：根据辅助信息指令，对子带中的差分音频信号进行反量化。,59,DTS,解,码原理,DTS,反,多相滤波器：将反量化得到的,PCM,信号进行逆滤波处理，得到每个声道（核心音频为,5.1,个声道）的全频带的时域,PCM,信号。,可选的,DSP,功能：用户编程（上矩阵变换、下矩阵变换、动态范围控制以及声道间的延迟调整等）。,60,DTS,DTS ES,在,5.1,声道的,DTS,环绕基础上增加了中置后环绕声道，组成左、中、右、左环绕、,右,环绕,、,和后环绕的,6,声道系统，加上低音声道，称之为,6.1,声道,DTS-HD,无损压缩，品质高,DTS-HD 7.1,声道是,在传统的,5.1,声声道上,增加了二个附加声道。就这二,个声道就,能使新系统的环绕声效果远远高过传统环绕声,61,DTS Surround Sensation,DTS,允许以,耳机模拟,5.1,音效,62,谢谢,Thanks,63,

展开阅读全文

传统音频编码

最新文档