资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2.3 音频编码基础和标准,2.3.1 音频编码基础,2.3.2,音频编码标准,2.3.1 音频编码基础,一、压缩编码的必要性,二、音频编码基础,三、音频编码的分类,压缩编码的必要性,多媒体音频数据的存储和传输中,必须压缩数据。利用音频编码压缩数据。,高质量音频,采样数据率(每秒比特数):,信号类型,频率范围,(,H,Z,),采样率,(,KH,Z,),量化精度,(位),数据率,(位,/,秒),电话话音,200,3400,8,8,64,k,高质量音频,20,20,K,44.1,16,705.6,k,压缩编码数据率:,信号类型,数据率,(位,/,秒),压缩编码,标准,数据率,(,位,/,秒,),数据率,(,字节,/,分钟,),IP,电话话音,64,k,G.723,5.3,k,40,K,705.6,k,44.1,128,k,960,k,压缩编码的必要性,数据压缩造成音频质量的下降、计算量的增加。人们在实施数据压缩时,要在,音频质量、数据量、计算复杂度,三方面进行综合考虑。,各领域的专家致力于算法的研究,众多的企业致力于芯片和产品的研制,国际标准化组织也先后推出一系列建议。,高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。,音频编码基础,从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。,1、时域信息的冗余度,2、频域信息的冗余度,3、人的听觉感知机理,1、时域信息的冗余度,幅度的非均匀分布 一般语音中小幅度样本比大幅度样本出现的概率要高,并且通话中必然会有间隙,更会出现大量低电平样本。因此语音信号取样值的幅度分布是非均匀的,可以采用非均匀量化对其编码。,样本间的相关 对语音波形的分析表明,取样数据的最大相关性存在于邻近样本之间,并且取样速率越高,样本间相关性越强。根据相关性,可利用,N,阶差分编码技术,进行有效的数据压缩。,1、时域信息的冗余度(续),周期之间的相关 虽然语音信号需要一个电话通路提供整个2003400,HZ,的带宽,但在特定的瞬间,某声音只有少数频率成分在作用,它们在周期域周期间,存在着一定的相关性。,基音之间的相关 人说话声音分为浊音和清音,浊音不仅有周期间的冗余度,还对应于音调间隔的长期重复波形。,1、时域信息的冗余度(续),静音系数两人间打电话,平均每人的讲话时间为通话总时间的一半,另一半时间听对方讲。听的时候般不讲活,而即使是在讲话的时候,也会出现停顿。声音间隔本身就是一种冗余,若能正确检测出该静比段,便可“插空”传输更多的信息。,长时自相关函数 上述周期间等相关性,都是在20,ms,间隔内进行统计的所谓短时自相关。如果在较长的时问间隔(如几十秒)进行统计,便得到长时自相关函数。,2、频域信息的冗余度,非均匀的长时功率谱密度 在相当长的时间间隔内进行统计平均,可得到长时功率谱密度函数其功率谱呈现强烈的非平坦性。从统计的观点看,这意味着没有充分利用结定的频段,有固有的冗余度,语音特有的短时功率谱密度语音信号的短时功率谱,在某些频率上出现峰值,这些峰值频率不只一个,但最主要的是第一和第二个,由它们决定不同的语音特征。,3、人的听觉感知机理,人的听觉具有掩蔽效应 当两个响度不同的声音作用于人耳时,响度较高的频率成分会影响对响度较低频率成分的感受。,人耳对不同频段的声音敏感度不同 低频成分容易掩蔽高频成分。即使是对同样声压级的声音,人耳的实际感觉到的音量也是随频率而变化。,人耳对语音信号的相位变化不敏感 入耳听不到或感知极不灵敏的声音分量都不妨视为冗余的。,音频编码的分类,音频编码分位三类:,基于音频数据的统计特性进行编码,其典型技术是,波形编码,。其目标是使重建语音波形保持原波形的形状;,基于音频的声学参数,进行,参数编码,,可进一步降低数据率。其目标是使重建音频保持原音频的特性;,基于人的听觉特性,进行,感知编码,。,音频编码的分类(续),波形编码:,脉冲编码调制(,PCM),自适应脉冲编码调制(,APCM),差值脉冲编码调制(,DPCM),自适应差值脉冲编码调制(,ADPCM),参数编码,:,预测方式:前向/后向,短时/长时,参数类型:,LPC,LSP,CEP,激励方法,:,编码策略:合成-分析法,感知编码,-,MPEG,AC-3,2.3.2 音频编码标准,当前编码技术发展的一个重要的方向就是综合现有的编码技术,制定全球的统一标准,使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上,对于语音信号压缩编码的审议在,CCITT,下设的第十五研究组进行,相应的建议为,G,系列,多由,ITU,发表。,CCITT,和,ISO,先后提出一系列有关音频编码的建议,推荐的标准:,1972年:,G.711-64kb/s PCM,编码标准。,1984年:,G.721-32kb/s,自适应差值脉冲编码(,ADPCM),G.722-64kb/s,子带,ADPCM,编码标准,G.723.1-5.3kb/s,和6.3,kb/s LSF,G.726-16kb/s,1990,年:,G.727-16-40kb/s,镶嵌式,ADPCM,标准。,1992年:,G.728/G.729-16kb/s LD-CELP,1988,年:,RPE-LTP-13kb/s,长时预测规则码激励(欧洲),GSM,1989,年:,VSELP-6.7kb/s,矢量和激励线性预测(日本),1、G.711话音的PCM编码,本建议公布于1972年,它给出话音信号编码的,推荐,特性。,话音,的抽样率为8,KHz。,每个样值采用8位二进制编码。推荐使用,A,律和,律量化。分别给出,A,律和,律的定义:将13位,PCM,码按,A,律、14位,PCM,码按,律转换8位编码,。,2、G.721-32kb/s的ADPCM,这个建议是1984年公布。1986年作了进一步修订。它用于64,kb/s,的,A,律或,律,PCM,到32,kb/s ADPCM,之间的转换,实现了对,PCM,信道的扩容。,编码器的输入信号是64,kb/s A,律或,律,PCM,编码。首先将其转换为标准,PCM,编码。从中减去估计值,Se(k),,得到差值信号,d(k)。15,阶自适应量化器将,d(k),量化成4位二进制值,I(k)。,逆量化器从这4位二进制数中产生量化的差值信号,dq(k)。dq(k),和估计信号,Se(k),相加得到重构信号,Sr(k)。,自适应预测器利用,dq(k),和,Sr(k),生成输入信号的估计值。,S(k),64,bit/s,A,律或,U,律,PCM,转换为,标准,PCM,S,+,+,自适应,量化器,自适应,预测器,自适应,逆,量化器,+,d(k),I(k),32,kbit/s,输出,dq,Se(k),Sr,(,k),(,(,a)ADPCM,编码器,I,(,k),k),(,b)ADPCM,解码器,32,bit/s,输入,自适应,逆,量化器,+,转换为,PCM,同步编码,调节,自适应,预测器,64,bit/s,A,律或,U,律输出,解码器包括一个与编码器反馈部分相同的结构,还有,A,律或,律的转换器,以及同步编码调节器。同步编码器用于防止同步级联编码(,ADPCM-PCM-ADPCM),在某些情况下产生累积失真。用试图消除下一个,ADPCM,编码的量化失真的方式调节,PCM,输出,以实现同步编码调节。,3、G.722 64kb/s SB-ADPCM,G.722,建议的带宽音频压缩仍采用波形编码技术,因为要保证既能适用于话音,又能用于其他方式的音频,只能考虑波形编码。,G.722,编码采用了高低两个子带内的,ADPCM,方案,高低子带的划分以4,KHz,为界。然后再对每个子带内采用类似,G.721,建议的,ADPCM,编码,因此,G.722,建议的技术方案可以简写为,SB-ADPCM(,子带-自适应差分脉冲码调制)。,4、G.728编码标准,G.728,建议的技术基础是美国,AT&T,公司贝尔实验室提出的,LD-CELP(,低延时-码激励线性预测)算法。该算法考虑了听觉特性,其特点是:,以块为单位的后向自适应高阶预测;,后向自适应型增益量化;,以适应为单位的激励信号量化。,5、MPEG中的音频编码,MEPG,中的,MPEG I,标准中规定了音频编码标准,包括高质量音频编码方法,存储表示和解码方法。编码器的输入和解码器的输出与现存的,PCM,标准兼容。,(1)编码器,编码器处理数字音频信号,并生成存储所需的数据流。编码过程如下:,输入的音频抽样被读入编码器;,映射器建立经滤波的输入音频数据流的子带抽样表示,心理声学模型建立一组控制量化和编码的数据,量化和编码部分从已映射的输入抽样中生成一组编码符号,帧封装将来自其他模块的输出数据汇集成实际数据,(2)编码层次,根据应用需求,可以使用不同层次的编码系统:,层,包括将数字音频变成32个子带的基本映射。将数据格式化成块的固定分段。决定自适应位分配的心理声学模型。利用块压扩和格式化的量化器。理论上,层,编码解码的最少延时约为19,ms。,层,提供了位分配,缩放因子和抽样的附加编码。使用不同的帧格式。这层理论上的最小编码解码延时约为35,ms。,层,采用混合带通滤波器来提高频率分辨率。它增加了差值量化(非均匀)、自适应分段和量化值的嫡编码。这层理论上的最小编码解码延时为59,ms。,(3)存储,己编码的视频数据、音频数据、同步数据、系统数据和辅助数据均可一并存人同一存储介质中。对存储器的存取也可能包括在通信系统中的远程存取。,(4)解码,解码器按编码器定义的语法接收压缩的音频数据流、按解码部分的方法解出数据元素,产生数字音频输出。其过程如下:,数据流输入到解码器,帧扩展进行数据流拆封,恢复出各种信息,重构单元将重构一组映射抽样的量化方案,逆映射单元把这些抽样变换回均匀,PCM,6、DOLBY AC-3,AC-3,音频编码标准的起源是,DOLBY(,杜比),AC-1。,AC-1,应用的编码技术是自适应增量调制技术,,,它把20,kHz,的宽带立体声音频信号编码成512,kb/s,的数据流。,AC-2,采用类似,MDCT,的重叠窗口的,FFT,编码技术,其数据率在256,kb/s,以下。,AC-2,被应用在,PC,声卡和综合业务数字网等方面,AC-3的工作原理,杜比,AC-3,是种感知型编码方式,它利用心理声学原理:较强的声音信号可以掩蔽临近频段中较弱的信号。换言之,如果在某一频段中出现了一个较强的信号,那么该频段中所有低于某一门槛值的信号都将被强信号掩蔽掉,成为人耳不可闻的信号。滤除这缜弱信号将不会对音质产生不良影响,而且能减少编码后的数据量,所以可以把它们作为噪声信号来对待。,AC-3 的5.1声道,5.1声道为环绕声系统由五个全频域声道加一个超低音声道组成,其中五个声道包括前置的“左声道,”(L)、“,中置声道,”,(,C)、“,右声道”(,R)、,后置的“左环绕声道”(,LS),和“右环绕声道”(,RS),,第六个声道也就是超低音声道包含了一些额外的低音信息,使得一些场景如爆炸、撞击声等的效果更好。,AC-3可编程解码器,
展开阅读全文