多媒体技术音频编码基础和标准

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2.3 音频编码基础和标准,2.3.1 音频编码基础,2.3.2,音频编码标准,2.3.1 音频编码基础,一、压缩编码的必要性,二、音频编码基础,三、音频编码的分类,压缩编码的必要性,多媒体音频数据的存储和传输中，必须压缩数据。利用音频编码压缩数据。,高质量音频,采样数据率（每秒比特数）：,信号类型,频率范围,（,H,Z,）,采样率,（,KH,Z,）,量化精度,（位）,数据率,（位,/,秒）,电话话音,200,3400,8,8,64,k,高质量音频,20,20,K,44.1,16,705.6,k,压缩编码数据率：,信号类型,数据率,（位,/,秒）,压缩编码,标准,数据率,(,位,/,秒,),数据率,(,字节,/,分钟,),IP,电话话音,64,k,G.723,5.3,k,40,K,705.6,k,44.1,128,k,960,k,压缩编码的必要性,数据压缩造成音频质量的下降、计算量的增加。人们在实施数据压缩时，要在,音频质量、数据量、计算复杂度,三方面进行综合考虑。,各领域的专家致力于算法的研究，众多的企业致力于芯片和产品的研制，国际标准化组织也先后推出一系列建议。,高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。,音频编码基础,从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果，语音信号存在着多种冗余度，其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的，所以考虑了人的听觉机理，也能对语音信号实行压缩。,1、时域信息的冗余度,2、频域信息的冗余度,3、人的听觉感知机理,1、时域信息的冗余度,幅度的非均匀分布一般语音中小幅度样本比大幅度样本出现的概率要高，并且通话中必然会有间隙，更会出现大量低电平样本。因此语音信号取样值的幅度分布是非均匀的，可以采用非均匀量化对其编码。,样本间的相关对语音波形的分析表明，取样数据的最大相关性存在于邻近样本之间，并且取样速率越高，样本间相关性越强。根据相关性，可利用,N,阶差分编码技术，进行有效的数据压缩。,1、时域信息的冗余度（续）,周期之间的相关虽然语音信号需要一个电话通路提供整个2003400,HZ,的带宽，但在特定的瞬间，某声音只有少数频率成分在作用，它们在周期域周期间，存在着一定的相关性。,基音之间的相关人说话声音分为浊音和清音，浊音不仅有周期间的冗余度，还对应于音调间隔的长期重复波形。,1、时域信息的冗余度（续）,静音系数两人间打电话，平均每人的讲话时间为通话总时间的一半，另一半时间听对方讲。听的时候般不讲活，而即使是在讲话的时候，也会出现停顿。声音间隔本身就是一种冗余，若能正确检测出该静比段，便可“插空”传输更多的信息。,长时自相关函数上述周期间等相关性，都是在20,ms,间隔内进行统计的所谓短时自相关。如果在较长的时问间隔(如几十秒)进行统计，便得到长时自相关函数。,2、频域信息的冗余度,非均匀的长时功率谱密度在相当长的时间间隔内进行统计平均，可得到长时功率谱密度函数其功率谱呈现强烈的非平坦性。从统计的观点看，这意味着没有充分利用结定的频段，有固有的冗余度,语音特有的短时功率谱密度语音信号的短时功率谱，在某些频率上出现峰值，这些峰值频率不只一个，但最主要的是第一和第二个，由它们决定不同的语音特征。,3、人的听觉感知机理,人的听觉具有掩蔽效应当两个响度不同的声音作用于人耳时，响度较高的频率成分会影响对响度较低频率成分的感受。,人耳对不同频段的声音敏感度不同低频成分容易掩蔽高频成分。即使是对同样声压级的声音，人耳的实际感觉到的音量也是随频率而变化。,人耳对语音信号的相位变化不敏感入耳听不到或感知极不灵敏的声音分量都不妨视为冗余的。,音频编码的分类,音频编码分位三类：,基于音频数据的统计特性进行编码,其典型技术是,波形编码,。其目标是使重建语音波形保持原波形的形状；,基于音频的声学参数，进行,参数编码,，可进一步降低数据率。其目标是使重建音频保持原音频的特性；,基于人的听觉特性，进行,感知编码,。,音频编码的分类（续）,波形编码：,脉冲编码调制（,PCM）,自适应脉冲编码调制（,APCM）,差值脉冲编码调制（,DPCM）,自适应差值脉冲编码调制（,ADPCM）,参数编码,：,预测方式：前向/后向，短时/长时,参数类型：,LPC，LSP，CEP,激励方法,：,编码策略：合成-分析法,感知编码,-,MPEG，AC-3,2.3.2 音频编码标准,当前编码技术发展的一个重要的方向就是综合现有的编码技术，制定全球的统一标准，使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上，对于语音信号压缩编码的审议在,CCITT,下设的第十五研究组进行，相应的建议为,G,系列，多由,ITU,发表。,CCITT,和,ISO,先后提出一系列有关音频编码的建议，推荐的标准：,1972年：,G.711-64kb/s PCM,编码标准。,1984年：,G.721-32kb/s,自适应差值脉冲编码（,ADPCM）,G.722-64kb/s,子带,ADPCM,编码标准,G.723.1-5.3kb/s,和6.3,kb/s LSF,G.726-16kb/s,1990,年：,G.727-16-40kb/s,镶嵌式,ADPCM,标准。,1992年：,G.728/G.729-16kb/s LD-CELP,1988,年：,RPE-LTP-13kb/s,长时预测规则码激励（欧洲）,GSM,1989,年：,VSELP-6.7kb/s,矢量和激励线性预测（日本）,1、G.711话音的PCM编码,本建议公布于1972年，它给出话音信号编码的,推荐,特性。,话音,的抽样率为8,KHz。,每个样值采用8位二进制编码。推荐使用,A,律和,律量化。分别给出,A,律和,律的定义:将13位,PCM,码按,A,律、14位,PCM,码按,律转换8位编码,。,2、G.721-32kb/s的ADPCM,这个建议是1984年公布。1986年作了进一步修订。它用于64,kb/s,的,A,律或,律,PCM,到32,kb/s ADPCM,之间的转换,实现了对,PCM,信道的扩容。,编码器的输入信号是64,kb/s A,律或,律,PCM,编码。首先将其转换为标准,PCM,编码。从中减去估计值,Se(k)，,得到差值信号,d(k)。15,阶自适应量化器将,d(k),量化成4位二进制值,I(k)。,逆量化器从这4位二进制数中产生量化的差值信号,dq(k)。dq(k),和估计信号,Se(k),相加得到重构信号,Sr(k)。,自适应预测器利用,dq(k),和,Sr(k),生成输入信号的估计值。,S(k),64,bit/s,A,律或,U,律,PCM,转换为,标准,PCM,S,+,+,自适应,量化器,自适应,预测器,自适应,逆,量化器,+,d(k),I(k),32,kbit/s,输出,dq,Se(k),Sr,(,k),(,(,a)ADPCM,编码器,I,(,k),k),(,b)ADPCM,解码器,32,bit/s,输入,自适应,逆,量化器,+,转换为,PCM,同步编码,调节,自适应,预测器,64,bit/s,A,律或,U,律输出,解码器包括一个与编码器反馈部分相同的结构，还有,A,律或,律的转换器，以及同步编码调节器。同步编码器用于防止同步级联编码(,ADPCM-PCM-ADPCM),在某些情况下产生累积失真。用试图消除下一个,ADPCM,编码的量化失真的方式调节,PCM,输出，以实现同步编码调节。,3、G.722 64kb/s SB-ADPCM,G.722,建议的带宽音频压缩仍采用波形编码技术，因为要保证既能适用于话音，又能用于其他方式的音频，只能考虑波形编码。,G.722,编码采用了高低两个子带内的,ADPCM,方案，高低子带的划分以4,KHz,为界。然后再对每个子带内采用类似,G.721,建议的,ADPCM,编码，因此,G.722,建议的技术方案可以简写为,SB-ADPCM（,子带-自适应差分脉冲码调制）。,4、G.728编码标准,G.728,建议的技术基础是美国,AT&T,公司贝尔实验室提出的,LD-CELP（,低延时-码激励线性预测）算法。该算法考虑了听觉特性，其特点是：,以块为单位的后向自适应高阶预测；,后向自适应型增益量化；,以适应为单位的激励信号量化。,5、MPEG中的音频编码,MEPG,中的,MPEG I,标准中规定了音频编码标准，包括高质量音频编码方法，存储表示和解码方法。编码器的输入和解码器的输出与现存的,PCM,标准兼容。,（1）编码器,编码器处理数字音频信号，并生成存储所需的数据流。编码过程如下：,输入的音频抽样被读入编码器；,映射器建立经滤波的输入音频数据流的子带抽样表示,心理声学模型建立一组控制量化和编码的数据,量化和编码部分从已映射的输入抽样中生成一组编码符号,帧封装将来自其他模块的输出数据汇集成实际数据,（2）编码层次,根据应用需求，可以使用不同层次的编码系统：,层,包括将数字音频变成32个子带的基本映射。将数据格式化成块的固定分段。决定自适应位分配的心理声学模型。利用块压扩和格式化的量化器。理论上，层,编码解码的最少延时约为19,ms。,层,提供了位分配，缩放因子和抽样的附加编码。使用不同的帧格式。这层理论上的最小编码解码延时约为35,ms。,层,采用混合带通滤波器来提高频率分辨率。它增加了差值量化(非均匀)、自适应分段和量化值的嫡编码。这层理论上的最小编码解码延时为59,ms。,（3）存储,己编码的视频数据、音频数据、同步数据、系统数据和辅助数据均可一并存人同一存储介质中。对存储器的存取也可能包括在通信系统中的远程存取。,（4）解码,解码器按编码器定义的语法接收压缩的音频数据流、按解码部分的方法解出数据元素，产生数字音频输出。其过程如下：,数据流输入到解码器,帧扩展进行数据流拆封，恢复出各种信息,重构单元将重构一组映射抽样的量化方案,逆映射单元把这些抽样变换回均匀,PCM,6、DOLBY AC-3,AC-3,音频编码标准的起源是,DOLBY（,杜比）,AC-1。,AC-1,应用的编码技术是自适应增量调制技术,，,它把20,kHz,的宽带立体声音频信号编码成512,kb/s,的数据流。,AC-2,采用类似,MDCT,的重叠窗口的,FFT,编码技术，其数据率在256,kb/s,以下。,AC-2,被应用在,PC,声卡和综合业务数字网等方面,AC-3的工作原理,杜比,AC-3,是种感知型编码方式，它利用心理声学原理：较强的声音信号可以掩蔽临近频段中较弱的信号。换言之，如果在某一频段中出现了一个较强的信号，那么该频段中所有低于某一门槛值的信号都将被强信号掩蔽掉，成为人耳不可闻的信号。滤除这缜弱信号将不会对音质产生不良影响，而且能减少编码后的数据量，所以可以把它们作为噪声信号来对待。,AC-3 的5.1声道,5.1声道为环绕声系统由五个全频域声道加一个超低音声道组成，其中五个声道包括前置的“左声道,”（L）、“,中置声道,”,（,C）、“,右声道”（,R）、,后置的“左环绕声道”（,LS）,和“右环绕声道”（,RS），,第六个声道也就是超低音声道包含了一些额外的低音信息，使得一些场景如爆炸、撞击声等的效果更好。,AC-3可编程解码器,

展开阅读全文

多媒体技术音频编码基础和标准

最新文档