第十二章-MPEG声音课件

资源描述

第十二章第十二章第十二章第十二章 MPEGMPEGMPEGMPEG声音声音声音声音 12.112.1听觉系统的感知特性听觉系统的感知特性 12.212.2MPEGAudioMPEGAudio与感知特性与感知特性 12.312.3MPEG-1AudioMPEG-1Audio12.4MPEG-2Audio12.4MPEG-2Audio12.5MPEG-2AAC12.5MPEG-2AAC12.6MPEG-4Audio12.6MPEG-4Audio本章本章本章本章要点要点要点要点MPEG-1MPEG-1和和MPEG-2MPEG-2的声音数据压缩编码的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音不是依据波形本身的相关性和模拟人的发音器官的特性，而是利用人的听觉系统的特性器官的特性，而是利用人的听觉系统的特性来达到压缩声音数据的目的，这种压缩编码来达到压缩声音数据的目的，这种压缩编码称为感知声音编码称为感知声音编码(perceptualaudiocoding)perceptualaudiocoding)。本章主要讲述本章主要讲述MPEG-1 AudioMPEG-1 Audio、MPEG-2 MPEG-2 AudioAudio、MPEG-2 AACMPEG-2 AAC和和MPEG-4 AudioMPEG-4 Audio等标准。等标准。12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性一、对响度的感知一、对响度的感知一、对响度的感知一、对响度的感知声音的响度就是声音的强弱。在物理上，声音声音的响度就是声音的强弱。在物理上，声音的响度使用客观测量单位来度量，即的响度使用客观测量单位来度量，即dyndyn/cm/cm2 2(达因达因/平方厘米平方厘米)()(声压声压)或或W/cmW/cm2 2(瓦特瓦特/平方厘米平方厘米)()(声强声强)。测量响度时是以测量响度时是以1 1 kHzkHz纯音为基准。纯音为基准。当声音弱到人的耳朵刚刚可以听见时，我们称当声音弱到人的耳朵刚刚可以听见时，我们称此时的声音强度为此时的声音强度为“听阈听阈”。声音强到使人耳感到疼痛这个阈值称为声音强到使人耳感到疼痛这个阈值称为“痛阈痛阈”。12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性二、对音高的感知二、对音高的感知二、对音高的感知二、对音高的感知客客观观上上用用频频率率来来表表示示声声音音的的音音高高，其其单单位位是是HzHz。而而主主观观感感觉觉的的音音高高单单位位则则是是“美美(Mel)Mel)”,主主观观音音高高与客观音高的关系是：与客观音高的关系是：人人耳耳对对频频率率的的感感觉觉也也有有一一个个范范围围。人人耳耳可可以以听听到的最低频率约到的最低频率约20 20 HzHz，最高频率约最高频率约18000 18000 HzHz。在测量音高时则以在测量音高时则以40 40 dBdB声强为基准声强为基准 12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性三、掩蔽效应三、掩蔽效应三、掩蔽效应三、掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone)masking tone)，后者称为被掩蔽声音后者称为被掩蔽声音(masked masked tone)tone)。掩蔽可分成频域掩蔽和时域掩蔽。掩蔽可分成频域掩蔽和时域掩蔽。12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性1.1.频域掩蔽频域掩蔽一个强纯音会掩蔽在其附近同时发声的弱纯音，一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽这种特性称为频域掩蔽，也称同时掩蔽(simultaneous masking)simultaneous masking)。频域掩蔽频域掩蔽 12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性在在250 250 HzHz，1 1 kHzkHz和和4 4 kHzkHz纯纯音音附附近近，对对其其他他纯纯音音的的掩掩蔽蔽效效果果最最明明显显，低低频频纯纯音音可可以以有有效效地地掩掩蔽蔽高高频频纯纯音音，但但高高频频纯纯音音对对低低频频纯纯音音的的掩掩蔽蔽作作用用则则不不明明显。显。不同纯音的不同纯音的掩蔽效应曲掩蔽效应曲线线 12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性2.2.时域掩蔽时域掩蔽除除了了同同时时发发出出的的声声音音之之间间有有掩掩蔽蔽现现象象之之外外，在在时时间间上上相相邻邻的的声声音音之之间间也也有有掩掩蔽蔽现现象象，并并且且称称为为时时域域掩掩蔽蔽。时时域域掩掩蔽蔽又又分分为为超超前前掩掩蔽蔽(pre-masking)pre-masking)和和滞滞后后掩掩蔽蔽(post-masking)post-masking)。产产生生时时域域掩掩蔽蔽的的主主要要原原因因是是人人的大脑处理信息需要花费一定的时间。的大脑处理信息需要花费一定的时间。一般来说，超前掩蔽很短，滞后掩蔽长。一般来说，超前掩蔽很短，滞后掩蔽长。12.1 12.1 12.1 12.1 听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性听觉系统的感知特性时域掩蔽时域掩蔽 12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性 MPEGAudio(MPEGMPEGAudio(MPEG声音声音)标准在本书中是指标准在本书中是指MPEG-1AudioMPEG-1Audio、MPEG-2AudioMPEG-2Audio和和MPEG-2AACMPEG-2AAC，它它们处理们处理1010HzHz20000Hz20000Hz范围里的声音数据，数据压范围里的声音数据，数据压缩的主要依据是人耳朵的听觉特性，使用缩的主要依据是人耳朵的听觉特性，使用“心理声心理声学模型学模型(psychoacousticpsychoacousticmodel)model)”来达到压缩声音数来达到压缩声音数据的目的。据的目的。12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性心理声学模型中一个基本的概念就是听觉系统中存心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号就在一个听觉阈值电平，低于这个电平的声音信号就听不到，因此就可以把这部分信号去掉。听觉阈值听不到，因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变。的大小随声音频率的改变而改变。12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性MPEGAudioMPEGAudio采纳两种感知编码，一种叫做采纳两种感知编码，一种叫做感知感知子带编码子带编码(perceptualperceptualsubbandsubbandcoding)coding)，另一种是由另一种是由杜比实验室杜比实验室(DolbyLaboratories)DolbyLaboratories)开发的开发的DolbyAC-3DolbyAC-3(AudioCodenumber3)(AudioCodenumber3)编码，简称编码，简称AC-3AC-3。它们都利它们都利用人的听觉系统的特性来压缩数据，只是压缩数据用人的听觉系统的特性来压缩数据，只是压缩数据的算法不同。的算法不同。12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性感知子带压缩算法框图感知子带压缩算法框图 12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性DolbyAC-3DolbyAC-3是是MPEG-2MPEG-2采纳的声音编码技术采纳的声音编码技术，是一种是一种多通道多通道(multichannelmultichannel)音乐信号压缩技术，它可支音乐信号压缩技术，它可支持持5 5个个3 32000020000HzHz频率范围的通道。频率范围的通道。12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性分析滤波器组分析滤波器组谱谱包络编码包络编码位位分配分配PCMPCM样本样本指数指数尾数量化尾数量化AC-3AC-3帧格式帧格式尾数尾数位位分配信息分配信息量化后的尾数量化后的尾数编码后的谱包络编码后的谱包络编码后的编码后的AC-3AC-3位串位串DolbyAC-3DolbyAC-3压缩编码算法框图压缩编码算法框图 12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性它的输入是未被压缩的它的输入是未被压缩的PCMPCM样本，而样本，而PCMPCM样本的样本的采样频率必须是采样频率必须是32,44.132,44.1或者或者48 48 kHzkHz，样本精度可样本精度可多到多到2020位。位。分析滤波器组分析滤波器组分析滤波器组分析滤波器组(analysis filter bank)analysis filter bank)analysis filter bank)analysis filter bank)：它的功能它的功能是把用是把用PCMPCM时间样本表示的声音信号变换成用频率系时间样本表示的声音信号变换成用频率系数块数块(frequencies coefficients block)frequencies coefficients block)表示的声表示的声音信号。音信号。频谱包络编码频谱包络编码频谱包络编码频谱包络编码(spectral envelope encoding)spectral envelope encoding)spectral envelope encoding)spectral envelope encoding)：它它的功能是对的功能是对“分析滤波器组分析滤波器组”输出的指数进行编码。输出的指数进行编码。12.2 12.2 MPEG AudioMPEG Audio与感知特性与感知特性与感知特性与感知特性位分配位分配位分配位分配(bit allocation)bit allocation)bit allocation)bit allocation)：它的功能是使用它的功能是使用“谱包谱包络编码络编码”输出的信息确定尾数编码所需要的位数。输出的信息确定尾数编码所需要的位数。尾数量化尾数量化尾数量化尾数量化(mantissamantissamantissamantissa quantization quantization quantization quantization)：它的功能是按它的功能是按照照“位分配位分配”输出的位分配信息对尾数进行量化。输出的位分配信息对尾数进行量化。AC-3AC-3AC-3AC-3帧格式帧格式帧格式帧格式(AC-3 frame formatting)AC-3 frame formatting)AC-3 frame formatting)AC-3 frame formatting)：它的功能是它的功能是把把“尾数量化尾数量化”输出的量化尾数和输出的量化尾数和“谱包络编码谱包络编码”输出的频谱包络组成输出的频谱包络组成AC-3AC-3帧。帧。“AC-3AC-3帧格式帧格式”输出的是输出的是AC-3AC-3编码位流，它的编码位流，它的位速率为位速率为3232640 640 kbpskbps。12.3 12.3 MPEG-1 Audio MPEG-1 Audio 一、声音编码一、声音编码一、声音编码一、声音编码声声音音的的数数据据量量由由两两方方面面决决定定：采采样样频频率率和和样样本本精精度度。对对单单声声道道信信号号而而言言，每每秒秒钟钟的的数数据据量量(位位数数)=)=采采样样频频率率样样本本精精度度。要要减减小小数数据据量量，就就需需要要降降低低采样频率或者降低样本精度。采样频率或者降低样本精度。由由于于人人耳耳可可听听到到的的声声音音的的频频率率范范围围大大约约是是202020 20 kHzkHz，根根据据奈奈奎奎斯斯特特理理论论，要要想想不不失失真真地地重重构构信信号号，采样频率不能低于采样频率不能低于40 40 kHzkHz。因因此此声声音音的的数数据据压压缩缩就就必必须须从从降降低低样样本本精精度度这这个个角度出发，即减少每位样本所需要的位数。角度出发，即减少每位样本所需要的位数。12.3 12.3 MPEG-1 AudioMPEG-1 Audio 第第3 3章章“话话音音编编码码”中中介介绍绍的的许许多多话话音音编编码码方方法法的的编编码码对对象象主主要要是是针针对对人人说说话话的的话话音音。当当这这些些算算法法用用来来压压缩缩宽宽带带声声音音(如如音音乐乐)信信号号时时，在在相相同同压压缩缩比比的情况下，输出的声音质量比较低。的情况下，输出的声音质量比较低。MPEG-1 MPEG-1 AudioAudio的的编编码码对对象象是是20202000020000HzHz的的宽宽带带声声音音，因因此此它它采采用用了了感感知知子子带带编编码码(s s s sub-ub-b b b band and c c c codingoding，SBC)SBC)。12.3 12.3 MPEG-1 AudioMPEG-1 Audio 感知子带编码的具体思想是首先把时域中的声感知子带编码的具体思想是首先把时域中的声音数据变换到频域，对频域内的子带分量分别进行音数据变换到频域，对频域内的子带分量分别进行量化和编码，根据心理声学模型确定样本的精度，量化和编码，根据心理声学模型确定样本的精度，从而达到压缩数据量的目的。从而达到压缩数据量的目的。MPEGMPEG声音数据压缩的基础是量化。声音数据压缩的基础是量化。12.3 12.3 MPEG-1 AudioMPEG-1 Audio二、声音的性能二、声音的性能二、声音的性能二、声音的性能 MPEG-1Audio(ISO/IEC11172-3)MPEG-1Audio(ISO/IEC11172-3)压缩算法是世压缩算法是世界上第一个高保真声音数据压缩国际标准，其主要界上第一个高保真声音数据压缩国际标准，其主要性能如下：性能如下：(1)(1)MPEGMPEG编码器的输入信号为线性编码器的输入信号为线性PCMPCM信号，采样率信号，采样率为为32,44.132,44.1或或48 48 kHzkHz，输出为输出为32 32 kb/skb/s384 kb/s384 kb/s。12.3 12.3 MPEG-1 AudioMPEG-1 Audio(2)(2)MPEGMPEG声声音音标标准准提提供供三三个个独独立立的的压压缩缩层层次次：层层1(1(Layer Layer 1)1)、层层2(2(Layer Layer 2)2)和和层层3(3(Layer Layer 3)3)，用用户户对层次的选择可在复杂性和声音质量之间进行权衡。对层次的选择可在复杂性和声音质量之间进行权衡。层层1 1的的编编码码器器最最为为简简单单，编编码码器器的的输输出出数数据据率率为为384 384 kb/skb/s，主主要要用用于于小小型型数数字字盒盒式式磁磁带带(d d d digital igital c c c compact ompact c c c cassetteassette，DCC)DCC)。层层2 2的的编编码码器器的的复复杂杂程程度度属属中中等等，编编码码器器的的输输出出数数据据率率为为256 256 kb/skb/s192 192 kb/skb/s，其其应应用用包包括括数数字字广广播播声声音音(d d d digital igital b b b broadcast roadcast a a a audioudio，DBA)DBA)、数数字字音音乐乐、CD-I(CD-I(c c c compact ompact d d d disc-isc-i i i interactive)nteractive)和和VCD(VCD(v v v video ideo c c c compact ompact d d d disc)isc)等。等。12.3 12.3 MPEG-1 AudioMPEG-1 Audio 层层3 3的编码器最为复杂，编码器的输出数据率为的编码器最为复杂，编码器的输出数据率为64 64 kb/skb/s，主要应用于主要应用于ISDNISDN上的声音传输。上的声音传输。层次算法压缩率立体声信号所对应的位率(kb/s)1MUSICAM4：13842MUSICAM6：18：12561923ASPEC10：112：1128112MPEGMPEG声音的压缩率声音的压缩率 12.3 12.3 MPEG-1 AudioMPEG-1 Audio延迟时间延迟时间理论最小值理论最小值(ms)ms)实际实现中的一般值实际实现中的一般值(ms)ms)层层1 1(Layer1)Layer1)19195015立体声 112128 1210：112.3 12.3 MPEG-1 AudioMPEG-1 Audio4)4)编码后的数据流支持循环冗余校验编码后的数据流支持循环冗余校验CRC(CRC(c c c cyclic yclic r r r redundancy edundancy c c c check)heck)。(5)MPEG(5)MPEG声音标准还支持在数据流中添加附加信息。声音标准还支持在数据流中添加附加信息。12.3 12.3 MPEG-1 AudioMPEG-1 Audio三、子带编码三、子带编码三、子带编码三、子带编码 MPEG-1MPEG-1使用子带编码来达到既压缩声音数据又使用子带编码来达到既压缩声音数据又尽可能保留声音原有质量的目的。子带编码的理论尽可能保留声音原有质量的目的。子带编码的理论根据是听觉系统的掩蔽特性，并且主要是利用频域根据是听觉系统的掩蔽特性，并且主要是利用频域掩蔽特性。掩蔽特性。SBCSBC的基本想法就是在编码过程中保留信的基本想法就是在编码过程中保留信号的带宽而扔掉被掩蔽的信号，其结果是编码之后号的带宽而扔掉被掩蔽的信号，其结果是编码之后还原的声音，也就是解码或者叫做重构的声音信号还原的声音，也就是解码或者叫做重构的声音信号与编码之前的声音信号不相同，但人的听觉系统很与编码之前的声音信号不相同，但人的听觉系统很难感觉到它们之间的差别。这也就是说，对听觉系难感觉到它们之间的差别。这也就是说，对听觉系统来说这种压缩是统来说这种压缩是“无损压缩无损压缩”。12.3 12.3 MPEG-1 AudioMPEG-1 AudioMPEGMPEG声音编码器结构图声音编码器结构图 12.3 12.3 MPEG-1 AudioMPEG-1 Audio信掩比信掩比(SMR)SMR)是是指最大的指最大的信号功率信号功率与全局掩与全局掩蔽阈值之蔽阈值之比。比。“掩掩蔽音蔽音”电电平和平和“掩掩蔽阈值蔽阈值”之间的距之间的距离叫做信离叫做信掩比。掩比。12.3 12.3 MPEG-1 AudioMPEG-1 AudioMPEGMPEG声音解码器结构图声音解码器结构图 12.3 12.3 MPEG-1 AudioMPEG-1 Audio四、多相滤波器组四、多相滤波器组四、多相滤波器组四、多相滤波器组多相滤波器组是一个用来分割子带也就是时间多相滤波器组是一个用来分割子带也就是时间-频率变换部件。在频率变换部件。在MPEG-1MPEG-1中，它把输入信号变换到中，它把输入信号变换到3232个频域子带中去。个频域子带中去。子带的划分方法有两种，一种是线性划分，另子带的划分方法有两种，一种是线性划分，另一种是非线性划分。一种是非线性划分。12.3 12.3 MPEG-1 AudioMPEG-1 Audio在低频区域，一个子带覆盖好几个临界频带。在这在低频区域，一个子带覆盖好几个临界频带。在这种情况下，某个子带中量化器的位分配就不能根据种情况下，某个子带中量化器的位分配就不能根据每个临界频带的掩蔽阈值进行分配，而要以其中最每个临界频带的掩蔽阈值进行分配，而要以其中最低的掩蔽阈值为准。低的掩蔽阈值为准。滤波器滤波器组的带宽组的带宽与临界频与临界频带带宽的带带宽的比较比较 12.3 12.3 MPEG-1 AudioMPEG-1 Audio五、编码层五、编码层五、编码层五、编码层 MPEGMPEG声音压缩定义了声音压缩定义了3 3个分明的层次，它们的基个分明的层次，它们的基本模型是相同的。层本模型是相同的。层1 1是最基础的，层是最基础的，层2 2和层和层3 3都在层都在层1 1的基础上有所提高。每个后继的层次都有更高的压的基础上有所提高。每个后继的层次都有更高的压缩比，但需要更复杂的编码解码器。缩比，但需要更复杂的编码解码器。MPEGMPEG声音的每声音的每一个层都自含一个层都自含SBCSBC编码器，其中包含编码器，其中包含“时间时间-频率多频率多相滤波器组相滤波器组”、“心理声学模型心理声学模型(计算掩蔽特性计算掩蔽特性)”)”、“量化和编码量化和编码”和和“数据流帧包装数据流帧包装”，而高层，而高层SBCSBC可可使用低层使用低层SBCSBC编码的声音数据。编码的声音数据。12.3 12.3 MPEG-1 AudioMPEG-1 Audio层层1 1、2 2和层和层3 3的子带样本的子带样本 12.3 12.3 MPEG-1 AudioMPEG-1 AudioMPEGMPEG编码器的输入以编码器的输入以1212个样本为一组，每组个样本为一组，每组样本经过时间样本经过时间-频率变换之后进行一次位分配并记录频率变换之后进行一次位分配并记录一个比例因子一个比例因子(scalefactor)scalefactor)。位分配信息告诉解码位分配信息告诉解码器每个样本由几位表示，比例因子用器每个样本由几位表示，比例因子用6 6位表示，解码位表示，解码器使用这个器使用这个6 6位的比例因子乘逆量化器的每个输出样位的比例因子乘逆量化器的每个输出样本值，以恢复被量化的子带值。本值，以恢复被量化的子带值。12.3 12.3 MPEG-1 AudioMPEG-1 Audio1.1.层层1 1 层层1 1的子带是频带相等的子带，它的心理声学模的子带是频带相等的子带，它的心理声学模型仅使用频域掩蔽特性。型仅使用频域掩蔽特性。12.3 12.3 MPEG-1 AudioMPEG-1 Audio层层1 1的帧结构的帧结构 12.3 12.3 MPEG-1 AudioMPEG-1 Audio2.2.层层2 2 层层2 2的帧相当于的帧相当于3 3个层个层1 1的帧，每帧有的帧，每帧有11521152个样本。个样本。它使用的心理声学模型除了使用频域掩蔽特性之外它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性，并且在低、中和高频段对还利用了时间掩蔽特性，并且在低、中和高频段对位分配作了一些限制，对位分配、比例因子和量化位分配作了一些限制，对位分配、比例因子和量化样本值的编码也更紧凑。由于层样本值的编码也更紧凑。由于层2 2采用了上述措施，采用了上述措施，因此所需的位数减少了，这样就可以有更多的位用因此所需的位数减少了，这样就可以有更多的位用来表示声音数据，音质也比层来表示声音数据，音质也比层1 1更高。更高。层层1 1是对一个子带中的一个样本组是对一个子带中的一个样本组(由由1212个样本个样本组成组成)进行编码，而层进行编码，而层2 2和层和层3 3是对一个子带中的三个是对一个子带中的三个样本组进行编码。样本组进行编码。12.3 12.3 MPEG-1 AudioMPEG-1 Audio 层层2 2使用与层使用与层1 1相同的同步头和相同的同步头和CRCCRC结构，但描结构，但描述位分配的位数随子带不同而变化：低频段的子带述位分配的位数随子带不同而变化：低频段的子带用用4 4位，中频段的子带用位，中频段的子带用3 3位，高频段的子带用位，高频段的子带用2 2位。位。层层2 2位流中有一个比例因子选择信息位流中有一个比例因子选择信息(s scalecalef factoractors selectionelectioni informationnformation，SCFSI)SCFSI)域，解码器根据这个域域，解码器根据这个域的信息可知道是否需要以及如何共享比例因子。的信息可知道是否需要以及如何共享比例因子。层层2 2位流数据格式位流数据格式 3.3.层层层层3 3 层层3 3使用比较好的临界频带滤波器，把声音频带使用比较好的临界频带滤波器，把声音频带分成非等带宽的子带，心理声学模型除了使用分成非等带宽的子带，心理声学模型除了使用频域频域掩蔽掩蔽特性和特性和时间掩蔽时间掩蔽特性之外，还考虑了特性之外，还考虑了立体声数立体声数据的冗余据的冗余，并且使用了赫夫曼，并且使用了赫夫曼(Huffman)Huffman)编码器。编码器。12.3 12.3 MPEG-1 AudioMPEG-1 Audio12.3 12.3 MPEG-1 AudioMPEG-1 AudioISO/MPEGaudioISO/MPEGaudio层层3 3编码器和解码器的结构编码器和解码器的结构 12.3 12.3 MPEG-1 AudioMPEG-1 Audio 层层3 3还使用了改进离散余弦变换还使用了改进离散余弦变换(mmodifiedodifiedd discreteiscretec cosineosinet transformransform，MDCT)MDCT)，对层对层1 1和层和层2 2的滤的滤波器组的不足作了一些补偿。波器组的不足作了一些补偿。MDCTMDCT把子带的输出把子带的输出在频域里进一步细分以达到更高的频域分辨率。在频域里进一步细分以达到更高的频域分辨率。层层3 3指定了两种指定了两种MDCTMDCT的块长：长块的块长为的块长：长块的块长为1818个个样本，短块的块长为样本，短块的块长为6 6个样本。长块对于平稳的声音个样本。长块对于平稳的声音信号可以得到更高的频域分辨率，而短块对跳变的信号可以得到更高的频域分辨率，而短块对跳变的声音信号可以得到更高的时域分辨率。在短块模式声音信号可以得到更高的时域分辨率。在短块模式下，下，3 3个短块代替个短块代替1 1个长块，而短块的大小恰好是一个长块，而短块的大小恰好是一个长块的个长块的1/31/3，所以，所以MDCTMDCT的样本数不受块长的影响。的样本数不受块长的影响。12.4 12.4 MPEG-2 Audio MPEG-2 Audio MPEG-2MPEG-2标准委员会定义了两种声音数据压缩格标准委员会定义了两种声音数据压缩格式，一种称为式，一种称为MPEG-2 AudioMPEG-2 Audio，或者称为或者称为MPEG-2MPEG-2多通多通道道(MultichannelMultichannel)声音，另一种称为声音，另一种称为MPEG-2 AAC MPEG-2 AAC(Advanced Audio Coding)(Advanced Audio Coding)，前者与前者与MPEG-1 AudioMPEG-1 Audio是兼容的，而后者是不兼容的。是兼容的，而后者是不兼容的。12.4 12.4 MPEG-2 AudioMPEG-2 Audio参数名称LinearPCMDolbyAC-3MPEG-2AudioMPEG-1Audio采用频率48/96kHz32/44.1/48kHz16/22.05/24/32/44.1/48kHz32/44.1/48kHz样本精度(每个样本的位数)16/20/24压缩(16bits)压缩(16bits)16最大数据传输率6.144Mb/s448kb/s8640kb/s32448kb/s最大声道数85.15.1/7.1212.4 12.4 MPEG-2 AudioMPEG-2 AudioMPEG-2AudioMPEG-2Audio的的“5.15.1环绕声环绕声”也称为也称为“3/2-3/2-立体声加立体声加LFE”LFE”，其中的其中的“.1.1”就是指就是指LFELFE声道。它的含义是播音声道。它的含义是播音现场的前面可有现场的前面可有3 3个喇叭个喇叭声道声道(左、中、右左、中、右)，后，后面可有面可有2 2个环绕声喇叭声个环绕声喇叭声道，道，LFE(LFE(l lowowf frequencyrequencye effects)ffects)是低频音效的加是低频音效的加强声道。强声道。12.4 12.4 MPEG-2 AudioMPEG-2 Audio7.17.1声道立体环绕声声道立体环绕声 12.4 12.4 MPEG-2 AudioMPEG-2 Audio12.5 12.5 MPEG-2 AAC MPEG-2 AAC 一、一、一、一、MPEG-2 AACMPEG-2 AACMPEG-2 AACMPEG-2 AAC是什么是什么是什么是什么 MPEG-2 AACMPEG-2 AAC是是MPEG-2MPEG-2标准中的一种声音感知编标准中的一种声音感知编码标准。它码标准。它主要使用听觉系统的掩蔽特性来减少声主要使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。中，用全局信号把噪声掩蔽掉。12.5 12.5 MPEG-2 AACMPEG-2 AACAACAAC支持的采用频率可从支持的采用频率可从8 8kHzkHz到到9696kHzkHz，AACAAC编码器的音源可以是单声道的、立体声的和多声道编码器的音源可以是单声道的、立体声的和多声道的声音。的声音。AACAAC标准可支持标准可支持4848个主声道、个主声道、1616个低频音个低频音效加强通道效加强通道LFE(LFE(l lowowf frequencyrequencye effects)ffects)、1616个配音声个配音声道道(overdubchannel)overdubchannel)或者叫做多语言声道或者叫做多语言声道(multilingualchannel)multilingualchannel)和和1616个数据流。个数据流。MPEG-2MPEG-2AACAAC在压缩比为在压缩比为11:111:1，即每个声道的数据率为，即每个声道的数据率为(44.1(44.116)/11=6416)/11=64kb/skb/s，而而5 5个声道的总数据率为个声道的总数据率为320320kb/skb/s的情况下，很难区分还原后的声音与原始声的情况下，很难区分还原后的声音与原始声音之间的差别。音之间的差别。12.5 12.5 MPEG-2 AACMPEG-2 AAC二、二、二、二、MPEG-2 AACMPEG-2 AAC的配置的配置的配置的配置 MPEGAudioMPEGAudio标准采用对整个系统进行标准化的标准采用对整个系统进行标准化的方法方法，而，而MPEG-2AACMPEG-2AAC标准采用模块化的方法把整标准采用模块化的方法把整个个AACAAC系统分解成一系列模块，用标准化的系统分解成一系列模块，用标准化的AACAAC工具工具(advanced audio coding tools)advanced audio coding tools)对模块进行定义。对模块进行定义。12.5 12.5 MPEG-2 AACMPEG-2 AACAACAAC标准定义了三种配置：基本配置、低复杂标准定义了三种配置：基本配置、低复杂性配置和可变采样率配置：性配置和可变采样率配置：1.1.1.1.基本配置基本配置基本配置基本配置(Main Profile)Main Profile)Main Profile)Main Profile)在这种配置中，除了在这种配置中，除了“增益控制增益控制(Gain Gain Control)”Control)”模块之外，模块之外，AACAAC系统使用了图中所示的所系统使用了图中所示的所有模块，在三种配置中提供最好的声音质量。有模块，在三种配置中提供最好的声音质量。2.2.2.2.低复杂性配置低复杂性配置低复杂性配置低复杂性配置(Low Complexity Profile)Low Complexity Profile)Low Complexity Profile)Low Complexity Profile)在这种配置中，不使用预测模块和预处理模块，在这种配置中，不使用预测模块和预处理模块，瞬时噪声定形瞬时噪声定形(t t t temporal emporal n n n noise oise s s s shapinghaping，TNS)TNS)滤波滤波器的级数也有限，这就使声音质量比基本配置的声器的级数也有限，这就使声音质量比基本配置的声音质量低。音质量低。12.5 12.5 MPEG-2 AACMPEG-2 AAC3.3.可变采样率配置可变采样率配置可变采样率配置可变采样率配置(Scalable Sampling Rate Profile)Scalable Sampling Rate Profile)在这种配置中，使用增益控制对信号作预处理，在这种配置中，使用增益控制对信号作预处理，不使用预测模块，不使用预测模块，TNSTNS滤波器的级数和带宽也都有滤波器的级数和带宽也都有限制，因此它比基本配置和低复杂性配置更简单，限制，因此它比基本配置和低复杂性配置更简单，可用来提供可变采样频率信号。可用来提供可变采样频率信号。12.5 12.5 MPEG-2 AACMPEG-2 AAC三、三、三、三、MPEG-2 AACMPEG-2 AAC的基本模块的基本模块的基本模块的基本模块 1.1.增益控制增益控制(Gaincontrol)Gaincontrol)增益控制模块用在可变采样率配置中，它由多增益控制模块用在可变采样率配置中，它由多相正交滤波器相正交滤波器PQF(PQF(p polyphaseolyphaseq quadratureuadrature f filter)ilter)、增益增益检测器检测器(gaindetector)gaindetector)和增益修正器和增益修正器(gainmodifier)gainmodifier)组成。这个模块把输入信号分离到组成。这个模块把输入信号分离到4 4个相等带宽的频个相等带宽的频带中。带中。2.2.滤波器组滤波器组(Filter Bank)Filter Bank)滤波器组是把输入信号从时域变换到频域的转滤波器组是把输入信号从时域变换到频域的转换模块，它是换模块，它是MPEG-2 AACMPEG-2 AAC系统的基本模块。系统的基本模块。12.5 12.5 MPEG-2 AACMPEG-2 AAC3.3.瞬时噪声定形瞬时噪声定形TNSTNSTNSTNS模块是用来控制量化噪声的瞬时形状的一种模块是用来控制量化噪声的瞬时形状的一种方法，解决掩蔽阈值和量化噪声的错误匹配问题。方法，解决掩蔽阈值和量化噪声的错误匹配问题。4.4.联合立体声编码联合立体声编码联合立体声编码联合立体声编码(joint stereo coding)joint stereo coding)是一种是一种空间编码技术，其目的是为了去掉空间的冗余信息。空间编码技术，其目的是为了去掉空间的冗余信息。MPEG-2 AACMPEG-2 AAC系统包含两种空间编码技术：系统包含两种空间编码技术：M/SM/S编码编码(M M M Mid/id/S S S Side encoding)ide encoding)和声强和声强/耦合耦合(Intensity Intensity/Coupling)/Coupling)。12.5 12.5 MPEG-2 AACMPEG-2 AAC5.5.预测预测(Prediction)Prediction)这是在话音编码系统中普遍使用的一种技术，这是在话音编码系统中普遍使用的一种技术，它主要用来减少平稳它主要用来减少平稳(stationary)stationary)信号的冗余度。信号的冗余度。6.6.量化器量化器(QuantizerQuantizer)使用了非均匀量化器。使用了非均匀量化器。7.7.无噪声编码无噪声编码(Noiseless coding)Noiseless coding)无噪声编码实际上就是赫夫曼编码，它对被量无噪声编码实际上就是赫夫曼编码，它对被量化的谱系数、比例因子和方向信息进行编码。化的谱系数、比例因子和方向信息进行编码。12.6 12.6 MPEG-4 Audio MPEG-4 Audio MPEG-4AudioMPEG-4Audio标准可集成从话音到高质量的多标准可集成从话音到高质量的多通道声音，从自然声音到合成声音，编码方法还包通道声音，从自然声音到合成声音，编码方法还包括参数编码括参数编码(parametriccoding)parametriccoding)，码激励线性预测码激励线性预测(c codeodee excitedxcitedl linearinearp predictiveredictive，CELP)CELP)编码，时间编码，时间/频频率率T/F(T/F(t time/ime/f frequency)requency)编码，结构化声音编码，结构化声音SA(SA(s structuredtructureda audio)udio)编码和文本编码和文本-语音语音TTS(TTS(t text-ext-t to-o-s speech)peech)系统的合成声音等。系统的合成声音等。12.6 12.6 MPEG-4 AudioMPEG-4 Audio 一、自然声音一、自然声音一、自然声音一、自然声音 MPEG-4MPEG-4声音编码器支持数据率介于声音编码器支持数据率介于2 2 kb/skb/s和和64 64 kb/skb/s之间的自然声音之间的自然声音(natural audio)natural audio)。MPEG-4MPEG-4定义了三种类型的声音编码器分别用于定义了三种类型的声音编码器分别用于不同类型的声音：不同类型的声音：12.6 12.6 MPEG-4 AudioMPEG-4 AudioMPEG-4AudioMPEG-4Audio编码方框图编码方框图 12.6 12.6 MPEG-4 AudioMPEG-4 Audio1.1.参数编码器参数编码器使使用用声声音音参参数数编编码码技技术术。对对于于采采样样率率为为8 8 kHzkHz的的话话音音(speech)speech)，编编码码器器的的输输出出数数据据率率为为2 24 4 kb/skb/s；对对于于采采样样频频率率为为8 8 kHzkHz或或者者16 16 kHzkHz的的声声音音(audio)audio)，编码器的输出数据率为编码器的输出数据率为4 416 16 kb/skb/s。2.CELP2.CELP编码器编码器使使用用CELP(code CELP(code excited excited linear linear predictive)predictive)技技术术。编编码码器器的的输输出出数数据据率率在在6 624 24 kb/skb/s之之间间，它它用用于于采采样样频频率率为为8 8 kHzkHz的的窄窄带带话话音音或或者者采采样样频频率率为为16 16 kHzkHz的的宽带话音。宽带话音。12.6 12.6 MPEG-4 AudioMPEG-4 Audio3.3.T/FT/F编码器编码器编码器编码器使用时间使用时间频率频率(time-to-frequencytime-to-frequency，T/F)T/F)技术。技术。这是一种使用矢量量化这是一种使用矢量量化(vectorvectorquantizationquantization，VQ)VQ)和和线性预测的编码器，压缩之后输出的数据率大于线性预测的编码器，压缩之后输出的数据率大于1616kb/skb/s，用于采样频率为用于采样频率为8 8kHzkHz的声音信号。的声音信号。12.6 12.6 MPEG-4 AudioMPEG-4 Audio二、二、二、二、合成声音合成声音合成声音合成声音 MPEG-4MPEG-4的译码器支持合成乐音和的译码器支持合成乐音和TTSTTS声音。声音。合成乐音通常叫做合成乐音通常叫做(MusicalInstrumentDataMusicalInstrumentDataInterfaceInterface，MIDI)MIDI)乐音，这种声音是在乐谱文件或者乐音，这种声音是在乐谱文件或者描述文件控制下生成的声音。描述文件控制下生成的声音。文文-语转换语转换 (text to speechtext to speech，TTS)TTS)编码器的输编码器的输入可以是文本或者带有韵律参数的文本，编码器的入可以是文本或者带有韵律参数的文本，编码器的输出数据率可以在输出数据率可以在200 200 bps bps 1.2 kb/s1.2 kb/s范围里。范围里。12.6 12.6 MPEG-4 AudioMPEG-4 Audio1.1.MIDIMIDI合成声音合成声音 MIDIMIDI是一套指令即命令的约定，它指示乐器即是一套指令即命令的约定，它指示乐器即MIDIMIDI设备要做什么和怎么做，如播放音符、加大音设备要做什么和怎么做，如播放音符、加大音量、生成音响效果等。量、生成音响效果等。MIDIMIDI不是声音信号，在不是声音信号，在MIDIMIDI电缆上传送的不是声音，而是发给电缆上传送的不是声音，而是发给MIDIMIDI设备或其它设备或其它装置让它产生声音或执行某个动作的指令。装置让它产生声音或执行某个动作的指令。12.6 12.6 MPEG-4 AudioMPEG-4 Audio2.2.文文-语转换语转换文文-语转换是将文本形式的信息转换成自然语音的一语转换是将文本形式的信息转换成自然语音的一种技术，其最终目标是使计算机像人一样，根据文种技术，其最终目标是使计算机像人一样，根据文本的内容可带各种情调来朗读任意的文本。本的内容可带各种情调来朗读任意的文本。12.6 12.6 MPEG-4 AudioMPEG-4 AudioTTSTTS系统方框图系统方框图 12.6 12.6 MPEG-4 AudioMPEG-4 Audio 汉语的音节一般由声母、韵母和声调三部分组汉语的音节一般由声母、韵母和声调三部分组成。除个别情况外，一个汉字就是一个音节，但是成。除个别情况外，一个汉字就是一个音节，但是一个音节往往对应多个汉字，这就是汉语中的多音一个音节往往对应多个汉字，这就是汉语中的多音字现象。汉字到其发音的转换一般可以借助一张一字现象。汉字到其发音的转换一般可以借助一张一一对应的表来实现，但对多音字的读音，一般要依一对应的表来实现，但对多音字的读音，一般要依据它所在的词来判断，有的还要借助语法甚至语义据它所在的词来判断，有的还要借助语法甚至语义分析，依据语义或者上下文来判断。分析，依据语义或者上下文来判断。

展开阅读全文

第十二章-MPEG声音课件

最新文档