第二章音频处理教学内容课件

资源描述

第第2 2章章音频处理音频处理人耳能识别的声音频率范围大约在人耳能识别的声音频率范围大约在2020k 2020k HzHz，通常称为音频（，通常称为音频（audioaudio）信号。）信号。人的发音器官发出的声音范围大约在人的发音器官发出的声音范围大约在803400Hz803400Hz，但人说话的信号频率通常为，但人说话的信号频率通常为3003000Hz3003000Hz，称为语音（，称为语音（speechspeech）信号。）信号。低于低于20Hz20Hz的信号称为次声波（的信号称为次声波（subsonicsubsonic），），高于高于20k Hz20k Hz称为超声波（称为超声波（ultrasonicultrasonic）。）。次声波和超声波人耳都无法听到。次声波和超声波人耳都无法听到。声音的频率范围计算机音频处理涉及的内容包括：计算机音频处理涉及的内容包括：1)1)音频传播媒体特征音频传播媒体特征,也即声波的物理特性。也即声波的物理特性。2)2)音频的记录和产生方式，包括模音频的记录和产生方式，包括模/数、数数、数/模转换；数据压缩和声音合成。模转换；数据压缩和声音合成。3)3)音频数据的编辑处理。音频数据的编辑处理。对音频信号的处理方法大致可分为三类：对音频信号的处理方法大致可分为三类：波形编译码器，音源编译码器，混合编译波形编译码器，音源编译码器，混合编译码器。码器。第第1 1节节音频信号音频信号一一.声音的特征声音的特征振幅周期基线基线是测量模拟信号的基准点。声波的振基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率幅表示声音信号的强弱程度。声波的频率反映出声音的音调，声音细尖表示频率高，反映出声音的音调，声音细尖表示频率高，声音粗低表示频率低。声音粗低表示频率低。正弦波有两个重要参数：频率正弦波有两个重要参数：频率0 0、幅度、幅度A An n 。声音的三个要素是音调、音量和音色。声音的三个要素是音调、音量和音色。声音有以下一些特点：声音有以下一些特点：1.1.音调：音调：声音的高低声音的高低。音调正是由频率。音调正是由频率所决定的。所决定的。频率越高音调越高频率越高音调越高（频率单位（频率单位HzHz）2.2.音量：音量：人主观上感觉声音的大小人主观上感觉声音的大小，以，以分贝（分贝（dBdB）为单位。）为单位。3.3.音色：音色是声音的特色，根据不同的音色：音色是声音的特色，根据不同的音色，即使在同一音调和同一声量的情况音色，即使在同一音调和同一声量的情况下，也能区分出是不同乐器或人声发出的。下，也能区分出是不同乐器或人声发出的。二、音频数字化二、音频数字化模拟信号：时间上连续，幅值上也连续的模拟信号：时间上连续，幅值上也连续的信号。信号。数字信号：时间上和幅值上都用离散的数数字信号：时间上和幅值上都用离散的数字表示的信号。字表示的信号。A/DA/D变换：把连续变化的模拟信号转换成数变换：把连续变化的模拟信号转换成数字信号。字信号。A/DA/D变换一般要由两步完成：采样和量化。变换一般要由两步完成：采样和量化。(1)(1)采样采样采样是将时间上、幅值上都连续的模拟信采样是将时间上、幅值上都连续的模拟信号，在采样脉冲的作用，转换成时间上离号，在采样脉冲的作用，转换成时间上离散、但幅值上仍连续的离散模拟信号。散、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。每秒钟的采样样本数叫做采样频率。奈奎斯特理论：只有当采样频率高于声音奈奎斯特理论：只有当采样频率高于声音信号最高频率的两倍时，才能把离散模拟信号最高频率的两倍时，才能把离散模拟信号表示的声音信号唯一地还原成原来的信号表示的声音信号唯一地还原成原来的声音。声音。目前在多媒体系统中捕获声音的标准采样目前在多媒体系统中捕获声音的标准采样频率定为频率定为44.1kHz44.1kHz、22.05kHz22.05kHz和和11.025kHz11.025kHz三种。三种。(2)(2)量化量化所谓量化就是把采集到的数值送到量化器所谓量化就是把采集到的数值送到量化器（A/DA/D转换器）编码成数字，每个数字代表转换器）编码成数字，每个数字代表一次采样所获得的声音信号的瞬间值。一次采样所获得的声音信号的瞬间值。目前常用量化数据位来表示量化级，例如目前常用量化数据位来表示量化级，例如数据位为数据位为8 8位，则表示位，则表示2 28 8个量化级，最高量个量化级，最高量化级有化级有2 21616个（个（=65536=65536个）等级。个）等级。量化噪声：量化过程存在量化误差，反映量化噪声：量化过程存在量化误差，反映到接收端，这种误差作为噪声再生。到接收端，这种误差作为噪声再生。(c)采样信号的量化(a)模拟音频信号(b)音频信号的采样数字化音频的过程数字化音频的过程:采样和量化采样和量化采样时的声道数有单声道和双声道两种。采样时的声道数有单声道和双声道两种。AVAV文件的数据量的计算公式：数据量文件的数据量的计算公式：数据量 =采采样频率（样频率（HzHz）采样精度（位）采样精度（位）声道声道数数 8 8（dBdB）计算：计算：用用44.1kHz44.1kHz采样频率采样，每个样本使用采样频率采样，每个样本使用1616位采样精度存储，则录制一分钟的立体声位采样精度存储，则录制一分钟的立体声节目，音频节目，音频WAVWAV文件的存储量？文件的存储量？使用使用22.05kHz22.05kHz的采样频率和的采样频率和8 8位采样精度，位采样精度，录制一分钟调幅音频的录制一分钟调幅音频的WAVWAV文件存储量？文件存储量？三三.数字音频技术指标数字音频技术指标 1 1采样频率：如果对某一模拟信号进行采采样频率：如果对某一模拟信号进行采样，则采样后可还原的最高信号频率只有样，则采样后可还原的最高信号频率只有采样频率的一半，或者说只要采样频率高采样频率的一半，或者说只要采样频率高于输入信号最高频率的两倍，就能从采样于输入信号最高频率的两倍，就能从采样信号系列重构原始信号。信号系列重构原始信号。2 2量化位数：量化位是对模拟音频信号的量化位数：量化位是对模拟音频信号的幅度轴进行数字化，它决定了模拟信号数幅度轴进行数字化，它决定了模拟信号数字化以后的动态范围。字化以后的动态范围。3 3声道数：有单声道、双声道、多声道之声道数：有单声道、双声道、多声道之分。分。三、常见声音文件的格式三、常见声音文件的格式常见的声音文件为：常见的声音文件为：WAVWAV文件、文件、VOCVOC文件、文件、AUAU文件和文件和MIDMID文件。文件。(1)WAV(1)WAV声音文件格式：声音文件格式：WAVWAV文件是从模拟文件是从模拟声波采样后得到的一种波形文件，使用于声波采样后得到的一种波形文件，使用于WindowsWindows操作系统，其格式是由文件首部与操作系统，其格式是由文件首部与文件数据块组成。文件数据块组成。(2)VOC(2)VOC声音文件格式：声音文件格式：VOCVOC文件是用于文件是用于DOSDOS操作系统下的一种波形文件。操作系统下的一种波形文件。(3)AU(3)AU声音文件格式：用于声音文件格式：用于UNIXUNIX操作系统操作系统下的一种波形文件。下的一种波形文件。(4)MID(4)MID文件格式：文件格式：MIDMID文件是一种记录数文件是一种记录数字化音乐的字化音乐的MIDIMIDI文件。文件。四四.音频信号的指标音频信号的指标 1.1.频带宽度：音频信号的频带越宽，所频带宽度：音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好。包含的音频信号分量越丰富，音质越好。2 2动态范围动态范围:动态范围越大，信号强度的动态范围越大，信号强度的相对变化范围越大，音响效果越好相对变化范围越大，音响效果越好。3 3信噪比：信噪比信噪比：信噪比SNRSNR（Signal to Noise Signal to Noise RatioRatio）是有用信号与噪声之比的简称。）是有用信号与噪声之比的简称。4 4主观度量法：人的感觉机理对声音的度主观度量法：人的感觉机理对声音的度量最有决定意义。量最有决定意义。声音的质量分为了五个等级，由低到高分别是：声音的质量分为了五个等级，由低到高分别是：电话电话(telephone)(telephone)、调幅广播、调幅广播(AM)(AM)、调频广播、调频广播(FM)(FM)、光盘、光盘(CD)(CD)、数字录音带、数字录音带(DAT)(DAT)第2节音频数字压缩一音频压缩编码技术一音频压缩编码技术主要有以下几种主要类型：主要有以下几种主要类型：1 1熵编码熵编码 :如如HuffmanHuffman编码、算术编码编码、算术编码以及行程编码等。以及行程编码等。2 2波形编码波形编码 :波形编码的特点是在高码率的条波形编码的特点是在高码率的条件下获得高质量的音频信号，适用于高保真度语音件下获得高质量的音频信号，适用于高保真度语音和音乐信号的压缩技术。和音乐信号的压缩技术。(脉冲编码调制(PCM)，实际为直接对声音信号作AD转换。只要采样频率足够高，量化位数足够多，就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM)，即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM)，是DPCM方法的进一步改进，通过调整量化步长，对不同频段设置不同的量化字长，使数据得到进一步的压缩。)3.3.参数编码参数编码：参数编码的方法是将音频信：参数编码的方法是将音频信号以某种模型表示，再抽出合适的模型参号以某种模型表示，再抽出合适的模型参数和参考激励信号进行编码；声音重放时，数和参考激励信号进行编码；声音重放时，再根据这些参数重建即可。此类方法构成再根据这些参数重建即可。此类方法构成声码器的有线性预测声码器的有线性预测(LPC)(LPC)声码器、通道声声码器、通道声码器、共振峰声码器等。码器、共振峰声码器等。4 4混合编码混合编码：音频中采用的混合编码包：音频中采用的混合编码包括多脉冲线性预测括多脉冲线性预测MP-LPCMP-LPC，矢量和激励线，矢量和激励线性预测性预测VSELPVSELP，码本激励线性预测，码本激励线性预测CELPCELP，短，短延时码本激励线性预测编码延时码本激励线性预测编码LD-CELPLD-CELP，以，以及规则码激励长时预测及规则码激励长时预测RPERPELTPLTP等。等。5 5感知编码：不是利用波形本身的相感知编码：不是利用波形本身的相关性和模拟人的发音器官的特征，而是关性和模拟人的发音器官的特征，而是利用人的听觉系统的特征来达到压缩声利用人的听觉系统的特征来达到压缩声音数据的目的。音数据的目的。书上将这五种编译码器分为了三类：书上将这五种编译码器分为了三类：1)1)波形编译码器波形编译码器2)2)音源编译码器音源编译码器3)3)混合编译码器混合编译码器音频数字压缩编码算法及其特性音频数字压缩编码算法及其特性(见见wordword文档文档)二二.音频编码技术标准音频编码技术标准 (一一)电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准 19721972年年CCITTCCITT（现称为（现称为ITU-TITU-T）制定了）制定了PCMPCM标标准准G.711G.711，速率为，速率为64kbit/s64kbit/s，采用非线性量，采用非线性量化化律或律或A A律，其质量相当于律，其质量相当于12bit12bit线性量线性量化。化。19841984年年CCITTCCITT公布了自适应差分脉冲编码调公布了自适应差分脉冲编码调制制ADPCMADPCM标准标准G.721G.721，速率为，速率为32kbit/s32kbit/s。19921992年年CCITTCCITT制定了短时延码本激励线性预制定了短时延码本激励线性预测编码测编码LD-CELPLD-CELP的标准的标准G.728G.728，速率，速率16kbit/s16kbit/s，其质量与，其质量与32kbit/s32kbit/s的的G.721G.721标准标准基本相当。基本相当。其它语音相关标准：其它语音相关标准：G.723:G.723:一种一种ITU-T ITU-T 推荐标准推荐标准用于传输速率在用于传输速率在5.36.4 kbps5.36.4 kbps之间多媒体通信传输的双速率语音之间多媒体通信传输的双速率语音编码器。编码器。H.222H.222：ITU-T ITU-T 推荐标准，规定了运动图片及相推荐标准，规定了运动图片及相关音频信息的通用编码。关音频信息的通用编码。H.242H.242：ITU-TITU-T的的H.320 H.320 协议族中视频互操作推荐协议族中视频互操作推荐标准部分。它规定了建立一个音频会话和在通信标准部分。它规定了建立一个音频会话和在通信终止后结束该会话的协议。终止后结束该会话的协议。H.324H.324：一个：一个ITU-T ITU-T 标准。它在模拟电话线标准。它在模拟电话线（POTSPOTS）上提供了点对点的数据、视频和音频会）上提供了点对点的数据、视频和音频会议。议。T.120T.120：ITU-TITU-T的的“多媒体数据传输协议多媒体数据传输协议”，一种，一种数据共享数据共享/数据会议规范，使用户能通过任何数据会议规范，使用户能通过任何H.32x H.32x 可视会议共享文件。可视会议共享文件。(二二)调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 CCITTCCITT在在19881988年制定了年制定了 G.722G.722标准。标准。G.722G.722标准是采用标准是采用16kHz16kHz采样，采样，14blt14blt量化，信号量化，信号数据速率为数据速率为224kbit224kbits s，采用子带编码方，采用子带编码方法法。利用利用G.722G.722标准可以在窄带综合服务数据网标准可以在窄带综合服务数据网N-ISDNN-ISDN中的一个中的一个B B信道上传送调幅广播质量信道上传送调幅广播质量的音频信号。的音频信号。(三三)高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是高保真立体声音频信号频率范围是50Hz20kHz50Hz20kHz，采用，采用44441kHz1kHz采样频率，采样频率，16bit16bit量化进行数字化转换，其数据速率每量化进行数字化转换，其数据速率每声道达声道达705kbit705kbits s。MPEGMPEG小组负责比较和评估几种低码速率数小组负责比较和评估几种低码速率数字声音编码技术，以产生一套国际标准，字声音编码技术，以产生一套国际标准，用于活动图象、相关声音信息及其结合，用于活动图象、相关声音信息及其结合，和用数字存储媒体（和用数字存储媒体（DSMDSM）存储与重现。）存储与重现。MPEGMPEG声音：声音：MPEGMPEG声音使用感知声音编码声音使用感知声音编码听觉系统的感知特性：听觉系统的感知特性：响度：听阈、痛阈响度：听阈、痛阈音高：音高：掩蔽效应：（频域掩蔽、时域掩蔽）掩蔽效应：（频域掩蔽、时域掩蔽）MPEGMPEG音频与感知特性音频与感知特性MPEGMPEG音频数据压缩主要依靠使用音频数据压缩主要依靠使用“心理学心理学模型模型”（概念）（概念）MPEGMPEG音频采纳两种感知编码：感知子带编音频采纳两种感知编码：感知子带编码和码和AC-3AC-3编码编码MPEG-1MPEG-1于于19921992年年1111月完成，成为国际上公月完成，成为国际上公认的高保真立体声音频压缩标准，音频压认的高保真立体声音频压缩标准，音频压缩技术的数据速率为每声道缩技术的数据速率为每声道32448kbit32448kbits s，适合于，适合于CDCDDADA光盘应用。光盘应用。MPEG-2MPEG-2由两部分组成，由两部分组成，MPEG-2MPEG-2音频和音频和MPEG-MPEG-2 AAC 2 AAC。MPEG-4 AudioMPEG-4 Audio标准可集成从话音到高质量标准可集成从话音到高质量的多通道声音，从自然声音到合成声音。的多通道声音，从自然声音到合成声音。MPEG-7 AudioMPEG-7 Audio标准（标准（ISO/IEC 15938-3ISO/IEC 15938-3）提）提供了音频描述工具。供了音频描述工具。第第3节节 MPEG-1音频音频一一MPEG-1MPEG-1音频标准音频标准 MPEG-1MPEG-1音频编码标准包括三部分，分别对音频编码标准包括三部分，分别对应第应第1 1，2 2和和3 3层（层（Layer 1,2,3Layer 1,2,3）。）。层层1 1编码器的输出数据率为编码器的输出数据率为384 kbps384 kbps，主要，主要用于小型数字合式磁带用于小型数字合式磁带DCCDCC。层层2 2编码器的输出数据率为编码器的输出数据率为256 kbps256 kbps192 192 kbpskbps，其应用包括数字广播声音，其应用包括数字广播声音DBADBA、数字、数字音乐、音乐、CD-ICD-I和和VCDVCD等。等。层层3 3编码器的输出数据率为编码器的输出数据率为64 kbps64 kbps，主要，主要应用于应用于ISDNISDN上的声音传输。上的声音传输。二、子带编码二、子带编码MPEG-1 AudioMPEG-1 Audio的编码对象是的编码对象是202020000Hz20000Hz的的带宽声音，采用了感知子带编码。带宽声音，采用了感知子带编码。具体思想：首先将时域中声音数据变换到具体思想：首先将时域中声音数据变换到频域，对频域内的子带分量分别进行量化频域，对频域内的子带分量分别进行量化和编码，根据心理学模型确定样本的精度，和编码，根据心理学模型确定样本的精度，从而达到压缩数据量的目的。从而达到压缩数据量的目的。理论依据是听觉系统的掩蔽特性，并且主理论依据是听觉系统的掩蔽特性，并且主要利用频域掩蔽特性。要利用频域掩蔽特性。三声音编码系统基本结构MPEG/AUDIO编解码器基本框架四滤波器组四滤波器组用于高质量声音信号编码的最常见的滤波用于高质量声音信号编码的最常见的滤波器组简要概述：器组简要概述：QMF-Tree QMF-Tree 滤波器组滤波器组多相滤波器组多相滤波器组加正弦锥型窗的加正弦锥型窗的DFTDFT、DCT DCT 修正离散余弦变换修正离散余弦变换MDCT MDCT 混合结构混合结构多相滤波器组把输入信号变换到多相滤波器组把输入信号变换到3232个频域个频域子带中去。子带的划分方法有两种，一种子带中去。子带的划分方法有两种，一种是线性划分，另一种是非线性划分。对音是线性划分，另一种是非线性划分。对音频带的划分采用非线性划分频带的划分采用非线性划分五通用编码概念五通用编码概念在所有三层中声音信号都要从时域变换到在所有三层中声音信号都要从时域变换到频域。此变换由多相滤波器组完成。对于频域。此变换由多相滤波器组完成。对于第第1 1层和第层和第2 2层，滤波器组生成代表输入声层，滤波器组生成代表输入声音码流的音码流的3232个子带变换值，然后由心理声个子带变换值，然后由心理声学模型推算出自适应比特分配信息，来控学模型推算出自适应比特分配信息，来控制它们的量化和编码。制它们的量化和编码。第第1 1层是层是 MUSICAMMUSICAM编码方案的简化版本，特编码方案的简化版本，特别适合那些不要求很低码率的应用。第别适合那些不要求很低码率的应用。第1 1层层的子带是频带相等的子带，心理学模型仅的子带是频带相等的子带，心理学模型仅使用频域掩蔽特性。使用频域掩蔽特性。第第2 2层在比例因子、去除冗余和不相关方面层在比例因子、去除冗余和不相关方面采用了进一步的压缩算法，并使用了更精采用了进一步的压缩算法，并使用了更精确的量化。在声音广播、电视、录音、通确的量化。在声音广播、电视、录音、通信和多媒体等民用和音频专业领域都有许信和多媒体等民用和音频专业领域都有许多应用。第多应用。第2 2层的心理学模型使用频域掩蔽层的心理学模型使用频域掩蔽特性和时域掩蔽特性，并且在低中高频段特性和时域掩蔽特性，并且在低中高频段对位分配作了一些限制，对位分配、比例对位分配作了一些限制，对位分配、比例因子和量化样本值的编码也更紧凑。因子和量化样本值的编码也更紧凑。在第在第3 3层中，采用了非均匀量化、自适应分层中，采用了非均匀量化、自适应分段、量化值熵编码，以提高编码效率。这段、量化值熵编码，以提高编码效率。这一层广泛适用于通信领域，尤其是窄带的一层广泛适用于通信领域，尤其是窄带的ISDNISDN和要求很低码率的专业领域。和要求很低码率的专业领域。第第3 3层的层的心理学模型使用频域掩蔽特性和时域掩蔽心理学模型使用频域掩蔽特性和时域掩蔽特性，还考虑了立体声数据的冗余，并且特性，还考虑了立体声数据的冗余，并且使用了霍夫曼编码器。使用了霍夫曼编码器。第第4 4节节 MPEG-2MPEG-2音频音频 MPEG-2MPEG-2标准委员会定义了两种声音数据标准委员会定义了两种声音数据压缩格式。压缩格式。一种称为一种称为MPEG-2AudioMPEG-2Audio，又称为，又称为MPEG-2 MPEG-2 BCBC（Backward CompatibleBackward Compatible，后向兼容）。，后向兼容）。另一种称为另一种称为MPEG-2 AACMPEG-2 AAC（先进的音频编（先进的音频编码），通常称为非后向兼容标准。码），通常称为非后向兼容标准。一一.MPEG-2.MPEG-2音频特点音频特点和和MPEG-1MPEG-1音频相比，音频相比，MPEG-2MPEG-2音频主要增加了三音频主要增加了三个方面的内容：个方面的内容：(1)(1)增加了声道数，支持增加了声道数，支持5.15.1声道和声道和7.17.1声道的声道的环绕声。环绕声。5.15.1声道立体环绕声声道立体环绕声7.17.1声道立体环绕声声道立体环绕声(2)(2)扩展了编码器的输出速率范围。扩展了编码器的输出速率范围。(3)(3)增加了低取样和低码率。增加了低取样和低码率。MPEG-2MPEG-2多声道声音编码标准和现有的多声道声音编码标准和现有的MPEG-MPEG-1 1音频标准保持后向兼容。在对原有的音频标准保持后向兼容。在对原有的MPEG-1MPEG-1两声道增加独立的环绕声道时，两声道增加独立的环绕声道时，MPEG-2MPEG-2尽量保持和尽量保持和MPEG-1MPEG-1音频语法的兼容音频语法的兼容性，性，MPEG-2MPEG-2中的主声道（左、右）仍然保中的主声道（左、右）仍然保持后向兼容，而环绕声道采用新的编码方持后向兼容，而环绕声道采用新的编码方法和语法。法和语法。二二.MPEG-2 AAC.MPEG-2 AAC 特性：特性：(1)MPEG-2 AAC(1)MPEG-2 AAC主要使用听觉系统的掩蔽主要使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。噪声掩蔽掉。(2)AAC(2)AAC支持的采用频率可从支持的采用频率可从8 kHz8 kHz到到96 96 kHzkHz，AACAAC编码器的音源可以是单声道的、编码器的音源可以是单声道的、立体声的和多声道的声音。立体声的和多声道的声音。（3 3）AACAAC标准可支持标准可支持4848个主声道、个主声道、1616个低个低频音效加强通道、频音效加强通道、1616个配音声道和个配音声道和1616个数个数据流。据流。（4 4）MPEG-2 AACMPEG-2 AAC在压缩比为在压缩比为11:111:1，5 5声道声道的总数据率为的总数据率为320 kbps320 kbps的情况下，很难区的情况下，很难区分还原后的声音与原始声音之间的差别。分还原后的声音与原始声音之间的差别。与与MPEGMPEG的层的层2 2相比，相比，MPEG-2 AACMPEG-2 AAC的压缩率可的压缩率可提高提高1 1倍，而且质量更高，与倍，而且质量更高，与MPEGMPEG的层的层3 3相相比，在质量相同的条件下数据率是它的比，在质量相同的条件下数据率是它的7070。MPEG-2 AACMPEG-2 AAC编码和解码的基本结构编码和解码的基本结构开发开发MPEG-2 AACMPEG-2 AAC标准采用的方法是模块化标准采用的方法是模块化的方法：把整个的方法：把整个AACAAC系统分解成一系列模系统分解成一系列模块，用标准化的块，用标准化的AACAAC工具对模块进行定义，工具对模块进行定义，因此在文献中往往把因此在文献中往往把“模块模块(modular)(modular)”与与“工具工具(tool)(tool)”等同对待。等同对待。编编码码器器框框图图 MPEG-2 AACMPEG-2 AAC的三种配置（的三种配置（ProfilesProfiles）(a)(a)基本配制基本配制(Main Profile)(Main Profile)(b)(b)低复杂性配制低复杂性配制(Low Complexity(Low Complexity Profile)Profile)(c)(c)可变采样率配制可变采样率配制 (Scalable Sampling(Scalable Sampling Rate Profile)Rate Profile)三三AC-3AC-3编码编码 AC-3AC-3（Audio Code Number 3Audio Code Number 3）是）是DolbyDolby公公司的数字声音数据压缩算法，司的数字声音数据压缩算法，MPEG-2MPEG-2音频音频支持它。支持它。AC-3AC-3的主要特点是利用人的听觉系统特性的主要特点是利用人的听觉系统特性来压缩声音数据，并支持来压缩声音数据，并支持5 5个声道，声音个声道，声音样本的精度为样本的精度为2020比特，每个声道的采样率比特，每个声道的采样率可以是可以是32 kHz,44.1 kHz32 kHz,44.1 kHz或者或者48 kHz48 kHz。在立体声模式中，在立体声模式中，ACAC3 3编码器可以采用编码器可以采用重复阵列方法。这种方法可以在采用阵列重复阵列方法。这种方法可以在采用阵列环绕技术时，降低量化错误产生的噪声。环绕技术时，降低量化错误产生的噪声。第第5节节 MPEG-4音频音频MPEG-4MPEG-4音频标准分为自然音频编码和合成音频编音频标准分为自然音频编码和合成音频编码两大类。码两大类。自然音频编码方面提供三种编码方案，参数编码，自然音频编码方面提供三种编码方案，参数编码，码本激励线性预测（码本激励线性预测（CELPCELP）编码，时间）编码，时间/频率频率（T/FT/F）编码）编码合成音频编码方面提供了两种编码方案，结构音合成音频编码方面提供了两种编码方案，结构音频（频（SASA）和文语转换（）和文语转换（TTSTTS）每个编码方案都按照两部分来组织标准的内容：每个编码方案都按照两部分来组织标准的内容：标准部分描述解码的语法和解码过程标准部分描述解码的语法和解码过程 MPEG-4MPEG-4（ISO/IEC 14496ISO/IEC 14496）已建立了两个版本。）已建立了两个版本。l版本版本1 1支持由下述成分组成的音频对象的高效表支持由下述成分组成的音频对象的高效表示：示：语音信号语音信号合成语音合成语音普通音频信号普通音频信号合成音频合成音频绑定的复杂度合成音频绑定的复杂度合成音频 lMPEG-4 MPEG-4 音频版本音频版本2 2是对版本是对版本1 1的扩展，在保持版的扩展，在保持版本本1 1全部功能的同时，向全部功能的同时，向MPEG-4MPEG-4标准中加入了新标准中加入了新的工具和功能。的工具和功能。一一.自然声音合成自然声音合成 MPEG-4MPEG-4自然音频编码的设计与自然音频编码的设计与MPEG-4MPEG-4的理的理论非常一致。它增加了新的功能，并成为论非常一致。它增加了新的功能，并成为从线性存储或从线性存储或MPEG-1MPEG-1和和MPEG-2MPEG-2的流结构转的流结构转化为对象和展现的典范。化为对象和展现的典范。数据率介于数据率介于2 kbps2 kbps和和64 kbps64 kbps之间的音频称之间的音频称为自然声音为自然声音(natural audio)(natural audio)。MPEG-4 MPEG-4 定义了三种类型的声音编码器分别定义了三种类型的声音编码器分别用于不同的声音，它的一般编码方案包括：用于不同的声音，它的一般编码方案包括：参数编码器、参数编码器、CELP(CELP(码本激励线性预测码本激励线性预测)编编码器、码器、TF(TF(时间时间-频率频率)编码器编码器二二.合成声音合成声音 MPEG-4MPEG-4的译码器支持乐谱驱动合成（也称的译码器支持乐谱驱动合成（也称为为MIDIMIDI乐音、合成乐音）和文语转换乐音、合成乐音）和文语转换（TTS)TTS)合成（也称为语音合成）。合成（也称为语音合成）。乐谱驱动合成是在乐谱文件或者描述文件乐谱驱动合成是在乐谱文件或者描述文件控制下生成声音，乐谱文件是按时间顺序控制下生成声音，乐谱文件是按时间顺序组织的一系列调用乐器的命令，合成乐音组织的一系列调用乐器的命令，合成乐音传输的是乐谱而不是声音波形本身或者声传输的是乐谱而不是声音波形本身或者声音参数，因此它的数据率可以相当低。音参数，因此它的数据率可以相当低。文文-语转换系统编码器的输出数据率可以在语转换系统编码器的输出数据率可以在200 bps1.2 kbps200 bps1.2 kbps范围里。范围里。（一）乐谱驱动合成（一）乐谱驱动合成 (MIDI(MIDI合成声音合成声音)乐谱驱动合成的解码是通过一种特殊的合成乐谱驱动合成的解码是通过一种特殊的合成语言驱动的，这种语言称为结构化音频乐队语言驱动的，这种语言称为结构化音频乐队语言（语言（SAOL SAOL）。（如播放音符、加大音量、）。（如播放音符、加大音量、生成音响效果等）生成音响效果等）SAOLSAOL被用于定义一个有被用于定义一个有“乐器乐器”组成的组成的“乐乐队队”（或称为合成器），这些乐器不是固定（或称为合成器），这些乐器不是固定在终端设备中，而是从位流里下载下来，用在终端设备中，而是从位流里下载下来，用于产生和处理控制数据。于产生和处理控制数据。MPEG-4MPEG-4并不标准化合成的具体方法，而是标并不标准化合成的具体方法，而是标准化描述合成方法的方式。任何现存的或将准化描述合成方法的方式。任何现存的或将来开发的声音合成方法都可用来开发的声音合成方法都可用SAOLSAOL描述，包描述，包括波形表，频率调制，添加，物理造型，粒括波形表，频率调制，添加，物理造型，粒状合成，以及这些方法的非参数的混合等。状合成，以及这些方法的非参数的混合等。(二二)文文-语转换语转换文文-语转换是将文本形式的信息转换成自然语转换是将文本形式的信息转换成自然语音的一种技术，其最终目标是使计算机语音的一种技术，其最终目标是使计算机输出清晰而又自然的声音输出清晰而又自然的声音。TTSTTS系统最根本的问题便在于它的自然度，系统最根本的问题便在于它的自然度，自然度是衡量一个自然度是衡量一个TTSTTS系统好坏的最重要指系统好坏的最重要指标。标。MPEG-4 MPEG-4 的的TTS TTS 编码器比特率范围是编码器比特率范围是200 200 bpsbps到到1.2 K bps 1.2 K bps，使输入一个文本或带韵，使输入一个文本或带韵律参数（基音周期轮廓，音素持续时间等）律参数（基音周期轮廓，音素持续时间等）的文本就能产生可理解的合成声音。的文本就能产生可理解的合成声音。三三.音频轮廓音频轮廓 MPEG-4MPEG-4定义了定义了8 8种音频轮廓（基本配制）。种音频轮廓（基本配制）。语音轮廓（语音轮廓（Speech ProfileSpeech Profile）合成轮廓（合成轮廓（Synthesis ProfileSynthesis Profile）可扩展轮廓（可扩展轮廓（Scalable ProfileScalable Profile）主轮廓（主轮廓（Main ProfileMain Profile）高质量音频轮廓（高质量音频轮廓（High Quality Audio High Quality Audio ProfileProfile）低延迟音频轮廓（低延迟音频轮廓（Low Delay Audio ProfileLow Delay Audio Profile）自然音频轮廓（自然音频轮廓（Natural Audio ProfileNatural Audio Profile）移动音频网络互联轮廓（移动音频网络互联轮廓（Mobile Audio Mobile Audio Internetworking ProfileInternetworking Profile）第第6节节电子音乐合成与电子音乐合成与MIDI一一.电子音乐合成电子音乐合成产生乐音的方法有模拟合成和数字合成两产生乐音的方法有模拟合成和数字合成两大类：大类：模拟合成法模拟合成法:减法合成减法合成(滤波器滤波器)加法合成加法合成数字合成法数字合成法:FM:FM频率合成、频率合成、WavetableWavetable波表波表合成、合成、LALA线形合成、线形合成、AIAI先进集成式合成、先进集成式合成、AVAV先进向量合成、先进向量合成、VASTVAST可变结构合成技术可变结构合成技术计算机中采用数字音乐合成技术，主要采计算机中采用数字音乐合成技术，主要采用两种方法：用两种方法：调频调制合成法调频调制合成法波表合成法（也称为乐音样本合成法）波表合成法（也称为乐音样本合成法）(一一)频率调制合成频率调制合成频率调制合成频率调制合成(简称为简称为FMFM合成器合成器)是通过硬件产生是通过硬件产生正弦信号，再经处理合成音乐。合成的方式是将正弦信号，再经处理合成音乐。合成的方式是将波形组合在一起，理论上可以有无限多组波形。波形组合在一起，理论上可以有无限多组波形。FMFM合成器由合成器由5 5个基本模块组成个基本模块组成:数字载波器数字载波器调制调制器器声音包络发生器声音包络发生器数字运算器和模数转换器。数字运算器和模数转换器。频率调制合成的合成思想：频率调制合成的合成思想：1313个声音参数和算法共个声音参数和算法共1414个控制参数以字个控制参数以字节的形式存储在存储器中。播放某种乐音节的形式存储在存储器中。播放某种乐音时，计算机就发送一个信号，这个信号被时，计算机就发送一个信号，这个信号被转换成存储器的地址，从该地址中取出用转换成存储器的地址，从该地址中取出用于产生乐音的数据。于产生乐音的数据。(二二)波形表合成波形表合成合成思想：将每种真实乐器发出的声音抽合成思想：将每种真实乐器发出的声音抽样，加以适当的处理后存储成声音样本样，加以适当的处理后存储成声音样本（音色文件），记录在合成器的内存当中，（音色文件），记录在合成器的内存当中，需要时，调用相应样本来合成该乐器的乐需要时，调用相应样本来合成该乐器的乐音。音。产生的声音质量比产生的声音质量比FMFM合成方法产生的声音合成方法产生的声音质量要高。质量要高。二二.电子乐器数字接口电子乐器数字接口定义：电子乐器数字接口是用于在电子乐器定义：电子乐器数字接口是用于在电子乐器之间以及电子乐器和计算机之间交换音乐信之间以及电子乐器和计算机之间交换音乐信息的一种标准协议，是音乐与计算机结合的息的一种标准协议，是音乐与计算机结合的产物。产物。(一一)MIDI)MIDI的形成的形成MIDIMIDI是乐器和计算机使用的一种标准语言，是乐器和计算机使用的一种标准语言，是一套指令是一套指令(即命令即命令)的约定，它指示乐器的约定，它指示乐器(即即MIDIMIDI设备设备)要做什么，怎么做要做什么，怎么做，是将数字式，是将数字式电子乐器的弹奏过程记录下来电子乐器的弹奏过程记录下来。当需要播放这首乐曲时，根据记录的乐谱指当需要播放这首乐曲时，根据记录的乐谱指令，通过音乐合成器生成音乐声波，经放大令，通过音乐合成器生成音乐声波，经放大后由扬声器播出。后由扬声器播出。MIDIMIDI标准优点：标准优点：生成的文件比较小生成的文件比较小容易编辑容易编辑声音的配音方便声音的配音方便 (二二)MIDI)MIDI术语术语音乐合成器（音乐合成器（Musical SynthesizerMusical Synthesizer）：）：用来产生并修改正弦波形并叠加，然后用来产生并修改正弦波形并叠加，然后通过声音产生器和扬声器发出特定的声通过声音产生器和扬声器发出特定的声音音.复调声音：简称为复音（复调声音：简称为复音（PolyphonyPolyphony），），指合成器同时演奏若干音符时发出的声指合成器同时演奏若干音符时发出的声音。它着重于同时演奏的音符数。音。它着重于同时演奏的音符数。多音色（多音色（TimbreTimbre）：指同时演奏几种不）：指同时演奏几种不同乐器时发出的声音。它着重于同时演同乐器时发出的声音。它着重于同时演奏的乐器数。奏的乐器数。(三三)MIDI)MIDI标准标准 MIDIMIDI电子乐器：能产生特定声音的合成器，电子乐器：能产生特定声音的合成器，其数据传送符合其数据传送符合MIDIMIDI通信约定。通信约定。MIDIMIDI消息消息(message)(message)或指令：乐谱的一种或指令：乐谱的一种记录格式，相当于乐谱语言。记录格式，相当于乐谱语言。MIDIMIDI接口（接口（interfaceinterface）：）：MIDIMIDI硬件通信协议。硬件通信协议。MIDIMIDI通道通道(channel)(channel)：MIDIMIDI标准提供了标准提供了1616个个通道，每种通道对应一种逻辑的合成器。通道，每种通道对应一种逻辑的合成器。MIDIMIDI文件：由控制数据和乐谱信息数据构成。文件：由控制数据和乐谱信息数据构成。音序器音序器(Sequencer)(Sequencer)：用来记录、编辑和播：用来记录、编辑和播放放MIDIMIDI文件的软件。文件的软件。(四四)MIDI)MIDI的技术规范的技术规范 19881988年年MIDIMIDI制造商协会正式公布制造商协会正式公布MIDIMIDI技术技术规范第一版（规范第一版（MIDI 1.0MIDI 1.0）。）。MIDIMIDI是由软件和硬件两部分共同组成的系是由软件和硬件两部分共同组成的系统规范，它定义了相互连接性和通信协议。统规范，它定义了相互连接性和通信协议。相互连接性相互连接性定义了使这些不同的定义了使这些不同的MIDIMIDI仪器仪器能够相互连接的接线方式、连接器类型，能够相互连接的接线方式、连接器类型，和输入输出线路。和输入输出线路。通信协议通信协议定义了能够控制乐器声音和消息定义了能够控制乐器声音和消息(包括：发出反应，发出状态，及发出系统包括：发出反应，发出状态，及发出系统独有独有)的标准多字节消息。的标准多字节消息。1.MIDI1.MIDI硬件规范硬件规范MIDIMIDI硬件规范要求硬件规范要求5 5针针DINDIN连接器，用于连接器，用于MIDI INMIDI IN，MIDI OUTMIDI OUT和和MIDI THRUMIDI THRU信号的引线面板安装。信号的引线面板安装。MIDI THRUMIDI THRU连接器用于菊花式链接多个连接器用于菊花式链接多个MIDIMIDI设备。设备。对于菊花式链接设备，第一个设备对于菊花式链接设备，第一个设备(设备设备1)1)的的MIDI MIDI THRUTHRU与第二个设备与第二个设备(设备设备2)2)的的MIDI INMIDI IN相连；设备相连；设备2 2的的MIDI THRUMIDI THRU与设备与设备3 3的的MIDI INMIDI IN相连，等等。另一相连，等等。另一种方法是把设备种方法是把设备(1)(1)的的MIDI OUTMIDI OUT与设备与设备(2)(2)的的MIDI MIDI ININ相连等等。相连等等。2.MIDI的互连MIDIMIDI设备的复杂连接设备的复杂连接MIDIMIDI设备的简单连接设备的简单连接3.MIDI3.MIDI通信协议通信协议 MIDIMIDI通信协议使用多字节消息；字节数取通信协议使用多字节消息；字节数取决于消息的类型。有两种类型的消息：通决于消息的类型。有两种类型的消息：通道消息和系统消息道消息和系统消息 1)1)通道消息通道消息通道消息最多可以有三字节。第一个字节通道消息最多可以有三字节。第一个字节称为状态字节：其它两个字节称为数据字称为状态字节：其它两个字节称为数据字节。节。有两种类型的通道消息：有两种类型的通道消息：声源消息：用来控制乐器声源消息：用来控制乐器(或设备或设备)的声音。的声音。音高搭配消息用来改变所有音符的音高。音高搭配消息用来改变所有音符的音高。方式消息：方式消息用于指定方式消息：方式消息用于指定1616条通道与条通道与声音的关系。开启全部方式使装置能接受声音的关系。开启全部方式使装置能接受所有通道上的声音消息。所有通道上的声音消息。2)2)系统消息系统消息有三种类型的系统消息：有三种类型的系统消息：公用消息：这些消息对于整个系统来说是公用消息：这些消息对于整个系统来说是公用的。公用的。系统实时消息：这些消息用于设定系统的系统实时消息：这些消息用于设定系统的实时参数。实时参数。系统独占消息：这些消息含有制造商特定系统独占消息：这些消息含有制造商特定的数据。的数据。MIDIMIDI规范规定，规范规定，MIDIMIDI键盘为键盘为128128键，编号为键，编号为01270127。MIDIMIDI消息可以描述每个音符的信息，消息可以描述每个音符的信息，包括对应的键号，按键的持续时间、音量包括对应的键号，按键的持续时间、音量和力度。和力度。MIDIMIDI接收器中有接收器中有1616个通道，它们可以同时个通道，它们可以同时向声音合成器传送向声音合成器传送1616路不同的通音路不同的通音 (书书P18P18图图2-11)2-11)。通道编号为。通道编号为116116，它在，它在MIDIMIDI消息消息中的编号为中的编号为015015，0 0声道也称基本通道。声道也称基本通道。同一同一MIDIMIDI文件使用不同的合成器播放时可文件使用不同的合成器播放时可能产生不同的效果。能产生不同的效果。MIDIMIDI文件解释：每一个文件解释：每一个MIDIMIDI消息由若干字消息由若干字节组成，第一个字节为状态字节，其后则节组成，第一个字节为状态字节，其后则为一个或两个数据字节。状态字节的特征为一个或两个数据字节。状态字节的特征是最高位为是最高位为“1 1”；数据字节的特征是最高；数据字节的特征是最高位为位为“0 0”。例如：当例如：当MIDIMIDI键盘发送一个三字节组成的键盘发送一个三字节组成的消息：消息：90 3C 4090 3C 40。其中。其中9090是状态字节，它是状态字节，它表示一个字符开始，且向表示一个字符开始，且向0 0号声道传送；号声道传送；3C3C表示击键位置；表示击键位置；4040表示击键的速度。松开表示击键的速度。松开键后，键后，MIDIMIDI键盘立即又发出一个三字节消键盘立即又发出一个三字节消息：息：90 3C 0090 3C 00。前两个字节含义与前面相。前两个字节含义与前面相同，第三个字节同，第三个字节“0000”表示速度为表示速度为0 0，即这，即这个键已中止。个键已中止。(五五)MIDI)MIDI音乐的产生音乐的产生计算机上计算机上MIDIMIDI音乐的产生过程音乐的产生过程用用PCPC构成的构成的MIDIMIDI系统系统计算机上计算机上MIDIMIDI音乐的产生过程音乐的产生过程(六六)WAVE)WAVE和和MIDIMIDI两种音频方式的比较两种音频方式的比较与波形声音相比，与波形声音相比，MIDIMIDI声音有许多优点，声音有许多优点，最主要的是占用数据量小。第二个优点是最主要的是占用数据量小。第二个优点是声音的配音方便。第三，声音的配音方便。第三，MIDIMIDI声音编辑修声音编辑修改方便灵活，可以随意修改曲子的速度、改方便灵活，可以随意修改曲子的速度、音调，也可以改换乐器的种类，从而产生音调，也可以改换乐器的种类，从而产生合适的音乐。（见合适的音乐。（见WORDWORD文档文档“WAVEWAVE文件和文件和MIDIMIDI文件的比较文件的比较”）(七七)GS)GS、GMGM和和XGXGGSGS、GMGM和和XGXG是一类音色排列方式的标准解是一类音色排列方式的标准解决不同型号的设备回放同一首乐曲时出现决不同型号的设备回放同一首乐曲时出现的音色偏差。的音色偏差。GSGS由由ROLANDROLAND公司制定并推出，它完整的定公司制定并推出，它完整的定义了义了128128种乐器的统一排列方式，并规定了种乐器的统一排列方式，并规定了MIDIMIDI设备的最大复音数不可少于设备的最大复音数不可少于2424个等详个等详尽的规范。尽的规范。GMGM标准比较符合众多中小厂商的口味，成标准比较符合众多中小厂商的口味，成为了业界广泛接受的标准为了业界广泛接受的标准 XGXG由由YAMAHAYAMAHA公司推出，完全兼容以上两大公司推出，完全兼容以上两大标准。标准。MIDIMIDI小结小结是一种在计算机和音乐合成器之间交换音是一种在计算机和音乐合成器之间交换音乐信息的标准协议。乐信息的标准协议。MIDIMIDI不是声音信号，在不是声音信号，在MIDIMIDI电缆上传递的电缆上传递的是指令是指令MIDIMIDI音乐常用作游戏音乐或背景音乐，典音乐常用作游戏音乐或背景音乐，典型应用就是手机音乐型应用就是手机音乐第第8节节语音识别语音识别一语音识别技术一语音识别技术语音识别系统的分类方式及依据语音识别系统的分类方式及依据：根据对说话人说话方式的要求，可以分为孤立字根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连（词）语音识别系统，连接字语音识别系统以及连续语音识别系统。续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特定根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。人语音识别系统。根据词汇量大小，可以分为小词汇量、中等词汇量、根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。大词汇量以及无限词汇量语音识别系统。面向任务的语音识别系统的一般方块图面向任务的语音识别系统的一般方块图语音识别技术主要包括特征提取技术、模语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。外，还涉及到语音识别单元的选取。(1)(1)语音识别单元的选取：语音识别单元有语音识别单元的选取：语音识别单元有单词（句）、音节和音素三种单词（句）、音节和音素三种单词（句）单元广泛应用于中小词汇语音单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统识别系统，但不适合大词汇系统音节单元多见于汉语语音识别音节单元多见于汉语语音识别音素单元以前多见于英语语音识别的研究音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用统也在越来越多地采用 (2)(2)特征参数提取技术特征参数提取技术对语音信号进行分析处理，去除对语音识对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。别的重要信息。(3)(3)模式匹

展开阅读全文

第二章音频处理教学内容课件

最新文档