第二讲音频处理技术基础课件

资源描述

音频处理技术1.2 多媒体特性与关键技术声学基本知声学基本知识识物理学意物理学意义义上的声音上的声音心理学与生理学意心理学与生理学意义义上的声音上的声音声音信号的数字化声音信号的数字化过过程程采采样样量化量化数据数据压缩压缩算法算法简简介介相关相关标标准准简简介介音音频频文件格式文件格式音音频处频处理理软软件件1.1 物理学意义上的声音声音的本声音的本质质声音是由于物体的振声音是由于物体的振动产动产生的机械波生的机械波1.1 物理学意义上的声音声音的声音的频频率率 20Hz20kHz20Hz20kHz：声波（人耳可：声波（人耳可闻闻）20kHz20kHz以上：超声波以上：超声波 20Hz20Hz以下：次声波以下：次声波声音的声音的强强度：与声波的振幅成正比度：与声波的振幅成正比声波在声波在单单位位时间时间内作用在与其内作用在与其传递传递方向垂直的方向垂直的单单位面位面积积上上的能量的能量声音的种声音的种类类纯纯音：振幅和音：振幅和频频率均率均为为常数的声音常数的声音复音：多种不同复音：多种不同频频率和振幅的混合声音率和振幅的混合声音基音：复印中基音：复印中频频率最低的声音，复音的基率最低的声音，复音的基调调泛音、泛音、谐谐音：其他音：其他频频率声音的率声音的统统称称噪音：多噪音：多频频率、多率、多强强度的无度的无规规律声音律声音频率振幅频率振幅纯音复音基音泛音/谐音1.1 物理学意义上的声音声音声音强强度的度的计计量量声声强强（物理学上常用）（物理学上常用）声声强强是指是指单单位位时间时间（1 1秒秒钟钟）内声音通）内声音通过过垂直于声音垂直于声音传传播方向播方向单单位面位面积积（cmcm2 2）的声能量。）的声能量。声声压压（听（听觉觉生理学上常用）生理学上常用）声音在空气中声音在空气中传传播而改播而改变变了空气原来的恒定静了空气原来的恒定静压压力，力，导导致了原有静致了原有静压压力的微小增加。力的微小增加。1.1 物理学意义上的声音这两种这两种1.2 生理及心理学意义上的声音人耳听到的声音人耳听到的声音自然界的声音自然界的声音听域（听域（Auditory AreaAuditory Area）：人耳可）：人耳可闻闻的声音的声音范范围围频频率范率范围围：20Hz-20kHz20Hz-20kHz 强强度范度范围围：可用声：可用声压压、声、声压级压级、声、声强强、声、声强级强级表示表示听听阈阈（Auditory ThresholdAuditory Threshold）：人耳可）：人耳可闻闻的最小的最小强强度度痛痛阈阈：引起人耳疼痛的最小：引起人耳疼痛的最小强强度度声声强强与响度的关系与响度的关系声声强强：声音：声音强强度的客度的客观观度量（概念与度量前面已述）度量（概念与度量前面已述）响度：声音响度：声音强强度的主度的主观观感受感受响度：声音响度：声音强强度的主度的主观观感受感受响度与声响度与声强强不是不是线线性关系性关系声音能量（声音能量（强强度）增加近度）增加近4 4倍，主倍，主观观感感觉觉响度增加响度增加1 1倍倍响度与声音能量是一种近似响度与声音能量是一种近似对对数关系数关系响度与响度与频频率有关：率有关：100010004000Hz4000Hz的声音人耳听起来的声音人耳听起来最响最响响度的响度的单单位位为为宋（宋（sonesone）频频率率1000Hz1000Hz，强强度度为为听听阈阈以上以上40dB(40dB(感感觉级觉级)的的纯纯音所音所产产生的响度生的响度为为1sone1sone。绝对绝对听听觉阈觉阈限限指一个人在没有噪声的指一个人在没有噪声的环环境下，能境下，能够产够产生听生听觉觉，感知，感知到一个到一个纯纯音信号（某各音信号（某各频频率点）的最小能量幅度。通率点）的最小能量幅度。通常常绝对绝对听听觉门觉门限用声限用声压级压级表示（表示（dBdB）人耳的等响度曲人耳的等响度曲线线音音调调：声音：声音频频率的主率的主观观感受感受音音调调的高低与的高低与频频率的高低一致率的高低一致频频率不率不变变，强强度的度的变变化化对对音音调调稍有影响。稍有影响。强强度增大度增大时时，低，低频频率音率音调显调显得更低，得更低，而高而高频频率音率音调显调显得更高。得更高。音色：人耳音色：人耳对对复合音中各种复合音中各种谐谐音成分音成分总总和的主和的主观观印象印象人耳通人耳通过过音色区分不同的音色区分不同的乐乐器，如：器，如：基音基音为为100Hz100Hz的的钢钢琴声与基音琴声与基音100Hz100Hz的黑管声音的的黑管声音的基音基音频频率相同率相同钢钢琴有琴有1515个泛音（个泛音（谐谐音）音）黑管有黑管有1010个泛音（个泛音（谐谐音）音）声音的掩蔽效声音的掩蔽效应应当两个响度不等的声音作用于人耳当两个响度不等的声音作用于人耳时时，响度，响度较较高的高的频频率成分的存在会影响到率成分的存在会影响到对对响度响度较较低的低的频频率成分的率成分的感知感知同同时时掩蔽（掩蔽（频频域掩蔽）域掩蔽）掩蔽声音与被掩蔽声音同掩蔽声音与被掩蔽声音同时时出出现现当两个或更多的音当两个或更多的音频频信号到达人内耳信号到达人内耳时时，掩蔽声与被，掩蔽声与被掩蔽声同掩蔽声同时时作用作用发发生掩蔽效生掩蔽效应应，就称同，就称同时时掩蔽。掩蔽。即在一个即在一个临临界界频带频带内，一个大的信号可以掩蔽掉若干内，一个大的信号可以掩蔽掉若干小的信号，无小的信号，无论这论这个信号是音个信号是音调还调还是噪音。是噪音。25个临界频带临临界界频频带带频频率率(Hz)(Hz)临临界界频频带带频频率率(Hz)(Hz)低端高端宽度低端高端宽度0010010013200023203201100200100142320270038022003001001527003150450330040010016315037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280 异异时时掩蔽（掩蔽（时时域掩蔽）域掩蔽）掩蔽声音与被掩蔽声音不同掩蔽声音与被掩蔽声音不同时时出出现现一个一个强强音音频频信号可以掩蔽到之前若干信号可以掩蔽到之前若干时间时间和之后若干和之后若干时间时间的音的音频频信号的感知，即信号的感知，即导导前掩蔽或滞后掩蔽前掩蔽或滞后掩蔽对对之前音之前音频频信号的掩蔽效信号的掩蔽效应应衰减的很快，大概只能掩衰减的很快，大概只能掩蔽到几毫秒蔽到几毫秒对对之后音之后音频频信号的掩蔽可以持信号的掩蔽可以持续续到最到最长长200ms200ms的的时间时间。2.声音信号的数字化过程从声波到数字音从声波到数字音频频文件的文件的过过程程拾音放大A/D转换（模数转换）采样量化编码声电模拟信号模拟信号数字信号二进制数据采采样样与量化：模数与量化：模数转换转换的核心的核心采采样样（SamplingSampling）采采样样：把模：把模拟拟信号在信号在时间时间域上以固定的域上以固定的时间间时间间隔隔对对波形的波形的值进值进行抽取，再用若干位二行抽取，再用若干位二进进制数表示制数表示采采样样周期：两个取周期：两个取样样点之点之间间的的间间隔称隔称为为采采样频样频率：采率：采样样周期的倒数周期的倒数采采样样定理：当采定理：当采样频样频率率大于信号最高大于信号最高频频率的两倍率的两倍时时，在采在采样过样过程中就不会程中就不会丢丢失信息，能不失真地失信息，能不失真地还还原出原出原始的声音信号原始的声音信号若超若超过过此取此取样频样频率，就会包含冗余的信息率，就会包含冗余的信息若低于此若低于此频频率，率，则则将将产产生不同程度的失真生不同程度的失真对对于音于音频频，最常用的采，最常用的采样频样频率有三种：率有三种：44.1KHz44.1KHz 22.05 KHz22.05 KHz 11.025 KHz11.025 KHz 哪种采哪种采样频样频率率产产生的数字音生的数字音频频音音质质最佳？最佳？WhyWhy？声道数：声音通道的个数，指一次采声道数：声音通道的个数，指一次采样样的声音波形的声音波形个数。个数。单单声道一次采声道一次采样样一个声音波形一个声音波形双声道一次采双声道一次采样样两个声音波形，又称两个声音波形，又称为为“立体声立体声”。量化（量化（QuantityQuantity）量化的目的是将采量化的目的是将采样样后的信号波形的幅度后的信号波形的幅度值值（样样本）本）进进行离散化行离散化处处理，理，样样本从模本从模拟拟量量转转化成了数字量。化成了数字量。量化位数（量化量化位数（量化级级）：用于表示幅度）：用于表示幅度值值（样样本）的本）的二二进进制位数制位数量化位数越多，所得到的量化量化位数越多，所得到的量化值值越接近原始波形的越接近原始波形的采采样值样值。一个量化器就是将整个信号的幅度一个量化器就是将整个信号的幅度值值分成若干个有分成若干个有限的区限的区间间，并且把落入同一个区，并且把落入同一个区间间的的样样本点都用同本点都用同一个幅度一个幅度值值来表示，来表示，这这个幅度个幅度值值称称为为量化量化值值。均匀量化均匀量化非均匀量化非均匀量化数据率的概念数据率的概念数据率（比特率）：数据率（比特率）：一秒一秒钟钟的数字音的数字音频频信号所需的二信号所需的二进进制位数制位数单单位：位：bpsbps（bits per second bits per second 位每秒）位每秒）计计算公式：采算公式：采样样率率采采样样位数位数声道数声道数例如：例如：44.1KHz44.1KHz、16bit16bit的立体声数字音的立体声数字音频频信号的数据率信号的数据率 44.1k*16b*2=1411.2kbps44.1k*16b*2=1411.2kbps 这这就是就是CDCD音音频频的数据率的数据率如果不如果不进进行任何行任何编码编码和和压缩压缩，则产则产生的声音文件体生的声音文件体积积会非常大，不利于存会非常大，不利于存储储和和传输传输减小音减小音频频文件文件大小的思路大小的思路 1.1.降低采降低采样频样频率和量化位数率和量化位数降低音降低音质质 2.2.数据数据压缩压缩（编码编码）无无损压缩损压缩算法算法减少数据量，但不减少信息量减少数据量，但不减少信息量典型典型实实例：哈夫曼例：哈夫曼编码编码、WinrarWinrar 有有损压缩损压缩算法算法原理：有原理：有选择选择地舍弃一些信息，如人地舍弃一些信息，如人类类不敏感信息不敏感信息典型典型实实例：例：PCMPCM编码编码（WAVWAV）、）、MPEGMPEG编码编码（MP3MP3）数据压缩算法常用音频编码标准编码方法算法名称数据率标准应用质量波形编码PCM均匀量化公共网ISDN配音4.04.5(A)(A)64kbpsG.711APCM自适应量化 DPCM差值量化ADPCM自适应差值量化32kbpsG.721SBADPCM子带自适应差值量化64kbpsG.7225.3kbps6.3kbpsG.723参数编码LPC线性预测编码2.4kbps 保密话声2.53.5混合编码CELPC码激励LPC4.6kbps 移动通信3.74.0VSELP矢量和激励LPC8kbps 语音通信RPE-LTP长时预测规则码激励13.2kbps ISDNLD-CELP低延时码激励LPC16kbpsG.728G.729 MPEG多自带感知编码128kbps CD5.0 AC-3感知编码音响5.0编码编码（压缩压缩）的效果）的效果 CDCD音音质质的音的音频频未未编码编码（压缩压缩）：）：1411.2 kbps1411.2 kbps 经经MPEG-Layer3MPEG-Layer3算法算法压缩压缩后（后（mp3mp3格式）：格式）：128kbps128kbps 1 1分分钟钟的原始的原始CDCD音音频频文件大小：文件大小：10.34MB10.34MB 1 1分分钟钟的接近的接近CDCD音音质质的的MP3MP3文件：文件：0.96MB0.96MB衡量音衡量音质质的指的指标标采采样频样频率率量化位数（量化量化位数（量化级级）例如：例如：CDCD音音质质：44.1kHz 16bit44.1kHz 16bit DVD-AudioDVD-Audio音音质质：192kHz 24bit 192kHz 24bit（目前最高音（目前最高音质质）衡量衡量编码编码算法（算法（压缩压缩效率）的指效率）的指标标同等音同等音质质（采（采样频样频率、量化位数、声道数）下的率、量化位数、声道数）下的数据率。数据率。典型音典型音频编码简频编码简介介 PCMPCM（PulsePulse Code Modulation PulsePulse Code Modulation 脉冲代脉冲代码调码调制制编码编码）原理：直接存原理：直接存储储采采样样量化后的数据量化后的数据特点：没有特点：没有编码编码的的编码编码数据量大、无失真数据量大、无失真代表文件格式：代表文件格式：wavwav文件文件 PCMPCM的的实际应实际应用形式：加入了用形式：加入了压缩压缩算法算法 A A律律PCMPCM：我国和欧洲采用：我国和欧洲采用律律PCMPCM：日本和北美采用：日本和北美采用标标准制定准制定组织组织：CCITTCCITT（Committee Consultation Committee Consultation International Technic and Telegraph International Technic and Telegraph）国）国际电报电话际电报电话咨咨询询委委员员会会标标准名称：准名称：G.711G.711 MPEG1MPEG1（Moving Picture Experts GroupMoving Picture Experts Group）音）音频编码频编码特点：根据人的听特点：根据人的听觉觉特性特性进进行行编码编码有有损压缩损压缩音音质较质较好，文件体好，文件体积较积较小小三种三种层层次的次的编码编码系系统统，可根据需要，可根据需要选选用用层层次越高，性能越好次越高，性能越好编码层编码层次次 MPEG-Layer 1MPEG-Layer 1 MPEG-Layer 2MPEG-Layer 2 MPEG-Layer 3MPEG-Layer 3 代表文件格式：代表文件格式：mp3mp3标标准制定准制定组织组织：ISOISO（International Standard OrganizationInternational Standard Organization）国国际标际标准化准化组织组织IEC IEC（International Electro Technical International Electro Technical CommissionCommission）国国际电际电工委工委员员会会标标准名称：准名称：ISO/IEC 11172-3ISO/IEC 11172-3（MPEG-MPEG-音音频频）ACAC音音频编码频编码 AC-1AC-1应应用的用的编码编码技技术术是自适是自适应应增量增量调调制制 20kHz20kHz宽带宽带立体声音立体声音频频信号信号编码编码后的数据率后的数据率为为512kb/s512kb/s AC-1AC-1曾在曾在卫卫星星电视电视和和调频调频广播上得到广泛广播上得到广泛应应用。用。19901990年年DOLBYDOLBY实验实验室推出了立体声室推出了立体声编码标编码标准准AC-2AC-2 比特率（数据率）降至比特率（数据率）降至256kb/s256kb/s以下以下 AC-2AC-2被被应应用在用在PCPC声卡和声卡和综综合合业务业务数字网等方面。数字网等方面。AC-3AC-3音音频编码标频编码标准的起源是准的起源是DOLBY AC-1DOLBY AC-1。AC-3AC-3 19941994年，日本先年，日本先锋锋公司宣布与美国杜比公司宣布与美国杜比实验实验室合作室合作研制成功一种研制成功一种崭崭新的新的环绕环绕声制式，并命名声制式，并命名为为“杜比杜比AC-3”(Dolby Surround Audio Coding-3)AC-3”(Dolby Surround Audio Coding-3)。19971997年初，杜比年初，杜比实验实验室正式将室正式将“杜比杜比AC-3AC-3环绕环绕声声”改改为为“杜比数杜比数码环绕码环绕声声”(Dolby Surround Digital)(Dolby Surround Digital)，我我们们常称常称为为Dolby DigitalDolby Digital。杜比杜比AC-3AC-3提供的提供的环绕环绕声系声系统统由由5 5个全个全频频域声道和域声道和1 1个超低音声道个超低音声道组组成，被称成，被称为为5.15.1声道。声道。6 6个声道的信息在制作和个声道的信息在制作和还还原原过过程中全部数字化，程中全部数字化，信息信息损损失很少，是一种高音失很少，是一种高音质质音音频标频标准。准。DVDDVD中的音中的音频编码频编码采用采用AC-3AC-3标标准准播放播放AC-3AC-3格式的音格式的音频频文件，需要安装解文件，需要安装解码码插件插件如：如：AC-3 FilterAC-3 Filter3 音频文件格式波形格式波形格式 WAVWAV WAVWAV是是Microsoft WindowsMicrosoft Windows本身提供的音本身提供的音频频格式，用格式，用.wav.wav作作为扩为扩展名，其文件格式称展名，其文件格式称为为波形文件格式波形文件格式(WAVE)(WAVE)WAVWAV格式是一种文件格式，而非一种格式是一种文件格式，而非一种编码编码文件格式：文件数据的文件格式：文件数据的组织结组织结构构编码编码：编码编码（压缩压缩）算法）算法比如：比如：书书信是一种文件格式，英信是一种文件格式，英语语是一种是一种编码编码。WAVWAV格式可以支持多种音格式可以支持多种音频编码频编码基于基于PCMPCM编码编码的的WAV WAV 格式是格式是应应用最广泛的音用最广泛的音频频文文件格式，所有音件格式，所有音频频播放、播放、编辑软编辑软件都支持。件都支持。WAVWAV是一种是一种RIFFRIFF文件格式文件格式 RIFFRIFF（Resource Interchange Resource Interchange）在在WindowsWindows环环境下，大部分多媒体文件都遵循境下，大部分多媒体文件都遵循RIFFRIFF结结构来存放信息，构来存放信息，RIFFRIFF可以看做是一种可以看做是一种树树状状结结构，构，其基本构成其基本构成单单位位为为ChunkChunk，就像，就像树树形形结结构中的构中的节节点，点，每个每个ChunkChunk由辨由辨别码别码、数据、数据长长度及数据度及数据组组成。成。记录采样频率、采样位数等参数记录声音数据 WAVWAV格式的特点格式的特点通用性极通用性极强强（基于（基于PCMPCM编码编码的）一般音的）一般音质较质较好好（基于（基于PCMPCM编码编码的）占用存的）占用存储储空空间较间较大大音音频频素材与中素材与中间处间处理理结结果的最佳格式果的最佳格式MIDIMIDI格式格式 MIDIMIDI（Musical Instrument Digital InterfaceMusical Instrument Digital Interface）的首写）的首写字母字母组组合合词词，可，可译译成成“电电子子乐乐器数字接口器数字接口”。用于在音用于在音乐乐合成器（合成器（Music SynthesizersMusic Synthesizers）、）、乐乐器器（Musical InstrumentsMusical Instruments）和）和计计算机之算机之间间交交换换音音乐乐信息、信息、播放和播放和录录制音制音乐乐的一种的一种标标准准协议协议。MIDIMIDI标标准确定了将准确定了将计计算机与算机与电电声声乐乐器、器、录录音音设备连设备连接起来所需的接起来所需的电缆线电缆线、硬件及通信、硬件及通信协议协议。MIDIMIDI可用于基于可用于基于计计算机的算机的作曲作曲和和电电子音子音乐乐合成制作合成制作 FrameFrame：一系列的：一系列的帧帧，存放音，存放音频编码频编码信息信息帧帧的个数由文件大小和的个数由文件大小和帧长帧长决定决定每个每个FRAMEFRAME的的长长度可能不固定，也可能固定，度可能不固定，也可能固定，由数据率由数据率bitratebitrate决定决定恒定数据率（恒定数据率（CBRCBR）：）：96kbps96kbps、128kbps128kbps、192kbps192kbps 变变化数据率（化数据率（VBRVBR）：）：针对针对歌曲不同的部分采用不同歌曲不同的部分采用不同的数据率，用以的数据率，用以节节省存省存储储空空间间。数据率越高，音数据率越高，音质质越好越好每个每个FRAMEFRAME又分又分为帧头为帧头和和数据数据实实体（体（MAIN_DATA MAIN_DATA）两部分）两部分帧头记录帧头记录了了mp3mp3的位率，采的位率，采样样率，版本等信息率，版本等信息 MAIN_DATA MAIN_DATA 部分部分记录记录了了mp3mp3编码编码数据数据每个每个帧帧之之间间相互独立相互独立p经常不断地学习,你就什么都知道。你知道得越多,你就越有力量pStudyConstantly,AndYouWillKnowEverything.TheMoreYouKnow,TheMorePowerfulYouWillBe写在最后Thank You在别人的演说中思考，在自己的故事里成长Thinking In Other PeopleS Speeches，Growing Up In Your Own Story讲师：XXXXXX XX年XX月XX日

展开阅读全文

第二讲音频处理技术基础课件

最新文档