音频媒体的压缩编码.ppt

上传人:zhu****ei 文档编号:5434089 上传时间:2020-01-29 格式:PPT 页数:90 大小:827.50KB
返回 下载 相关 举报
音频媒体的压缩编码.ppt_第1页
第1页 / 共90页
音频媒体的压缩编码.ppt_第2页
第2页 / 共90页
音频媒体的压缩编码.ppt_第3页
第3页 / 共90页
点击查看更多>>
资源描述
音频媒体的压缩编码标准与技术 第四章 本章内容 音频信号的相关概念音频信号的基本概念 数字化方法 压缩编码的可行性与分类 声音类别与数据率 音频信息压缩编码技术标准体系G 7XX系列和MPEG X系列G 7XX声音压缩编码技术各标准的编码方法 编 解码器等MPEG X声音压缩编码语音识别 话音技术的研究热点 话音压缩编码 SpeechCoding 话音识别 SpeechRecognition 文本话音转换 TextToSpeech 4 1音频信号 声音的产生源于物体的震动 这种震动引起物体周围气压的变化并传播 最后形成了声音 声音是一种波 由两个参数描述 频率 声音的尖锐程度 振幅 声音的大小 又称响度 音频信号是指处在20Hz 20kHz频率范围的声音 音频频率范围低频声音 Infra sound 0Hz 20Hz人类听觉频率范围的声音 20Hz 20kHz高频 Ultrasound 20kHz 1GHz超声波 Hypersound 1GHz 10THz 音频信号 声波图示 其中包含两个重要参数 频率和振幅 音频信号 根据音频信号占用频谱的不同 可以将音频信号分为3类 1 语音信号 又称话音信号 是人在正常情况下发出的一种声音 频率范围大约为300Hz 3 4KHz 2 音乐信号 各种乐器发出的声音 频率范围大约为20Hz 20kHz 3 噪音信号 人们不感兴趣的一类声音 通常研究如何去掉它 4 1 1音频信号的数字化 音频信号通常是连续信号 要利用计算机来处理 首先需要对其数字化 音频信号的数字化 对声音信号进行采样时 一般使用音频范围的ADC 模数转换器 进行 不同的ADC主要区别于以下两个重要参数 1 采样频率 采样频率是指每秒钟采集声音样本的个数 它的取值应该满足NyquistTheory 即采样频率fs应该大于等于声音信号中最高频率fm的两倍 采样频率的单位是 Hz或samples s 如 数字电话的采样率为8KHz 2 采样精度 采样精度用样本位数来表示 样本位数越多 则声音质量越高 因为每个样本的量化值与原样本值越接近 采样精度的单位是 bits sample 采样频率越高 采样精度越大 则数字化声音效果越好 但是需要的存储量就越大 因此在实际应用中 需要折中考虑声音质量和存储量的问题 另外一种表示精度的方法是信噪比 SNR 表示为 其中 Vsignal表示信号电压 Vnoise表示噪声电压 SNR的单位为分贝 dB 信噪比越高 声音质量越好 声音硬件 4 1 2音频信号压缩编码的可行性与分类 对于高质量和长时间的音频数据 由于数据量都特别大 为了有效地存储和传输 需要进行压缩编码 压缩的可能性存在于 1 声音信号中包含大量的冗余信息 如样本相关性 时间周期相关性 基音相关性等 2 利用人的感知特性进行压缩 3 根据话音产生机理进行压缩 衡量语音编码性能的主要因素有 编码质量 编码速率 算法复杂度 音频信号压缩技术 音频信号压缩编码的主要依据是人耳的听觉特性 主要有两点 1 人的听觉系统中存在一个听觉阈值电平 低于这个电平的声音信号人耳听不到 2 人的听觉存在屏蔽效应 当几个强弱不同的声音同时存在时 强声使弱声难以听到 并且两者之间的关系与其相对频率的大小有关 声音编码算法就是通过这些特性来去掉更多的冗余数据 来达到压缩数据的目的 音频信号压缩编码的分类 根据压缩编码思想的不同 把音频编码技术分为三类 1 波形编码 WaveformCoding 2 源编码 SourceCoding 参数编码 3 混合编码 HybridCoding 波形编码 没有利用语音信号自身的特点 波形编译码的想法是 不利用生成话音信号的任何知识而企图产生一种重构信号 它的波形与原始话音波形尽可能地一致 一般来说 这种编译码器的复杂程度比较低 数据速率在16kb s以上 质量相当高 低于这个数据速率时 音质急剧下降 如 1 CD质量音频数据量 2x44100 x16b s2 电话质量音频数据量 8Kx8b sPCM DPCM56Kb s ADPCM32Kb s 源编码 参数编码 参数化 利用语音信号的特点进行数据压缩 音源编译码的想法是企图从话音波形信号中提取生成话音的参数 使用这些参数通过话音生成模型重构出话音 例如 信道声码器的工作原理 将语音信号基于语音分析原理分解成一系列频率分量 将这些分量在信道中传输 接收方基于收到的数据进行语音重建 将收到的数据中的频率分量作为语音的基频 产生一系列脉冲作为浊音 用噪声发生器的输出作为清音 此方法可以将语音的传输速率降低至2 4Kb s 甚至更低 混合编码 混合编译码器使用音源编译码技术和波形编译码技术 数据率和音质介于它们之间 使用的激励信号波形尽可能接近于原始话音信号的波形 例如CELP 下图表示了目前这三种编译码器的话音质量和数据率的关系 图普通编译码器的音质与数据率 4 1 3声音类别与数据率 声音根据频带分为5类 1 电话 Telephone 声音 2 调幅 AmplitudeModulation 广播声音 3 调频 FrequencyModulation 广播声音 4 数字音频光盘 CD Audio 声音 5 数字录音带 DigitalAudioTape 声音这些不同的声音数据区别于采样频率 采样精度 通道数 数据率和频率范围等参数 声音类别与数据率 宽带音响 20Hz 20kHz 声音类别与数据率 我们所熟悉的数字音频文件格式如下表所示 未压缩的声音文件的存储量可用下式计算 存储量 B 采样频率HZ 采样位数bit 声道数 时间秒 8 4 1 4声音质量的度量 声音质量的度量分为 客观质量度量和主观质量度量 声音客观质量的度量用信噪比来展开 信噪比 SNR 越大 声音质量越好 反之 信噪比越小 声音质量越差声音主观质量的度量是利用人的感觉 听觉 来进行度量 主观平均判分法 MOS 通常分5分 1分 劣 极反感 2分 差 讨厌但不反感 3分 中 有点讨厌 4分 良 基本可以接受 5分 优 效果很好 声音质量的度量 部分编码器的MOS分 4 2音频信息压缩编码技术标准体系 常见的音频压缩编码准则有ITU制定的G 7XX系列和ISO IEC制定的MPEG X系列 G 7XX是一组ITU T标准 用于音频压缩和解压缩 它主要用于电话方面 在电话技术中 有两个主要的算法标准 分别定义在 law算法 美国使用 和A law算法 欧洲及世界其他国家使用 中 两者都是基于对数关系的 但对于计算机的处理来说 后者更为简单 MPEG X是一组用于视频的编码方案 其中也有音频的编码部分 可以用于音频压缩编码 1 电话质量的音频压缩编码技术标准信号频率规定在300Hz 3 4kHz 采用标准的脉冲编码调制 PCM 当采样频率为8kHz 进行8bit量化时 所得数据速率为64kb s 即一个数字电话 PCM标准G 711 1972年CCITT为电话质量和语音压缩制定 其速率为64Kb s 使用非线性量化技术 主要用于公共电话网中 ADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术 CCITT为此制定了G 721推荐标准 这个标准叫做32kb sADPCM 在此基础上还制定了G 721的扩充推荐标准G 723 使用该标准的编码器的数据率可降低到40kb s和24kb s G 721的输入信号是G 711PCM代码 它的数据率为64kb s 而G 721ADPCM的输出是用4位表示的差分信号 它的采样率仍然是8kHz 它的数据率为32kb s 这样就获得了2 1的数据压缩 2 调幅广播质量的音频压缩编码技术标准频率在50Hz一7kHz范围 G 722标准是采用16kHz采样 14bit量化 信号数据速率为224kbit s 224kbit s可以被压缩成64kbit s 采用子带编码方法 将输入音频信号经滤波器分成高子带和低子带两个部分 分别进行ADPCM编码 再混合形成输出码流 224kbit s可以被压缩成64kbit s 最后进行数据插入 最高插入速率达16kbit s 因此利用G 722标准可以在窄带综合服务数据网N ISDN中的一个B信道上传送调幅广播质量的音频信号 3 高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz 20kHz 采用44 1kHz采样频率 16bit量化进行数字化转换 其数据速率每声道达705kbit s 采样频率为48kHz 44 1kHz 32kHzMPEG音频压缩技术的数据速率为每声道32 448kbit s 适合于CD DA光盘应用 目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频 MPEG 1和MPEG 2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性 而是利用人的听觉系统的特性来达到压缩声音数据的目的 这种压缩编码称为感知声音编码 perceptualaudiocoding 4 2 1G 7XX系列音频信号压缩编码标准 G 711 64kbps信道上的语音频率脉冲编码调制 PCM G 721 32kbit s自适应差分脉冲编码调制 ADPCM G 722 64kbit s下的7kHz音频编码G 722 1 带有低帧损耗的具有免提操作的系统在24kbit s和32kbit s上的编码G 722 2 利用自适应多频率宽带 AMR WB 以16kbit s多频率语音编码 G 723 G 723是一种以24Kbps运行的基于ADPCM的有损耗压缩标准 其音质不如非压缩的G 711PCM标准以及基于SB ADPCM的G 722标准 G 723 1和G 723 2用于H 324标准 G 726 40 32 24 16kbit s自适应差分脉冲编码调制ADPCMG 727 5 4 3 和2 bit s嵌入式自适应差分脉冲编码调制ADPCMG 728 利用低延迟代码线性预测以16bit s进行语音编码G 729 利用共扼结构 代数激励编码线性预测 CS ACELP 以8bit s进行语音编码 4 2 2MPEG X系列音频信号压缩标准 MPEG 1制定于1992年 为工业级标准而设计 它处理音频时 具有CD 指激光唱盘 音质 质量级别基本与VHS相当 MPEG 1是针对整个音频范围的声音进行编码 采样频率为48kHz 采样精度为16位的立体声数据压缩到256b s时 即在6 1的压缩率下 即使是专业测试员 也难以分辨出是解压声音还是原始声音 4 2 2MPEG X系列音频信号压缩标准 MPEG 2制定于1994年 设计目标是高级工业标准的图象质量以及更高的传输率 MPEG 2可提供CD级的音质 MPEG 2的音频编码可提供左右中及两个环绕声道 以及一个加重低音声道 和多达7个伴音声道 DVD可有8种语言配音的原因 由于MPEG 2在设计时的巧妙处理 使得大多数MPEG 2解码器也可播放MPEG 1格式的数据 如VCD 4 2 2MPEG X系列音频信号压缩标准 两种声音数据压缩格式 1 MPEG 2Audio 或者称为MPEG 2多声道 Multichannel 声音 又称为MPEG 2BC BackwardCompatible 后向兼容 与MPEG 1Audio是兼容的 2 MPEG 2AAC AdvancedAudioCoding 先进的音频编码 通常称为非后向兼容MPEG 2NBC Non Backward Compatible 非后向兼容 标准 与MPEG 1声音格式不兼容 MPEG 4音频编码 1996年11月在Maceio举行的MPEG第37次会议正式确定的MPEG 2先进音频编码AAC AdvancedAudioCoding 已被作为目前正在制定的MPEG 4音频标准的一部分 1996年3月在意大利Florence举行的MPEG第34次会议上给出了MPEG 4音频验证模型VM的第一个完整描述 通过大量的核心实验 CoreExperiment 音频验证模型得到了迅速的发展 1996年11月就公布了第一个MPEG 4的音频工作草案 在MPEG第40次会议上 结构音频SA StructuredAudio 和文语转换TTS TexttoSpeech 被加到MPEG 4音频标准中 作为合成的音频编码部分 1997年11月在Fribourg举行的MPEG第41次会议公布了音频标准的最终标准草案 FinalDraftInternationalStandard 内容与正式标准基本相同 1999年1月公布正式标准版本12000年1月公布标准的版本2 4 2 2MPEG X系列音频信号压缩标准 4 2 2MPEG X系列音频信号压缩标准 MPEG 4音频标准 ISO IEC14496 3 分为自然音频编码和合成音频编码两大类 MPEG 4 ISO IEC14496 已建立了两个版本 正在开发第3版 MPEG 4音频部分促进广泛的应用 这些应用可能包括从智能语音到高质量多声道音频 从自然声音到合成声音 特别是 它支持由下述成分组成的音频对象的高效表示 语音信号 合成语音 它允许一个文本或带有韵律参数的文本 基音轮廓 音素持续期等等 作为输入产生可理解的合成语音 4 3G 7XX声音压缩编码 G 711声音压缩编码G 722声音压缩编码G 723声音压缩编码G 729声音压缩编码各自的编码方法编 解码器结构及工作原理 4 3 1G 722声音压缩编码 G 722基于子带ADPCM技术 SB ADPCM 它是将现有的带宽分成两个独立的子带信道分别采用差分脉冲编码调制算法 G 722压缩信号的带宽范围为50Hz到7kHz 而G 711仅限于4 4kHz 其比特率为48 56 64Kbps 在标准模式下 采样速率是16KHz 幅度深度为14比特 1 G 722的编码方法 采用子带自适应差分脉冲编码调制技术 SB ADPCM 以上技术的操作方法是 用正交镜像滤波器 QMF 把频带分割成两个等带宽的子带 分别是高频带和低频带 对两个子带中的信号采用ADPCM进行编码 其基本思想是将信号分解为若干子频带内的分量之和 然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率 2 G 722的编 解码器 G 722音频编 解码器结构如下图所示 4 3 2G 723声音压缩编码 G 723是ITU T在1996年制订成型的一种多媒体语音编解码标准 其典型应用包括IP电话服务 H 324视频电话 无线电话 数字卫星系统 数电倍增设备 DCME 公共交换电话网 PSTN ISDN及各种多媒体语音信息产品 G 723标准传输码率有5 3kb s和6 3kb s两种 在编程过程中可随时切换 两种速率的区别在于采用的激励技术不同 该标准主要包含了编码算法和解码算法 G 723声音压缩编码 5 3kb s的编码器采用代数码线预测激励 ACELP 6 3kb s的编码器则采用多脉冲最大似然量化 MP MLQ 激励 编码原理 从采集的语音信号中解析出声道模型参数 构造一个合成滤波器 采用合适的激励源激励 编码传输的参数主要是激励源与合成滤波器的参数 接收端根据传输编码参数 重构出激励源与合成滤波器进行解码 还原出来的数字语音信号经D A转换器转换成模拟语音信号 G 723是基于分析 合成的声音压缩编码标准 参数编码此编码方法又称音源编码 其原理参见下图 下面 首先介绍G 723中的参数编码方法 再由于参数编码方法中语音生成模型里使用的激励信号过于简单而造成话音质量不高的缺点 再介绍一种将波形编码与音源编码混合的编码方法 参数编码原理 通过分析声音的产生机理 建立数学模型 编码时从声音波形信号中提取生成声音的参数 解码时使用这些参数通过声音生成模型 重构出声音 话音生成模型把声音的产生过程看成是由声带振动脉冲激励声道滤波器的结果 话音参数包括 清浊音比例 浊音周期 增益系数 滤波器参数等 根据接收到的话音参数 基于下图中的生成过程进行话音重构 4 3 3GSM编译码器简介 除了ADPCM算法已经得到普遍应用之外 还有一种使用较普遍的波形声音压缩算法叫做GSM算法 GSM是GlobalSystemforMobilecommunications的缩写 可译成全球数字移动通信系统 GSM算法是1992年柏林技术大学根据GSM协议开发的 这个协议是欧洲最流行的数字蜂窝电话通信协议 GSM的输入是帧 frame 数据 一帧 20毫秒 由采样频率为8kHz的带符号的160个样本组成 每个样本为13位或者16位的线性PCM linearPCM 码 GSM编码器可把一帧 160 16位 的数据压缩成260位的GSM帧 压缩后的数据率为1625字节 相当于13kb s 由于260位不是8位的整数倍 因此编码器输出的GSM帧为264位的线性PCM码 采样频率为8kHz 每个样本为16位的未压缩的话音数据率为128kb s 使用GSM压缩后的数据率为 264位 8000样本 秒 160样本 13 2千位 秒GSM的压缩比 128 13 2 9 7 近似于10 1 4 4MPEG X声音压缩编码 由于有必要确定一套通用的视频和音频声音编码方案 ISO IEC标准组织成立了ISO IESJTC1 SC29 WG11 即MPEG 活动图像专家组 该小组负责比较和评估几种低码速率数字声音编码技术 以产生一套国际标准 用于活动图像 相关声音信息及其结合 和用数字存储媒体 DSM 存储与重现 MPEG针对的DSM包括CD ROM DAT 磁光碟和电脑磁盘 MPEGAudio标准是指MPEG 1Audio MPEG 2Audio和MPEG 2AAC MPEG 4Audio和MPEG 7音频框架 与前面章节介绍的波形声音压缩编码 如ADPCM 和参数编码 如LPC 不同 MPEG 1和MPEG 2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性 而是利用人的听觉系统的特性来达到压缩声音数据的目的 这种压缩编码称为感知声音编码 perceptualaudiocoding 进入20世纪80年代之后 尤其最近几年 人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展 先后制定了MPEG 1Audio MPEG 2Audio等标准它们处理10Hz 20000Hz范围里的声音数据 使用 心理声学模型 psychoacousticmodel 来达到压缩声音数据的目的 听阈 频率 曲线 当声音弱到人的耳朵刚刚可以听见时 我们称此时的声音强度为 听阈 听阈是随频率变化的 另一种极端的情况是声音强到使人耳感到疼痛 实验表明 如果频率为1kHz的纯音的声强级达到120dB左右时 人的耳朵就感到疼痛 这个阈值称为 痛阈 1 对响度的感知 4 4 1听觉系统的感知特性 在 听阈 频率 曲线和 痛阈 频率 曲线之间的区域就是人耳的听觉范围 2 对音高的感知客观上用频率来表示声音的音高 其单位是Hz 人耳可以听到的最低频率约20Hz 最高频率约18000Hz 3 掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应 前者称为掩蔽声音 maskingtone 后者称为被掩蔽声音 maskedtone 掩蔽可分成频域掩蔽和时域掩蔽 频域掩蔽 也称同时掩蔽 simultaneousmasking 如图所示 一个声强为60dB 频率为1000Hz的纯音 另外还有一个1100Hz的纯音 前者比后者高18dB 在这种情况下 我们就只能听到1000Hz的强音 要想让2000Hz的纯音也听不到 则需要把它降到比1000Hz的纯音低45dB 一般弱纯音离强纯音越近就越容易被掩蔽 45 临界频带 由于声音频率与掩蔽曲线不是线性关系 为从感知上来统一度量声音频率 引入了 临界频带 criticalband 的概念 人类听觉系统HAS在20Hz到16kHz范围内有24个临界频带 茨维克尔得出的离散的临界宽度表 临界频带的单位叫Bark 巴克 1Bark 一个临界频带的宽度f 频率 500Hz的情况下 1Bark 9 4log f 1000 临界频带是一个主观反映突然发生变化的带宽 也是人耳分割不同频率声音能力的一个基本近似 人耳是以临界频带为单位对声音进行处理的 在一个临界频带内 耳朵的听觉感知特性很类似 很多心理声学特性都是相同的 输入信号在临界频带内 即使加入更大的噪声 人耳也不能察觉出与原信号间的差别 临界频带 心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平 低于这个电平的声音信号就听不到 因此就可以把这部分信号去掉 心理声学模型中的另一个概念是听觉掩饰特性 意思是一种频率的声音阻碍听觉系统感受另一种频率的声音的现象 例如 同时有两种频率的声音存在 一种是1000Hz的声音 另一种是1100Hz的声音 但它的强度比前者低18分贝 因此 1100Hz的声音就会听不到比如在一安静房间里的普通谈话可以听得很清楚 但在播放摇滚乐的环境下同样的普通谈话就听不清楚了 声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数据 以上我们讨论了响度 音高和掩蔽效应 尤其是人的主观感觉 其中掩蔽效应尤为重要 它是心理声学模型的基础 4 4 2MPEG 1声音压缩编码 PCM ADPCM 音源特定编码 这种方法主要是针对话音的编码 300 3400Hz 如果用来编码音乐 质量比较差MPEG 1的声音压缩采用了另一种方法 称为子带编码 sub bandcoding SBC 方法 这也是一种功能很强而且很有效的声音信号编码方法 与音源特定编码法不同 SBC不局限于只对话音进行编码 也不局限于哪一种声源 SBC的基本想法就是在编码过程中保留信号的带宽而扔掉被掩蔽的信号 其结果是编码之后还原的声音 也就是解码或者叫做重构的声音信号与编码之前的声音信号不相同 但人的听觉系统很难感觉到它们之间的差别 MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz 44 1kHz 32kHz的采样 经滤波器组将其分为32个子带 同时利用人耳屏蔽效应 根据音频信号的性质计算各频率分量的人耳屏蔽门限 选择各子带的量化参数 获得高的压缩比 MPEG第三层次是在上述处理后再引入辅助子带 非均匀量化和熵编码技术 再进一步提高压缩比 MPEG 1音频压缩标准 MPEG 1音频层根据压缩质量和编码复杂度分为Layer1 Layer2 Layer3三层 层1的编码器最为简单 编码器的输出数据率为384kb s 主要用于小型数字盒式磁带 digitalcompactcassette DCC 层2的编码器的复杂程度属中等 编码器的输出数据率为256kb s 192kb s 其应用包括数字广播声音 digitalbroadcastaudio DBA 数字音乐 CD I compactdisc interactive 和VCD videocompactdisc 等 层3的编码器最为复杂 编码器的输出数据率为64kb s 主要应用于ISDN上的声音传输 广泛用于INTERNET传播 MPEG 1的声音压缩速率 在尽可能保持CD音质为前提的条件下 MPEG声音标准一般所能达到的压缩率如表所示 MUSICAM MaskingpatternadaptedUniversalSubbandIntegratedCodingAndMultiplexing ASPEC AdaptiveSpectralPerceptualEntropyCodingofhighqualitymusicalsignal MPEG 1音频压缩标准 MPEG 1Audio ISO IEC11172 3 压缩算法是世界上第一个高保真声音数据压缩国际标准 并且得到了极其广泛的应用 虽然MPEG声音标准是MPEG标准的一部分 但它也完全可以独立应用 数据的输入 输出图如下 虽然MPEG声音标准是MPEG标准的一部分 但它也完全可以独立应用 MPEG 1音频压缩标准 MPEG 1Audio的编码对象是20 20kHz的宽带声音 因此它采用了感知子带编码 或叫做子带编码 sub bandcoding SBC 利用子带编码达到既压缩声音数据又尽可能保留声音原有质量的目的 这种方法的具体思想是首先把时域中的声音数据变换到频域中的多个自带当中 对每个子带里的信号分别进行量化和编码 根据心理声学模型确定样本的精度 从而达到压缩数据量的目的 MPEG声音数据压缩的基础是量化 虽然量化会带来失真 但MPEG标准要求量化失真对于人耳来说是感觉不到的 在MPEG标准的制定过程中 MPEG Audio委员会作了大量的主观测试实验 实验表明 采样频率为48kHz 样本精度为16比特的声音数据压缩到256kb s时 即在6 1的压缩率下 即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音 1 MPEG 1编码器 输入声音信号经过一个 时间 频率多相滤波器组 变换到频域里的多个子带中 滤波器组 实现时域到频域的转换 采用多相正交分解滤波器组将数字化的宽带音频信号分成32个子带输入声音信号同时经过 心理声学模型 计算掩蔽特性 该模型计算以频率为自变量的噪声掩蔽阈值 maskingthreshold 查看输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率 量化和编码 部分用信掩比 signal to maskratio SMR 来决定分配给子带信号的量化位数 使量化噪声低于掩蔽阈值 最后通过 数据流帧包装 将量化的子带样本和其他数据按照规定的称为 帧 frame 的格式组装成位数据流 MPEG 1声音压缩编码 MPEG 1音频编码示意图 2 MPEG 1解码器 解码器对位数据流进行解码 恢复被量化的子带样本值以重建声音信号 由于解码器无需心理声学模型 只需拆包 重构子带样本和把它们变换回声音信号 因此解码器比编码器简单得多 3 编码层 MPEG声音压缩定义了3个分明的层次 它们的基本模型是相同的 层1是最基础的 层2和层3都在层1的基础上有所提高 每个后继的层次都有更高的压缩比 但需要更复杂的编码解码器 MPEG声音的每一个层都自含SBC编码器 其中包含 时间 频率多相滤波器组 心理声学模型 计算掩蔽特性 量化和编码 和 数据流帧包装 而高层SBC可使用低层SBC编码的声音数据 MPEG的声音数据分成帧 frame 层1每帧包含384个样本的数据 每帧由32个子带分别输出的12个样本组成 层 即称掩蔽模式通用子带集成编码与多路复用 层2对层1作了一些直观的改进 相当于3个层1的帧 层2和层3每帧有1152个样本 它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性 并且在低 中和高频段对位分配作了一些限制 对位分配 比例因子和量化样本值的编码也更紧凑 由于层2采用了上述措施 因此所需的位数减少了 这样就可以有更多的位用来表示声音数据 音质也比层1更高 典型的码流为每通道128Kbit S 广泛应用于数字音频广播 数字演播室等数字音频专业的制作 交流 存储和传送 层1 2和层3的子带样本 层1 ISO MPEGaudio层1和层2编码器和解码器的结构 层1的子带是频带相等的子带 它的心理声学模型仅使用频域掩蔽特性 层1的 时间 频率多相滤波器组根据信号的频率 强度和音调 输出掩蔽阈值 使用这个阈值与子带中的最大信号进行比较 产生信掩比SMR之后再输入到 量化和编码器 量化和编码器 首先检查每个子带的样本 找出这些样本中的最大的绝对值 然后量化成6比特 这个比特数称为比例因子 scalefactor 量化和编码器 然后根据SMR确定每个子带的比特分配 bitallocation 子带样本按照比特分配进行量化和编码 对被高度掩蔽的子带自然就不需要对它进行编码 每帧都包含 用于同步和记录该帧信息的同步头 长度为32位 用于检查是否有错误的循环冗余码 cyclicredundancycode CRC 长度为16位 用于描述位分配的位分配域 长度为4位 比例因子域 长度为6位 子带样本域 有可能添加的附加数据域 长度未规定 层1的帧结构如图所示 MPEG声音比特流同步头的格式 层2 层2对层1作了一些直观的改进 相当于3个层1的帧 每帧有1152个样本 它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性 并且在低 中和高频段对比特分配作了一些限制 对比特分配 比例因子和量化样本值的编码也更紧凑 由于层2采用了上述措施 因此所需的比特数减少了 这样就可以有更多的比特用来表示声音数据 音质也比层1更高 如图所示 层2使用与层1相同的同步头和CRC结构 但描述比特分配的位数 即比特数 随子带不同而变化 低频段的子带用4比特 中频段的子带用3比特 高频段的子带用2比特 层2比特流中有一个比例因子选择信息 scalefactorselectioninformation SCFSI 域 解码器根据这个域的信息可知道是否需要以及如何共享比例因子 层2比特流数据格式 层3 层3使用比较好的临界频带滤波器 把声音频带分成非等带宽的子带 心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外 还考虑了立体声数据的冗余 并且使用了赫夫曼 Huffman 编码器 层3编码器的详细框图如图所示 ISO MPEGaudio层3编码器和解码器的结构 层3使用了从ASPEC AudioSpectralPerceptualEntropyEncoding 和OCF OptimalCodingInTheFrequencydomain 导出的算法 比层1和层2都要复杂 虽然层3所用的滤波器组与层1和层2所用的滤波器组的结构相同 但是层3还使用了改进离散余弦变换 modifieddiscretecosinetransform MDCT 对层1和层2的滤波器组的不足作了一些补偿 除了使用MDCT外 层3还采用了其他许多改进措施来提高压缩比而不降低音质 虽然层3引入了许多复杂的概念 但是它的计算量并没有比层2增加很多 增加的主要是编码器的复杂度和解码器所需要的存储容量层 是综合于层 和ASPEC 自适应谱分析听觉熵编码 的优点提出的混合压缩技术 MP3的复杂度相对较高 典型码流为64Kbit S 在低码率下有高品质的音质 所以成为网上音源的宠儿 4 4 3MPEG 2声音压缩编码 MPEG 2标准委员会定义了两种声音数据压缩格式 一种称为MPEG 2Audio 或者称为MPEG 2多通道 Multichannel 声音 因为它与MPEG 1Audio是兼容的 所以又称为MPEG 2BC BackwardCompatible 另一种称为MPEG 2AAC AdvancedAudioCoding 因为它与MPEG 1声音格式不兼容 因此通常称为非后向兼容MPEG 2NBC Non Backward Compatible 标准 MPEG2 Audio MPEG 2Audio ISO IEC13818 3 和MPEG 1Audio ISO IEC1117 3 标准都使用相同种类的编译码器 层 1 2和 3的结构也相同 MPEG 2声音标准与MPEG 1标准相比 MPEG 2做了如下扩充 增加了16kHz 22 05kHz和24kHz采样频率 扩展了编码器的输出速率范围 由32 384kb s扩展到8 640kb s 增加了声道数 支持5 1声道和7 1声道的环绕声 此外MPEG 2还支持LinearPCM 线性PCM 和DolbyAC 3 AudioCodeNumber3 编码 MPEG 1和MPEG 2的声音数据规格 MPEG2 Audio MPEG 2音频标准把多声道中的中心声道C 左右环绕Ls Rs及低音效果增强声道LFE等多声道扩展 MC Extension 信息看做是MPEG 1左右声道的辅助数据而传送 它的数据帧结构如下图1所示 而多声道扩展MC部分包含了与MPEG 1声音帧结构相似的信息类型 如下图2所示 图1 图2 5 1环绕声 MPEG 2Audio的 5 1环绕声 也称为 3 2 立体声加LFE 其中的 1 就是指LFE声道 它的含义是播音现场的前面可有3个喇叭声道 左 中 右 后面可有2个环绕声喇叭声道 LFE lowfrequencyeffects 是低频音效的加强声道 7 1声道立体环绕声 加中左 中右 DolbyAC 3 DolbyAC 3支持5个声道 左 中 右 左环绕 右环绕和0 1kHz以下的低音音效声道 声音样本的精度为20比特 每个声道的采样率可以是32kHz 44 1kHz或者48kHz 关于杜比杜比博士1933年生于美国俄勒冈州波特兰市 成长于旧金山湾区 1957年杜比自斯坦福大学毕业 获得英国剑桥大学提供的马歇尔奖学金 研究长波段X光 1961年他获得物理学博士学位 1963年 他接受联合国任命前往印度担任为期两年的顾问 作为一个业余录音爱好者 杜比博士多年以来认识到在磁带上录制音频或视频信号时本底噪声对录制质量的损坏 在印度时他开始认真地思考一种降低噪声而又不损害录制质量的办法 他的这些探索成为将来杜比A降噪 B降噪和C降噪系统的基础 1965年回到英国后 他在伦敦建立了自己的实验室用以实施他在印度时想到的方案 1968年成立了以 杜比实验室 命名的公司 尽管在公司成立的头10年工作的中心在英国 但它一直是一家美国公司 1976年 公司的主要工作挪到了旧金山 MPEG 2AAC MPEG 2AAC是MPEG 2标准中的一种非常灵活的声音感知编码标准 就像所有感知编码一样 MPEG 2AAC主要使用听觉系统的掩蔽特性来减少声音的数据量 并且通过把量化噪声分散到各个子带中 用全局信号把噪声掩蔽掉 AAC支持的采用频率可从8kHz到96kHz AAC编码器的音源可以是单声道的 立体声的和多声道的声音 AAC标准可支持48个主声道 16个低频音效加强通道LFE lowfrequencyeffects 16个配音声道 overdubchannel 或者叫做多语言声道 multilingualchannel 和16个数据流 MPEG 2AAC在压缩比为11 1 即每个声道的数据率为 44 1 16 11 64kb s 而5个声道的总数据率为320kb s的情况下 很难区分还原后的声音与原始声音之间的差别 与MPEG的层2相比 MPEG 2AAC的压缩率可提高1倍 而且质量更高 与MPEG的层3相比 在质量相同的条件下数据率是它的70 4 4 4MPEG 4Audio 标准和功能 整个标准根据编码对象分为 1 自然音频编码2 合成音频编码在自然音频编码方面提供三种编码方案 即参数编码 码本激励线性预测编码和时 频编码 在合成音频编码方面提供了两种编码方案 即结构音频SA structuredaudio 和文语转换TTS text to speech 每个编码方案都按照两部分来组织标准的内容 标准部分描述解码的语法和解码过程 MPEG 4把MPEG 2的高级音频编码 AAC 部分作为工具来实现自然音频信号压缩 支持数据率介于2kb s和64kb s之间的自然声音 为了获得高质量的声音 MPEG 4定义了三种类型的声音编码器分别用于不同类型的声音 它的一般编码方案如图 UMTS universalmobiletelecommunicationsystem 通用移动远程通信系统 1 自然音频 naturalaudio 信号编码 1 参数编码器 parametriccoding 使用声音参数编码技术 对于采样率为8kHz的话音 speech 编码器的输出数据率为2 4kb s 对于采样频率为8kHz或者16kHz的声音 audio 编码器的输出数据率为4 16kb s 2 CELP编码器使用CELP codeexcitedlinearpredictive 技术 编码器的输出数据率在6 24kb s之间 它用于采样频率为8kHz的窄带话音或者采样频率为16kHz的宽带话音 3 T F编码器使用时间 频率 time to frequency T F 技术 这是一种使用矢量量化 vectorquantization VQ 和线性预测的编码器 压缩之后输出的数据率大于16kb s 用于采样频率为8kHz的声音信号 2 合成音频信号的编码 乐器数字接口MIDI文语转换TTS系统合成工具 用来增强音频合成效果和声音的3D环绕 从而能够利用合成的和自然的音频素材来创造人造的音效环境 乐器 模块 可在一定控制下发出各种频率的声音 类似于我们在日常生活中所用的声学乐器 剧本 Script 或乐谱 Score 是用来指挥各种各样的 乐器 和谐地演奏音乐的命令序列 音响处理工具 吸收和处理别的乐器发出的声音以实现回响 混音等功能 从而利用自然声音和电子合成器发出的声音来完成音乐作品的演奏 TTS在多媒体领域的应用越来越广泛 多媒体内容中的文字等信息很容易转换成语音信息TTS可通过与脸部的运动和运动图像相结合 使合成的内容更丰富MPEG 4中提供了TTS与脸部运动和运动图像的接口 也提供了普通的TTS接口MPEG 4所提出的混合多层分级TTS功能被认为是普通TTS的一个超集扩展的TTS除输入文本之外还能利用自然讲话的节奏和音调信息合成高质量的语音MPEG 4能根据不同用户的不同的要求 将TTS用于自然语音编码 也能将运动参数和运动图像结合到TTS中去 音频编码算法和标准一览 4 5语音识别 1概述n语音识别 SpeechRecognition 让机器听懂人说话 机器说话 n语音识别应用 人机交互 n语音打字机 听写机 键盘输入的3 4倍 n电话查询自动应答系统 语音界面 n语音命令的控制系统 释放手脚 n交叉学科 n计算机 通信 语音语言学 数理统计 信号处理 神经生理心理 人工智能等 语音识别系统的分类 n孤立词 连接词 连续语音识别 语音理解 在识别的基础上用语言学知识推断语音含义 n大词汇 中词汇 小词汇语音识别系统 100020 100020 n单个说话人 speaker 识别系统 多个说话人 与说话人无关的系统 特定人与非特定人 语音识别方法 n模版匹配法特定人 小词汇 孤立人识别系统DynamicProgramming DynamicTimeWarpingn随机模型法主流 HMM语音 从一个相对稳定的状态过渡到另一个状态n概率语法分析法区别性特征 语法 语义 语用 规则 知识n基于ANN的方法 基于模糊数学的方法 句法语音识别等 语音识别的发展现状 n从理论到产品走过了50多个春秋 n现有很多实际应用系统 n有可能成为下一代操作系统和应用程序的用户界面 n远没有达到计算机与人类自然交流的终极目标 n实用的语音识别技术研究极具市场价值和挑战 n难于登月 n 规律 每六十个月降一番 n重点 大词汇 非特定人 连续语音识别 语音识别原理 模式匹配原理 未知语音模式与已知语音模式逐一比较 最佳匹配的参考模式作为识别结果 n识别步骤 1 学习训练分析语音特征参数 建立模板库 2 识别测试按照一定的测度和准则与系统模型进行比较 通过判决得出结果 n语音识别本质就是模式识别 语音识别的应用 1 在信息处理领域的应用 1 给计算机发送指令 2 听写系统 3 信息查询 4 网上交谈 2 教育与商务应用 1 语音教学软件 2 电话查询 3 电子商务 3 消费电子产品应用 本章小节 音频信号的基本概念音频信息压缩编码技术标准 1 G 7xx系列音频信号压缩编码标准G7 11 G 722 G 723 G 729 2 MPEG X系列音频信号压缩标准MPEG 1 MPEG 2 课后练习 设对一串音频信号的采样率为8kHz 使用8bit进行量化 其数据率为多少 如果采用44 1kHz进行采样 使用16bit进行量化 数据率又为多少 请分别论述波形编码和参数编码的原理和特点 对比MPEG 1Audio和MPEG 2Audio的编码特性 小结MPEG 2相对于MPEG 1的扩充 MP3压缩技术MP3的全名是MPEGAudioLayer 3 简单地说就是一种声音文件的压缩格式 ISO MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案 按照压缩质量 每Bit的声音效果 和编码方案的复杂程度分别是Layer1 Layer2 Layer3 所有这三层的编码采用的基本结构是相同的 它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论 也就是通过研究人耳和大脑听觉神经对音频失真的敏感度 在编码时先分析声音文件的波形 利用滤波器找出噪音电平 NoiseLevel 然后滤去人耳不敏感的信号 通过矩阵量化的方式将余下的数据每一位打散排列 最后编码形成MPEG的文件 而音质听起来与CD相差不大 MP3 MP4简介 MP4压缩技术MP4并不是MPEG 4或者MPEG 1Layer4 它的出现是针对MP3的大众化 无版权的一种保护格式 由美国网络技术公司开发 美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式 MP4使用的是MPEG 2AAC技术也就是俗称的a2b或AAC AAC与MP3相比 增加了诸如对立体声的完美再现 比特流效果音扫描 多媒体控制 降噪优异等MP3没有的特性 使得在音频压缩后仍能完美的再现CD音质 AAC技术主要由以下三个部分组成 第一 AT T的音频压缩技术专利 它可以将AAC压缩比提高到20 1而不损失音质 这样 一首3分钟的歌仅仅需要2 25MB 这在互联网上的下载速度是很惊人的 第二 安全数据库 它可以为你的AACMusic创建一个特定的密钥 将此密钥存于其数据库中 同时 只有AAC的播放器才能播放含有这种密钥 第三 协议认证 这个认证包含了复制许可 允许复制副本数目 歌曲总时间 歌曲可以播放时间以及售卖许可等信息 MP4技术的优越性要远远高于MP3 因为它更适合多媒体技术的发展以及视听欣赏的需求 但是 MP4是一种商品 它利用改良后的MPEG 2AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准 而MP3是一种自由音乐格式 任何人都可以自由使用 此外 MP4实际上是由音乐出版界联合授意的官方标准 MP3则是广为流传的民间标准 相比之下 MP3的灵活和自由度要远远大于MP4 这使得音乐发烧友们更倾向于使用MP3 更重要的一点是 MP3是目前最为流行的一种音乐格式
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!