信源编码数据压缩课程课后题与答案第四章.doc

上传人:s****u 文档编号:12812755 上传时间:2020-05-26 格式:DOC 页数:15 大小:746.57KB
返回 下载 相关 举报
信源编码数据压缩课程课后题与答案第四章.doc_第1页
第1页 / 共15页
信源编码数据压缩课程课后题与答案第四章.doc_第2页
第2页 / 共15页
信源编码数据压缩课程课后题与答案第四章.doc_第3页
第3页 / 共15页
点击查看更多>>
资源描述
信源编码Assignment of CH41、详细解释下面概念:(a)绝对掩蔽门限;图1.听觉区域图图1是人类的听觉区域图,横坐标表示声音的频率,从20Hz到20000Hz;纵坐标代表音量的大小,单位是dB。图中被Threshold of Hearing和Threshold of Feeling两条曲线所围成的部分就是人耳能够听到的声音区域。在Threshold of Feeling之上的声音,人耳已经不能承受;在Threshold of Hearing之下的声音,人耳感知不到。而最下面这条曲线,就是绝对掩蔽门限,代表了某一频率的纯音,人耳能够感知到的最小的dB。(b)临界频带;临界频带称为Critical Bandwidth,当噪声掩蔽纯音时,起作用的是以纯音频率为中心频率的一定频带宽度内的噪声频率。如这频带内的噪声功率等于在噪声中刚能听到的该纯音的功率,则这频带就称为听觉临界频带。临界频带表征了人类最主要的听觉特性,它是在研究纯音对窄带噪声掩蔽量的规律时被发现的,在加宽噪声带宽时,最初是掩蔽量增大,但带宽超过某一定值后,掩蔽量就不再增加,这一带宽就称为临界频带。(c)听觉门限;由掩蔽效应产生的各种掩蔽门限叠加在绝对掩蔽门限后的掩蔽门限,成为听觉门限。即一段音频中各个频率处人耳能够感知到的最小音量。图2.掩蔽效应叠加在绝对掩蔽门限由图看出,在频率为1000Hz附近,有一个接近80dB的大信号掩蔽掉了附近频率处的小信号,产生了新的掩蔽门限(蓝色线处),于是人耳能感知到的声音响度在该频率附近发生了变化,不在是绝对掩蔽门限了。叠加后的门限曲线就被称为听觉门限。(d)掩蔽效应。听觉中的掩蔽效可以指人的耳朵只对最明显的声音反应敏感,而对于不明显的声音,反应则较不为敏感,前者称为掩蔽音,后者称为被掩蔽声。其主要可以分为两大类:时域掩蔽效应和频域掩蔽效应。图3.听觉掩蔽效应一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽。如,一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个1000Hz的强音。除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽和滞后掩蔽,产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约520ms,而滞后掩蔽可以持续50200ms。2、详细说明:(a)什么是心理声学模型,它的输入和输出分别是什么?在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。心理声学模型是对人听感的统计性质的数学表述模型,它解释人各种听感的生理原理。心理声学模型可以在主观听感劣化不多的条件下,大大降低数字音频信号传输的带宽。它主要基于人的听觉器官的生理结构和感知模式,通过对数字音频信号的相应处理,去除不可闻的信号成分及引入不可闻的畸变,达到普通熵编码无法达到的压缩比率。它的输入是音频原始样本数据,输出是听觉掩蔽门限或者信号掩蔽比(SMR)。(b)心理声学模型在音频编码中的作用?心理声学模型在音频编码中的作用主要是基于其模仿人类听觉器官原理和感知模式的前提下,指导人们进行音频信号编码的思路和方向。它通过对原始音频样本数据进行分析,计算语音的掩蔽门限,并根据掩蔽门限控制量化编码,除不可闻的信号成分及引入不可闻的畸变,尽可能地减少数据量,达到普通熵编码无法达到的压缩比率。3、(a)MPEG-1音频编码分几层,各层在编码效率、算法复杂度和算法延迟上有和区别?MPEG-1音频编码共有三层,分别为MPEG-1 Layer1、MPEG-1 Layer2和MPEG-1 Layer3,高层兼容低层。其中第三层协议简称MP3。MPEG-1 Layer1采用每声道192kbit/s,每帧384个样本,32个等宽子带,固定分割数据块。子带编码用DCT离散余弦变换和FFT快速傅立叶变换计算子带信号量化比特数。采用基于频域掩蔽效应的心理声学模型,使量化噪声低于掩蔽值。量化采用带死区的线性量化器,主要用于数字盒式磁带。MPEG-1 Layer2采用每声道128kbit/s,每帧1152个样本,32个子带,属不同的分帧方式。采用共同频域和时域掩蔽效应的心理声学模型,并对高、中、低频段的比特分配进行限制,并对比特分配、比例因子,取样进行附加编码。Layer2 广泛用于数字电视,CD-ROM,CD-I和VCD等。MPEG-1 Layer3采用每声道64kbit/s,用混合滤波器组提高频率分辨率,按信号分辨率分成632或1832个子带,克服平均32个子带的Layer1,Layer2在中低频段分辨率偏低的缺点。采用心理声学模型2,增设不均匀量化器,量化值进行熵编码。主要用于ISDN综合业务数字网音频编码。由此看出,MPEG-1 Layer1的编码效率较低,算法复杂度低,算法延迟低;MPEG-1 Layer2的编码效率比前者强,算法复杂度也高于前者,延迟亦高;MPEG-1 Layer3的编码效率最高,算法复杂度也最高,延迟最高。(b)画出mp3音频编码编解码算法框图,并详细说明其工作原理。图4.mp3编码框图图5.mp3解码框图从整体来看,MP3编码算法流程刻大致分为混合滤波器组(包括子带滤波器组和 MDCT),心理声学模型,量化编码(包括比特和比例因子分配和哈夫曼编码)等三大功能模块,计算都十分复杂,实现MP3编码的关键也在于这三个功能模块。混合滤波器组这部分包括子带滤波器组和MDCT两部分。子带滤波器组编码完成样本信号从时域到频域的映射,并将规定的音频信号通过带通滤波器组分解成32个子带输出。子带滤波器组输出的32个子带时等带宽的,而由心理声学模型得出的临界带宽则不是等带宽的,所以为了使得进行编码的各个比例因子带与临界频带相匹配,需要对每个子带信号做MDCT变换。将子带滤波器组的输出送到MDCT滤波器组后,每组将细分为18条频线,共产生576条频线。然后利用心理声学模型中计算出来的子带信号的信掩比,决定分配给576条谱线的比特数。 心理声学模型利用了人耳听觉系统的遮蔽效应特性,移除大量的不相关信号,从而达到压缩音频数据的效果。为了精确地计算遮蔽阈值,要求信号有更好的频域解析度,因此在使用心理声学模型前先对信号进行傅立叶变换。MPEGI提供了两种心理声学模型,第一种模型计算简单,在高比特率编码时提供适当精度,第二种模型比较复杂,一般在较低比特率编码时使用。MP3编码中一般使用心理声学模型二。心理声学模型的目的就是求出各个子带的掩蔽域值,并以此控制量化过程。心理声学模型实现过程一般是先用FFT求出信号的频谱特性,根据频谱特性找出各频率点上的音调成分(有些称为音乐成分)和非音调成分(或称噪音成分);根据掩蔽域曲线确定各个音调成分和非音调成分在其它频率点的掩蔽域值;最后求出各频率点的总体掩蔽域,并折算到编码子带中。对于子带滤波器组输出的谱值量化后产生的噪声,如果能够被控制在掩蔽域值以下,则最终的压缩数据被解码后的结果与原始信号可以不加区分。一个给定信号的掩蔽能力取决于它的频率和响度,所以心理声学模型的最终输出是信掩SMR,即信号强度与掩蔽阈值的比率。量化编码使用一个三层迭代循环模型来实现比特分配和量化。这三层包括:帧循环,外层循环和内层循环。帧循环复位所有的迭代变量,计算能够提供给每节数据的最大比特数,然后调用外层迭代模型;外层迭代模型首先使用内层迭代模型,内层迭代模型对输入矢量进行量化,通过递增量化步长使量化输出能够在一定的比特位数限制之内被编码。哈夫曼编码对量化的最大值有限制,所以需要判断所有的量化值是否超过限制,如果超过限制,则内层迭代循环需要递增量化步长,重新量化。然后确定哈夫曼编码的位数,使其所占的比特数小于由帧循环计算出的每节编码所能提供的最大比特数,否则也要增加量化步长重新量化。当量化满足要求后,存储最终的比例因子数值,跳出外层循环,并在帧循环中计算存储每节数据所用的比特位数。在MP3编码中,输入的数字音频信号即PCM采样信号进入子带滤波器组后,被分成32个子带信号, MDCT(改进离散余弦变换)把子带的输出在频域里进一步地细分成18个频线,产生576个频线。然后利用心理声学模型计算出子带信号的信掩比,根据这些信掩比决定分配给576 个频线的比特数,分别对他们进行比特分配和可变步长量化。量化后的样值再经过无失真的哈夫曼编码,以提高编码效率,并与比特分配和量化产生的边信息一起组成一帧数据。MP3编码的一帧数据包括两个组,每组有576个频线和与他们相关的边信息,边信息被存储在每一帧的帧头中。解码端,即是对编码过程的逆过程,对这样一帧一帧组成的比特流,MP3解码器可以独立的进行解码,而不需要额外的信息了。4、(a)什么是预回声(pre-echo)?图6.预回声现象音频信号中会出现这样的情况:一段较低的声音之后突然出现了高音部分,特别多见于敲打乐器的音频序列中,具有突发和幅度大的特点,这样的信号称为暂态信号。在后期对其进行MDCT时频变换的时候如果不特殊处理,会产生较大的量化误差,再经过反变换量化误差就会扩散到时域范围,产生噪声,如果这个时候前掩蔽效应不能遮蔽,这种噪声就会被人耳感知,由此产生了预回声现象。如下图所示:一段原始的音频信号,图(a)中所示里面含有大量的暂态信号,按照一般的编码流程之后再经过解码,解码出来的音频信号如图(b)所示,可以清晰的看出在图(b)重建原音频信号中原本静音的地方出现了部分噪声,这就是量化之后噪声在时域扩散所引起的,也就是预回声现象。(b)音频编码中为何要进行预回声处理?由上一题可得知,产生这种预回声现象的原因是音频编码在频域进行,时域中采用块加窗处理,如果时间窗选择的不合适,也就是对信号分析时的时间分辨率不足就会造成预回声的产生。而这种现象如果没有处理得当,最后重建信号时,人耳是可以分辨出来的。所以如何避免这种现象的产生或者产生之后进行及时的弥补显得尤为重要。(c)MP3和AAC等音频编码算法中是如何进行预回声处理的?为了防止人耳可感知预回声现象,一方面可以从其产生的原因方面入手解决,可以通过合理的分配编码比特减少量化产生的噪声,另一方面可以从产生的结果方面入手解决,如果已经产生了量化噪声,那么采取措施例如对其进行时域整形,充分利用前面介绍的声音掩蔽特性等,使得量化噪声控制在人耳可感知的听觉阈值以下。目前几种主流的音频标准中采用不同的方法用于防止产生预回声。(1)增益控制技术 这种技术是在音频信号进行时频变换前就对其进行增益控制,使得声音中的暂态信号或者突发信号的幅度变小,信号整体趋于平坦,这样可以有效的减少预回声现象。当然需要将这个增益传输给解码端,当解码之后的音频再通过逆增益恢复到原来的幅度。我国制定的AVS音频编码标准中就采用了这项技术,其具体做法是对输入的PCM音频信号中的暂态信号在编码前就进行时域增益控制,整段暂态信号都乘以一个比例因子A,这样所有的信号的幅度值都按照比例统一的减少了,就不需要在变换时对暂态信号和平稳信号不同处理了,统一进行编码即可。在解码端,需要对解码之后的信号乘以1/A,比例因子的倒数就可以恢复原来的音频信号。(2)长短窗型切换技术 这种技术充分利用了声音的时域掩蔽效应,使得信号时域分辨率提高了进而抑制了预回声的产生。当出现暂态信号时,采用短变换窗可以保证量化噪声限制在较短的时间范围内,不会扩散到变换窗之外,这样可以利用人耳的前向掩蔽特性,使得人耳感觉不到。如果是平稳信号,就选择长窗来提高频域分辨率,进一步提高编码效率。例如在MPEG-1第三层的音频标准中就采用了这种技术。MP3 编码标准采用子带编码技术,将时域信号划分为均匀的32个子带信号后再对其进行MDCT变换。MP3标准提供了四种窗型可供选择:起始窗、短窗、正常窗、和终止窗。其中长窗共有36点,而最短的短窗只有12点。窗型如下图所示:图7.MP3标准中的四种窗型上述四种窗型的转换条件如下图所示:图8.MP3标准中窗型转换图由上图可以看出在不同条件下采用不同的窗型进行变换。当信号平稳时采用正常窗进行变换,当由平稳信号到出现暂态信号时就用起始窗进行过渡,暂态信号用短窗进行变换,当由暂态信号到出现平稳信号时就用终止窗进行过渡,平稳信号用正常窗进行变换。这种多窗切换技术充分地衡量了编码效率和编码质量。当出现暂态信号使用短窗进行变换的时候以增加算法的复杂度换取编码质量。当出现平稳信号时使用正常窗进行变换以提高编码效率。(3)瞬时噪声整形技术TNS(Temporary Noise Shaping)这种技术根据输入信号的时域特点,提高预测增益,控制由暂态信号等产生得量化噪声的瞬时形状,只需要编码预测残差,从而解决掩蔽阈值和量化噪声的错误匹配的问题。由于时域和频域具有对偶性的特点,在频域上对频谱数据进行预测而在编码解码器输出端可以调节量化误差的时域形状以适应输入信号的时域形状。这样可以有效地把量化误差置于实际信号之下,并且可以利用暂态信号或冲击信号的掩蔽效应使得噪声不为人耳所感知。它可以有效地减少信号帧内和帧间的冗余度。MPEG-2 AAC音频编码标准采用了这种技术,有效的控制了预回声现象。(4)比特池技术这项技术是从预回声产生的原因方面入手,尽可能的减少量化误差,这样就需要更多的比特数来编码。目前多种音频标准中都采用了这种技术,在音频编码时每一帧所使用的实际比特数不是固定的,而编码码率一定的情况下,有的音频帧编码时就会节省下来一部分比特,将这部分比特放到比特池中,其实就是存储起来,当其他音频帧出现例如暂态信号有量化误差时可以使用它们,提高了量化精度,有效的抑制了预回声现象的产生。5、查阅资料,综述目前ITU-T、MPEG、AVS等组织音频编码算法进展情况。音频编码标准主要由ISO的MPEG组来完成。MPEG-1是世界上第一个高保真音频数据压缩标准,其最出名的当属MP3格式。MPEG-1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG-2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG-2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG-2规定了两种音频压缩编码算法,一种称为MPEG-2后向兼容多声道音频编码标准,简称MPEG-2BC;另一种是称为高级音频编码标准,简称MPEG-2AAC,因为它与MPEG-1不兼容,也称MPEG NBC。MPEG-4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG-4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG-4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。其中AAC高级音频编码就是一种由MPEG-4标准定义的有损音频压缩格式,由Fraunhofer发展,Dolby, Sony和AT&T是主要的贡献者。在使用MP4作为各种内容的容器格式的新多媒体MPEG-4标准中,它是MPEG Layer III / MP3的天然后继者。AAC能够在一条音轨中包括48条全带宽(直到96khz)音频声道,加上15条低频增强(LFE Low Frequency Enhanced,到120Hz)声道,直到15条数据流并且更多。在MPEG-4之后,MPEG也推出了一系列音视频编码标准,如下:标准缩写标题名称ISO/IEC标准发布时间MPEG-7多媒体内容描述界面ISO / IEC 159382002年MPEG-21多媒体框架ISO / IEC 210002001年MPEG-A多媒体应用格式ISO / IEC 230002007年MPEG-BMPEG系统技术ISO / IEC 230012006年MPEG-CMPEG视频技术ISO / IEC 230022006年MPEG-DMPEG音频技术ISO / IEC 230032007年MPEG-E多媒体中间件ISO / IEC 230042007年MPEG-G基因组信息表示ISO / IEC 230922019年MPEG-V媒体背景和控制ISO / IEC 230052011年MPEG-MMPEG可扩展中间件(MXM)ISO / IEC 230062010年MPEG-U媒体用户界面ISO / IEC 230072010年MPEG-H异构环境中的高效编码和媒体传输ISO / IEC 230082013年MPEG-DASH信息技术-DASHISO / IEC 230092012年这其中如MPEG-D,它是一组音频编码标准,自2007年发布,由四部分组成:第1部分:空间音频编码第2部分:空间音频对象编码(SAOC)第3部分:统一语音和音频编码第4部分:动态范围控制第一部分空间音频编码(SAC)是用于环绕声的有损耗压缩格式,其提供了以向后兼容的方式将单声道或立体声音频服务扩展到多声道音频的方法。MPEG-D添加侧信息流,包含空间图像数据,传统的立体声播放系统将忽略这个侧面信息,而支持MPEG环绕声解码的播放器将输出重建的多声道音频。再如MPEG-H,它是一组在2013年发布的电视音频系统标准。作为近年来来备受瞩目的电视音频系统,由Fraunhofer IIS主要开发的MPEG-H电视音频系统已经被纳入ATSC、DVB等诸多国际音频标准。2017年5月,MPEG-H已被正式批准为ATSC 3.0数字电视官方音频标准,而基于ATSC 3.0标准的MPEG-H电视音频系统已被韩国采用,成为其UHDTV服务中的音频编解码器,成为全球首个成功应用下一代音频编解码器服务的案例。同时,MPEG-H也已经成功集成于DVB标准的UHD-1第二阶段框架中。DVB UHD第一阶段标准化工作起始于2014年,当时定义了一个更高的分辨率。也就是说(对比高清的分辨率)DVB UHD采用一个两倍的像素行,从1080到2160以及两倍的像素列,即从1920到3840(4K分辨率)。标准化进程的第二阶段大量的工作集中在电视音频视频质量的提升上。除了MPEG-H技术,还包括带来更好的对比度的高动态范阳(HDR)技术以及能够带来更加清晰的移动对象图像,超过目前为止通常采用的50或60 Hz的高帧率(HFR)技术。ITU-T同样制定了大量的国际标准,如 H.323、H.320 系列;H.261、H.263 和 H.264 视频编码标准;G.711、G.728、G.729、G.722、G.723 等音频标准。这些标准 在电信领域获得了广泛的应用。语音频方面的标准在 PSTN、ISDN、VoIP 等话音业务中的应用极其普及,具有很高的影响力。随着语音频编码技术的迅速发展和CPU/DSP/ASIC处理能力的不断提升,编码标准不断向宽带化、超宽带、甚至全带化发展,编码器日益强大,对于IP等QoS不能保证的网络,其适应性也不断增强。从仅仅能够服务于语音业务发展到可以将包括音乐在内的多种音频信号很好编码,从而可以支持丰富多彩的多媒体业务。其中G.726是ITU-T1990年在G.721和G.723标准的基础上提出的关于把64kbps非线性PCM信号转换为40kbps、32kbps、24kbps、16kbps的ADPCM信号的标准。G.726标准算法简单,语音质量高,多次转换后语音质量有保证,能够在低比特率上达到网络等级的话音质量。G.726最为常用的方式是32kbit/s,由于只是G.711速率的一半,所以就将网络的可利用空间增加了一倍。 G.727标准:ITU-T于1990年通过了镶嵌式ADPCM标准G.727,其码率为1640kbit/s,G.727定义了当原信号是脉冲率为64kbit/s脉冲编码调制信号(从在G.711中具体规定的语音频率模拟信号转变而来)。 G.728标准:为了进一步降低语音压缩的码率,1991年ITU-T制定了G.728标准,使用基于短延时码本激励线性预测算法,通过对语音信号的分析,提取CELP模型的参数,在解码端,这些参数用于恢复激励信号和综合滤波器的参数。其码率为16kbit/s,其质量与32kbit/s的G.721标准相当。G.728标准的语音编码的主要特点有算法时延短,仅为0.625ms;编码时延小2ms;传输比特率为16kbit/s;MOS值为4.173,达到了长途通信质量。G.723.1标准:随着互联网技术的快速发展和多媒体通信业务的飞速增长,ITU-T对8kbit/s以下的高质量语音编码方案给予了极大关注。由ITU-T的第15小组1995年提出的G.723.1标准是极低速率多媒体通信标准系列H.324中的有关语音编码的一个标准。G.723.1编码器采用了线性预测分析合成的技术,对8kHz取样的16bit精度的PCM数字音频进行处理,以尽量减少实际语音与合成语音之间经听觉加权后的差分信号的能量为准则来进行编码的。在G.723.1标准中提供了两种可选速率,分别为5.27kbit/s和6.3kbit/s。和同样速率的其他语音编码器相比,这两种编码器都具有较高的语音质量,较低的编码时延(3040ms)。高速率提供更好的重建语音质量,低速率的算法计算量低,给系统设计者提供了更多的灵活性。 G.729标准:G.729标准是国际电联电信标准部门第十五研究组(SG15)在19931996年期间在语音编码方面取得的最大标准化成果。G.729协议定义了8kbit/s码率的共扼结构代数码本激励线性预测(CS-ACELP)语音编解码算法。模拟信号经过电话带宽滤波,以8kHz采样,再转换为16bit PCM码,送入编码器编码,输出比特流参数,解码器对比特流参数解码,以同样方式转换为模拟信号。其他格式的信号都要预先化为16bit PCM码,解码后再转换回来。G.729标准主要应用有:个人移动通信、低C/N数字卫星系统(包括陆地移动卫星通信、海事卫星通信、一般航空卫星通信等)、高质量数字移动无线通信DOME、存储/检索以及分组语音和数字租用信道等。由于G.729编解码器具有很高的语音质量和很低的延时,被广泛地应用在数据通信的各个领域,如VoIP和H.323网上多媒体通信系统等。G.729协议应用广泛,它学习简单,易于上手操作,许多语音通信系统皆有使用。后来ITU-T推出了一系列G.729的扩展标准,比如:G.729A、G.729B、G.729AB等等。而G.729A是ITU最新推出的语音编码标准G.729的简化版本。G.729.1是一个8-32 kbit/s嵌入式语音和音频编解码器,可以与G.729、G.729A和G.729B进行比特流的互操作,其官方名称是基于G.729的嵌入式可变比特率编解码器。该编解码器旨在提供比现有G.729语音编码标准更好的话音质量和更高的灵活性。G.729.1在比特率、声学、带宽和复杂性方面都具有可扩展性。此外,它还提供各种编码器和解码器模式,包括支持8和16 kHz输入/输出采样频率,与G.729B兼容,但算法延迟更低。G.729.1的比特流结构有12个分层。8 kbit / s的第一层(核心层)遵循G.729的格式。第二层(增加了4 kbit / s,总共12 kbit / s)是窄带增强层。第三层(又增加2kbit / s,总共14kbit / s)是带宽扩展层。其他层是宽带增强层。G.729.1输出带宽在8和12 kbit / s时为50-4000 Hz,在14至32 kbit / s时为50-7000 Hz。G.729.1也称为G.729 J或G.729EV,其中EV代表嵌入变量(比特率)。关于中国自主的音视频标准机构,数字音视频编解码技术标准工作组(简称AVS工作组),由国家原信息产业部科学技术司于2002年6月批准成立。工作组的任务是:面向我国的信息产业需求,联合国内企业和科研机构,制(修)订数字音视频的压缩、解压缩、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用。自AVS工作组2002年成立以来,至今,已制订了两代AVS标准。第一代AVS标准包括国家标准信息技术 先进音视频编码 第2部分:视频(简称AVS1,国标号:GBT 20090.2-2006)和信息技术 先进音视频编码 第16部分:广播电视视频(简称AVS+,国标号:GB/T 20090.16-2016)。AVS+的压缩效率与国际同类标准H.264/AVC最高档次(High Profile)相当。目前已经有上千套AVS+的高清内容上星播出(详见AVS+上星节目表)。第二代AVS标准,简称AVS2,首要应用目标是超高清晰度视频,支持超高分辨率(4K以上)、高动态范围视频的高效压缩。2016年5月,AVS2被国家新闻出版广电总局颁布为广电行业标准高效音视频编码 第1部分:视频(行标号:GY/T 299.1-2016)。2016年12月,AVS2被国家质检总局和国家标准委颁布为国家标准信息技术 高效多媒体编码 第2部分:视频(国标号: GB/T 33475.2-2016)。同时提交了IEEE国际标准(标准号:IEEE1857.4)申请。国家广播电影电视总局广播电视计量检测中心的测试结果表明:AVS2的压缩效率比上一代标准AVS+和H.264/AVC提高了一倍,超过国际同类型标准HEVC/H.265。AVS2还支持:三维视频、多视角和虚拟现实视频的高效编码;立体声、多声道音频的高效有损及无损编码;监控视频的高效编码;面向三网融合的新型媒体服务 。AVS2产业应用在:(1)超高清晰度视频广播国家新闻出版广电总局和工业和信息化部“AVS技术应用联合推进工作组”已经确定AVS2首先应用于OTT超高清视频服务,2017年进行超高清电视广播试验,2018年用于“世界杯”超高清转播。(2)互联网图像与视频在中国网络电视台(CNTV)的统一组织下,AVS2网络电视直播解决方案已在CNTV的CDN和P2P直播平台上完成搭建和测试,并在里约奥运会开始前正式上线,对部分奥运赛事进行了网络直播。腾讯音视频实验室基于AVS2内核自主研发了一种新的图片编码格式TPG,大大提高了图片的压缩率。(3)虚拟现实(VR)和3D视频AVS工作组在国际音视频产业论坛暨AVS标准15周年年会宣布我国将制定虚拟现实(VR)系列国家标准和国际标准,同时启动有关人工智能相关标准的研究和制定工作。(4)视频监控AVS2针对监控视频设计了场景编码模式,压缩效率比HEVC/H.265高出一倍,将带来巨大的产业价值。参加标准制定的不少企业已经或正在实施开发AVS2产品,例如:深圳海思的AVS2解码芯片;北京博雅华录得AVS2编码芯片;数码视讯、柯维新和上海国茂等企业的广播级AVS2超高清实时编码器,这些产品正在逐步推向市场。未来将有更多AVS2产品推出,例如AVS的编解码器、AVS2编转码器、AVS2终端设备、AVS2-IPTV设备、AVS2视频监控设备、AVS2编辑制作设备和系统、AVS2测试设备及软件等。AVS2音频标准立足提供完整的高清三维视听技术方案,与第二代AVS视频编码(AVS2视频)配套,是更适合超高清、3D等新一代视听系统需要的高质量、高效率音频编解码标准。该标准具有技术先进、内容全面、系统整合度高、适应面广、使用灵活等特点。将应用于全景声电影、超高清电视、互联网宽带音视频业务等多个领域。AVS2是我国音视频产业跨越发展乃至主导国际市场的重要机遇。AVS2能够以更低的成本支撑我国音视频产业的高速发展,并支持我国音视频监控企业占领和主导国际市场。
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!