2.3-音频编码技术

资源描述

,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版标题样式,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版标题样式,Security Level:,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,Security Level:,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,Security Level:,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,Security Level:,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,HUAWEI TECHNOLOGIES CO., LTD.,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,Page,41,英文标题,:32-35pt,颜色,: R153 G0 B0,内部使用字体,:,FrutigerNext LT Medium,外部使用字体,: Arial,中文标题,:30-32pt,颜色,: R153 G0 B0,字体,:,黑体,英文正文,:20-22pt,子目录,(2-5,级,) :18pt,颜色,:,黑色,内部使用字体,:,FrutigerNext LT Regular,外部使用字体,: Arial,中文正文,:18-20pt,子目录,(2-5,级,):18pt,颜色,:,黑色,字体,:,细黑体,配色参考方案：,建议同一页面内不超过四种颜色，以下是,13,组配色方案，同一页面内只选择一组使用。（仅供参考）,客户或者合作伙伴的标志放在右上角,.,Thank you,音频编码技术,前言,人类从外界获取的信息,20,以上来自听觉，人耳能感知的的声音是一种机械振动波，声波频率在,20,20000HZ,之间。,人们将与声音相应的机械振动转换成电信号，这些电信号就统称为音频信号。,音频是多媒体技术的重要特征之一，是携带信息的重要媒体。,目标,学习完此课程，您将会：,了解音频技术的基础,掌握常用的语音编码算法和比较,了解音频中涉及的相关技术,第,1,章音频技术基础知识,第,2,章常用语音编码比较和应用,第,3,章音频相关技术,内容介绍,内容介绍,第,1,章音频技术基础知识,1.1,音频信号处理过程,1.2,PCM,编码,1.3,其他压缩编码,1.1,音频信号处理过程,音频信号从输入到播放的处理过程如下图所示，主要包括五大步骤。,模拟音频信号输入,采样,/,量化,/,编码,传输,/,存储,解码,播放,PCM,编码,内容介绍,第,1,章音频技术基础知识,1.1,音频信号处理过程,1.2,PCM,编码,1.3,其他压缩编码,1.2 PCM,编码,-,原理,时间,幅度,时间,幅度,抽样,量化,127,-127,0,编码,PCM,脉冲编码调制是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值取整量化，同时将抽样值按一组二进制码来表示抽样脉冲幅值的技术。,主要包括三个过程：抽样、量化、编码。,1.2 PCM,编码,-,优缺点,优点：音质好,缺点：信息量大，冗余度过大,应用,:,CD/DVD/WAV,采样率,:,44.1KHZ,量化位数,:16,bit,声道数,:,双声道,数据速率,:,1411.2 Kbps,内容介绍,第,1,章音频技术基础知识,1.1,音频信号处理过程,1.2 PCM,编码,1.3,其他压缩编码,1.3,其它压缩编码,数字波形文件数据量大，数字音频的编码必须采用高效的数据压缩编码技术，降低码率，压缩依据如下：,数据量大,声音信号存在着数据冗余,人的听觉特性,音频信号的压缩编码方式可分为以下三种：,波形编码（,G.711,G.721,G.722, G.727,）,参数编码,(FED-STD-1015),混合编码（,G.728, G.729,G.723.1,）,本章小结,音频技术基础知识,音频信号处理过程,PCM,编码,其他压缩编码,第,1,章音频技术基础知识,第,2,章常用语音编码比较和应用,第,3,章音频相关技术,内容介绍,内容介绍,第,2,章常用语音编码比较和应用,2.1,常用语音编码算法,2.2,视频会议常用音频技术,2.1,常用语音编码算法,编解码器,采样率,(kHz),声道数,带宽,(kbps),音质,G.711,8,单声道,64,尚好,G.728,8,单声道,16,低,G.722,16,单声道,64,中,G.722.1,16,单声道,24 / 32,中,G.722.1C,32,单声道,24 / 32 / 48,中高,AAC_LD,32 / 48,单、双声道,70115(,单声道,),高,HWA_LD,16 / 32 / 48,单、双声道,32110(,单声道,),高,2.1,编码带宽计算,PCM,的帧频,8KHZ,PCM,的帧周期,1/8KHZ=125,us,每采样点的编码位数,8,bit,单用户的编码带宽,8000HZ*8bit =,64,Kbit/s,Example: G.711,编解码器速率,= 64,kbit/s,如何计算得到编码带宽？,2.1,语音带宽计算,Payload,=,打包周期,(s) x,每秒比特数,= 0.02 x 64000 = 1280 bits,包长度如下：,Ethernet Header,IP Header,UDP Header,RTP Header,Payload,208 bits,160 bits,64,bits,96 bits,1280 bits,Example: G.711,速,率,= 64,kbit/s,，打包,周期,= 20 ms,带宽,=,（,RTP,头,+ UDP,头,+IP,头,+ Ethernet,头,+Payload,）,（,1/,打包周期）,=( 528 /,打包周期,) +RTP,每秒的比特数,语音带宽,=,( 528/20 + 64) Kbit/s=90.4 Kbit/s,时延,带宽,(,音质,),抖动,丢包率,单向时延不超过,150,200ms,平均抖动不应超过,30ms,每个呼叫需要,21,106kb/s,的保证优先带宽,丢包率不超过,1%,2.1,语音质量指标,2.1,带宽和时延比较,以下是几种编码算法的带宽和时延比较：,编码,算法,采样频率,(KHZ),支持音频带宽,输出码率,最低算法延迟,G711,8,300 Hz 3,400 Hz,64 Kbps,1ms,G722,16,50 Hz 7 kHz,64 Kbps,3ms,G722.1,16,50 Hz 7 kHz,24,、,32 Kbps,40ms,G.722.1 C,32,50 Hz14 kHz,24,、,32,、,48Kbps,40ms,G728,8,4kHz,16 Kbps,0.625ms,AAC-LD,48,20 Hz,20kHz,48,64 Kbps,20ms,内容介绍,第,2,章常用语音编码比较和应用,2.1,常用语音编码算法,2.2,视频会议常用音频技,术,2.2,视频会议中音频技术,高保真、低延迟是发展趋势,G.711,带宽要求高,音质尚好,1972,G.722,音质较好,延迟较长,1988,G.728,低,延时编码,音质较差,1992,AAC-LD,高保真,CD,音质,低延时编码,低复杂度编码,2006,2.2 G.711,G.711,是,1972,年由国际电信联盟（,ITU-T,）订定的音频编码方式，又称为,ITU-T G.711,。,输出码率,：,64Kbps,采样率：,8KHZ,优点：语音质量,尚好,缺点：压缩比小,，,占用的带宽较高,应用领域：,voip,，数字,PBX/ISDN,上的数字式电话,2.2 G.722,G.722,是,1988,年由国际电信联盟（,ITU-T,）订定音频编码方式，又称为,ITU-T G.722,，是第一个用于,16KHz,采样率的宽带语音编码算法。,1984,年被,CCITT,定义为标准，而且现今还在使用。,输出码率,：,64Kbps,采样率：,16KHZ,优点,:,延时和误码率低，无专利技术，费用低廉，质量较好,缺点,:,带宽要求高,应用,:,无线通信、,VoIP,生产商、个人通信服务、视频会议应用,2.2 G.722.1,G.722.1,基于,Polycom,的第三代,Siren 7,压缩技术，,1999,年被,ITU-T,批准为,G.722.1,标准。,输出码率,：,24/32Kbps,采样频率：,16KHZ,优点：,大约一半的比特率实现与,G.722,相当的质量,缺点：,算法较复杂，延迟较大,应用领域：,voip,2.2 G.722.1 Annex C,G722.1 Annex C,基于,Polycom,的,Siren 14,压缩技术,采用,32kHz,采样频率，,2005,年中，国际电信联盟（,ITU,）批准,Polycom Siren 14,技术为,14 kHz,超宽带音频编码新标准。同时进入作为,ITU-T,建议的,G.722.1 Annex C,。,输出码率,：,24/32/48Kbps,采样频率：,32KHZ,优点：,低运算，低带宽，高保真质量,缺点：,牺牲高频信息，,Polycom,授权,，极少数产商使用,应用领域：,CD,级高保真语音质量,2.2 G.728,G.728,是,1992,年由国际电信联盟（,ITU-T,）建议的一个压缩原则,16 kbps,的压缩标准，并且有,0.625 ms,的算法编码延迟。,输出码率,：,16Kbps,采样频率：,8KHZ,优点：,占用带宽少，延时极短,缺点：,音质较低,应用领域：,TDM,语音传输，,VoIP,2.2 AAC-LD,AAC,（,Advanced Audio Coding,，高级音频编码）是由,Fraunhofer,研究院、,DOLBY,试验室和,ATT,共同研发出的一种音频压缩格式，是,MPEG-2,规范的一部分，并在,1997,年,3,月成为国际标准。,AAC-LD,（,Low Delay,，低延迟规格）是用在低码率下编码。,输出码率,：,4864Kbps,采样频率：,48KHZ,优点：,低带宽，低延迟，高质量,缺点：,CPU,利用较高,应用领域：,会议电视系统,本章小结,常用语音编码比较和应用,常用语音编码算法,视频会议常用音频技术,第,1,章音频技术基础知识,第,2,章常用语音编码比较和应用,第,3,章音频相关技术,内容介绍,内容介绍,第,3,章音频相关技术,3.1,语音增强技术概述,3.2,技术介绍,3.1,语音增强技术概述,为了提高话音质量，可以增添一些语音增强技术，如下,语,音活动检,测,VAD (Voice Activity Detection),舒适噪音生成,CNG(Comfort Noise Generation),回声消除,EC (Echo Cancellation),Jitter Buffer,技术,自动噪声抑制,ANR,(Adaptive Noise Reduction),自动电平控制,ALC (Automatic Level Control),自动噪声补偿,ANC,(Automatic Noise Compensation ),抗削波,ACLP (Anti-Clip),3.2,语音活动检测,-,VAD,语音活动检测,-VAD,(Voice Activity Detection),又称,静音检测,：识别和消除长时间静音，节省带宽资源。,好啊！最近怎么样,.,用户,A,用户,B,用户,B,说话中间停顿，如犹豫，呼吸,静音检测：,VAD,3.2,舒适噪音生成,-CNG,舒适噪音生成,CNG,(Comfort Noise Generation),：与,VAD,配合使用，设置播放舒适噪音。,用户,A,怎么这么静？是不是挂断了？,静音检测：,VAD,用户,B,：停顿期间,舒适噪音：,CNG,3.2,回声消除,-EC,(,回声形成,),播放出来的声音和本端用户讲话的声音同时进入话筒。,回声表示说话者的声音，经过网络设备后，环回到了自己。,用一个人为干预的信号波，去消除通讯过程中产生的回音信号，同时保留其它正常的语音信号，以达到通讯的正常使用。,3.2,回声消除,-EC,(,回声抑制,),3.2,Jitter Buffer,技术,Jitter Buffer,：通过对接收到的报文进行缓存然后再播放、处理，达到消除抖动的目的。,Jitter Buffer,的基本功能示意如图所示,:,Jitter,Buffer,噪声,已被抑制,3.2,自动噪声抑制,-ANR,自动噪声抑制,-ANR,(Adaptive Noise Reduction):,解决通话中由于背景噪声太大无法听清话音的问题，含有噪声的语音信号进行噪声抑制以提高主观语音质量。,3.2,自动电平控制,-ALC,自动电平控制,ALC (Automatic Level Control),：,解决线路中通话音量整体偏低或偏高的问题。,输出被放大,输入小语音,输出被缩小,输入大语音,3.2,自动噪声补偿,-ANC,自动噪声补偿,ANC,(Automatic Noise Compensation ):,当通话者身处噪杂的环境而无法听清楚听筒里传出来的声音，而我们对这种外界的噪声无能为力，只能通过调节听筒里传来的声音来提高通话质量。,近端背景噪声,远端讲话,周围环境噪声变大时，话筒里传出的音量增大,3.2,抗削波,-ACLP,抗削波,ACLP,(Anti-Clip),：,当通话者的声音太大或是终端音量调节的过大，可能会超过,输出系统,的最大,能级,限制,，在实际的数字信号输出中对于超出范围的信号会进行限幅处理，,造成,削波,，主观听起来有破音的感觉。,削波,本章小结,音频相关技术,语音增强技术概述,技术介绍,

展开阅读全文

2.3-音频编码技术

最新文档