试论数字媒体及其应用

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,数字媒体及应用,媒体：又称媒介/媒质，承载信息的载体，是信息的各种表示形式（如数值、文字、图象、声音、视频等）,数字媒体：数值、文字、声音、图像等的,二进制,数字表示，数字媒体是随着计算机功能的不断增强、计算机应用的不断深入而发展起来的,5种与计算机信息处理有关的媒体：感觉媒体、表示媒体、存储媒体、表现媒体、传输媒体,多媒体技术：能够交互式地综合处理多种不同感觉媒体的信息处理技术。具有这种功能的计算机就是多媒体计算机，具有这种能力的通信系统就是多媒体通信，能够有效地存储、管理、检索多种感觉媒体的数据库系统就是多媒体数据库系统。,特点：多样性、集成性、,交互性,文字：一种书面语言，由一系列称为“字符” 的书写符号构成,文本（,text,）：文字信息在计算机中的表示形式，是计算机中最常用的一种数字媒体,是基于特定字符集的、具有上下文相关性的一个（二进制编码）字符流,组成文本的基本元素是,字符,，字符在计算机中采用二进制编码表示,。,文本在计算机中的处理过程：,文本的准备（例如汉字的输入），文本编辑，文本处理，文本存储与传输、文本展现等，根据应用的不同，各个处理环节的内容和要求可能有很大的差别。,字符的编码,西文字符的编码,字符集：常用字符的集合。,西文字符集：由拉丁字母、数字、标点符号及一些特殊符号组成。,字符的编码：字符集中每一个字符各有一个代码，即字符的二进制表示，称为该字符的编码。,字符代码表:字符集中不同字符的编码互相区别，构成该字符集的代码表。,美国标准信息交换码：,使用7个二进位对字符进行编码（叫做标准ASCII码），称为ISO-646标准。,基本的ASCII字符集共有128个字符,96个可打印字符（常用字母、数字、标点符号等）,32个控制字符,特殊字符的ASCII码,空格（32）， 0（48），A（65），a（97）,大小写之间32,标准,ASCII,码是七位的编码，但字节是计算机中最基本处理单位，故以一个字节来存放一个,ASCII,字符。每个字节中多出来的一位一般保持为“,0,”，在数据传输时可用作奇偶校验位。,扩充ASCII字符集：标准ASCII字符集只有128个不同的字符，在很多应用中无法满足要求。ISO陆续制定了一批适用于不同地区的扩充ASCII字符集，每个扩充ASCII字符集分别可以扩充,128,个字符，这些扩充字符的,编码均是高位为1的8位代码,（十进制数128255），称为扩展ASCII码。,（,1,）,GB2312-80,汉字编码,信息交换用汉字编码字符集基本集，含,字符7445个，其中汉字6763个。,组成：,第一部分：字母、数字和各种符号，包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共,682,个,（统称为,GB2312,图形符号,）,第二部分：一级常用汉字，共,3755,个，按汉语拼音排列,第三部分：二级常用字，共,3008,个，按偏旁部首排列,汉字编码,区位码：,GB2312,国标字符集构成一个二维平面，它分成,94,行、,94,列，行号称为区号，列号称为位号。每一个汉字或符号在码表中都有各自的位置，字符的位置用它所在的区号,(,行号,),及位号,(,列号,),来表示,。每个汉字的区号和位号分别用1个字节来表示,从小到大的阵列：依次是图形符号、一级、二级汉字,国标交换码:,问题：信息通信中，汉字的区位码与通信使用的控制码（00H1FH）发生冲突。,解决方案：为了避免汉字区位码与通信控制码的冲突，ISO2022规定，每个汉字的区号和位号必须分别加上32（即二进制0010 0000，16进制的20H）,经过这样处理得到的代码称为汉字的“国标交换码”（简称交换码）。,机内码：,问题：文本中的汉字与西文字符经常是混合在一起使用的，汉字信息如不予以特别的标识，它与单字节的标准,ASCII,码就会混淆不清。,解决方法：把一个汉字看作两个扩展,ASCII,码，使表示,GB2312,汉字的两个字节的最高位,(b,7,),都等于“,1,”。称为,GB2312,汉字的“机内码”，又称内码。,对国标交换码两个字节分别加80H,GBK,：,1995,年发布，全称为汉字内码扩展规范GBK字符集中一共有,21003,个汉字和,883,个图形符号，它与GB2312国标汉字字符集及其内码保持兼容。,GBK/1：,GB2312,中的符号；,GBK/2,：,GB2312,中的全部汉字；,GBK/4,和,GBK/3,：,包括繁体字在内的大量汉字；,GBK/5：,符号。,应用：,操作系统Windows 95以上简体中文版，采用GBK代码，并提供了多种输入法和字体,应用软件Office 95以上简体中文版本提供GBK码的检索和排序,互联网应用许多网站的网页使用GBK代码，但目前还不是所有搜索引擎都支持 GBK 汉字文本的搜索,UCS/Unicode：,通用编码字符集，,约有,6800,种语言和文字在使用，,UCS,（,通用多,8,位编码字符集），,Unicode,（统一码或联合码，微软、IBM等联合制定）,UCS/Unicode,用,4,个字节,对全世界现代书面文字所使用的所有字符、符号进行编码,目标与途径：实现所有字符在同一字符集中统一编码,优点：编码空间极大，能容纳足够多各种字符集（,13,亿字符）,缺点：,4,字节的字符编码使存储空间浪费严重,克服：在,UCS/Unicode,编码空间中，把第,1,和第,2,字节均为“,0,”的一个子空间（称为基本多文种平面,BMP,），作为,UCS/Unicode,的子集来使用，记作,UCS-2,。,UCS-2,是双字节编码，共有字符,49194,个，其中包括：,欧洲及中东地区使用的拉丁字母、音节文字,各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号,中、日、韩（,CJK,）统一编码的汉字,CJK,统一编码汉字：指中、日、韩、新、马及我国台湾、香港、澳门地区使用的汉字，不论其字义和读音有无区别，只要,字形,相同，该汉字就只有一个代码。,CJK,汉字集以现有各国和地区的标准字符集（中国大陆的,GB,国标字符集，中国台湾的,CNS 11643,标准，日本的,JIS,标准及韩国的,KS,标准）作为源字符集，将其中的汉字按统一的认同规则进行认同甄别后，构成,UCS/Unicode,中的共,27484,个字符的汉字部分。,人工输入：通过键盘、手写笔或语音输入方式输入字符,特点：速度慢、成本高，不适合需处理大批量文字的应用,自动输入：将纸介质上的文本通过识别技术自动转换为文字的编码,特点：速度快，效率高,文字的自动识别分为：印刷体识别和手写体识别,文本信息的输入方法,汉字键盘输入：由于汉字字数很多，无法使每个汉字与西文键盘上的键一一对应，因此必须使用一个或几个键来表示汉字，这就称为汉字的“键盘输入编码”,好的汉字键盘输入编码方案的特点：易学习、易记忆、效率高,(,平均击键次数较少,),、重码少、容量大,(,可输入的汉字字数多,),等,汉字的输入编码与汉字的内码是不同范畴的概念。使用不同的输入编码方法向计算机输入的同一个汉字，它们的内码是相同的,汉字输入编码方法的分类,数字编码：使用一串数字来表示汉字的编码方法，例如电报码、区位码等，缺点：难以记忆，不易推广,字音编码：一种基于汉语拼音的编码方法，简单易学，适合于非专业人员，缺点：同音字引起的重码多，需增加选择操作,字形编码：将汉字的字形分解归类而给出的编码方法，重码少、输入速度较快，如五笔字形法和表形码等，缺点：编码规则不易掌握,形音编码：吸取了字音编码和字形编码的优点，使编码规则适当简化、重码减少，缺点：不易掌握,手写汉字识别：以平常书写的习惯，把要输入的汉字写在一块叫书写板的设备上，书写板将笔尖的运动按时间采样后发送到计算机中，由计算机软件自动进行识别，然后用该汉字（或符号）对应的代码进行保存。如：,汉王笔,语音识别：使用语音输入文本的系统，其最高目标：非特定人大词汇量的连续语音识别技术,光学字符识别OCR （,Optical Character Recognition,）：将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术。,印刷体文字识别的过程,扫描后的图像文本,预处理,版面分析,文字切分,特征提取,字符识别,后处理,识别后的编码文本,数字文本根据用途分为：简单文本、丰富格式文本和超文本三类。,简单文本（,plain text,）：由一连串字符组成，除了 “回车”、“换行”、“制表”等有限的几个打印（显示）控制字符之外，几乎不包含任何其他格式信息和结构信息。通常称为,纯文本或,ASCII,文本,，在,PC,机中的文件后缀名是,.txt,特性：线性结构，以行、字为单位，顺序写作与阅读是最通用的文本文件格式，文件体积小，阅读不受限制，几乎所有的文字处理软件都能识别和处理不能插入图片、表格等，不能建立超链接,丰富格式文本,（,rich text,、,fancy text,、,formatted text,）：,RTF,格式、word、wps、xls、ppt等；,超文本,(hypertext),：非线形结构文本,节点（,node,）,超链（,hyperlink,）,链源,超媒体（,Hypermedia,）：超文本中的节点不单是文本节点，还包含图形、图像、声音或动画节点，这种基于多媒体信息结点的超文本，有时也称为“超媒体”,超文本的应用,Windows,等一些软件中的“帮助”文件,使用浏览器从Web服务器上下载的网页（html或htm文件）,文本编辑与文本处理,文本编辑的主要功能,对字、词、句、段落进行添加、删除、修改等操作,字的处理：设置字体、字号、字的排列方向、间距、颜色、效果等,段落的处理：设置行距、段间距、段缩进、对称方式等,页面布局的处理：设置页边距、每页行列数、分栏、页眉、页脚等,文本处理内容：,字数统计，字频统计，简,/,繁体相互转换，汉字,/,拼音相互转换,词语排序，词语错误检测，文句语法检查,自动分词，词频统计，词性标注，词义辨识，大陆,/,台湾术语转换,文本压缩，文本加密，文本著作权保护,关键词提取，文摘自动生成，文本分类,文本检索（关键词检索、全文检索），文本过滤,文语转换（语音合成），文种转换（机器翻译）,篇章理解，自动问答，自动写作等,常用,文本处理软件,（,1,）面向通信的文本处理软件,:,计算机网络上最普及的应用是用电子邮件进行通信。大多数情况下电子邮件正文的内容一般都是简单文本，因此电子邮件内嵌的文本编辑器功能比较简单，操作使用方便。,典型软件：微软公司的,Outlook Express,，具有文字的增、删、改以及字体、字号的设置功能，也可以设定一些简单的格式和插入一些图片。当然邮件所带的附件并不受此限制。在互联网上进行聊天所使用的文本处理软件更加简单。,（,2,）面向办公的文本处理软件,功能要求：,文本制作的高效率、高质量,软件面向非专业用户，易学好用,文本处理能力，既功能丰富，又操作简单,排版功能,典型软件：,MS-,Office,WPS2000,永中,Office,中的文本处理软件,（,3,）面向出版的文本处理软件,主要功能：,将文字、图形和图像等合理地安排在页面内,.,ps,文件：,排版软件的输出的一种使用页面描述语言（例如,PostScript,）,描述的文件，该文件记录了每一个页面的排版结果，它被送到装有栅格图像处理器（,RIP,）,的激光照排机去，经过,RIP,的解释，产生页面的图像，然后驱动激光束对感光材料进行扫描曝光，以得到用于制版的胶片,典型排版软件：,方正集团公司的“飞腾”排版软件,美国Adobe公司的,PageMaker,和,PDF Writer,（,4,）面向网络信息发布和电子出版的文本处理软件,制作,HTML,文件的软件：微软的,FrontPage,，使用,Word,也可以产生,HTML,文件输出。,HTML,文件：一种使用,HTML,语言（超文本标记语言）进行描述的文本文件。能描述超链。,超链的链宿有两种：,书签，指的是文本内部标记有书签的某个地方,互联网上的某个信息资源（文件），它用统一资源定位器（,URL,）,指定,包括：面向电子出版的软件、,PDF,格式文件,文本输出：在屏幕上显示文本，用打印机打印文本等操作。,文本输出过程：首先要对文本的格式描述进行解释，然后生成文字和图表的映像（,bitmap,），最后再传送到显示器或打印机输出。,文本阅读器：承担上述文本输出任务的软件，也称为浏览器。它们可以是嵌入在文本处理软件中的一个模块，如微软的,Word,，也可以是独立的软件，如,Adobe,公司的,Acrobat Reader,，微软公司的,IE,等。,文字（汉字）字形的生成过程：先根据字符的字体确定相应的字型库（,font,），再按照该字符的代码从字型库中取出该字符的,形状描述信息,，然后按形状描述信息生成字形，并按照字号大小及有关属性（粗体、斜体、下横线）将字形作必要的变换，最后将变换得到的字形放置在页面的指定位置处。,字型库：简称字库，同一种字体的,所有字符,(例如GB2312中的7000多字符)的,形状描述信息的集合,。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。,形状描述包括：点阵描述和轮廓描述,从现实世界中通过数字化设备获取的图像，称为：取样图像（,sampled image）、点阵图像（dot matrix image）、位图图像（bitmap image）简称图像（image）,计算机合成的图像(synthetic image)，称为：矢量图形（vector graphics），简称图形（graphics）,图像按,生成,方法分类,图像的获取（capturing）：,从现实世界中获得数字图像的过程,图像获取的过程实质上是模拟信号的数字化过程，它的处理步骤：,取样,分色,量化,数字图像获取设备分2维和3维设备,一幅取样图像由M（行）* N（列）个取样点组成，每个取样点是组成取样图像的,基本单位,，称为,像素,（picture element, 简写为,pel,）。彩色图像的像素是矢量，它由多个彩色分量组成，黑白图像的像素只有,1,个亮度值,取样图像在计算机中的表示方法：,单色图像用一个矩阵来表示,彩色图像用一组（一般是,3,个）矩阵来表示，矩阵的行数称为图像的垂直分辨率，列数称为图像的水平分辨率，矩阵中的元素是像素颜色分量的亮度值，使用整数表示，一般是,8,位至,12,位,图像的表示方法与主要参数,图像的属性信息,图像大小，也称图像分辨率(包括垂直分辨率和水平分辨率),位平面的数目，即矩阵的数目，也就是彩色分量的数目,颜色空间的类型，指彩色图像所使用的颜色描述方法，也叫颜色模型。常用颜色模型：,RGB(,红、绿、蓝,),、,CMYK(,青、品红、黄、黑,),、,HSV(,色彩、饱和度、亮度,),、,YUV(,亮度、色度,),等,像素深度，即像素所有颜色分量位数之和，它决定了不同颜色（亮度）的最大数目,一幅图像的数据量可按下面的公式进行计算（以字节为单位）：,图像数据量图像水平分辨率图像垂直分辨率像素深度,8,图像数据压缩的可能性：由于数字图像中的数据相关性很强，数据的冗余度很大，因此对数字图像进行大幅度的数据压缩是完全可能的。而且，人眼的视觉有一定的局限性，即使压缩前后的图像有一定失真，只要限制在人眼允许的误差范围之内，也是允许的。,数据压缩类型,无损压缩,:,压缩以后的数据进行图像还原,(,也称为解压缩,),时，重建的图像与原始图像,完全相同,例如：行程长度编码、,哈夫曼,(Huffman),编码,有损压缩：使用压缩后的数据进行图像重建时，重建后的图像与原始图像虽有一定的误差，但不影响人们对图像含义的正确理解。,如变换编码、矢量编码等,图像压缩方法很多，不同方法适用于不同的应用，在计算机中常常是多种压缩方法的综合使用。为得到较高的数据压缩比，一般都采用有损压缩。,压缩编码方法优劣的评价,压缩倍数的大小,重建图像的质量（有损压缩时）,压缩算法的复杂程度,常用图像文件格式,名称,压缩编码方法,性质,典型应用,开发组织/公司,BMP,RLC,无损,Windows应用程序,Microsoft,TIF,RLC,LZW,无损,Desktop publishing,Aldus，Microsoft,GIF,LZW,无损,Internet,CompuServe,JPEG,DCT,Huffman,无损/有损,Internet，数码相机等,ISO/IEC,JPEG（,静止图像数据压缩编码的国际标准,）,特点：,适用范围广；能处理各种连续色调的彩色或灰度图像；算法复杂度适中；既可用硬件实现，也可用软件实现；图像的压缩比可控制（压缩比越低，图像质量越好；压缩比越高，图像质量越差）,JPEG 2000：,适用于各种不同类型（黑白、灰度、彩色等）和不同特性（自然、医学、遥感、合成）的图像，可用于不同的应用模式（实时传输、检索、存档等）。采用了小波分析等先进算法，提供了更好的图像质量，更低的码率，更适合在WWW网上传输等，它兼容JPEG,BMP(BitMaP-file),图像：,微软公司在,Windows,操作系统下使用的一种标准图像文件格式，一个文件存放一幅图像，可以使用行程长度编码（,RLC,）进行无损压缩，也可不压缩。不压缩的,BMP,文件是一种通用的图像文件格式，几乎所有,Windows,应用软件都能支持。,TIFF(Tagged Image File Format),图像文件格式：,用于扫描仪和桌面出版，能支持多种压缩方法和多种不同类型的图像，有许多图像图形应用软件支持这种文件格式。由文件头、文件目录、目录条目三个部分组成。,GIF(Graphics Interchange Format)：,互联网上广泛使用的一种图像文件格式，它的颜色数目较少（不超过,256,色），文件特别小，适合网络传输。由于颜色数目有限，,GIF,适用于插图、剪贴画等色彩数目不多的应用场合。,GIF,格式能够支持,透明,背景，具有在屏幕上渐进显示的功能。尤为突出的是，它可以将许多张图像保存在同一个文件中，显示时按预先规定的时间间隔逐一进行显示，从而形成,动画,的效果，因而在网页制作中大量使用。,数字图像处理：,使用计算机对来自照相机、摄像机、传真机、扫描仪、医用,CT,机、,X,光机等的图像，进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理,对图像进行处理的主要目的,提高图像的视感质量,图像复原与重建,图像分析,图像的存储、管理、检索，以及图像内容与知识产权的保护等,图像处理软件,与应用领域密切相关，通常具有很强的专业性，如遥感图像处理软件、医学图像处理软件等。,使用较多的是面向办公、出版与信息发布的图像处理软件，也称为图像修饰（,image retouching,）或图像编辑软件，支持多种不同的图像文件格式，提供多种图像编辑处理功能，可制作出生动形象的图像。如美国,Adobe,公司的,PhotoShop,，集图像扫描、图像编辑、绘图、图像合成及图像输出等多种功能于一体，是一个流行的图像处理工具。,数字图像的应用,图像通信,遥感,医疗诊断,工业生产中的应用,机器人视觉,军事、公安、档案管理,景物的模型（,model,）：景物在计算机内的描述,景物的建模,(modeling)：,人们进行景物描述的过程,绘制（,rendering,）：也称,图像合成,（,image synthesis,），根据景物的模型生成图像的过程，所产生的数字图像称为计算机合成图像,计算机图形学（,Computer Graphics,）：研究如何使用计算机描述景物并生成其图像的原理、方法与技术,计算机图形,景物形状的计算机表示,几何模型：,景物建模方法与景物类型有关。普通工业产品（如电视机、汽车等），使用基本的几何元素（如点、线、面、体等）及表面材料的性质等进行描述所建立的模型。,几何模型分类（按照所使用的几何元素类型）,线框模型,曲面模型,实体模型,几何模型应用：,工业产品的计算机辅助设计,/,制造,过程模型/算法模型：,根据景物的生成规律，并使用相应的算法来描述其规律所建立的模型,景物形状的计算机表示,使用几何模型描述的机械零件,形体与景物的建模方法,线框模型,实体模型,表面模型,几何造型技术,过程模型技术,分形几何,形状语法,微粒系统,基于物理的建模,图像绘制/图像合成：,在计算机内建立了景物的模型之后，从景物的模型生成用户可见的具有高度真实感的该景物的图像的过程。,从景物模型绘制景物图像的处理步骤,景物,的,模型,取景变换,视域裁减,三角化,光栅化,隐藏面消除,明暗处理,阴影生成,纹理映射,景物,的,图像,使用计算机合成图像的主要优点：,能生成实际存在的具体景物的图像，还能生成假想或抽象景物的图像,能生成静止图像，还能生成各种运动、变化的动态图像,计算机合成图像的应用：,计算机辅助设计和辅助制造（,CAD,CAM,）,利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等,作战指挥和军事训练,计算机动画和计算机艺术,其他：电子出版、数据处理、工业监控、辅助教学(CAI)、软件工程等,矢量绘图软件：,制作矢量图形的软件,如：,AutoCAD,、,MAPInfo,、,ARCInfo,等,2D,的矢量绘图软件：,Corel,公司的,CorelDraw,Adobe,公司的,Illustrator,Macromedia,公司的,FreeHand,微软公司的,Microsoft Visio,微软公司,Office,办公套件中的,Word,和,PowerPoint,声音：,由振动而产生，通过空气进行传播。它由许多不同频率的谐波所组成，谐波的频率范围称为声音的带宽,(bandwidth),，带宽是声音的一项重要参数。,多媒体技术处理的声音信号主要是人耳可听到的,20,20kHz,的音频信号,(audio),言语（,speech,）/语音：人说话的声音，其频率范围约为,300,3400Hz,全频带声音：音乐声、风雨声、汽车声等其他声音，其带宽可达到,20,20kHz,声音信号的数字化,声音信号的数字化：,将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程,声音信号数字化的过程：取样、量化、编码,模拟的声音信号转变成数字形式进行处理的优点：,以数字形式存储的声音重放性能好，复制时没有失真,数字声音的可编辑性强，易于进行效果处理,数字声音能进行数据压缩，传输时抗干扰能力强,数字声音容易与其他媒体相互结合（集成）,数字声音为自动提取“元数据”和实现基于内容的检索创造了条件,波形声音的获取设备：,麦克风：将声波转换为电信号,声卡（,sound card,）：进行数字化,波形声音的获取：把模拟的声音信号转换为数字形式。(话筒或线路输入、单双道）,波形声音的重建与播放,MIDI(Musical Instrument Digital Interface),声音的输入,MIDI,声音的合成与播放,声卡以,数字信号处理器(,DSP),为核心，,DSP,在完成数字声音的编码、解码及声音编辑操作中起着重要的作用。它利用,PCI,总线与主机进行数据交换，混音器,(mixer),的将不同的声音信号进行混音，并提供音量控制功能。,利用声卡可在线获取声音；使用数码录音笔可离线获取声音，然后再通过USB接口直接将已经数字化的声音数据送入计算机中。数码录音笔的原理与上述过程基本相同，不过由于带宽的原因，它一般适合于录制语音。,声音播放：,计算机输出声音的过程,声音重建步骤：,声音重建（,reconstruction,）：,把声音从数字形式转换成模拟信号形式,解码,数模转换,插值处理,将模拟声音信号经过处理和放大送到扬声器发出声音,声音的重建也是由声卡完成的。声卡输出的声音需送到音箱去发音。,音箱分类,普通音箱：接收的是重建的模拟声音信号,数字音箱：可直接接收声卡输出的数字声音信号，避免信号在传输中发生畸变和受到干扰，其音响效果更加突出,取样频率、量化位数、声道数目,使用的压缩编码方法,数码率（,bit rate,）：指的是每秒钟的数据量，也称比特率、码率,数字声音未压缩前，其计算公式为：,波形声音的码率,取样频率,量化位数,声道数,压缩编码以后的码率压缩前的码率 / 压缩倍数,波形声音的主要参数,声音压缩的目的：降低存储成本和传输通信带宽，对数字波形声音进行数据压缩,波形声音数据压缩的可能性：声音信号中包含有大量的冗余信息，再加上还可以利用人的听觉感知特性，因此，产生了许多压缩算法,声音数据压缩算法的评价：压缩倍数高，声音失真小，算法简单，编码器/解码器的成本低,第,1,代编码技术,PCM,（脉冲编码调制,）编码：依据声音波形本身的信息相关性进行数据压缩，代表性的应用是,CD,唱片,第,2,代压缩编码,感知声音编码,(perceptual audio coding),：不但充分利用声音信息本身的相关性，而且还充分利用人耳的听觉特性，即使用,“,心理声学模型,”,来达到大幅度压缩数据的目的,第2代全频带声音压缩编码标准,名称,压缩后的码率（每个声道）,声道数目,主要应用,MPEG-1层1,384kbps（压缩4倍）,2,数字盒式录音带,MPEG-1层2,256192kbps,（压缩68倍）,2,DAB，VCD，DVD,MPEG-1层3,128112kbps,（压缩1012倍）,2,Internet，,MP3音乐,MPEG-2层audio,与MPEG-1层1，层2，层3相同,5.1，7.0,同MPEG-1,Dolby AC-3,64kbps,5.1，7.1,DVD，DTV，,家庭影院,MPEG-1,声音压缩编码是国际上第一个高保真声音数据压缩的国际标准，它分为三个层次：,层,1(Layer 1),：编码简单，用于数字盒式录音磁带,层,2(Layer 2),：算法复杂度中等，用于数字音频广播,(DAB),和,VCD,等,层,3(Layer 3),：编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍,MPEG-2,的声音压缩编码采用与,MPEG-1,声音相同的编译码器，层,1,层,2,和层,3,的结构也相同，但它能支持,5.1,声道和,7.1,声道的环绕立体声,杜比数字AC-3（Dolby Digital AC-3）：美国杜比公司开发的多声道全频带声音编码系统，它提供的环绕立体声系统由5个,全频带,声道加一个,超低音,声道组成，6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果，在数字电视、DVD和家庭影院中广泛使用。,流媒体技术：,允许用户一边下载一边收看(听)音视频连续媒体的技术,流媒体：,使用流式传输技术的音/视频媒体,优点：,等待时间大大缩短,减少了对缓冲容量的需求,降低了对网络带宽的要求,声音流媒体产品,Real Networks公司的RA（Real Audio）数字音频,微软公司的WMA（Windows Media Audio）数字音频,苹果公司的 Quick Time,.波形声音的文件格式：,wav (waveform)：用于PC,.Mp2：MPEG Layer I ，II,.Mp3：MPEG Layer III ,.rm，ra(RealAudio)：RealNetworks的流式声音,.wma：微软公司的流式声音文件,.aif (Audio Interchangeable File Format)：苹果机,基本编辑操作,声音的剪辑（删除、移动或复制一段声音，插入空白等）,声音音量调节（提高或降低音量，淡入、淡出处理等）,声音的反转,持续时间的压缩,/,拉伸,消除噪音,声音的频谱分析,声音编辑软件的功能,声音的效果处理,包括混响、回声、延迟、频率均衡、和声效果、动态效果、升降调、颤音等,格式转换功能,其他功能,如分轨录音，配音，刻录CD唱片等,语音合成,（,Speech synthesis）,：,根据语言学和自然语言理解的知识,，使计算机模仿人的发声，自动生成语音的过程。目前主要是按照文本（书面语言）进行语音合成，这个过程称为,文语转换,（Text-To-Speech,简称TTS）。,文语转换过程,文本分析,韵律分析,语音生成,语音库：,语音库中存储了大量预先录制的语音基元（单音、词组、短语或句子）的波形，合成时读取语音基元的波形，将这些波形进行拼接和韵律修饰，然后输出连续语音流。,对计算机合成的语音希望能达到的要求：,发音清晰可懂,语气语调自然,说话人可选择,语速可变化等,计算机合成语音的应用：,股票交易、航班动态查询、电话报税等业务,有声,E-mail,服务,CAI,课件或游戏解说词的自动配音,文稿校对、语言学习、语音秘书、自动报警、残疾人服务等,音乐合成：,音乐的基本单元是一些,音符，,音符的属性有：,音调：声波的基频,音色：由声音的频谱决定，不同乐器有不同的音色,音强：声音的强度,旋律：乐曲中音符持续时间的变化,音源：,也称为音乐合成器（,music synthesizer,），它能模仿许多乐器生成各种不同音色的音符。,PC,机的声卡一般都带有音源,MIDI(Musical Instrument Digital Interface),：,计算机中描述乐谱的一种,标准描述,语言，规定了乐谱的数字表示方法（包括音符、定时、乐器等）和演奏控制器、音源、计算机等相互连接时的通信规程。,MIDI,规定：,乐谱中的音符及其定时、速度、音色（乐器）等采用,MIDI,消息（,MIDI message,）进行描述,每个,MIDI,消息描述一个,音乐事件,（如开始演奏某个音符、选择音符的音色、改变演奏速度等）,一首乐曲所对应的全部,MIDI,消息组成一个,MIDI,文件,MIDI,文件在计算机中的文件扩展名为,.MID,，它是计算机合成音乐的交换标准,MIDI,音乐的制作与播放：,实时演奏,MIDI键盘,MIDI消息,乐谱输入,音序器,软件,MIDI,文件,媒体,播放器,MIDI,合成器,MIDI消息,MIDI音乐,个人电脑音乐系统，彻底改变了传统的音乐制作方式和概念。原来需要由多人才能完成的工作现在只需一个人即可，记录音乐的方式也由原来的乐谱变成了MIDI文件，音乐作品由修改困难变为可任意编辑修改，强大的电脑编辑功能不仅提高了音乐表现的精确性，同时也降低了制作者对演奏技术的依赖性，使本属于专业音乐工作者的音乐制作变成了一种大众化的、个人的音乐行为和活动。,MIDI,音乐与高保真的波形声音相比：,缺点：,音质方面较差,无法合成出所有各种不同的声音（例如语音）,优点：,数据量很少（比,CD-DA,少,3,个数量级，比,MP3,少,2,个数量级）,易于编辑修改,可以与波形声音同时播放,视频（,video,）：指的是内容随时间变化的一个图像序列，也称为活动图像,(motion picture),。,常见的视频有电视和计算机动画。,电视：能传输和再现真实世界的图像与声音，是当代最有影响力的信息传播工具。,数字视频：数字化的电视信号称为数字视频。,计算机动画：是计算机制作的图像序列，是一种计算机合成的视频。,电视画面：,一种光栅扫描图像，一般采用,隔行,扫描,方式，即图像由,奇数场和偶数场,两部分组成，合起来组成一帧图像,PAL,制式（中国采用）,帧频,25,帧,/s,场频,50,场,/s,，图像的垂直分辨率（一帧图像中的扫描线总数）,625,线,远距离传输时用亮度信号,Y,和两个色度信号,U,、,V,来表示，优点：,能与黑白电视接收机保持兼容，,Y,分量由黑白电视机直接显示而无需做进一步处理,可利用人眼对两个色度信号不太灵敏的视觉特性来节省电视信号的带宽和发射功率,彩色信号的,YUV,表示与,RGB,表示的转换：,亮度分量,Y,0.3,R,0.59,G,0.11,B,色度分量,U,0.493,(B,Y),色度分量,V,0.877,(R,Y),数字视频与模拟视频相比的优点：,复制和传输时不会造成质量下降,容易进行编辑修改,有利于传输,(,抗干扰能力强，易于加密,),可节省频率资源,视频信号的数字化：,以一帧帧画面为单位进行,由于采用YUV彩色空间，人眼对颜色信号的敏感度远不如对亮度信号灵敏，所以色度信号的取样频率可以比亮度信号的取样频率低，以减少数字视频的数据量,视频采集卡：,简称视频卡，,PC,机中用于视频信号数字化的插卡。,功能：,将模拟视频信号（及伴音信号）数字化并存储在硬盘中。数字化后的视频图像，经彩色空间转换（从,YUV,转换为,RGB,），与计算机图形显示卡产生的图像叠加，显示在屏幕上。,获取数字视频的同时使用,数字信号处理器（DSP）,进行音频和视频数据的压缩编码,数字摄像头：,在线获取数字视频的设备。,通过光学镜头采集图像，然后直接将图像转换成数字信号并输入到,PC,机，不需视频采集卡进行模数转换。,光传感器：大多采用,CCD,，部分采用,CMOS,，后者分辨率不能很高，但功耗低、速度快,接口：,USB,接口，,IEEE1394,接口。,数码摄像机,数字视频压缩的可行性：,画面内部信息相关性很强,相邻画面的内容具有高度的连贯性,人眼的视觉特性,MPEG-1,：,一种运动图像及其伴音的编码标准,码率：,1.2 Mb/s,1.5Mb/s,图像质量：,200,多线，相当于一般家用录像机,应用：,数码相机和数字摄像机,VCD,视频压缩编码的标准及其应用,MPEG-2,：,针对数字电视,(DTV),的应用要求,码率：,1.5Mb/s,60Mb/s,甚至更高,特点：通用性，向下兼容,MPEG-1,应用：,数字卫星电视,高清晰度电视,(HDTV),广播,数字视盘,DVD,MPEG-4,：,目标：支持各种,网络条件下,（包括移动通信）的交互式多媒体应用，侧重于对多媒体信息内容的访问,支持：自然的（取样）和计算机合成视频和音频，功能强，应用前景广,AVI,（,Audio Video Interleaved Format,）：,一种音频,/,视频文件格式,应用：,Windows,平台，在获取、编辑以及播放音频,/,视频流的应用软件中被广泛使用,对压缩方法没有限制，只需在文件中加以说明，增强了可扩展性,例如，可使用,Microsoft RLE,、,Microsoft Video 1,、,Intel Indeo 5.1/5.2,、,Cinepak,，,MPEG,、,Motion-JPEG,等压缩算法,缺点：,不适应在网络上对视频流的实时播放,ASF (Advanced Stream Format),文件格式,针对,AVI,文件的网络实时播放缺陷开发,采用技术：,WM Video8,和,WM Audio8,流媒体技术,应用：互联网上视频直播（,WebTV,）、视频点播（,VOD,）、视频会议等,Real Networks,公司的,RealMedia,（包括,RealVideo,和,RealAudio,）与微软公司流媒体技术相当，已在互联网上得到了广泛的应用,非线性编辑系统：,摆脱了磁带顺序存取束缚的计算机视频编辑系统。节目制作,是在大容量随机存取的磁盘存储器上进行，,效率得到了极大的提高。,系统组成：,计算机主机、视（音）频卡、,SCSI,硬盘、视频编辑软件、控制装置,使用模式：,把电视节目素材存入硬盘中，根据需要对不同长短、不同顺序的素材进行剪辑，同时配上字幕、特技和各种动画，再进行配音、配乐，最终制作成高质量的电视节目,功能：,视频处理功能和数字特技机、字幕机、编辑机、调音台等众多功能,核心软件：,数字视频编辑器，如,Adobe Premiere,虚拟演播室：,利用计算机生成运动或静止的三维场景，与现场拍摄的视频图像进行实时合成。在现场直播时，综合生成的三维场景，可不断变化更换，并根据演播室摄像机运动的位置显示出正确的透视图，使合成的视频图像取得真实的视觉效果,组成：,摄像机、摄像机位置参数分析与控制、图形工作站、背景素材库和图像合成设备等,概念：,采用计算机生成一系列可供实时演播的连续画面的一种技术。,基础：,计算机图形学,制作过程：,在计算机中生成场景和形体的模型设置它们的运动生成图像并转换为视频信号输出,计算机动画,创作软件：,二维动画软件如,Animator Pro,三维动画软件如,3D StudioMAX,等,三维动画的制作：,按照动画的脚本对景物进行造型,确定景物的颜色,设置灯光和布置摄像机的位置,描述和设置动画的运动要求,图像绘制,输出动画结果,CD(Compact Disc),：,小型光盘,最早应用于数字音响领域,代表产品是,CD,唱片。每张,CD,唱片的存储容量是,650MB,左右，可存放,1,小时的立体声高保真音乐。,Video CD(,简称,VCD),：,1994,年由,JVC,、,Philips,等公司联合定义的一种以数字技术在,CD,光盘上存储视频和音频信息的规范。规定了将,MPEG-1,音频,/,视频数据记录在,CD,光盘上的文件系统的标准，使一张普通的,CD,光盘可记录约,60,分钟的音视频数据，可播放立体声。,数字视频应用,DVD,（,Digital Versatile Disk,）：,数字多用途光盘。有多种规格，用途广泛。其中的,DVD-Video,（日常简称为,DVD,）就是一种类似于,LD,或,Video CD,的家用影碟。,DVD,影碟与,VCD,相比：,存储容量大得多。,CD,光盘容量,650MB,，存放,74,分钟,VHS,质量,(352240),的视频图像；单面单层,DVD,容量,4.7GB,，以平均码率,4.69Mb/s,播放视频图像，能存放,133,分钟的接近于广播级图像质量（,720480,）的整部电影,压缩编码：,MPEG-2,画面品质比,VCD,高,DVD-Video,的特点和功能：,提供,32,种文字或卡拉,OK,字幕，最多可录放,8,种语言的声音,具有多结局、多角度,(,从,9,个角度选择观看图像,),、变焦和家长锁定控制等功能,画面的长宽比有三种方式,:,全景扫描、,4:3,普通屏幕、,16:9,宽屏幕方式,伴音具有5.1声道(左、右、中、左环绕、右环绕和超重低音)，实现三维环绕立体音响效果,数字电视：,将电视信号进行数字化,然后以数字形式进行编辑、制作、传输、接收和播放。,数字电视的特点：,频道利用率高、图像清晰度好,可以开展交互式数据业务，包括电视购物、电视银行、电视商务、电视通信、电视游戏、实时点播电视、电视网上游览、观众参与的电视竞赛等,数字电视系统的构成：信源编码、业务复用、信道传输与发送,美国的,DTV,、欧洲的,DVB,和日本的,ISDB,标准，视频都采用,MPEG-2,标准，音频采用,MPEG-2,或,Dolby AC-3，,信道及发送部分各不相同,数字电视接收机（简称DTV接收机）的三种形式：,数字电视接收机传统模拟电视接收机的换代产品,传统模拟电视机外加一个数字机顶盒,可以接收数字电视的PC机,VOD,（,Video On Demand,）：视频点播技术的简称,即用户可以根据自己的需要收看电视节目。,

展开阅读全文

试论数字媒体及其应用

最新文档