《数字媒体及应用》PPT课件.ppt

上传人:san****019 文档编号:15716861 上传时间:2020-09-01 格式:PPT 页数:166 大小:797.10KB
返回 下载 相关 举报
《数字媒体及应用》PPT课件.ppt_第1页
第1页 / 共166页
《数字媒体及应用》PPT课件.ppt_第2页
第2页 / 共166页
《数字媒体及应用》PPT课件.ppt_第3页
第3页 / 共166页
点击查看更多>>
资源描述
第五章 数字媒体及应用,学习目标与要求,1、. 理解GB2312,GBK和GB18030三种汉字编码标准的内容、关系与应用,熟悉中文文本准备的方法,掌握常用文本编辑与处理软件的功能与应用 2. 懂得数字图像获取的原理与方法,熟悉图像在计算机中的表示,初步了解数字图像处理的内容与应用,大体明白计算机图形的生成过程及应用 3. 掌握声音获取的方法与设备,熟悉波形声音在计算机中的表示、标准与应用,初步了解语音合成和音乐合成的过程与应用 4、 了解数字视频的获取方法与设备,熟悉视频压缩编码的几种标准及其应用,初步懂得计算机动画的制作过程,5.1 文本与文本处理,文字与文本,文字: 一种书面语言,由一系列称为“字符”(character)的书写符号构成 文本(text): 文字信息在计算机中的表示形式 是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流 是计算机中最常用的一种数字媒体 组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。,文本处理过程,文本在计算机中的处理过程:文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和 要求可能有很大的差别。,5.1.1 字符的编码,西文字符的编码,字符集:常用字符的集合。 西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。 字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。 字符代码表:字符集中不同字符的编码互相区别,构成该字符集的代码表。,美国标准信息交换码(American Standard Code for Information Interchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。 基本的ASCII字符集共有128个字符 96个可打印字符(常用字母、数字、标点符号等) 32个控制字符 特殊字符的ASCII码 空格(32) A(65) a(97) 0(48),ASCII字符集和ASCII码,标准ASCII码是七位的编码,但字节是计算机中最基本的处理单位,故以一个字节来存放一个ASCII字符。每个字节中多出来的一位一般保持为“0”,在数据传输时可用作奇偶校验位。 扩充ASCII字符集:标准ASCII字符集只有128个不同的字符,在很多应用中无法满足要求。按照ISO2022标准(七位字符集的代码扩充技术)的规定,ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均是高位为1的8位代码(十进制数128255),称为扩展ASCII码。,扩充ASCII字符集,(1)GB2312-80汉字编码 信息交换用汉字编码字符集基本集(GB2312-80) 组成: 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号) 第二部分:一级常用汉字,共3755个, 按汉语拼音排列 第三部分:二级常用字,共3008个, 按偏旁部首排列,2.汉字的编码(一),汉字6763,所有字符7445,(1)GB2312-80汉字编码 区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示, 如:“大”字的区号20,位号83,区位码是20 83 用2个字节表示为:00010100 01010011,汉字的编码(二),(1)GB2312-80汉字编码,汉字的编码(三),(1)GB2312-80汉字编码 国标交换码: 问题:信息通信中,汉字的区位码与通信使用的控制码(00H1FH)发生冲突。 解决方案:为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(即二进制0010 0000)。 经过这样处理得到的代码称为汉字的“国标交换码”(简称交换码)。因此,“大”字的交换码是: 00110100 01110011。,汉字的编码(四),(1)GB2312-80汉字编码 机内码: 问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。 解决方法:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。 如:“大”字的内码是:10110100 11110011(B4F3),汉字的编码(五),高位字节(7位):qqq qqqq = 0qqq qqqq(区号) 低位字节(7位):www wwww = 0www wwww(位号) 例如:“啊” 区位码: 16 01 = 10 01H 0001 0000 0000 0001 国标码: 30 21H = 10 01H 20 20H 0011 0000 0010 0001 机内码: B0 A1H = 30 21H 80 80H 1011 0000 1010 0001,汉字编码例,(1)GB2312-80汉字编码 GB2312汉字内 码在双字节代 码空间中,其 码位分布于右 下角的1/4象限,汉字的编码(六),(2)GBK汉字内码扩充规范 问题:GB2312-80只有6763个汉字,使用时功能不够。 解决方法:1995年发布GBK,全称为汉字内码扩展规范GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。 GBK/1:GB2312中的符号;GBK/2:GB2312中的全部汉字; GBK/4和GBK/3:包括繁体字在内的大量汉字;GBK/5:符号。 例如計算機係等繁体汉字和冃冄円冇鎔等生僻的汉字。,汉字的编码(七),(2)GBK汉字内码扩充规范 组成:21003个汉字,883个图形符号 GBK字符集中的每个字符都采用双字节表示,总的编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间(剔除xx7F一条线不安排字符), 总计23940个码位, 共收入21886个汉字 和图形符号,未使 用的区域作为用户 自定义区。,汉字的编码(八),GBK代码控件和码位分布,(2)GBK汉字内码扩充规范 应用: 操作系统Windows 95以上简体中文版,采用GBK代码,并提供了多种输入法和字体 应用软件Office 95以上简体中文版本提供GBK码的检索和排序 互联网应用许多网站的网页使用GBK代码,但目前还不是所有搜索引擎都支持 GBK 汉字文本的搜索,汉字的编码(九),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode 约有6800种语言和文字在使用,需要建立一个多文种(Multilingual)处理环境 在ISO2022基础上,使用代码页号切换不同字符集的方法过于繁琐,且与其他系统不兼容 目标与途径:实现所有字符在同一字符集中统一编码,汉字的编码(十),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode UCS:ISO/IEC 10646 Universal Multiple-Octet Coded Character Set,通用多8位编码字符集 Unicode:统一码或联合码,微软、IBM等联合制定、与UCS完全等同的工业标准 UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作 UCS-4),汉字的编码(十一),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode 优点:编码空间极大,能容纳足够多的各种字符集(13亿字符) 缺点:4字节的字符编码使存储空间浪费严重 克服:在UCS/Unicode编码空间中,把第1和第2字节均为“0”的一个子空间(称为基本多文种平面BMP),作为UCS/Unicode的子集来使用,记作UCS-2。UCS-2是双字节编码,共有字符49194个,其中包括: 欧洲及中东地区使用的拉丁字母、音节文字 各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号 中、日、韩(CJK)统一编码的汉字,汉字的编码(十二),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode CJK统一编码汉字:指中、日、韩、新、马及我国台湾、香港、澳门地区使用的汉字,不论其字义和读音有无区别,只要字形相同,该汉字就只有一个代码。CJK汉字集以现有各国和地区的标准字符集(中国大陆的GB国标字符集,中国台湾的CNS 11643标准,日本的JIS标准及韩国的KS标准)作为源字符集,将其中的汉字按统一的认同规则进行认同甄别后,构成UCS/Unicode中的共27484个字符的汉字部分。,汉字的编码(十三),(3)UCS/Unicode与GB18030汉字编码标准 (a)通用编码字符集UCS/Unicode 为了与目前大量使用的8-bit系统兼容,且避免与数据通信中使用的控制码冲突,UCS/Unicode在实现时可将双字节变换为可变长代码。 UCS-2编码到UTF-8编码的部分转换规则,汉字的编码(十四),(3)UCS/Unicode与GB18030汉字编码标准 (b)GB18030-2000编码 GB18030-2000码位范围的分配,汉字的编码(十五),5.1.2 文本的准备,人工输入:通过键盘、手写笔或语音输入方式输入字符 特点:速度慢、成本高,不适合需处理大批量文字的应用 自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码 特点:速度快,效率高 文字的自动识别分为:印刷体识别和手写体识别,文本信息的输入方法,文本信息的输入方法,由于汉字字数很多,无法使每个汉字与西文键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就称为汉字的“键盘输入编码” 好的汉字键盘输入编码方案的特点:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等 汉字的输入编码与汉字的内码是不同范畴的概念。使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的,汉字键盘输入(一),汉字输入编码方法的分类 数字编码:使用一串数字来表示汉字的编码方法,例如电报码、区位码等 缺点: 难以记忆,不易推广 字音编码:一种基于汉语拼音的编码方法,简单易学,适合于非专业人员 缺点:同音字引起的重码多,需增加选择操作 字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如五笔字形法和表形码等 缺点:编码规则不易掌握 形音编码:吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少 缺点:不易掌握,汉字键盘输入(二),以平常书写的习惯,把要输入的汉字写在一块叫书写板的设备上,书写板将笔尖的运动(包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等)按时间采样后发送到计算机中,由计算机软件自动进行识别,然后用该汉字(或符号)对应的代码进行保存。 汉王笔 正识率 95 90,速度 12字/秒 中科院自动化所,华旗资讯科技发展有限公司(爱国者),联机手写汉字识别(笔输入),使用语音输入文本的系统也叫做“听写机”或“语音打字机” 按照不同的应用及要求,语音识别的功能区别: 孤立语音/连续语音识别 小词汇量/大词汇量语音识别 特定人/非特定人语音识别 最高目标:非特定人大词汇量的连续语音识别技术,汉语语音识别,印刷体汉字识别:将传统纸介质上的文字信息自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(Optical Character Recognition)。 印刷体文字识别的过程,印刷体汉字识别(汉字OCR),手写汉字识别 联机与脱机(手写汉字识别)的比较,脱机手写汉字识别,5.1.3 文本的类型,文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。 使用计算机制作的数字文本,根据用途分为:简单文本、丰富格式文本和超文本三类。,简单文本(plain text):是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt 特性:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理不能插入图片、表格等,不能建立超链接,简单文本(纯文本),文本的格式化 丰富格式文本(rich text、fancy text、formatted text) RTF格式 多媒体文档(Multimedia Document),丰富格式文本,线性文本 超文本(hypertext)的阅读方式 传统的顺序式阅读 通过链接、跳转、导航、回溯等操作实现跳跃式阅读 超文本的结构 节点(node) 节点包含的内容 超链(hyperlink) 链源 链宿,超文本,超文本,超文本结构,超媒体(Hypermedia):超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体” 超文本的应用 Windows等一些软件中的“帮助”文件 使用浏览器从Web服务器上下载的网页(html或htm文件),超文本,5.1.4 文本编辑与处理,文本编辑的主要功能 对字、词、句、段落进行添加、删除、修改等操作 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等 段落的处理:设置行距、段间距、段缩进、对称方式等 页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 “所见即所得”(What You See Is What You Get, 简称WYSIWYG):一方面所有的编辑操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果与打印机的输出结果相同。,文本编辑与文本处理(一),文本处理内容: 字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换 文本压缩,文本加密,文本著作权保护 关键词提取,文摘自动生成,文本分类 文本检索(关键词检索、全文检索),文本过滤 文语转换(语音合成),文种转换(机器翻译) 篇章理解,自动问答,自动写作等,文本编辑与文本处理(二),(1)面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通信。大多数情况下电子邮件正文的内容一般都是简单文本,因此电子邮件内嵌的文本编辑器功能比较简单,操作使用方便。 典型软件:微软公司的Outlook Express,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。当然邮件所带的附件并不受此限制。在互联网上进行聊天所使用的文本处理软件更加简单。,常用文本处理软件(一),(2)面向办公的文本处理软件 功能要求: 文本制作的高效率、高质量 软件面向非专业用户,易学好用 文本处理能力,既功能丰富,又操作简单 排版功能 典型软件: MS-Office WPS2000 永中Office中的文本处理软件,常用文本处理软件(二),(3)面向出版的文本处理软件 排版软件的主要功能:将文字、图形和图像等合理地安排在页面内 .ps文件:排版软件的输出的一种使用页面描述语言(例如PostScript)描述的文件,该文件记录了每一个页面的排版结果,它被送到装有栅格图像处理器(RIP)的激光照排机去,经过RIP的解释,产生页面的图像,然后驱动激光束对感光材料进行扫描曝光,以得到用于制版的胶片 典型排版软件: 方正集团公司的“飞腾”排版软件 美国Adobe公司的PageMaker和PDF Writer,常用文本处理软件(三),(4)面向网络信息发布和电子出版的文本处理软件 制作HTML文件的软件:微软的FrontPage,使用Word也可以产生HTML文件输出。 HTML文件:一种使用HTML语言(超文本标记语言)进行描述的文本文件。使用形如 和 的一对“括号”作为标记,指出文本中的标题、文本的分段及格式,描述文本中的表格类型、文本的分区、背景颜色、文字的颜色、字体和大小,设定文本页面的边距、文本中插图的位置、大小及图片名称等,最重要的是它能描述超链。 超链的链宿有两种: 书签,指的是文本内部标记有书签的某个地方 互联网上的某个信息资源(文件),它用统一资源定位器(URL)指定,常用文本处理软件(四),(4)面向网络信息发布和电子出版的文本处理软件 面向电子出版的软件 PDF格式文件,常用文本处理软件(五),文本输出:在屏幕上显示文本,用打印机打印文本等操作。 文本输出过程:首先要对文本的格式描述进行解释,然后生成文字和图表的映像(bitmap),最后再传送到显示器或打印机输出。 文本阅读器:承担上述文本输出任务的软件,也称为浏览器。它们可以是嵌入在文本处理软件中的一个模块,如微软的Word,也可以是独立的软件,如Adobe公司的Acrobat Reader,微软公司的IE等。,文本的输出(一),文字(汉字)字形的生成过程:先根据字符的字体确定相应的字型库(font),再按照该字符的代码从字型库中取出该字符的形状描述信息,然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换,最后将变换得到的字形放置在页面的指定位置处。 字型库:简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。,文本的输出(二),字符形状的描述方法: 点阵描述 轮廓描述,文本的输出(三),字符的点阵描述 字符的轮廓描述,5.2 图像与图形,从现实世界中通过数字化设备获取的图像,称为:取样图像(sampled image)、点阵图像(dot matrix image)、位图图像(bitmap image)简称图像(image) 计算机合成的图像(synthetic image),称为:矢量图形(vector graphics),简称图形(graphics),图像按生成方法分类,5.2.1 图像的获取,图像的获取(capturing):从现实世界中获得数字图像的过程 图像获取的过程实质上是模拟信号的数字化过程,它的处理步骤: 取样 分色 量化,图像的数字化(一),图像的数字化过程,图像的数字化(二),设备:从现实世界获得数字图像过程中所使用的设备通称为数字图像获取设备 设备的功能:将现实的景物输入到计算机内并以取样图像的形式表示 2D图像获取设备(如扫描仪、数码相机等)只能对图片或景物的2D投影进行数字化 3D扫描仪能获取包括深度信息在内的3D景物的信息,数字图像获取设备,5.2.2 图像的表示与压缩编码,从取样图像的获取过程可以知道,一幅取样图像由M(行)* N(列)个取样点组成,每个取样点是组成取样图像的基本单位,称为像素(picture element, 简写为pel)。彩色图像的像素是矢量,它由多个彩色分量组成,黑白图像的像素只有1个亮度值,图像的表示方法与主要参数,彩色图像的表示,图像的表示方法与主要参数,红色分量,绿色分量,蓝色分量,取样图像在计算机中的表示方法: 单色图像用一个矩阵来表示 彩色图像用一组(一般是3个)矩阵来表示,矩阵的行数称为图像的垂直分辨率,列数称为图像的水平分辨率,矩阵中的元素是像素颜色分量的亮度值,使用整数表示,一般是8位至12位,图像的表示方法与主要参数,图像的属性信息 图像大小,也称图像分辨率(包括垂直分辨率和水平分辨率) 位平面的数目,即矩阵的数目,也就是彩色分量的数目 颜色空间的类型,指彩色图像所使用的颜色描述方法,也叫颜色模型。常用颜色模型:RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YUV(亮度、色度)等 像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目,图像的表示方法与主要参数,一幅图像的数据量可按下面的公式进行计算(以字节为单位): 图像数据量图像水平分辨率图像垂直分辨率像素深度8 几种常用图像的数据量,图像的压缩编码,图像数据压缩的可能性:由于数字图像中的数据相关性很强,数据的冗余度很大,因此对数字图像进行大幅度的数据压缩是完全可能的。而且,人眼的视觉有一定的局限性,即使压缩前后的图像有一定失真,只要限制在人眼允许的误差范围之内,也是允许的。,图像的压缩编码,数据压缩类型 无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同 例如:行程长度编码(run length coding ,RLC): 111110005555333302222222 513045431072 哈夫曼(Huffman)编码:对出现概率高(低)的编短(长)码,是变长码 有损压缩:使用压缩后的数据进行图像重建时,重建后的图像与原始图像虽有一定的误差,但不影响人们对图像含义的正确理解。如变换编码、矢量编码等,图像的压缩编码,图像压缩方法很多,不同方法适用于不同的应用,在计算机中常常是多种压缩方法的综合使用。为得到较高的数据压缩比,一般都采用有损压缩。 压缩编码方法优劣的评价 压缩倍数的大小 重建图像的质量(有损压缩时) 压缩算法的复杂程度,图像的压缩编码,图像压缩编码方法的国际标准和工业标准:ISO和IEC两个国际机构联合组成了一个专家组 (Joint Photographic Experts Group, JPEG),制定了一个静止图像数据压缩编码的国际标准,称为JPEG标准 JPEG标准的特点:适用范围广;能处理各种连续色调的彩色或灰度图像;算法复杂度适中;既可用硬件实现,也可用软件实现;图像的压缩比可控制(压缩比越低,图像质量越好;压缩比越高,图像质量越差) JPEG 2000:适用于各种不同类型(黑白、灰度、彩色等)和不同特性(自然、医学、遥感、合成)的图像,可用于不同的应用模式(实时传输、检索、存档等)。采用了小波分析等先进算法,提供了更好的图像质量,更低的码率,更适合在WWW网上传输等,它兼容JPEG,图像的压缩编码,常用图像文件格式,BMP(BitMaP-file)图像:微软公司在Windows操作系统下使用的一种标准图像文件格式,一个文件存放一幅图像,可以使用行程长度编码(RLC)进行无损压缩,也可不压缩。不压缩的BMP文件是一种通用的图像文件格式,几乎所有Windows应用软件都能支持。 TIFF(Tagged Image File Format)图像文件格式:用于扫描仪和桌面出版,能支持多种压缩方法和多种不同类型的图像,有许多图像图形应用软件支持这种文件格式。由文件头、文件目录、目录条目三个部分组成。,常用图像文件格式,GIF(Graphics Interchange Format):互联网上广泛使用的一种图像文件格式,它的颜色数目较少(不超过256色),文件特别小,适合网络传输。由于颜色数目有限,GIF适用于插图、剪贴画等色彩数目不多的应用场合。GIF格式能够支持透明背景,具有在屏幕上渐进显示的功能。尤为突出的是,它可以将许多张图像保存在同一个文件中,显示时按预先规定的时间间隔逐一进行显示,从而形成动画的效果,因而在网页制作中大量使用。由CompuServe公司1987年开发,基于Lempel-Ziv Walch(LZW)压缩算法、使用特殊码、可变长度。,常用图像文件格式,5.2.3 数字图像处理与应用,数字图像处理:使用计算机对来自照相机、摄像机、传真机、扫描仪、医用CT机、X光机等的图像,进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理 对图像进行处理的主要目的 提高图像的视感质量 图像复原与重建 图像分析 图像的存储、管理、检索,以及图像内容与知识产权的保护等,数字图像处理,与应用领域密切相关,通常具有很强的专业性,如遥感图像处理软件、医学图像处理软件等。 使用较多的是面向办公、出版与信息发布的图像处理软件,也称为图像修饰(image retouching)或图像编辑软件,支持多种不同的图像文件格式,提供多种图像编辑处理功能,可制作出生动形象的图像。如美国Adobe公司的PhotoShop,集图像扫描、图像编辑、绘图、图像合成及图像输出等多种功能于一体,是一个流行的图像处理工具。,图像处理软件,图像的显示控制 图像区域的选择 图像的编辑操作 图像的滤镜操作 绘图功能 文字编辑功能 图层操作,PhotoShop的主要功能包括,图像处理软件,处理前图片上有划痕,处理后划痕被清除,图像的滤镜操作,背景图,前景图,复合后的图像,图层操作,图像通信 遥感 医疗诊断 工业生产中的应用 机器人视觉 军事、公安、档案管理,数字图像的应用,5.2.4 计算机图形,景物的模型(model ):景物在计算机内的描述 景物的建模(modeling):人们进行景物描述的过程 绘制(rendering):也称图像合成(image synthesis),根据景物的模型生成图像的过程,所产生的数字图像称为计算机合成图像 计算机图形学(Computer Graphics):研究如何使用计算机描述景物并生成其图像的原理、方法与技术,景物形状的计算机表示,计算机合成图像的过程:,景物形状的计算机表示,几何模型:景物建模方法与景物类型有关。普通工业产品(如电视机、电话机、汽车、飞机等),使用基本的几何元素(如点、线、面、体等)及表面材料的性质等进行描述所建立的模型 几何模型分类(按照所使用的几何元素类型) 线框模型 曲面模型 实体模型 几何模型应用:工业产品的计算机辅助设计/制造 过程模型/算法模型:根据景物的生成规律,并使用相应的算法来描述其规律所建立的模型,景物形状的计算机表示,剪贴画,剪贴画的分解,剪贴画的构造与效果,改变几何点,景物形状的计算机表示,使用几何模型描述的机械零件,使用分形模型描述的图案,图像绘制/图像合成:在计算机内建立了景物的模型之后,从景物的模型生成用户可见的具有高度真实感的该景物的图像的过程。 从景物模型绘制景物图像的处理步骤,计算机合成图像的绘制,使用计算机合成图像的主要优点: 能生成实际存在的具体景物的图像,还能生成假想或抽象景物的图像 能生成静止图像,还能生成各种运动、变化的动态图像 计算机合成图像的应用: 计算机辅助设计和辅助制造(CADCAM) 利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等 作战指挥和军事训练 计算机动画和计算机艺术 其他:电子出版、数据处理、工业监控、辅助教学(CAI)、软件工程等,计算机合成图像的绘制,矢量图形:计算机合成图像 矢量绘图软件:制作矢量图形的软件 如:AutoCAD、MAPInfo、ARCInfo等 2D的矢量绘图软件: Corel公司的CorelDraw Adobe公司的Illustrator Macromedia公司的FreeHand 微软公司的Microsoft Visio 微软公司Office办公套件中的Word和PowerPoint,矢量绘图软件,国际标准的绘图语言(编程语言) 二维图形的国际标准是GKS 三维图形的国际标准是GKS-3D、PHIGS 工业标准Open GL 公司标准如微软公司的Direct-3D 图形元文件标准(数据形式) 国际标准CGM和STEP Autodesk公司的DXF Microsoft公司的WMF,矢量绘图软件,5.3 数字声音及应用,5.3.1 波形声音的获取与播放,声音:由振动而产生,通过空气进行传播。它由许多不同频率的谐波所组成,谐波的频率范围称为声音的带宽(bandwidth),带宽是声音的一项重要参数。 多媒体技术处理的声音信号主要是人耳可听到的2020kHz的音频信号(audio) 言语(speech)/语音:人说话的声音,其频率范围约为3003400Hz 全频带声音:音乐声、风雨声、汽车声等其他声音,其带宽可达到2020kHz,声音信号的数字化,声音信号的数字化:将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程 声音信号数字化的过程: 取样 量化 编码,声音信号的数字化,模拟的声音信号转变成数字形式进行处理的优点: 以数字形式存储的声音重放性能好,复制时没有失真 数字声音的可编辑性强,易于进行效果处理 数字声音能进行数据压缩,传输时抗干扰能力强 数字声音容易与其他媒体相互结合(集成) 数字声音为自动提取“元数据”和实现基于内容的检索创造了条件,声音信号的数字化,麦克风:将声波转换为电信号 声卡(sound card):进行数字化 波形声音的获取:把模拟的声音信号转换为数字形式。(话筒或线路输入、单双道) 波形声音的重建与播放 MIDI(Musical Instrument Digital Interface)声音的输入 MIDI声音的合成与播放,波形声音的获取设备,声卡的工作原理,波形声音的获取设备,声卡以数字信号处理器(DSP)为核心,DSP在完成数字声音的编码、解码及声音编辑操作中起着重要的作用。它利用PCI总线与主机进行数据交换,混音器(mixer)的将不同的声音信号进行混音,并提供音量控制功能。 PC机的声卡较多的已经与主板集成在一起,不再做成独立的插卡。 利用声卡可在线(on-line)获取声音;使用数码录音 笔可离线(off-line)获取声音,然后再通过USB接 口直接将已经数字化的声音数据送入计算机中。数 码录音笔的原理与上述过程基本相同,不过由于带 宽的原因,它一般适合于录制语音。,声卡的组成与工作原理,声音的播放,声音播放:计算机输出声音的过程 声音重建步骤: 声音重建(reconstruction):把声音从数字形式转换成模拟信号形式 解码 数模转换 插值处理 将模拟声音信号经过处理和放大送到扬声器发出声音,声音重建,声音的重建也是由声卡完成的。声卡输出的声音需送到音箱去发音。 音箱分类 普通音箱:接收的是重建的模拟声音信号 数字音箱:可直接接收声卡输出的数字声音信号,避免信号在传输中发生畸变和受到干扰,其音响效果更加突出,声音重建,5.3.2 波形声音表示与压缩编码,取样频率 量化位数 声道数目 使用的压缩编码方法 数码率(bit rate):指的是每秒钟的数据量,也称比特率、码率 数字声音未压缩前,其计算公式为: 波形声音的码率 取样频率 量化位数 声道数 压缩编码以后的码率 压缩前的码率 / 压缩倍数,波形声音的主要参数,几种常见数字声音的主要参数,波形声音的主要参数,问题:数据量很大。如CD盘片上所存储的立体声高保真的全频带数字音乐,1小时的数据量大约是635MB 目的与办法:降低存储成本和传输通信带宽,对数字波形声音进行数据压缩 波形声音数据压缩的可能性:声音信号中包含有大量的冗余信息,再加上还可以利用人的听觉感知特性,因此,产生了许多压缩算法 声音数据压缩算法的评价:压缩倍数高,声音失真小,算法简单,编码器/解码器的成本低,全频带声音的压缩编码,第1代编码技术PCM(脉冲编码调制)编码:依据声音波形本身的信息相关性进行数据压缩,代表性的应用是CD唱片 第2代压缩编码感知声音编码(perceptual audio coding) :不但充分利用声音信息本身的相关性,而且还充分利用人耳的听觉特性,即使用“心理声学模型”来达到大幅度压缩数据的目的,全频带声音的压缩编码,第2代压缩编码感知声音编码的编码过程: 第1阶段:通过时间/频率变换和心理声学分析,揭示原始声音中与人耳感知无关的信息 第2阶段:通过量化和编码予以抑制 第3阶段:使用熵编码消除声音信息中的统计冗余,全频带声音的压缩编码,第2代全频带声音压缩编码标准,全频带声音的压缩编码,MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次: 层1(Layer 1):编码简单,用于数字盒式录音磁带 层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等 层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍 MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声,全频带声音的压缩编码,杜比数字AC-3(Dolby Digital AC-3):美国杜比公司开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中广泛使用。,全频带声音的压缩编码,音(视)频媒体的传输要求 高带宽 连续实时传输 平稳传输,克服突发问题 传输音(视)频媒体的方式 先下载,后播放(下载方式,需要等待很长时间,有很大的存储需求) 边下载,边播放(流式传输方式,不需要下载完整个文件, 只需经过几秒或十数秒的启动延时即可进行播放),全频带声音的压缩编码,流媒体技术:允许在窄带网上让用户一边下载一边收看(听)音视频连续媒体的技术 流媒体:使用流式传输技术的音/视频媒体 优点: 等待时间大大缩短 减少了对缓冲容量的需求 降低了对网络带宽的要求,全频带声音的压缩编码,声音流媒体产品 Real Networks公司的RA(Real Audio)数字音频 微软公司的WMA(Windows Media Audio)数字音频 苹果公司的 Quick Time,全频带声音的压缩编码,.wav (waveform):用于PC .PCM:使用PCM编码的声音文件, .VOC:声霸卡使用的音频文件格式 .Mp2:MPEG Layer I ,II .Mp3:MPEG Layer III , .rm,ra(RealAudio):RealNetworks的流式声音文件 .wma:微软公司的流式声音文件 .aif (Audio Interchangeable File Format):苹果机,波形声音的文件格式,语音:空气通过声道引起声门振动产生语音 带宽只有3003400Hz 压缩方法 波形编码(基于感觉模型的压缩方法) 特点:码率较高(64kb/s、32kb/s)、语音质量高、 算法简单、易实现 应用:固定电话通信系统、多媒体文档 参数编码或模型编码 特点:码率很低、声音质量较差 应用:保密通信 混合编码 特点:中度码率(4.8-16 kb/s)、压缩比较高、 语音质量较好 应用:移动通信、IP电话,数字语音的压缩编码,数字语音压缩编码方法的比较,数字语音的压缩编码,5.3.3 波形声音的编辑,基本编辑操作 声音的剪辑(删除、移动或复制一段声音,插入空白等) 声音音量调节(提高或降低音量,淡入、淡出处理等) 声音的反转 持续时间的压缩/拉伸 消除噪音 声音的频谱分析 声音的效果处理 包括混响、回声、延迟、频率均衡、和声效果、动态效果、升降调、颤音等 格式转换功能 其他功能 如分轨录音,配音,刻录CD唱片等,声音编辑软件的功能,5.3.4 计算机合成声音,语音合成(Speech synthesis):根据语言学和自然语言理解的知识,使计算机模仿人的发声,自动生成语音的过程。目前主要是按照文本(书面语言)进行语音合成,这个过程称为文语转换(Text-To-Speech,简称TTS)。 文语转换过程 文本分析 韵律分析 语音生成,语音合成,文语转换过程,语音合成,语音库:语音库中存储了大量预先录制的语音基元(单音、词组、短语或句子)的波形,合成时读取语音基元的波形,将这些波形进行拼接和韵律修饰,然后输出连续语音流。 对计算机合成的语音希望能达到的要求: 发音清晰可懂 语气语调自然 说话人可选择 语速可变化等,语音合成,计算机合成语音的应用: 股票交易、航班动态查询、电话报税等业务 有声E-mail服务 CAI课件或游戏解说词的自动配音 文稿校对、语言学习、语音秘书、自动报警、残疾人服务等,语音合成,音乐是使用乐器演奏而成的 音乐的基本单元是一些音符 音符的属性: 音调:声波的基频 音色:由声音的频谱决定,不同乐器有不同的音色 音强:声音的强度 旋律:乐曲中音符持续时间的变化 音源:也称为音乐合成器(music synthesizer),它能模仿许多乐器生成各种不同音色的音符。 PC机的声卡一般都带有音源,音乐合成,声卡上的音源 调频合成器:一种受控的电子振荡器(波形发生器),能模拟生成许多乐器演奏的音符 特点:音色单调,效果较差 波表合成器:预先将每种乐器演奏的各个音符的波形数字化,把它们组织成一张表(称为波表),存放在ROM中,播放时根据乐器类型、音符等参数访问ROM,取出相应的波形数据,将其修饰成所要求的音强和时长,然后播放出来 特点:音色优美,效果好 MIDI(Musical Instrument Digital Interface):计算机中描述乐谱的一种标准描述语言,规定了乐谱的数字表示方法(包括音符、定时、乐器等)和演奏控制器、音源、计算机等相互连接时的通信规程。,音乐合成,MIDI规定: 乐谱中的音符及其定时、速度、音色(乐器)等采用MIDI消息(MIDI message)进行描述 每个MIDI消息描述一个音乐事件(如开始演奏某个音符、结束演奏某个音符、选择音符的音色、改变演奏速度等) 一首乐曲所对应的全部MIDI消息组成一个MIDI文件 MIDI文件在计算机中的文件扩展名为 .MID,它是计算机合成音乐的交换标准,也是商业音乐作品发行的标准,音乐合成,MIDI音乐的制作与播放:,音乐合成,音序器的软件: 音序器(sequencer) MIDI演奏器(如MIDI键盘) 音乐合成 音序器软件的其他功能:对MIDI文件进行修改和编辑,生成并打印乐谱,管理与检索MIDI文件,播放MIDI乐曲等 典型的音序器软件:Cakewalk, Encore,音乐合成,MIDI文件在Windows系统中可以使用媒体播放器进行播放。 播放MIDI音乐的过程: 媒体播放器软件从磁盘上读入MID文件 把其中的一个个MIDI消息发送给声卡上的音乐合成器 由音乐合成器解释并执行MIDI消息所规定的操作 合成出各种音色的音符,通过扬声器播放出乐曲来,音乐合成,由PC计算机、声卡、MIDI演奏器和音序器软件等构成的个人电脑音乐系统,彻底改变了传统的音乐制作方式和概念。 原来需要由多人才能完成的工作现在只需一个人即可 记录音乐的方式也由原来的乐谱变成了MIDI文件 音乐作品由修改困难变为可任意编辑修改 强大的电脑编辑功能不仅提高了音乐表现的精确性,同时也降低了制作者对演奏技术的依赖性,使本属于专业音乐工作者的音乐制作变成了一种大众化的、个人的音乐行为和活动,音乐合成,MIDI音乐与高保真的波形声音相比: 缺点: 音质方面较差 无法合成出所有各种不同的声音(例如语音) 优点: 数据量很少(比CD-DA少3个数量级,比MP3少2个数量级) 易于编辑修改 可以与波形声音同时播放,音乐合成,5.4 数字视频及应用,5.4.1 数字视频基础,视频(video):指的是内容随时间变化的一个图像序列,也称为活动图像(motion picture)。 常见的视频有电视和计算机动画。 电视:能传输和再现真实世界的图像与声音,是当代最有影响力的信息传播工具。 数字视频:数字化的电视信号称为数字视频。 计算机动画:是计算机制作的图像序列,是一种计算机合成的视频。,基本概念,电视画面:一种光栅扫描图像,一般采用隔行扫描方式,即图像由奇数场和偶数场两部分组成,合起来组成一帧图像 PAL制式(中国采用) 帧频25帧/s, 场频50场/s,图像的垂直分辨率(一帧图像中的扫描线总数)625线,可见部分575线,不可见的回扫线50线,电视信号行频为 62525 = 15.625 kHz 远距离传输时用亮度信号Y和两个色度信号U、V来表示,优点: 能与黑白电视接收机保持兼容,Y分量由黑白电视机直接显示而无需做进一步处理 可利用人眼对两个色度信号不太灵敏的视觉特性来节省电视信号的带宽和发射功率,电视基本知识,彩色信号的YUV表示与RGB表示的转换: 亮度分量 Y0.3 R 0.59 G 0.11 B 色度分量 U0.493 (B Y) 色度分量 V0.877 (R Y),电视基本知识,数字视频与模拟视频相比的优点: 复制和传输时不会造成质量下降 容易进行编辑修改 有利于传输(抗干扰能力强,易于加密) 可节省频率资源 视频信号的数字化: 以一帧帧画面为单位进行 由于采用YUV彩色空间,人眼对颜色信号的敏感度远不如对亮度信号灵敏,所以色度信号的取样频率可以比亮度信号的取样频率低,以减少数字视频的数据量,视频信号的数字化,常用的色度信号取样格式: 4:4:4格式(色度信号的取样与亮度信号完全一样) 4:2:2格式(每条扫描线上色度信号的取样只是亮度信号的一半) 4:2:0格式(在水平和垂直方向上色度信号的取样都只是亮度信号的一半),视频信号的数字化,CCIR601,CIF,QCIF和SQCIF视频图像的格式,视频信号的数字化,视频采集卡:简称视频卡,PC机中用于视频信号数字化的插卡。 功能: 将模拟视频信号(及伴音信号)数字化并存储在硬盘中。数字化后的视频图像,经彩色空间转换(从YUV转换为RGB),与计算机图形显示卡产生的图像叠加,显示在屏幕上。 获取数字视频的同时使用数字信号处理器(DSP)进行音频和视频数据的压缩编码,视频卡与视频获取设备,视频卡、图形卡与主机之间的关系,视频卡与视频获取设备,数字摄像头:在线获取数字视频的设备。 通过光学镜头采集图像,然后直接将图像转换成数字信号并输入到PC机,不需视频采集卡进行模数转换。 最高分辨率:640480,一般:352288,速度:30帧/s以下,镜头视角:4560度 光传感器:大多采用CCD,部分采用CMOS,后者分辨率不能很高,但功耗低、速度快 接口:USB接口,IEEE1394(火线)接口。,视频卡与视频获取设备,数字摄像机:一种离线的数字视频获取设备。 原理:与数码相机类似,功能更多 压缩编码:视频图像及伴音使用M-JPEG或MPEG-2 记录介质:磁带,硬盘 接口:USB,IEEE1394,视频卡与视频获取设备,5.4.2 数字视频的压缩编码,数字视频的数据量:很大。1分钟CCIR601数字视频的数据量约为1G字节 数字视频压缩的可行性: 画面内部信息相关性很强 相邻画面的内容具有高度的连贯性 人眼的视觉特性,数字视频压缩的可行性,视频压缩编码的标准及其应用,MPEG-1:一种运动图像及其伴音的编码标准 码率:1.2 Mb/s 1.5Mb/s 图像质量:200多线,相当于一般家用录像机 应用: 数码相机和数字摄像机 VCD,视频压缩编码的标准及其应用,MPEG-2:针对数字电视(DTV)的应用要求 码率:1.5Mb/s60Mb/s甚至更高 特点:通用性,向下兼容 MPEG-1 应用: 数字卫星电视 高清晰度电视(HDTV)广播 数字视盘DVD,视频压缩编码的标准及其应用,MPEG-4: 目标:支持各种网络条件下(包括移动通信)的交互式多媒体应用,侧重于对多媒体信息内容的访问 支持:自然的(取样)和计算机合成视频和音频,功能强,应用前景广 H.261:数字视频编码标准,由国际电联(ITU)前身CCITT制定,适用于在ISDN网上以p64kbps(p= l, ,30)的速率开展视频会议和可视电话业务,视频压缩编码的标准及其应用,AVI(Audio Video Interleaved Format):一种音频/视频文件格式 应用:Windows平台,在获取、编辑以及播放音频/视频流的应用软件中被广泛使用 对压缩方法没有限制,只需在文件中加以说明,增强了可扩展性 例如,可使用Microsoft RLE、Microsoft Video 1、Intel Indeo 3.1/3.2、Cinepak,MPEG、Motion-JPEG等压缩算法 缺点:不适应在网络上对视频流的实时播放,视频压缩编码的标准及其应用,ASF (Advanced Stream Format)文件格式 针对AVI文件的网络实时播放缺陷开发 采用技术:WM Video8和WM Audio8流媒体技术 应用:互联网上视频直播(WebTV)、视频点播(VOD)、视频会议等 Real Networks公司的RealMedia(包括RealVideo和RealAudio)与微软公司流媒体技术相当,已在互联网上得到了广泛的应用,视频压缩编码的标准及其应用,5.4.3 数字视频的编辑,非线性编辑系统:摆脱了磁带顺序存取束缚的计算机视频编辑系统。节目制作是在大容量随机存取的磁盘存储器上进行,效率得到了极大的提高。 系统组成:计算机主机、视(音)频卡、SCSI硬盘、视频编辑软件、控制装置 使用模式:把电视节目素材存入硬盘中,根据需要对不同长短、不同顺序的素材进行剪辑,同时配上字幕、特技和各种动画,再进行配音、配乐,最终制作成高质量的电视节目 功能:视频处理功能和数字特技机、字幕机、编辑机、调音台等众多功能 核心软件:数字视频编辑器,如Adobe Premiere,非线性编辑系统,虚拟演播室:利用计算机生成运动或静止的三维场景,与现场拍摄的视频图像进行实时合成。在现场直播时,综合生成的三维场景,可不断变化更换,并根据演播室摄像机运动的位置显示出正确的透视图,使合成的视频图像取得真实的视觉效果 组成:摄像机、摄像机位置参数分析与控制、图形工作站、背景素材库和图像合成设备等,虚拟演播室,5.4.4 合成视频计算机动画,概念:采用计算机生成一系列可供实时演播的连续画面的一种技术。 基础:计算机图形学 制作过程:在计算机中生成场景和形体的模型设置它们的运动生成图像并转换为视频信号输出,计算机动画,创作软件:二维动画软件如Animator Pro 三维动画软件如3D StudioMAX等 三维动画的制作: 按照动画的脚本对景物进行造型 确定景物的颜色 设置灯光和布置摄像机的位置 描述和设置动画的运动要求 图像绘制 输出动画结果,计算机动画,5.4.5 数字视频的应用,CD(Compact Disc):小型光盘, 最早应用于数字音响领域, 代表产品是CD唱片。每张CD唱片的存储容量是650MB左右,可存放1小时的立体声高保真音乐。 Video CD(简称VCD):1994年由JVC、Philips等公司联合定义的一种以数字技术在CD光盘上存储视频和音频信息的规范。规定了将MPEG-1音频/视频数据记录在CD光盘上的文件系统的标准,使一张普通的CD光盘可记录约60分钟的音视频数据,图像质量达到家用录放像机的水平,可播放立体声。VCD播放机体积小,价格便宜,音视频质量较好。VCD的一个派生产品是Karaoke CD光盘,它同VCD保持兼容。,MPEG-1与VCD,DVD(Digital Versatile Disk):数字多用途光盘。有多种规格,用途广泛。其中的DVD-Video(日常简称为DVD)就是一种类似于LD或Video CD的家用影碟。 DVD影碟与VCD相比: 存储容量大得多。CD光盘容量650MB,存放74分钟VHS质量(352240)的视频图像;单面单层DVD容量4.7GB,以平均码率4.69Mb/s播放视频图像,能存放133分钟的接近于广播级图像质量(720480)的整部电影 压缩编码:MPEG-2 画面品质比VCD高,MPEG-2与DVD,DVD-Vi
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!