多媒体技术教程ch2

资源描述

,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,高等学校,21,世纪教材,多媒体技术教程,第二章媒体及媒体技术,1,2.1,媒体的种类和特点,2,2.1.1 常见的媒体元素,文本,文本是计算机文字处理程序的基础,文本数据可以在文本编辑软件里制作,文本文件分类,非格式化文本,格式化文本文件文件,带有各种文本排版信息等格式信息的文本文件,段落格式、字体格式、文章的编号、分栏、边框,文字的变化：格式（,sty1e,）、字的定位（,align,）、字体（,font,）、字的大小（,size,）,3,2.1.1 常见的媒体元素,图形,图形的概念,一般指用计算机绘制的画面，如直线、圆、圆弧、矩形、任意曲线和图表等。图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合，在图形文件中只记录生成图的算法和图上的某些特征点，也称矢量图。,line,（,x1,y1,x2,y2,color,）,circle,（,x,y,r,color,）,4,2.1.1 常见的媒体元素,图形,图形的特征,图形是对图象进行抽象的结果（人工或自动）；,图形的矢量化使得有可能对图中的各个部分分别进行控制（放大、缩小、旋转、变形、扭曲、移位等）,图形的产生需要计算时间,5,2.1.1 常见的媒体元素,图像,图像的概念,图像是指由输入设备捕捉的实际场景画面，或以数字化形式存储的任意画面。,静止的图像是一个矩阵，由一些排成行列的点组成，这些点称之为像素点（,pixel,），这种图像称为位图（,bitmap,）。,6,2.1.1 常见的媒体元素,图像,图像的主要技术参数,分辨率,屏幕分辨率,计算机显示器屏幕显示图像的最大显示区,图像分辨率,数字化图像的大小,像素分辨率,像素的宽高比，一般为,11,7,2.1.1 常见的媒体元素,图像,图像的主要技术参数,图像灰度,每个图像的最大颜色数,2,位：黑白,2,色；,4,位：,16,色；,8,位：,256,色；,24,位：真彩色,图像文件大小,（高,宽,灰度位数）,/8,字节,8,2.1.1 常见的媒体元素,图像,图形与图象的关系,图形是矢量概念，图元；图象是位图概念，象素；,图形显示图元顺序；图象显示象素顺序；,图形变换无失真；图象变换有失真；,图形以图元为单位修改属性、编辑；图象只能对象素或图块处理；,图形是对图象的抽象，但在屏幕上两者无异,9,2.1.1 常见的媒体元素,视频,视频的概念,视频源于电视技术，它由连续的画面组成。这些画面以一定的速率连续地投射在屏幕上，使观察者具有图像连续运动的感觉。,10,2.1.1 常见的媒体元素,视频,视频的制式,PAL,制（,625/50,）,每秒,25,帧，水平扫描线为,625,条，水平分辨率,240400,个像素，隔行扫描。,62,年诞生于德国，应用于中国、新加坡、欧洲地区等（,Pal-B,、,D,、,G,、,H,、,I,、,N,、,NC,）。,NTSC,制（,525/60,）,每秒,30,帧，水平扫描线为,525,条，水平分辨率,240400,个像素，隔行扫描。,53,年诞生于美国，应用于美国、日本、台湾等（,NTSC-M,、,NC,、,Japan,等）。,11,2.1.1 常见的媒体元素,视频,视频的制式,SECAM,制（,625/50,）,每秒,25,帧，水平扫描线为,525,条、水平分辨率,625,。由法国人提出，应用于俄罗斯、法国、非洲地区等。,视频的数字化,指在一段时间内以一定的速度对视频信号进行捕获并加以采样后形成数字化数据的处理过程。,12,2.1.1 常见的媒体元素,视频,视频的技术参数,颜色空间,R,、,G,、,B,（红、绿、蓝）,Y,、,U,、,V,（为亮度，,U,、,V,为色差）,H,、,S,、,I,（色调、饱和度、强度）,可以通过坐标变换而相互转换,帧速,每秒钟显示的帧数目，计量单位为帧率（,fps,）,视频根据制式的不同：,30,帧,/,秒（,NTSC,）、,25,帧,/,秒（,PAL,）,13,2.1.1 常见的媒体元素,视频,视频的技术参数,数据量,帧速,每幅图像的数据量（不计压缩）,图像质量,与数据源质量有关（,：表示“好于”）,RGB,视频,YUV,视频,Y/C,视频,(S,视频,),复合视频,与视频数据压缩的倍数有关,注,1,：,UV,两个色差信号可合成为一个色度信号,C,，进而形成,Y/C,记录方式，这种方式得到的视频称为,S,视频。,注,2,：把亮度,Y,与色度,C,进一步混合在一起，便形成复合视频。,14,2.1.1 常见的媒体元素,音频,分类,波形声音,包含了所有的声音形式，它可以把任何声音都进行采样量化，并恰当地恢复出来。,15,2.1.1 常见的媒体元素,音频,分类,语音,人的说话声虽是一种特殊的媒体，但也是一种波形，所以和波形声音的文件格式相同。,音乐,符号化了的声音，乐谱可转变为符号媒体形式。,16,2.1.1 常见的媒体元素,音频,数字声音波形质量的主要技术参数,采样频率,等于波形被等分的份数，份数越多，质量越好,11.025,KHZ,、,22.05,KHZ,、,44.1,KHZ,采样精度,每次采样信息量,8,位、,16,位,通道数,声音产生的波形数,单声道、立体声道、,5.1,声道,数据量计算：,(,采样频率,采样精度,通道数,时间,)/8,字节,17,2.1.1 常见的媒体元素,动画,动画的概念,运动的图画，实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续，也指图像内容上的连续，即播放的相邻两幅图像之间内容相差不大。,计算机设计动画方法,造型动画,帧动画,18,2.1.1 常见的媒体元素,动画,帧动画,19,2.1.1 常见的媒体元素,动画,帧动画,20,2.1.2 媒体的种类,视觉,视觉,（静止）,图像,图形,文字,符号,语言文字,抽象化,抽象化,（动态）,图像,图形,动态影像视频,真实感三维动画,二维动画,三维动画,其它表示为视觉的媒体,21,2.1.2 媒体与多媒体,听觉,触觉,其他感觉,抽象化,听觉,声音,声响（自然界）,语音（人类语言）,音乐,其它（嗅觉、味觉等）,触觉,振动,运动,传感,/,发生器,22,2.1.3 媒体的性质和特点,各种媒体具有不同特点和性质,媒体是有格式的,不同媒体表达信息的特点和程度各不相同,媒体之间可以相互转换,媒体之间的关系也具有丰富的信息,媒体具有空间性质,表现空间,媒体按相互的空间关系进行组织,视觉空间、听觉空间和触觉空间这,3,者既相互独立又需要相互结合,23,2.1.3 媒体的性质和特点,媒体的时间性质,表现需要时间,媒体在时间坐标轴上的相互关系,媒体的语义,媒体的语义是有层次的,抽象的程度不同，语义的重点也就不同,媒体结合的影响,媒体结合是多层次的,媒体结合有利于信息接受和理解,隐喻,交互的概念模型，也称心智模型,24,2.2,听觉媒体技术,25,2.2.1 声音心理学,1.声音的量纲,声音的振动是一种正弦波，声音的变化必须确定三件事：频率（变化的速度）、幅度（产生的压力）、相位（何时开始）。,另外一方面，人们可以感觉到声音的强弱，可以感觉到歌唱家音调的高低。,因此，声音的量纲分为声音的物理量纲和心理量纲。,26,2.2.1 声音心理学,物理量纲可以用精确的值来描述，但对某一具体声音得来的心理印象却不容易说明白，因为心理印象要由被测者的经验而定。,声音的心理属性和物理属性不可等同，首先，这些关系不是线性的；其次这些关系不是孤立的；第三这些关系不是不变的。,27,2.2.1 声音心理学,两者之间确有关系：例如声音的响度取决于强度和频率两个因素，如果频率不变，强声显得比弱声要响些。但如果强度不变，过高频率的声音和过低频率的声音似乎比中频的声音听起来都要弱一些。由此可见，响度依赖于频率，原因是人耳能反应的频率范围是有上限和下限的。,28,2.2.1 声音的量纲,心理变量,首要的物理变量,次要的物理变量,响度,声强,声波频率,音调,声波频率,声强,音色,声波复合,音量,频率和强度,密度,频率和强度,谐和（流畅或粗糙）,谐波结构,音乐技巧,噪声,强度,频率组合，各种时间参量,骚扰声,强度,频率组合，无意义,29,2.2.1 声音心理学,2.听觉特性,等响曲线,由于响度与频率和强度有关，所以在不同频率上的强度是不同的。先设一个音为标准音，给予固定的频率、强度和持续时间，例如1000,Hz、40,分贝、持续0.5秒；再给一个音也持续0.5秒，但频率不同，通过调整使其响度听起来一样，得到的这样一组曲线称之为等响曲线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考虑，对同一响度的声音在频率上和强度上可以有很大的差别，这对声音表现有重要意义。,30,2.2.1 声音心理学,掩蔽（,masking）,声音的响度不仅取决于自身的强度和频率，而且也依赖于同时出现的其它声音。各种声音可以互相掩蔽，也就是说一种声音的出现可能使得另一种声音难于听清。由于声音的掩蔽效果，可以欺骗人的听觉。例如，本来是多种频率的声音的复合，但听众以为是另一种声音。所以，声音的掩蔽特性常常用于声音的压缩。,31,2.2.1 声音心理学,临界频带,在频率的某一临界区里，各种声音是相互作用的，合成声音的响度由这些频率共同决定。如果超出临界区，声音的响度不再相互作用，声音的响度随频率的改变而改变。这个临界区就是临界频带，其宽度视其中心频率而定。对于临界频带的确定，使得对声音响度的处理能够有的放矢。,32,2.2.1 声音心理学,相位,从声音的波形来看，声音的起点和方向也要反映声音的特性，这就是声音的相位。当两个声音相同相位完全相反时，它们将相互抵消；当两个声音相同而且相位也相同时，声音就会得到加强。,相位的确定对于多声道声音系统的设计非常重要，其可以应用在回声的消除、会议系统的声音设计上。,33,2.2.1 声音心理学,自然声音的时变现象,声音的音调分成三个区域：起始区、稳定状态区、延迟区。,研究表明，音调的频谱分量随时间改变。在稳定状态区，频谱保持固定。在起始区，振幅频谱随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器，专家也会觉得较难。时变现象用于数字系统中，说明声音中的某些错误是不太容易发现的，但如果出现停顿就很容易引起人的注意。,34,2.2.1 声音心理学,听觉空间,人耳可听到来自各个方向的声音，并用不同的因素来判定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解，都是非常重要的。通过声音的精确再现，就可以构造出听觉空间。,方位的线索是各种声音到达两耳的精确时间和强度。,35,2.2.1 声音心理学,听觉的频谱特性,声音是时间函数，通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中，元音很少有频谱变速变化的区域。基频改变，人耳是很敏感的。例如：快进的录像，音调会发生变化。,音色非常复杂，目前尚在研究中。音色的处理将使我们能识别音源，音色也代表和声音有关的主观质量。,36,2.2.1 声音心理学,声音的心理模拟,通过人工真实的方法，可以对视觉空间的景物进行再造或虚构，同样也可以对听觉空间的声音进行心理的模拟，这就是所谓的可听化（,audiolization,）。,用声音可以表达出一些声音的效果。,37,2.2.2 音频的数字化和符号化,从人与计算机交互的角度看，音频信号的处理包括下述3点：,人与计算机通信，也就是计算机接收音频信号。包括音频获取、语音的识别和理解。,计算机与人通信，也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。,人-计算机-人通信。人通过网络与异地的人进行语音通信，相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。,38,2.2.2 音频的数字化和符号化,1音频的数字化与再现,在计算机中，所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的，称为数字音频。数字音频的特点就是保真度好，动态范围大。,数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。,39,2.2.2 音频的数字化和符号化,对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理，只要采样频率高于信号中最高频率的两倍，就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20,Hz,到20,KHz，,所以实际的采样过程中，为了达到好的效果，就采用44.1,KHz,作为高质量声音的采样频率。如果达不到这么高的频率，声音恢复的效果就会差一些，例如电话声音的质量等。一般来说，声音恢复和采样频率、信道带宽都有关。,40,声音的采样以及量化图,2.2.2 音频的数字化和符号化,41,2.2.2 音频的数字化和符号化,与数字音频相关的重要特性：,采样频率,采样频率与声音的质量关系最为紧密。采样频率越高，声音质量越接近原始声音，所需的存储量便越多。标准的采样频率有三个：44.1,KHz，22.05kHz，,和11.025,kHz。,采样位数,存放一个采样点所需的比特数。一般的采样位数为8位或16位，即把声音采集为256等份或65536等分。,42,2.2.2 音频的数字化和符号化,声道数,有单声道、双声道和多声道。如多种语言音频混存时，需要多声道,数据量,(采样频率每点采样位数声道数),数据量,8,(字节/秒),43,2.2.2 音频的数字化和符号化,2声音的符号化,波形声音可以把音乐、语音都进行数据化并且表示出来，但是并没有把它看成音乐和语音。,对于声音的符号化（也可以称为抽象化）表示包括两种类型：一种是音乐，一种是语音。,44,2.2.2 音频的数字化和符号化,（1）音乐的符号化,MIDI,MIDI(Music Instrument Digital Interface),是指乐器数字接口的国际标准。,MIDI,消息，是指乐谱的数字描述。,任何电子乐器，只要有处理,MIDI,消息的微处理器和合适的硬件接口，就构成了一个,MIDI,设备。当一组,MIDI,消息通过音乐合成芯片处理时，合成器能解释这些符号并且产生音乐。,MIDI,的关键是作为媒体能够记录这些音乐的符号，相应的设备能够产生和解释这些符号。它给出了一种得到音乐声音的方法。,45,2.2.2 音频的数字化和符号化,MIDI,的特点：,与波形声音相比，,MIDI,不是声音数据而是指令，所以数据量要少得多。30分钟的音乐，用,MIDI,文件记录只需,200,KB，,用,16位,CD,品质的未压缩,WAV,文件记录需317,MB,MIDI,可以与其他波形声音配合使用，形成伴乐的效果。而两个波形声音一般是不能同时使用的,对,MIDI,的编辑也很灵活，用户可以自由地改变音调、音色等属性，直到自己想要的效果,MIDI,在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音,46,2.2.2 音频的数字化和符号化,（2）语音的符号化,语音与文字是对应的。波形声音可以记录表示语音，它是不是语音取决于听者对声音的理解。对语音的符号化实际上就是对语音的识别，将语音转变为字符，反之也可以将文字合成语音。,语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样，但由于语音是由一连串的音素组成。“一句话”中包含许多音节以及上下文过渡过程的连接体等特殊的信息，并且语音本身与语言有关，所以要把它作为一个独立的媒体来看待。,47,2.2.3 音频媒体的三维化处理,1三维虚拟声空间,所谓三维虚拟声空间（,Three Dimensional Virtual Acoustic，3DVA），,是指用一定的声音设备人为地产生出来的具有空间位置信息的声音空间。,三维听觉的使用明显地依赖于用户对听觉空间中各种信息源的定位能力。一般说来，三维虚拟声空间要达到以下的一些目标：, 在可听的范围内重现频率分辨度和动态范围；, 在三维空间中精确地呈现声音的位置信息；, 能表达多个静止和移动的声源；, 能和头部的动作具有一定的关联；, 能够支持一定程度的交互。,48,2.2.3 音频媒体的三维化处理,23,DVA,的基本理论,人类感知声源位置的最基本的理论是双工理论,，,该理论基于两种因素：两耳间声音的到达时间差,ITD（Interaural Time Differences）,和两耳间声音的强度差,IID（Interaural Intensity Differences）,。,时间差是由于距离的原因造成的，当声音从正面传来时，距离相等，所以没有时间差；但若偏右3,o,，,则到达右耳的时间就要比左耳约早30,ms，,而正是这30,ms，,使得我们辨别出了声源的位置。,强度差是由于信号衰减造成的，信号的衰减是因为距离产生的，在很多情况下是因为人的头部遮挡，使声音衰减，产生了强度的差别，使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。,49,2.2.3 音频媒体的三维化处理,3,DVA,理论较形象地说明：人耳对声音定位的特性，通过大脑的综合作用后，对有差别的声音信号进行了相对于空间位置的定位。,人耳对声源方位的判定起决定作用的是耳廓。当声波从声源传到听者的耳部时，声波会在耳廓发生不断的反射和折射，然后由内耳道传到耳鼓，使人产生音感。这种反射、折射是依赖于频率的，通过不同频率的变化，使得人耳能够辨别声源的方位。另外，当声音从声源传到人的内耳并形成听觉时，声音信号已经携带了两个很重要的信息，从而形成了空间真实感和环境真实感。声源的本身信号特征、声源的空间三维位置、声源所处的环境这三个因素描述了声源的全部信息。,50,2.2.3 音频媒体的三维化处理,3,HRTF,方法,实现空间真实感的关键是建立起耳廓模型，这种方法被称为“双耳相关函数法”，也即,HRTF（Head-Related Transfer Function，,与头部有关的转移函数）。,从理论上利用,HRTF,产生真实空间声音的算法如下图所示。,51,2.2.3,音频媒体的三维化处理,52,2.3,视觉媒体技术,53,2.3.1 视觉心理学,1视觉的心理特征,视觉是人类最重要的感知能力，通过视觉可以感知到外部世界的形状、大小、色彩、明暗、机理和运动等多方面的信息。,同声音心理学相似，与视觉相对应的光学物理性质和心理知觉也是截然不同的。虽然光的物理特性与心理知觉有关，但它们的关系并不是线性的。对光的色调和亮度的感觉不仅和它的频率和强度有关，而且还和它出现的背景有关，和同时出现的周围光有关。,54,2.3.1 视觉心理学,视觉心理变量,主要的物理变量,亮度,光强,色调（彩色）,波长,浓度（彩色的浓度）,光谱成分,对比,光强、波长、周围光,55,2.3.1 视觉心理学,2. 视觉特性,亮度,亮度是人眼对光强度的感受。,一个物体的亮度不仅跟目标的物理强度有关，而且与周围的背景有关。假定整个照明增大了，目标和环境的光强就按照比例增大了，两者之间的物理对比就维持不变。但当照明增强时，目标的亮度可能会亮一些，也可能保持不变，甚至看起来亮度减少一些。这些都取决于中心和周围之间的相对强度，也就是对比度。,对图像的处理最重要的是亮度的差别。,56,2.3.1 视觉心理学,与声音相似，视觉上也有等亮曲线，反映了视觉在亮度上与波长的关系。在同一亮度感觉下，不同波长的光具有不同的光强。,视觉也有掩蔽现象，在很亮的高光周围时难以看清的，道理和声音是类似的,。,57,2.3.1 视觉心理学,视觉的时间特性,建立视觉图像需要时间，而一旦建立起来之后，即使把图像对象拿走，这种反应也要维持一段时间。这是因为把光转变为神经电需要时间。正因为视网膜图像时逐渐消退的，所以视觉暂留可以存在十分之几秒。,58,2.3.1 视觉心理学,彩色,表示颜色需要考虑三种心理属性：色调、亮度和饱和度。色调就是通常意义下的彩色，它随波长的变化而变化，反映颜色的基本特性。亮度是光作用于人眼所引起的明亮程度的感觉，与光强有关。饱和度是代表为了产生所感知到的彩色在白光中必须混入的纯单色光的相对数量，或者说是颜色的深浅程度。对同一色调的彩色光，饱和度越深颜色越鲜艳。色调和饱和度统称为色度。,59,2.3.1 视觉心理学,颜色是由三种原色光混合而成的。可见光的波长从380纳米到780纳米。不同波长呈现出不同颜色，可见光波长从长到短依次为红橙黄绿青蓝紫。,只有单一波长成分的光称为单色光，含有两种以上波长成分的光称为复合光，所有可见光按照一定比例混合就是白色光。,在辐射功率相同的条件下，不同波长的光不仅给人不同的颜色感觉，而且也给人不同的亮度感觉。人眼一般感到红光最暗，蓝光次之，而黄绿光最亮。研究表明，人眼对亮度信息敏感，而对颜色的敏感程度相对较弱。,60,2.3.1 视觉心理学,在白色背景下，一般使用红黄蓝作为原色来混合其它颜色，这就是减基色合成彩色系统。,在黑色背景下，一般使用红绿蓝作为基色来混合其它颜色，这就是加基色合成彩色系统。,一般绘画时采用前者，电视中采用后者。,61,2.3.1 视觉心理学,注视点和视野范围,人在观察视觉类媒体时，注视点喜欢集中在什么地方？研究表明，视觉注视点主要集中在图像中黑白交界的部分，尤其是拐角处。如果是闭合图形，注视点往往向内侧移动。注视点容易集中在时隐时现运动变化的部分或者图像中特别不规则的地方。,人眼的视野开阔，左右视角约为180度，上下约为60度。但视力好的部位仅限于2到3度，用于观察视觉媒体的细节。而在周边，则主要识别特征。但是需要注意，只有大的视野才有可能制造出临场感。,62,2.3.2 模拟视频原理,光栅扫描原理,视频摄像机将图像转换为电信号，电信号是一维的，但图像是二维的，将二维图像转成为一维电信号是由光栅扫描的方法实现的。快速的扫描线从顶部开始，一行一行地向下扫描，直至显示器的最底部，然后再返回顶部的起点，重新开始扫描。这个过程产生的一个有序的图像信号集合，就组成了电视显示中的一幅图像，在此称为帧。连续不断的图像序列就形成了动态视频图像。,63,2.3.2 模拟视频原理,分辨率表现的是电视系统中重现场景细节的能力。水平扫描线所能分辨出的点数称为水平分辨率。一般来说，点数越小，线越细，分辨率就越高。一个系统的水平分辨率为400线，指在对应于图像高度的水平距离内能交替显示200条白线和200条黑线。相应地，一帧中垂直扫描的行数称为垂直分辨率。垂直分辨率和每帧中的扫描线有关，扫描线越多，分辨率就越高。广播电视系统垂直的行数一般是525线（北美和日本）和625线（欧洲和中国）。,64,2.3.2 模拟视频原理,每一秒钟所扫描的帧数称为帧频，一般为25帧（,PAL）,或者30帧（,NTSC）。,由于是隔行扫描，所以垂直频率分别是每秒50帧和60帧。因此，人眼就不容易看到闪烁。,宽高比是扫描的一个重要的参数。扫描行的长度与在图像垂直方向上的所有扫描行所跨过的距离之比，就成为宽高比。目前电视中的宽高比为4：3，新型电视的宽高比为16：9，有些电影系统的宽高比为2：1 。,65,2.3.2 模拟视频原理,彩色视频,加基系统是彩色视频系统的基础。彩色电视采用红绿蓝（,RGB）,作为三基色进行配色，产生出,R、G、B,三个输出信号，,RGB,信号可以分别传输，但是要配上相应的同步信号。在,RGB,系统中需要三根视频电缆互连，但是三个信号在同步关系方面相当复杂，所以大部分彩色电视不处理,RGB，,而是将,RGB,信号组合起来在一条电缆中传输，这就是复合信号。,66,2.3.2 模拟视频原理,现有的几种不同的复合信号有,NTSC、PAL,和,SECAM。,根据亮度/色度原理，任何彩色信号都可以分为亮度和色度。色度只要使用色差就可以表示颜色信号，而不必使用,RGB,三个完整的信号。将亮度和色度交错排列分别放到电缆上，就组成了复合信号。,电视系统的三种制式采用的信号形式也不完全一样。,NTSC,的亮度信号称为,Y，,色度信号为,I,和,Q，,即,YIQ,方式。,PAL,制式和,SECAM,制式的亮度和色度与之相对应为,YUV，,它们的差别在于编码方式的不同。,YUV、YIQ,可以与,RGB,互换。,RGB、YUV,和,YIQ,等都被称为彩色空间。,67,2.3.2 模拟视频原理,视频设备,按照用途不同，视频设备可以分为广播、专业和消费三个级别。广播级一般是大型的电视台和网络站使用，它的性能最好，用于大系统应用，价格昂贵；专业级一般用于教育界和工业界的小广播站，有较好的性能。而消费级是家用设备，一般操作简单、性能可靠，一般价格是第一位的。,具体的视频设备有如彩色摄影机、视频记录设备和视频监视设备。,68,2.3.3,视觉,媒体数字化,1位图图像与数字视频,对计算机来说，无论是文字或图形，还是图像或视频，在计算机上进行处理首先要数字化。与音频信号相似，对所要处理的一幅画面，通过对每一个象素进行采样，并且按照颜色或者灰度进行量化，就可以得到图像的数字化结果。数字化的结果放在显示缓存区中，与显示器上的点一一对应，这就是位图图像。对视频按照时间进行数字化所得到的图像序列，就构成了数字视频序列。它同样与频率和量化的比特数有关。频率必须足够高，以跟上模拟信号流；量化的比特数越多，量化的值就越多，所能表示的颜色或灰度级数就越多。,69,2.3.3,视觉,媒体数字化,在一幅图像的,X,轴上是一行的点数，在,Y,轴上是行数。,X、Y,的交叉点就是一个象素，每一个象素可以有若干比特来表示。按照标准间隔在时间轴上采样的图像组组成视频序列。所以可以说，图像是离散的视频，而视频是连续的图像。当进行再现时，被表示称数字形式的数据按格式和时间送上显示器，就又恢复了原先的形态。其它的视觉媒体如文字、图形等，在显示原理上都是以此为基础的，它们都是通过预先的编码表示出显示的形式，在再现时，在显示器上画出所要的图形或者文字。,70,2.3.3 视频媒体数字化,71,2.3.3 视频媒体数字化,文件格式,说明,GIF,Graphics Interchange Format,的缩写，是由,Compu-Serve,公司于1987年为制定彩色图像传输协议而开发的一种图像文件格式,TIFF,Tag Image,缩写，是由,Alaus,和,Microsoft,公司为扫描仪和桌上出版系统研发的一种图像文件格式，它的文件格式全部基于标志域,TGA,Targe Image Format,的缩写，是,Truevision,公司为,Targe,和,Vista,图像获取板设计的软件,TIPS,所使用的文件格式,BMP（Bitmap）,是一种与设备无关的图像文件格式，是,Windows,软件推荐使用的一种格式,PCX,是由,Zsoft,公司研制开发的，一般与,PC-Paint Brush,图像软件一起使用,MPG,根据国际标准,MPEG,编码的一种动态图像文件格式,AVS,Intel,和,IBM,公司共同研制的,DVI,系统的一种动态图像文件格式，,AVS,文件只能在,DVI,系统硬件下才能够读写,AVI,Intel,和,IBM,公司共同研制的,DVI,系统的一种动态图像文件格式,72,2.3.3,视觉,媒体数字化,2图形,图形(,Graphics)：,一种抽象化的图像，是对图像依据某个标准进行分析而产生的结果。它不直接描述数据的每一点，而是描述产生这些点的过程及方法。因此被称之为矢量图形，一般直接称为图形。,73,2.3.3,视觉,媒体数字化,矢量图形是以一组指令的形式存在的，这些指令描述一幅图中所包含的直线、圆、弧线、矩形的大小和形状，也可以用更为复杂的形式表示图像中曲面、光照、材质等效果。在计算机上显示一幅图像时，首先要解释这些指令，然后将它们转变成屏幕上显示的形状和颜色。,图形的矢量化使得有可能对图中的各个部分分别进行控制。计算机可以对其中任何对象分别进行任意的变换：放大、缩小、旋转、变形、扭曲、移位、叠加等，并仍保持图形特性。图形变换的灵活性，使其在处理上获得了更大的自由度。,74,2.3.3,视觉,媒体数字化,3符号与文字,符号媒体：是某种抽象的结果。各种描述量、语言、数据、标识符、数值、字符等都是符号媒体。,由于符号具有明显的结构性，大脑可以识别这种结构，进而可识别出由这一组符号所代表的信息。这种结构可以组成文本，即字符串；也可以组成数据组，如数据库中的一个元组，均可表达特定的信息。,75,2.3.3,视觉,媒体数字化,符号媒体特点：,符号媒体要知识的辅助才能使用，知识的辅助随着层次的升高而不断增强作用,“,I CAN SPEAK ENGLISH”,如学英文时，开始只认识字母；,学过英文单词后，认识到一个个单词；,学习文法后，发现是一个句子,符号媒体表达精度高,符号媒体存储量小,76,2.3.3,视觉,媒体数字化,文本媒体是用得最多的符号媒体形式。主要特点如下：,文本是流结构形式：由具有上下文关系的字符串组成,它与字符的结构样式有关，与形式无关,对文本的控制不影响媒体信息本来的表达,文本显示的改变只是属性的改变，并不影响文本本身的含义,对文本的处理应遵从文本内部的结构，如断词，接尾，分段，章节安排,77,2.3.4,视觉,媒体的三维立体显示,1立体显示原理,三维显示实际上具有两个含义，一个是指物体的三维图像在平面上的显示，特别是三维图形的显示，这是图形学的重点。另一个含义是指所显示的图像确确实实是立体的，是“浮”在空间中的，和我们所看的立体电影一样。这是我们讨论的重点。,视差（,parallax）,是投影到人眼视网膜上图像上两点间的水平距离，正是这个距离产生了视觉上的立体感。注视远处的物体时的视差与注视近处物体时的视差是不同的，因此所谓的立体感正是这个不同距离作用的结果。,78,2.3.4,视觉,媒体的三维立体显示,视差,79,2.3.4,视觉,媒体的三维立体显示,2视差,决定立体视觉的是视差。视差的种类大致分为四种：零视差、正视差、负视差和发散视差。它们产生的立体感觉是不同的。,零视差：当显示的左右眼图像之间没有缝隙时，视差为零，就称为零视差。,正视差：一旦计算机显示的立体图像对的视差大于0，我们就可以看到深度。正视差差值大于0且小于等于人眼之间的距离。,负视差：当两眼的目光交叉时，就会产生负视差。这时，所观察的对象将会浮现在两眼与显示器之间的空间中。,发散视差：视差的值比两眼之间的距离还要大。,80,2.3.4,视觉,媒体的三维立体显示,3立体图像的产生,（1）旋转法,一个很简单的方法是将一幅图像进行旋转以制造出视差效果。旋转的顺序是：,将整个图像从左至右旋转4，以产生左眼图像,将整个图像从右至左旋转4，以产生右眼图像,执行透视投影,显示图像,使用旋转的方法产生出的立体图像对一些人来说并不适合，会引起不舒适感，显示立体图像时一般不采用这种方法。,81,2.3.4,视觉,媒体的三维立体显示,（2）投影变换法,投影变换法是模仿人眼观察物体时产生的视差，通过运算后投影到显示器上。在这种方法中，场景中的物体对象在建模之后，通过投影变换生成线框图，然后对该物体进行成像处理，生成左右眼的图像。,标准的投影变换基于单视点的投影。在坐标系中，以视点为投影中心，将三维物体的点投影于显示器的投影平面上，便在该平面上产生三维物体的像。把投影中心的单点变换为双点，很容易构造出双眼的投影视图出来。,82,2.3.4,视觉,媒体的三维立体显示,4立体图像的显示,立体图像的显示方法有两种。一种方法是让一只眼睛看一个显示器，每个显示器只显示对应眼睛的图像，这样头脑中就产生了立体图像。这种方法的实现是把显示器缩小，放入到头盔中，这就是所谓的头盔显示器。另一种方法是在显示器上快速地显示两眼不同的图像，而观察者带上立体眼镜进行观察。由于眼镜中的液晶片与显示的图像同步地进行开关切换，使得在每一时刻只有一只眼睛能够看到对应的图像，只要速度足够快，由眼睛的暂留现象和大脑的作用，感觉到的就是立体的图像。,83,2.4,触觉媒体技术,84,2.4.1 触觉媒体概述,皮肤可以感觉环境的温度、湿度，也可感觉压力，身体可以感觉振动、运动、旋转等，这些都是触觉在起作用，都可以作为传递信息的媒体。事实上，触觉媒体就是环境媒体，它描述了该环境中的一切特征和参数。,85,2.4.1 触觉媒体概述,人体在信息交流过程中起的作用最大的是人的头部、手部和整体躯干。与外界环境的触觉交互主要包括位置跟踪、力量反馈等方面。,对手部信息的处理包括手部的位置、手指的动作类型、手部的感觉、手部的力量反馈等。这些都要有特殊的设备和技术完成系统对手部信息的数字化和跟踪，并将它们与系统的控制和应用结合起来。这些设备和技术包括数据手套、压力传感手套、手部位置超声波跟踪器、力量反馈接口等。对躯干的位置跟踪和反馈与手部和头部很类似，但它要反映人体的体势语言和外界对人体的力量反馈，如振动、倾覆、旋转等。这些设备包括数据服装、三维数据座舱、模拟器等。,86,2.4.2 简单指点设备与技术,1指点的任务,指点的任务包括：,选择,定位,定向,路径,数量,操作,87,2.4.2 简单指点设备与技术,2指点设备,指点设备分成直接指点设备和间接指点设备两类。前者直接使用特殊的指点设备或用手指点屏幕，后者则通过指点设备的间接动作对屏幕上的对象进行指点。,直接指点设备包括：光笔、触摸屏及输入笔等。,间接指点设备包括：鼠标、跟踪球、控制杆和图形板。这些设备不接触显示屏幕，所以使用时不会遮挡视线，也不易疲劳。,88,2.4.2 简单指点设备与技术,这些指点设备的输入都是在显示平面上的二维坐标空间中进行的，包括坐标改变的速度。除非经过特殊的变换，很难把它们向三维空间转换。现在又出现了一些新型的指点设备，例如脚用鼠标器、视线跟踪器、凝视检测控制器等。,89,2.4.3 位置跟踪,为了与系统交互，系统必须了解参与者的身体动作，包括头、眼、手、肢体等部位的位置与运动方向。系统将这些位置与运动的数据转变为特定的模式，对相应的动作进行表示。,1手指动作测量和数字化,对手部的跟踪采用一种称为数据手套的工具。对手指的测量主要采用在手套的手指部位装上能够测量手指弯曲、移动的检测器。检测器的种类有光纤、测力板等。数据手套将接收到的数据送入计算机中，在计算机中被转换为相应的数字化格式。,90,2.4.3 位置跟踪,对手指动作的测量和数字化，实际上更关心的是手指的相对位置。拇指和食指、食指和其他手指等的相对动作包含了许多含义。识别这些相对的动作，采用的方法就是建立手指动作模式库。首先将各种手指的动作数据进行采集，进行规范化处理后建立起动作模式并存储起来。在使用时将实时采样得到的数据与库中的模式进行比较，就可以知道手指的动作。手指动作的数字化分辨率越高，模式就越复杂，对手指动作的解释就越丰富、越精确。,91,2.4.3 位置跟踪,2空间位置跟踪,在数据手套上有一个定位的装置，这是用于进行手部位置跟踪的。手部的位置是指手部在空中的相对位置，所以还需要一个坐标原点。事实上，无论是数据手套还是头部的位置跟踪其原理都是一样的。,另外一种测量空间位置的装置称为,Polhemus,三维定位机构，它也是一种有六个自由度的空间位置传感器，可相对于某一固定位置的原点，得到目标所处位置的相对方向和位置信号。,92,2.4.4 力反馈与触觉反馈,这与位置跟踪正好相反，是由系统向参与者反馈力和运动的信息，如触觉刺激（物体的表面纹理等）、反作用力（推门的门重感觉）、运动感觉（摇晃、振动等）及温度、湿度等环境信息。,1力反馈,力反馈包括对重量的感知、对阻力的感知（在水中前进与前进中碰壁是不同的阻力）、吸引力（如分子间的吸引力、磁铁的吸引力）等。,建立力反馈的直接方法是利用提供动力的电动机和对人体或人体部位进行力反馈的“外骨系统”。,93,2.4.4 力反馈与触觉反馈,建立力的反馈可以采用简单的方法，通过颜色、声音或运动都可以间接获得力的反馈效果。例如，通过改变屏幕上对象的颜色，可以表示出对象的受力情况。,通过力感反馈装置，可以直接提供力的反馈，提供使人感受到的物理力。目前已建造了一些用以提供力感反馈的装置。,94,2.4.4 力反馈与触觉反馈,2触觉反馈,对于触觉的反馈需要能够让人体区别出不同物体的质感和纹理结构。抚摸小猫的皮肤与抚摸乌龟壳的感觉肯定是不一样的。,采用某些物理装置，可以提供一种直接通过皮肤感知的触觉反馈。例如使用一种手套，分布在手套内表面上的是一个具有若干振动凸起物的矩阵，通过这些振动凸起物的作用，可以模拟出一定的触觉效果。其他的可能方法还有：在手套内部安装一些可膨胀的特制小泡或微型弹簧，或基于在电荷的作用下某些材料可由液态变为固态以及利用记忆合金的变形功能等。,95,2.4.4 力反馈与触觉反馈,3热觉反馈,热觉反馈也是一种触觉反馈，但它提供的是温度的反应。当拿一个物体时，应该感觉到物体的温度；当靠近一盆虚拟的篝火时，应能感觉到篝火的温度。这些反馈需要的就是热觉反馈。,有一种热觉反馈系统使用了加热泵、温度传感器和热表面，通过计算机对系统进行控制，控制的温度范围目前在1035之间。加热泵将热从热表面上移入移出，通过传感器的控制，就可以得到所需要的温度。,96,2.5,小结,97,本章重点,媒体的种类，常见的媒体元素及特点,听觉特性,音频的数字化和符号化及三维化处理,视觉特性,视觉媒体的数字化和三维立体显示,触觉特性,指点、位置跟踪、力反馈与触觉反馈,98,

展开阅读全文

多媒体技术教程ch2

最新文档