资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第,2,章 文字素材采集与处理,网络多媒体素材加工,第,2,章 文字素材采集与处理,2.1,文字素材基础,2.2,使用,OCR,工具软件转换图像文字,2.3,语音识别与手写输入技术,2.4,文字素材采集实训,2.1,文字素材基础,2.1.1,文字素材采集与编辑,2.1.2,文字编辑常用工具软件,2.1.3,常用文本文件格式及其转换,2.1.1,文字素材采集与编辑,一般根据文字素材在计算机中的存储和显示方式不同,可将文字素材分为,文本文字素材,和,图像文字素材,两类。,文本文字,是指以文本文件格式存在的文字素材,如,TXT,、,DOC,等格式的文本文字;,图像文字,是指以图像文件格式存在的文字素材,如,BMP,、,TIF,等格式的文件。,图,2-1,文本文字 图,2-2,图像文字,1,文本文字与图像文字,2,文字素材的采集,键盘输入:,通过键盘,可以将中文字、英文字母、数字、标点符号等输入到计算机中。,扫描输入:,通过扫描仪将纸上的文字转换为计算机可处理的信息,一般用于大量文字的快速录入。,语音输入:,语音输入设备向计算机输入信息的过程,包括命令控制和听写两个功能。,手写输入:,用书写笔在与计算机相连的书写板上写字,用压敏或电磁感应等方式将笔在运动中的坐标输入计算机,识别软件根据采集到的笔迹之间的位置关系和时间关系信息来识别所写的文字,并把结果显示在屏幕上。,2.1.2,文字编辑常用工具软件,Windows,操作系统自带的编辑工具(记事本、写字板),Microsoft Word,WPS Office,金山文字,2003,2.1.3,常用文本文件格式及其转换,1,常用文本文件格式,2,DOC,文件与,PDF,文件的格式转换,3,DOC,文件格式与,CAJ,文件格式间的相互转换,1,常用文本文件格式,TXT,格式:,TXT,是一种纯文本格式文件,可由记事本处理创建。,CSV,格式:,CSV(Comma Separated Values),文件格式也是一种纯文本文件,常用于不同应用程序之间交换数据,它可以被任何文本编辑器调用、编辑、修改。,1,常用文本文件格式,DOC,格式:一种通用的,PC,格式化文本文件格式,由,Microsoft Word,或,WordPerfect for Windows,创建,可以包含更多的内容,建立超链接等,表现力强、操作简便。,RTF,格式:,RTF,(,Rich Text Format,)格式是微软公司的写字板采用的标准格式。,1,常用文本文件格式,WPS,格式:,WPS,文件是作为目前国内唯一较成熟的拥有完全自主知识产权的办公系统软件,WPS Office,生成的文本文件格式。,PDF,格式:,PDF,(,Portable Document Format,便携式文档格式)文件格式是,Adobe,公司开发的电子读物文件格式。,CAJ,格式:,CAJ,文件是,中国学术期刊全文数据库,的专用格式,由中国学术期刊(光盘版)电子杂志社开发制作。,2,DOC,文件与,PDF,文件的格式转换,(,1,),DOC,格式文件转换为,PDF,格式文件,将,DOC,格式转换为,PDF,格式比较容易,如果系统完全安装,Adobe Acrobat 7.0 Professional,,就可以通过下列方式进行转换:,使用“快捷菜单”进行转换,利用,Acrobat PDF Maker,利用,Acrobat PDF,打印机转换,使用“快捷菜单”进行转换,图,2-3,快捷菜单 图,2-4 Save Adobe File As,对话框,利用,Acrobat PDF Maker,图,2-5 Acrobat PDF Maker,菜单栏 图,2-6 Adobe PDF,菜单,利用,Acrobat PDF,打印机转换,图,2-7 Acrobat PDF,打印机 图,2-8,选择,Acrobat PDF,打印机,(,2,),PDF,文件转换为,DOC,格式文件,直接从,PDF,文件复制文本到,DOC,文件,利用,Adobe Acrobat,自身转换功能,借助格式转换工具软件(,ScanSoft,软件),图像形式,PDF,文件的转换,利用,CAJViewer,的,OCR,功能,直接从,PDF,文件复制文本到,DOC,文件,图,2-9,从,PDF,文件复制文本到,DOC,文件,利用,Adobe Acrobat,自身转换功能,Adobe Acrobat,提供了,PDF,格式向,DOC,格式的转换功能。执行,【,文件,】【,另存为,】,命令,在对话框中选择,【,保存类型,】,为,Microsoft Word,文档,单击,【,保存,】,。,借助格式转换工具软件,PDF,向,DOC,格式转换的工具软件比较多,其中,ScanSoft PDF Converter for Microsoft Word,是由,ScanSoft,公司与微软共同开发的一个全新的,Office 2003,插件。该插件可以通过,Word,直接将,PDF,文档转换为,Word,文档,并且完全保留原来的格式和版面设计。,图像形式,PDF,文件的转换,对于图像形式的,PDF,文件(从图像文件转换形成的,PDF,文件),可以将,PDF,文件打印到,Microsoft Office 2003,的,Microsoft Office Document Image Writer,打印机,生成一个,MDI,文件。用,Microsoft Office Document Image,打开此文件,执行,【,工具,】【,使用,OCR,识别文本,】,命令,进行文字识别。识别完成后,执行,【,工具,】【,将文本发送到,word】,命令,把整个,PDF,文件识别输出到,word,文件中。,利用,CAJViewer,的,OCR,功能,图,2-11,利用,CAJViewer,的,OCR,功能转换,3,DOC,文件格式与,CAJ,文件格式间的相互转换,(,1,),CAJ,格式文件转换为,DOC,格式文件,局部文本文字的识别转换,借助,Microsoft Office Document Image Writer,打印机进行文件识别,全文间接转换,(,2,),DOC,格式文件转换为,CAJ,格式文件,局部文本文字的识别转换,图,2-14,从,CAJViewer 6.0,直接复制文本,借助,Microsoft Office Document Image Writer,打印机进行文件识别,图,2-15,设置打印机,全文间接转换,CAJViewer,不支持直接将全文另存为,DOC,格式文件,但支持将全文另存为,TXT,格式文件,事实上达到间接转换为,DOC,的目的。一般地,对于以文本文字为主的,CAJ,文件可以采用通过,TXT,间接转换为,DOC,的方式。,(,2,),DOC,格式文件转换为,CAJ,格式文件,中国学术期刊(光盘版)电子杂志社基于统一文件格式的需要,利用,TPI,系统提供的通用文档转换工具,CAJWriter,,可以将,DOC,、,PDF,、,HTML,、,WPS,、,TXT,、,PPT,等文件格式直接转换成,CAJ,格式的电子书。,谢谢!,
展开阅读全文