数字文本处理的基础舒明全课件

上传人:2127513****773577... 文档编号:240950209 上传时间:2024-05-20 格式:PPT 页数:64 大小:1.21MB
返回 下载 相关 举报
数字文本处理的基础舒明全课件_第1页
第1页 / 共64页
数字文本处理的基础舒明全课件_第2页
第2页 / 共64页
数字文本处理的基础舒明全课件_第3页
第3页 / 共64页
点击查看更多>>
资源描述
数字文本处理的基础数字文本处理的基础 舒明全舒明全Email:数字文本处理的基础 1数字文本的概念数字文本的概念 文本文本:通过文字、符号的形式表现、传递信息的方式。读者能通过阅读文本数据中的文字、符号获得信息,文本数据是学习、生活、研究资料的主要成分,主要载体形态为:图书、报刊、政府文献、会议论文、学位论文、单位论文、技术报告、产品说明书、网页等。数字文本:纸质的文本转换成计算机能识别的二进制文件,也称为文本数据资源。数字文本的概念 文本:通过文字、符号的形式表现、传递信息的方2数字文本的特征数字文本的特征提供和获取文本,需具备一定的文字和符号的识别、表达能力。文本数据是文档的主要组成部分。文本数据都有一个逻辑结构。文本是人和计算机交互的重要方式。数字文本的特征3数字文本的分类数字文本的分类数字文本的三种类型:数字文本的三种类型:1纯文字文本:使用字处理软件,通过录入、编辑、排纯文字文本:使用字处理软件,通过录入、编辑、排版后生成,生成后的文本包含排版信息,显示效果受版后生成,生成后的文本包含排版信息,显示效果受系统字库和软件平台的影响,在不同机器上显示会出系统字库和软件平台的影响,在不同机器上显示会出现不同的效果,严重时还会出现乱码等现象。使用文现不同的效果,严重时还会出现乱码等现象。使用文本文字素材占用的字节数比较小,导入后设置字体、本文字素材占用的字节数比较小,导入后设置字体、大小、颜色比较方便。大小、颜色比较方便。2图像文本:运用绘图工具软件图像文本:运用绘图工具软件(如如Photoshop)生成,使生成,使用图像文本可提高多媒体作品的表现力,存储图像文用图像文本可提高多媒体作品的表现力,存储图像文本时可存为本时可存为JPG、BMP、GIF、TIF等不同的格式,在等不同的格式,在作品中使用不会出现乱码,但所占的字节数要大于纯作品中使用不会出现乱码,但所占的字节数要大于纯文本格式。文本格式。3动态文本:运用动画制作软件动态文本:运用动画制作软件(如如3DStudioMAX)制作,制作,可根据作品的需要,设置不同的动作,具有很强的动可根据作品的需要,设置不同的动作,具有很强的动感和三维立体效果,制作片头时使用的比较多,一般感和三维立体效果,制作片头时使用的比较多,一般存储为动态的存储为动态的GIF和和Flash格式,这两种格式所占字节格式,这两种格式所占字节数比较少,也可以存储为视频文件数比较少,也可以存储为视频文件(如如AVI、MPEG),但所占用的字节数较大。但所占用的字节数较大。数字文本的分类数字文本的三种类型:4数字文本的格式数字文本的格式 文本格式的定义文本格式的定义 文本格式指用来对数据以及相关信息(包括结构、布局、压缩算法等)进行编码的软件算法。在文本数据的数字化过程中,很多公司和组织机构都根据需要制定了自己的数字文本格式,导致了多种数字文本格式并存的局面。数字文本的格式 文本格式的定义5数字文本的基本格式数字文本的基本格式 数字文本的基本格式数字文本的基本格式:可编辑的文本格式 网页文本格式 电子资源文本格式 数学文本格式数字文本的基本格式 数字文本的基本格式:6可编辑的文本格式可编辑的文本格式TXT格式格式(也称纯文本格式也称纯文本格式)使用Windows操作系统的写字板、记事本和Word可查看这种格式的文件。优点:文件体积小;阅读不受限制。缺点:不能插入图片、图表等;不能建立超链接;不支持字体样式编辑。可编辑的文本格式TXT格式(也称纯文本格式)7CSV 格式格式(纯文本文件纯文本文件)l特点:它的数据项(对应于表格的列)之间用逗号隔开,各特点:它的数据项(对应于表格的列)之间用逗号隔开,各条记录(对应于表格的行)之间用条记录(对应于表格的行)之间用“换行换行”和和“回车回车”隔开。隔开。l可以被任何文本编辑器调用,如记事本、写字板。默认打开可以被任何文本编辑器调用,如记事本、写字板。默认打开方式是方式是MS Excel,而,而MS Excel是和多种数据库相通的,因此,是和多种数据库相通的,因此,CSV本身也能被一般的数据库调用。本身也能被一般的数据库调用。l优点:可用任何文本编辑软件编辑、修改;文件体积很小、优点:可用任何文本编辑软件编辑、修改;文件体积很小、便于携带便于携带。CSV 格式(纯文本文件)8DOC格式格式 使使用用Microsoft Word 或或WordPerfect for Windows创创建建和和打开的。打开的。优优点点:DOC格格式式可可以以在在文文件件中中嵌嵌入入图图表表、图图片片、数数学学公公式式,建建立超链接等。立超链接等。缺点:缺点:1.由于文件中包含了字体信息、段落格式、文字色彩、页眉由于文件中包含了字体信息、段落格式、文字色彩、页眉页脚等信息,文件体积相对纯文本文件较大。页脚等信息,文件体积相对纯文本文件较大。2.DOC格式保密,且不开放源代码,因此,其他公司的字处格式保密,且不开放源代码,因此,其他公司的字处理程序都无法识别微软的文档。理程序都无法识别微软的文档。3.DOC格式文件版本向下不兼容。新版本的格式文件版本向下不兼容。新版本的Office用了老版本用了老版本不支持的新格式,所以不支持的新格式,所以Office的用户必须升级的用户必须升级(即使你并不即使你并不需要什么新功能需要什么新功能),从而提高用户成本。,从而提高用户成本。DOC格式 9 RTF格式是由格式是由Microsoft创建的,创建的,RTF文件的组成包含控文件的组成包含控制字、控制符以及表明文档属性的组。使用制字、控制符以及表明文档属性的组。使用Microsoft Word打开。打开。优点:优点:1.RTF格式文件容易识别。格式文件容易识别。2.RTF格式文件可以在不同程序和同一程序不同版本之间传格式文件可以在不同程序和同一程序不同版本之间传递数据,且它的格式信息不会丢失或破坏。递数据,且它的格式信息不会丢失或破坏。3.RTF格式文件具有很强的编排功能,可以实现文字和各种格式文件具有很强的编排功能,可以实现文字和各种插入对象的混排,文字也可以实现各式各样的格式编排。插入对象的混排,文字也可以实现各式各样的格式编排。缺点:缺点:1.内容繁多。控制字太多,增加了文档编写的难度。内容繁多。控制字太多,增加了文档编写的难度。2.RTF格式赋予作为控制符的字符特殊含义,使其作为文本格式赋予作为控制符的字符特殊含义,使其作为文本出现时容易产生混乱。出现时容易产生混乱。RTF格式格式 RTF格式是由Microsoft创建的,10WPS格式格式 l香港金山公司开发的,也是我国唯一一套成熟的拥有香港金山公司开发的,也是我国唯一一套成熟的拥有完全自主知识产权的办公系统软件。完全自主知识产权的办公系统软件。l优点:优点:1.兼容性强。可以与兼容性强。可以与MS Office的兼容,可以插入的兼容,可以插入DOC格式文件的图形、表格和页眉等;格式文件的图形、表格和页眉等;WPS Office 2002可可以读入和生成以读入和生成DOC格式文件;新老版本之间的上下兼格式文件;新老版本之间的上下兼容。容。2.WPS文档具有图文混排的功能。文档具有图文混排的功能。3.WPS格式技术先进。引入格式技术先进。引入XML数据中间层;文字与数据中间层;文字与代码的唯一对应关系,不会出现乱码现象;代码的唯一对应关系,不会出现乱码现象;WPS格式格式文件可以适应文件可以适应126种语言;开放的数据接口。种语言;开放的数据接口。l缺点:不能被微软公司的缺点:不能被微软公司的Office 2000直接识别。直接识别。WPS格式 香港金山公司开发的,也是我国唯一一套成熟的拥有完11 HTML格式格式 1989年诞生于欧洲核子研究中心,是年诞生于欧洲核子研究中心,是3协会专为协会专为World Wide Web而设计的,专用于而设计的,专用于Web页的开发。可用专门的页的开发。可用专门的HTML编辑器或编辑器或Frontpage、Dreamweaver等网页制作工具进等网页制作工具进行编辑,通过行编辑,通过Navigator、Internet Explorer等浏览器显示文本、等浏览器显示文本、图形和其它的任何内容。图形和其它的任何内容。优点:简单和统一。优点:简单和统一。缺点:缺点:可重用性差;可重用性差;信息交互的局限性;信息交互的局限性;扩展性差,无法支扩展性差,无法支持精确查询;持精确查询;处理能力差,影响效率;处理能力差,影响效率;固定的标签集合;固定的标签集合;对特殊字符的支持不够对特殊字符的支持不够 网页文本格式网页文本格式 HTML格式 1989年诞生于欧洲核子研究中心,是312SGML格式格式 通用标准标记语言的简称,是一种系统描述各类文献通用标准标记语言的简称,是一种系统描述各类文献结构和内容以建立通用数字化文献的国际标准结构和内容以建立通用数字化文献的国际标准(ISO8879),1986年首次公布。一个年首次公布。一个SGML文件由三部分组成:文件由三部分组成:SGML声明、文件类型定义、声明、文件类型定义、SGML文档。文档。l优点:优点:1.可扩展性好,可针对各种类型的文件结构制定出合适的可扩展性好,可针对各种类型的文件结构制定出合适的标签集,扩展生成用来处理新数据格式的各种语言标签集,扩展生成用来处理新数据格式的各种语言。2.可适应性强,可适应性强,SGML不专属于某一特定平台或特定应用系不专属于某一特定平台或特定应用系统,它可以在彼此不相容的系统间进行数据交换,而不统,它可以在彼此不相容的系统间进行数据交换,而不会造成数据丢失会造成数据丢失。3.可重用性好,使它可应用于可重用性好,使它可应用于Web数据库和电子数据交换。数据库和电子数据交换。l缺点:缺点:1.它相当复杂且价格昂贵它相当复杂且价格昂贵。2.不易在网上传送。不易在网上传送。SGML格式 通用标准标记语言的简称,是13 可扩展标识语言的简称,可扩展标识语言的简称,W3C于于1998年初推出的一种用年初推出的一种用于标识数据格式的标识语言,是一个基于于标识数据格式的标识语言,是一个基于SMGL上的简单、上的简单、灵活的文本格式,将灵活的文本格式,将SGML的丰富功能与的丰富功能与HTML的易用性的易用性结合到结合到Web应用中,保留了应用中,保留了SGML的可扩展功能。主要有的可扩展功能。主要有如下要素:如下要素:Schema(模式模式)、XQL(基于基于XML的查询语言的查询语言)、XSL(可扩展样式语言可扩展样式语言)和和XLL(可扩展链接语言可扩展链接语言)。XML可在任何平台和操作系统上运行,具有以下特点:可在任何平台和操作系统上运行,具有以下特点:1.灵活简单,能把显示格式从文档中分离出来,另存放在样灵活简单,能把显示格式从文档中分离出来,另存放在样式表中。式表中。2.扩展性良好。扩展性良好。3.具有自解释性。具有自解释性。4.良好的共享性。良好的共享性。5.强大的超链接机制。强大的超链接机制。XML格式格式 可扩展标识语言的简称,W3C于199814PS格式格式 电子资源文本格式电子资源文本格式 Adobe公司于公司于1985年开发成功的专门为打印图形和文字而设计年开发成功的专门为打印图形和文字而设计的一种可编程打印控制语言。可用的一种可编程打印控制语言。可用Acrobat Adobe reader打打开。开。优点:优点:(1)输出的多向性输出的多向性 文件格式的可转换性文件格式的可转换性 显示的灵活性显示的灵活性 独独立于设备立于设备(5)占用磁盘空间小占用磁盘空间小(6)支持跨平台操作支持跨平台操作缺点:缺点:使用不太方便。使用不太方便。只能利用有关浏览软件对只能利用有关浏览软件对PS格式文件进行浏览、查找、拷贝、格式文件进行浏览、查找、拷贝、打印等操作,而无法对已有打印等操作,而无法对已有PS格式文件进行编辑修改。格式文件进行编辑修改。PS格式 电子资源文本格式 Adobe公司于1985年15CAJCAJ格式格式中国学术期刊全文数据库的专用格式,用中国学术期刊中国学术期刊全文数据库的专用格式,用中国学术期刊电子杂志社开发的专用电子杂志社开发的专用“CAJ全文浏览器全文浏览器”才能打开阅读。才能打开阅读。优点:可原版原貌显示原文。优点:可原版原貌显示原文。缺点:与其它的格式互不兼容。缺点:与其它的格式互不兼容。CAJ格式中国学术期刊全文数据库的专用格式,用中国学术期16VIP格式格式 维普公司系列数据库使用的是维普公司系列数据库使用的是vip全文浏览器,它支持全文浏览器,它支持vip、tif、wp等格式文件。它可以在线阅读维普数据库等格式文件。它可以在线阅读维普数据库原文,也可以阅读下载到本地硬盘的电子数据全文。原文,也可以阅读下载到本地硬盘的电子数据全文。优点:可原版原貌显示原文。优点:可原版原貌显示原文。缺点:与其它的格式互不兼容。缺点:与其它的格式互不兼容。VIP格式 维普公司系列数据库使用的是vip全文浏览器,17IFR格式格式 北京书生公司开发的书生电子图书格式。目前书生电北京书生公司开发的书生电子图书格式。目前书生电子图书分为基础扫描版、高级扫描版及全息版子图书分为基础扫描版、高级扫描版及全息版3种,用种,用书生专用图像格式浏览。书生专用图像格式浏览。优点:具有全文检索功能,比较方便。优点:具有全文检索功能,比较方便。缺点:缺点:1.版面效果一般。版面效果一般。2.需专门浏览器阅读。需专门浏览器阅读。3.文件体积偏大。文件体积偏大。4.只能联机阅读。只能联机阅读。IFR格式 北京书生公司开发的书生电子图书18PDG格式格式 由北京世纪超星公司开发的,是一种扫描的图片格由北京世纪超星公司开发的,是一种扫描的图片格式,它必须用其专用阅读器软件式,它必须用其专用阅读器软件超星图书阅览器超星图书阅览器(SSReaser)才能阅读,已成为通用的数字图书格式)才能阅读,已成为通用的数字图书格式之一。之一。优点:电子图书数量大,种类齐全;优点:电子图书数量大,种类齐全;缺点:必需用超星图书阅读器,扫描质量较差,文件缺点:必需用超星图书阅读器,扫描质量较差,文件体积偏大。体积偏大。PDG格式 由北京世纪超星公司开发的,是一种扫描19CEB格式格式 专为中文电子安全文档而设计的文件格式,是一种专为中文电子安全文档而设计的文件格式,是一种“文文字图像字图像”的格式,能保留原有排版文件中有关字符、字的格式,能保留原有排版文件中有关字符、字体和色彩等的全部信息和原文件的版式、图片、数学公式、体和色彩等的全部信息和原文件的版式、图片、数学公式、化学公式、表格、棋牌以及乐谱等内容能对文字、图片等化学公式、表格、棋牌以及乐谱等内容能对文字、图片等内容进行很好的压缩,大大减小了对存储空间的需求。内容进行很好的压缩,大大减小了对存储空间的需求。优点:完善的版权保护和加密控制。优点:完善的版权保护和加密控制。CEB格式 专为中文电子安全文档而设计的文件格式,是20EBK格式格式 Voyager公司的公司的MAC机(也有机(也有PC格式)读书软件格式。目格式)读书软件格式。目前国内某些站点已经开始使用这种格式了。前国内某些站点已经开始使用这种格式了。特点:先下载一个客户端软件,才能在软件指定的站点上登特点:先下载一个客户端软件,才能在软件指定的站点上登录后,才能下载图书。录后,才能下载图书。EBK格式 Voyager公司的MAC机(也有PC格21 美国微软公司开发的软件美国微软公司开发的软件Microsoft Reader的一种专有的一种专有的文件格式,只能使用的文件格式,只能使用Microsoft Reader来阅读。来阅读。优点:优点:1.支持全屏阅读。支持全屏阅读。2.没没有有滚滚动动条条,翻翻页页全全部部使使用用点点击击页页码码来来实实现现,像像看看一一本真正的纸质书。本真正的纸质书。3.缺点:缺点:4.不不支支持持与与HTML相相关关的的各各种种技技术术,只只是是支支持持图图片片的的浏浏览。览。5.对中文支持得不是很好对中文支持得不是很好。LIT格式格式 美国微软公司开发的软件Microsoft Reade22WDL格式格式 北京华康公司开发的一种电子读物格式,需要使用该公司专门北京华康公司开发的一种电子读物格式,需要使用该公司专门的阅读器的阅读器DynaDoc Free Reader来阅读,可从该公司的网站来阅读,可从该公司的网站免费下载。免费下载。优点:优点:1.较好地保留了原来的版面设计。较好地保留了原来的版面设计。2.可将电子读物下载到本地阅读。可将电子读物下载到本地阅读。3.适当保护了作者和出版商的利益。适当保护了作者和出版商的利益。4.压缩率都比较高。压缩率都比较高。5.能与任何软件产生的文档兼容,可以跨平台使用。能与任何软件产生的文档兼容,可以跨平台使用。缺点:缺点:1.需要专门的浏览器需要专门的浏览器2.制作该种格式的电子读物的软件制作该种格式的电子读物的软件DynaDoc生成器没有共享生成器没有共享版本版本。WDL格式 北京华康公司开发的一种电子读物格式,需要使用该公23TeX/LaTeX/CteX格式格式 数学文本格式数学文本格式Stanford大学大学Donald E.Knuth在在1977年年5月开始设计的一个排月开始设计的一个排版文件系统。强调数学文本的印刷是程序功能中不可分割的版文件系统。强调数学文本的印刷是程序功能中不可分割的一部分。一部分。TeX系统是公认的数学公式排得最好的系统,美国数系统是公认的数学公式排得最好的系统,美国数学学会推荐的非常适合于数学家使用的学学会推荐的非常适合于数学家使用的AMS-TeX以及适合于以及适合于一般文章、报告、书籍的一般文章、报告、书籍的LaTeX系统。世界上许多出版社利用系统。世界上许多出版社利用TeX系统出版书籍和期刊。美国数学学会(系统出版书籍和期刊。美国数学学会(AMS)鼓励数学)鼓励数学家们使用家们使用TeX系统向它的期刊投稿。已有中文版的系统向它的期刊投稿。已有中文版的CHINATeX。优点:优点:高质量的输出。高质量的输出。超常的稳定性。超常的稳定性。TeX是可编程的。是可编程的。高度的灵活性。高度的灵活性。简单识别。简单识别。良好的通用性。良好的通用性。低廉的低廉的价格。价格。缺点:缺点:学习学习TeX比较困难。比较困难。难以调试。难以调试。TeX不是熟悉。不是熟悉。TeX/LaTeX/CteX 格式 数学文本格式Stanfo24 当然文本数据格式除了以上常用的格式以外,还有其他当然文本数据格式除了以上常用的格式以外,还有其他一些不太常用的格式,如一些不太常用的格式,如OEB、WRI、TTZ、PPT、KDH、PDB、PRC、RB、SETEXT、CyberBook、Rocket eBook(.RB)、)、PocketPC等。等。其它文本格式其它文本格式 当然文本数据格式除了以上常用的格式以外,还有其他一些不太25 文本格式的标准文本格式的标准 标准来源:标准来源:国外:美国国外:美国Adobe公司开发的电子读物公司开发的电子读物PDF文件格式,由于国外文件格式,由于国外文本主要采用文本主要采用 PDF文件格式,文件格式,所以所以PDF文件格式是数字文本的文件格式是数字文本的事实标准。事实标准。国内:我国数字图书馆标准规范建设项目的数字资源加工标准国内:我国数字图书馆标准规范建设项目的数字资源加工标准与操作指南规定文本采用与操作指南规定文本采用 PDF文件格式。文件格式。我国教育部门的我国教育部门的CALIS项目建设技术规范项目的项目建设技术规范项目的 CALIS 文献文献资源数字加工与发布标准也规定文本采用资源数字加工与发布标准也规定文本采用 PDF文件格式。文件格式。文本格式的标准 标准来源:26文本的标准格式:文本的标准格式:PDF简介:简介:PDF是从页面描述语言是从页面描述语言PS发展而来,具有与发展而来,具有与PS几乎相同的页几乎相同的页面描述能力和相似的描述方法。与面描述能力和相似的描述方法。与PS不同的是,不同的是,PDF除了能除了能描述复杂版面外,还具有交互功能(如超链接和交互表单等)描述复杂版面外,还具有交互功能(如超链接和交互表单等)、页面随机存取及字体仿真描述等特性。该软件最新的版本、页面随机存取及字体仿真描述等特性。该软件最新的版本是是7.0,PDF格式的电子图书可以使用格式的电子图书可以使用Adobe Acrobat来制作和来制作和编辑。编辑。PDF文件阅读需要文件阅读需要Adobe Acrobat Reader来阅读。来阅读。文本的标准格式:PDF简介:27PDFPDF文件结构文件结构分四个部分:分四个部分:1.标头:包含标头:包含PDF文件版本信息。文件版本信息。2.主体:描述所有页面中的各个元素。主体:描述所有页面中的各个元素。3.相互参照表:主体中查找所有页面中的各个元素。相互参照表:主体中查找所有页面中的各个元素。4.标尾:告诉软件或标尾:告诉软件或RIP,去哪儿寻找相互参照表。如果没,去哪儿寻找相互参照表。如果没有标尾,有标尾,PDF格式文件则不能被任何软件或格式文件则不能被任何软件或RIP处理。处理。PDF文件结构分四个部分:28PDFPDF文件构成文件构成PDF格式文件由以下三个数据层构成:格式文件由以下三个数据层构成:1.文件底层数据层:包括字体信息、交叉参考表等所有的控文件底层数据层:包括字体信息、交叉参考表等所有的控制文件的重要底层数据。制文件的重要底层数据。2.文本图像数据层:包括文件中显示的所有文本、矢量图形文本图像数据层:包括文件中显示的所有文本、矢量图形和点阵图像数据。由于和点阵图像数据。由于PDF文本图像数据层独立存在,用文本图像数据层独立存在,用户替换页面内容时,可以只改变文本图像数据层的内容,户替换页面内容时,可以只改变文本图像数据层的内容,而不会影响其他数据层内的相应数据,例如,不会改变字而不会影响其他数据层内的相应数据,例如,不会改变字体、字号,能保留所有的页面链接,这在文档电子管理中体、字号,能保留所有的页面链接,这在文档电子管理中是很重要的,能给电子出版带来很大的方便。是很重要的,能给电子出版带来很大的方便。3.附属信息数据层:包括文件书签和文件或页面链接等等所附属信息数据层:包括文件书签和文件或页面链接等等所有的功能扩展数据。有的功能扩展数据。PDF文件构成PDF格式文件由以下三个数据层构成:29PDF文本示例文本示例PDF文本示例30 特点特点1.PDF是文本、矢量图形和点阵图像数据兼容的文件格式是文本、矢量图形和点阵图像数据兼容的文件格式(简称文字图像)(简称文字图像)。2.PDF文件格式可以将文字、字型、格式、颜色独立于设文件格式可以将文字、字型、格式、颜色独立于设备和分辨力的图形图像等封装在一个文件。备和分辨力的图形图像等封装在一个文件。3.可包含超文本链接、声音和动态影像等电子信息。可包含超文本链接、声音和动态影像等电子信息。4.PDF将其它格式的文件转变成文件格式时,并保留原文将其它格式的文件转变成文件格式时,并保留原文件的所有信息,包括字符、字体、版式和色彩;件的所有信息,包括字符、字体、版式和色彩;5.PDF是独立于各种平台和应用程序的高兼容性文件格式。是独立于各种平台和应用程序的高兼容性文件格式。特点PDF是文本、矢量图形和点阵图像数据兼容的文件格式(简31优点优点1.PDF具有保持原文特性,页面独立性,多媒体链接等。具有保持原文特性,页面独立性,多媒体链接等。2.文件的压缩倍率高,文件的尺寸很小,适于网络传输和文件的压缩倍率高,文件的尺寸很小,适于网络传输和光盘存储,具有高保真的印刷特性。光盘存储,具有高保真的印刷特性。3.Acrobat还具有密码保护功能,允许使用尽可能高的保密还具有密码保护功能,允许使用尽可能高的保密层次来给敏感的文件分配密码,以便控制对这些敏感文层次来给敏感的文件分配密码,以便控制对这些敏感文档的访问。档的访问。4.PDF格式文件可以图文并茂地展现原书的原貌,显示大格式文件可以图文并茂地展现原书的原貌,显示大小可任意调节,阅读时给人赏心悦目的感觉,深受大众小可任意调节,阅读时给人赏心悦目的感觉,深受大众的青睐,已经成为电子出版领域事实上的工业标准。的青睐,已经成为电子出版领域事实上的工业标准。5.Adobe PDF表单中的数据可以以标准的表单中的数据可以以标准的XML格式提交,格式提交,将后端系统和将后端系统和PDF表单相集成。表单相集成。6.PDF文件创建了指定的搜索标准,即在文件创建了指定的搜索标准,即在Adobe PDF文件文件中创建和嵌入元数据,这样可扩展文件查找的方式。中创建和嵌入元数据,这样可扩展文件查找的方式。优点PDF具有保持原文特性,页面独立性,多媒体链接等。32数字文本的处理流程数字文本的处理流程 数字文本信息的特点是易于传播、所需存储空间小,数字文本信息的特点是易于传播、所需存储空间小,使用范围广。现在的公文、文件、信函、报表、各种使用范围广。现在的公文、文件、信函、报表、各种印刷出版物等绝大多数都使用文字的形式来记录,文印刷出版物等绝大多数都使用文字的形式来记录,文本信息处理的应用范围非常广泛,从编辑文稿、建立本信息处理的应用范围非常广泛,从编辑文稿、建立文件档案资料、排版印刷到行政管理、办公室自动化,文件档案资料、排版印刷到行政管理、办公室自动化,凡是需要用文字表达信息的应用场合,都可以利用文凡是需要用文字表达信息的应用场合,都可以利用文字信息处理技术。但是由于世界各国语言文字存在较字信息处理技术。但是由于世界各国语言文字存在较大差异,交流的群体受到限制,文本信息处理一直在大差异,交流的群体受到限制,文本信息处理一直在不断的开发和应用,可以利用计算机人工智能,在字、不断的开发和应用,可以利用计算机人工智能,在字、词处理的基础上增添语法和句法处理、书面和自然语词处理的基础上增添语法和句法处理、书面和自然语言处理等新功能。言处理等新功能。数字文本的处理流程 数字文本信息的特点是易于传播、33文本处理的实质文本处理的实质 先把文字信息数字化,即用一个固定的数码代表一个字先把文字信息数字化,即用一个固定的数码代表一个字母或文字。例如,在英文信息中,以母或文字。例如,在英文信息中,以26个字母作为文字信息个字母作为文字信息处理的单位,因此要对处理的单位,因此要对26个字母逐个地确定代替它的数码。个字母逐个地确定代替它的数码。在汉字的情况下,一般是以一个整字作为文字信息处理的单在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码码统称为代码(code)。在计算机内部处理文字信息时,就像。在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。实现文字信息处理的高效化。文本处理的实质34数字文本的处理流程数字文本的处理流程 从总体上看,数字文本处理大致包含如下三个过程:从总体上看,数字文本处理大致包含如下三个过程:1.文本采集:通常是通过键盘把组成英文词汇的各个文本采集:通常是通过键盘把组成英文词汇的各个英文字母逐个地输入、全文扫描输入等。英文字母逐个地输入、全文扫描输入等。2.文本处理:包括编辑、格式转换等多种不同的处理文本处理:包括编辑、格式转换等多种不同的处理要求。如在文稿的编辑操作中有对文字的增、删、要求。如在文稿的编辑操作中有对文字的增、删、改操作;有对若干个字、整个句子或整段文字的增、改操作;有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中,有分类、合并、删、改操作。在对文字串的处理中,有分类、合并、比较、排序、检索以及对齐等操作。这些种类的操比较、排序、检索以及对齐等操作。这些种类的操作都可以通过预先编制相应的处理程序来实现。作都可以通过预先编制相应的处理程序来实现。3.文本输出:文字信息处理完毕后,要把处理结果的文本输出:文字信息处理完毕后,要把处理结果的代码信息转换成文字的形式输出,输出方式包括显代码信息转换成文字的形式输出,输出方式包括显示和打印,在显示时,文本制作人为了保护自己的示和打印,在显示时,文本制作人为了保护自己的知识产权,可设置对用户权限的管理。知识产权,可设置对用户权限的管理。数字文本的处理流程 从总体上看,数字文本处理大致包含如下三个35 从信息编码角度看数字文本处理,可抽象为下图所示的五层结构模型:从信息编码角度看数字文本处理,可抽象为下图所示的五层结构模型:数字文本处理流程示意图数字文本处理流程示意图 从信息编码角度看数字文本处理,可抽象为下图所示的五层结构模36图示说明图示说明 1.外部码输入层:通过键盘、文字识别、语音识别等将文本外部码输入层:通过键盘、文字识别、语音识别等将文本信息输入计算机。信息输入计算机。2.外部码向内部码转换层:将外部码输入层信息转换成一致外部码向内部码转换层:将外部码输入层信息转换成一致的内部码,供内部码处理层使用。的内部码,供内部码处理层使用。3.内部码处理层:包括运算码、存储码、地址码、控制码、内部码处理层:包括运算码、存储码、地址码、控制码、语音码等字符处理内部码。语音码等字符处理内部码。4.内部码向外部码转换层:将内部码处理层的结果,按照需内部码向外部码转换层:将内部码处理层的结果,按照需要转换成相应外部码输出,供外部码输出层使用。要转换成相应外部码输出,供外部码输出层使用。5.外部码输出层:包括文字显示输出、文字印刷输出、语音外部码输出层:包括文字显示输出、文字印刷输出、语音合成输出、交换码输出等输出形式。合成输出、交换码输出等输出形式。图示说明 外部码输入层:通过键盘、文字识别、语音识别等将文37数字文本采集数字文本采集采集途径采集途径 数字文本的采集途径有输入和下载两种,其中输入又分数字文本的采集途径有输入和下载两种,其中输入又分为人工输入和自动输入。为人工输入和自动输入。人工输入:键盘输入,即英文直接输入,中文输入采用人工输入:键盘输入,即英文直接输入,中文输入采用拼音法、五笔输入法、郑码输入法、智能拼音法等,人拼音法、五笔输入法、郑码输入法、智能拼音法等,人工输入速度慢且劳动强度大,不适用于需要处理大量文工输入速度慢且劳动强度大,不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。字资料的办公自动化、文档管理、图书情报管理等场合。数字文本采集采集途径 数字文本的采集途径有输入和下载两种,其38自动输入分为手写板输入法、语音输入法、扫描输入法。自动输入分为手写板输入法、语音输入法、扫描输入法。1.手写板输入法:利用压敏或磁感应等方法识别文字信号,手写板输入法:利用压敏或磁感应等方法识别文字信号,被计算机接收后再在显示器中显示。被计算机接收后再在显示器中显示。2.语音输入法:利用语音识别手段将人们读书的声音通过麦语音输入法:利用语音识别手段将人们读书的声音通过麦克风输入计算机,由计算机分析判断整理出人们读出的内克风输入计算机,由计算机分析判断整理出人们读出的内容,并用文字形式显示出来。容,并用文字形式显示出来。3.扫描输入法:利用扫描仪、数码相机等外围设备将印刷型扫描输入法:利用扫描仪、数码相机等外围设备将印刷型或手写体的文字转换为数字信号输入计算机,此方法输入或手写体的文字转换为数字信号输入计算机,此方法输入的文字是以图像的形式出现的,再利用识别软件转换为人的文字是以图像的形式出现的,再利用识别软件转换为人们常用的文本文字。们常用的文本文字。自动输入分为手写板输入法、语音输入法、扫描输入法。39 文本下载:文本下载:下载分为电子资源下载和网页下载两种。下载分为电子资源下载和网页下载两种。1.电电子子资资源源下下载载:主主要要是是下下载载数数据据库库和和网网上上的的非非网网页页文文本本,一般是原格式一般是原格式(如如doc、pdf、pdg、caj等等)文件下载。文件下载。2.网网上上下下载载:主主要要是是html格格式式的的网网页页文文本本,采采用用复复制制、粘粘贴贴的的方方法法转转到到Word、写写字字板板、记记事事本本中中以以便便于于编编辑辑,采采用用此此方方法法复复制制到到Word时时,可可采采用用“选选择择性性粘粘贴贴”“无无格格式粘贴式粘贴”的方式去掉粘贴过来的网页格式。的方式去掉粘贴过来的网页格式。文本下载:40 主要有键盘、鼠标、麦克风、图形输入板和笔、主要有键盘、鼠标、麦克风、图形输入板和笔、Microtek扫描仪等。扫描仪等。1.键盘:把汉字输入计算机的主要工具,目前主要是按汉键盘:把汉字输入计算机的主要工具,目前主要是按汉字的字形或发音特征,或利用汉字的形、音特征相结合字的字形或发音特征,或利用汉字的形、音特征相结合的编码方法将汉字输入计算机。的编码方法将汉字输入计算机。2.麦克风:将人类自然语言转化为计算机能识别的文本信麦克风:将人类自然语言转化为计算机能识别的文本信息的主要工具。息的主要工具。3.图形输入板和笔:将人们的手写文本直接输入到计算机图形输入板和笔:将人们的手写文本直接输入到计算机的主要工具。只有在微机配上图形输入板才能进行手写的主要工具。只有在微机配上图形输入板才能进行手写文本,以让机器自动识别转换为数字文本信息。文本,以让机器自动识别转换为数字文本信息。4.Microtek扫描仪:目前常用的扫描仪是上海中晶科技有限扫描仪:目前常用的扫描仪是上海中晶科技有限公司生产的公司生产的Microtek扫描仪,最新产品是扫描仪,最新产品是Microtek ArtixScan 2020彩色双平台扫描仪,分辨率为彩色双平台扫描仪,分辨率为2000dpi2000dpi、双镜头及恒温冷却系统,最大扫描幅、双镜头及恒温冷却系统,最大扫描幅面为面为A3。v采集工具采集工具 主要有键盘、鼠标、麦克风、图形输入板和笔、Mic41v 采集软件采集软件数字文本的采集软件主要有:数字文本的采集软件主要有:1.word、Windows附件的记事本:主要用于键盘输入和附件的记事本:主要用于键盘输入和网上下载的采集过程。网上下载的采集过程。2.识别软件:分为文本识别软件和语音识别软件,文本识别软件:分为文本识别软件和语音识别软件,文本识别软件有尚书和汉王等,其核心技术是识别软件有尚书和汉王等,其核心技术是OCR技术;技术;语音识别软件有语音识别软件有IBM公司生产的公司生产的Via Voice9.1和微软公和微软公司开发的语音大师司开发的语音大师3.6等。等。采集软件数字文本的采集软件主要有:42 文文本本识识别别是是用用电电子子计计算算机机自自动动辨辨识识印印刷刷在在纸纸上上和和录录写写在在纸纸(或或介介质质)上上的的字字形形,是是一一种种文文本本处处理理中中的的高高速速、自自动动输输入入方方式式。文文本本识识别别技技术术可可以以分分为为印印刷刷体体识识别别及及手手写写体体识识别技术,而手写体识别又可以分为联机与脱机两种。别技术,而手写体识别又可以分为联机与脱机两种。文本识别文本识别 文本识别是用电子计算机自动辨识印刷在纸上和录写在纸43v 文本识别的原理 根据匹配判别,抽取代表未知汉字模式本质的表达形式根据匹配判别,抽取代表未知汉字模式本质的表达形式(如各种特征如各种特征)和预先存储在机器中的标准汉字模式表达和预先存储在机器中的标准汉字模式表达形式的集合形式的集合(称为字典称为字典)逐一匹配,用一定的准则进行判逐一匹配,用一定的准则进行判别,在机器存储的标准汉字模式表达形式的集合中,找别,在机器存储的标准汉字模式表达形式的集合中,找出最接近输入字模式表达形式,该表达形式对应的文字出最接近输入字模式表达形式,该表达形式对应的文字就是识别结果。就是识别结果。文本识别的原理 根据匹配判别,抽取代表未知汉字模44 v 文本识别的原理图文本识别的原理图 文本识别的原理图 45OCR识别技术识别技术 OCR,光学汉字识别的简称,是一种智能化的汉字输入方法,光学汉字识别的简称,是一种智能化的汉字输入方法,主要是对印刷体汉字进行识别,原稿上的印刷体汉字经光学主要是对印刷体汉字进行识别,原稿上的印刷体汉字经光学扫描后,通过二值化处理扫描后,通过二值化处理(即模数转换行字切分等预处理过即模数转换行字切分等预处理过程程)送入计算机,由程序把送入计算机的字模信息和原先存送入计算机,由程序把送入计算机的字模信息和原先存在计算机中的标准字模信息进行比较,判定和识别输入的汉在计算机中的标准字模信息进行比较,判定和识别输入的汉字,这种方法的识别速度较高。对于一般质量的文稿,目前字,这种方法的识别速度较高。对于一般质量的文稿,目前OCR产品的汉字识别准确率已达产品的汉字识别准确率已达95以上,个别系统可达以上,个别系统可达98以上,并可实现对中文、英文和数字符号的混合识别,以上,并可实现对中文、英文和数字符号的混合识别,基本进入实用阶段,并在不断发展之中。基本进入实用阶段,并在不断发展之中。OCR识别技术主要应用于扫描仪中,目前也有不少数据库识别技术主要应用于扫描仪中,目前也有不少数据库 公司将它嵌入自己的浏览器中,如:重庆维普、中国期刊网、公司将它嵌入自己的浏览器中,如:重庆维普、中国期刊网、书生和超星电子图书等。书生和超星电子图书等。OCR识别技术 OCR,光学汉字识别的简称,是一种智能化46印刷体文本识别印刷体文本识别印刷体文本识别的过程如:印刷体文本识别的过程如:1.扫描:通过光电扫描仪获得的二维原始图像。扫描:通过光电扫描仪获得的二维原始图像。2.预处理:对原始图像的去噪、倾斜校正或各种滤波处理。预处理:对原始图像的去噪、倾斜校正或各种滤波处理。3.版面分析:对于文本图像的总体分析,区分出文本段落及版面分析:对于文本图像的总体分析,区分出文本段落及排版顺序、图像、表格的区域,对于文本区域将进行识别排版顺序、图像、表格的区域,对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。于图像区域进行压缩或简单存储。4.将大幅的图像先切割为行,再从图像行中分离出单个字符将大幅的图像先切割为行,再从图像行中分离出单个字符的过程的过程 5.特征提取:从单个字符图像上提取统计特征或结构特征的特征提取:从单个字符图像上提取统计特征或结构特征的过程,包括细化、归一化等步骤。整个环节中最重要的一过程,包括细化、归一化等步骤。整个环节中最重要的一环,提取的特征的稳定性及有效性,决定了识别的性能。环,提取的特征的稳定性及有效性,决定了识别的性能。6.文字识别:从学习得到的特征库中找到与待识字符相似度文字识别:从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。最高的字符类的过程。7.后处理:利用词义、词频、语法规则或语料库等语言先验后处理:利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。知识对识别结果进行校正的过程。印刷体文本识别印刷体文本识别的过程如:47印刷体文本识别的过程图印刷体文本识别的过程图注:圈内部分是印刷汉字注:圈内部分是印刷汉字识别中最为核心的技术识别中最为核心的技术 印刷体文本识别的过程图注:圈内部分是印刷汉字识别中最为核心的48手写体文本识别手写体文本识别手写文本识别是只在微机配上图形输入板就可以进行手写文手写文本识别是只在微机配上图形输入板就可以进行手写文本,机器自动识别。手写文本是一种很方便的输入手段,不本,机器自动识别。手写文本是一种很方便的输入手段,不需要进行任何训练,可以随着思路书写,图形输入板方便编需要进行任何训练,可以随着思路书写,图形输入板方便编辑、修改,缺点是输入速度慢和不适应大量的文本输入。其辑、修改,缺点是输入速度慢和不适应大量的文本输入。其识别过程如下:识别过程如下:手写体文本识别手写文本识别是只在微机配上图形输入板就可以进行49文本识别操作:尚书六号文本识别操作:尚书六号目前市场上销售的每一款目前市场上销售的每一款Microtek扫描仪产品,都附赠了扫描仪产品,都附赠了“尚书六号尚书六号”文字识别软件。文字识别软件。“尚书六号尚书六号”突破了突破了“尚书五号尚书五号”只能对只能对“黑白二色黑白二色”图像进行识别的限制,可对彩色、灰图像进行识别的限制,可对彩色、灰度图像文件直接进行识别,同时支持更多的扫描文件格式度图像文件直接进行识别,同时支持更多的扫描文件格式(如如TIFF、BMP和和JPG),完善了表格识别功能,各式各样的表,完善了表格识别功能,各式各样的表格几乎都可以原封不动的由图片格式转变为可以自由编辑的格几乎都可以原封不动的由图片格式转变为可以自由编辑的文字格式,安装文字格式,安装“尚书六号尚书六号”完毕后,程序组图标里面会自完毕后,程序组图标里面会自动出现动出现“尚书六号说明尚书六号说明”,借助这本用户手册,即使是初学,借助这本用户手册,即使是初学者也可以迅速掌握软件的使用。者也可以迅速掌握软件的使用。文本识别操作:尚书六号目前市场上销售的每一款Microtek50尚书六号的使用方法尚书六号的使用方法Step1:扫描图像文件:扫描图像文件 首先点击桌面上首先点击桌面上ScanWizard 5软件的图标,进入软件的图标,进入Microtek扫描仪驱动软件的界面,直接进行扫描工作,而不需要启扫描仪驱动软件的界面,直接进行扫描工作,而不需要启动其他的扫描程序或图像编辑程序,这样可以大大加快扫动其他的扫描程序或图像编辑程序,这样可以大大加快扫描进程。同时,注意将描进程。同时,注意将ScanWizard 5软件切换到高级工作软件切换到高级工作模式(如图模式(如图1所示),以便于用户检查扫描仪工作时的分辨所示),以便于用户检查扫描仪工作时的分辨率。在文字识别时,推荐使用的扫描分辨率设定在率。在文字识别时,推荐使用的扫描分辨率设定在300ppi,色彩模式可以选择色彩模式可以选择“RGB彩色彩色”或者或者“灰阶灰阶”,选择,选择“扫描扫描到到”的文件格式是的文件格式是TIF或者或者JPG两者都可以,然后将扫描得两者都可以,然后将扫描得到的文件保存在用户确定的目录下面。到的文件保存在用户确定的目录下面。尚书六号的使用方法Step1:扫描图像文件 51图图1.图1.52Step2:打开尚书六号读取扫描好的图像文:打开尚书六号读取扫描好的图像文件。件。图图2Step2:打开尚书六号读取扫描好的图像文件。图253Step3:被识别图片的预处理 包括倾斜校正和设定正确的识别区域两个过程。包括倾斜校正和设定正确的识别区域两个过程。倾斜校正过倾斜校正过程:如图程:如图3所示,按下工具栏的最下面的一个工具。按下所示,按下工具栏的最下面的一个工具。按下“图像倾斜校正图像倾斜校正”工具后,会出现如图工具后,会出现如图3所示的对话窗口:所示的对话窗口:图图3按下按下“是是”按钮。系统就给予图片做水平的倾斜校正,做完按钮。系统就给予图片做水平的倾斜校正,做完后,结果图后,结果图4:Step3:被识别图片的预处理包括倾斜校正和设定正确的识别区54图图 4注意:注意:“自动倾斜校正功能自动倾斜校正功能”只能对原稿做只能对原稿做2.8度的倾角的度的倾角的校正,如果原稿的倾斜角度大于校正,如果原稿的倾斜角度大于2.8度,系统会建议用户重新度,系统会建议用户重新扫描稿件,以提高识别率。扫描稿件,以提高识别率。图 4注意:“自动倾斜校正功能”只能对原稿做2.8度的倾角55如何正确设定识别区域,这是一个值得用户注意的地方:如何正确设定识别区域,这是一个值得用户注意的地方:如下的如下的“海尔海尔”一文,实际是分成两个栏目,进行阅读的,一文,实际是分成两个栏目,进行阅读的,所以我们在设定识别区域的时候,注意需要将这个特点表所以我们在设定识别区域的时候,注意需要将这个特点表现出来,需要设定两个识别区域,如图现出来,需要设定两个识别区域,如图5所示。所示。如何正确设定识别区域,这是一个值得用户注意的地方:56对于一些文字稿件,中间有表格的时候,我们建议采用绕对于一些文字稿件,中间有表格的时候,我们建议采用绕开的方式,进行识别区域的设定。开的方式,进行识别区域的设定。对于一些文字稿件,中间有表格的时候,我们建议采用绕开的方式,57对于表格类的图片,为了将标题栏也能识别进去,我们建对于表格类的图片,为了将标题栏也能识别进去,我们建议采用如下的识别区域设定,特点是表格部分必须整个框议采用如下的识别区域设定,特点是表格部分必须整个框选,同时标题作为一个单独的框选区域。选,同时标题作为一个单独的框选区域。对于表格类的图片,为了将标题栏也能识别进去,我们建议采用如下58注意:在预处理的过程,要去除杂点和图像。如文注意:在预处理的过程,要去除杂点和图像。如文稿中含有图像,稿中含有图像,OCR是不能识别的,如果有图像是不能识别的,如果有图像存在,会影响存在,会影响OCR的文字切分。可考虑使用的文字切分。可考虑使用“图图像的块擦拭像的块擦拭”工具将文档中的图像去除,同时将工具将文档中的图像去除,同时将一些杂点,尽量的去除。一些杂点,尽量的去除。注意:在预处理的过程,要去除杂点和图像。如文稿中含有图像,O59Step4:开始进行识别:开始进行识别 在开始在开始“识别识别”的时候,注意识别的软件的设定值是否正的时候,注意识别的软件的设定值是否正确,默认值如下:确,默认值如下:Step4:开始进行识别60注意:稿件是横排还是竖排,可选择编排格式按注意:稿件是横排还是竖排,可选择编排格式按扭,以保持对应。扭,以保持对应。注意:稿件是横排还是竖排,可选择编排格式按扭,以保持对应。61Step5:识别结果的校对:识别结果的校对 一般,一般,OCR对不能完全确定的文字,会显示出兰或红色,对不能完全确定的文字,会显示出兰或红色,需要用户确认。也要注意,在没有提示出错的地方,也会有需要用户确认。也要注意,在没有提示出错的地方,也会有可能出错。所以用户在校对时,可以通读一遍,来提高文字可能出错。所以用户在校对时,可以通读一遍,来提高文字校对的效果。如果确实有错误,可在下图所示的界面内,通校对的效果。如果确实有错误,可在下图所示的界面内,通过操作系统提供的文字输入方法,修改错误。过操作系统提供的文字输入方法,修改错误。Step5:识别结果的校对 一般,OCR对不能完全确定62Step6:结果保存:结果保存识别校对完成后,存盘格式的选择文件保存的类型有四种,识别校对完成后,存盘格式的选择文件保存的类型有四种,建议一般文本的识别,用户选择建议一般文本的识别,用户选择TXT格式。格式。如果是表格识如果是表格识别,识别结果请选择别,识别结果请选择“CSV”格式,用格式,用EXCEL能够打开。能够打开。Step6:结果保存63思考题:思考题:1.文字、文本、文档、文件四者之间的关系是怎样的?文字、文本、文档、文件四者之间的关系是怎样的?2.我校图书馆主页上的数据库中有哪些文本格式?我校图书馆主页上的数据库中有哪些文本格式?(至少列出至少列出四种四种)3.文本处理的实质及流程是怎样的?文本处理的实质及流程是怎样的?4.文本采集有哪几种途径?文本采集有哪几种途径?5.文本识别的本质是什么?文本识别的本质是什么?6.使用尚书六号对文本识别有哪几步?每一步应注意哪些?使用尚书六号对文本识别有哪几步?每一步应注意哪些?思考题:1.文字、文本、文档、文件四者之间的关系是怎样的?64
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!