资源描述
西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1 1页页/共共6565页页第三章 文本编辑与阅读软件 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2 2页页/共共6565页页主要内容文本编辑软件 电子图书简介UltraEditAdobe ReaderOCR手机阅读器西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3 3页页/共共6565页页3.1 文本编辑及阅读软件简介 文本编辑软件及阅读软件可以帮助用户编写、修改各类电子文档,对文档进行排版、校对等工作;还可以浏览各种通用的文档,实现无纸化办公和无纸化阅读。有些文本编辑软件甚至可以帮助用户编写应用程序的代码,并提供语法检查功能。而一些文本阅读软件则可以通过网络定时更新本地的文档、订阅信息,甚至通过语音阅读文档。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4 4页页/共共6565页页文本编辑软件文本编辑软件文本编辑软件是在日常工作和生活中使用相当频繁的应用软件之一。其主要包括两大类,即文本编辑器和文字处理器。记事本写字板UltraeditEditplus西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5 5页页/共共6565页页文本阅读软件文本阅读软件文本阅读软件在日常生活中使用也非常广泛。经常用于浏览各种电子文档。常用的文本阅读软件主要包括文档浏览软件、RSS订阅软件以及语音阅读软件等。在日常工作中,经常需要通过各种文字处理器编写各种各样的文档。这些文档大多都是包含各种文本样式和排版的编译文档或加密文档。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第6 6页页/共共6565页页3.2 电子图书1、电子书是利用计算机技术将一定的文字、图片、声音、影像等信息,通过数码方式记录在以光、电、磁为介质的设备中,借助于特定的设备来读取、复制、传输的内容呈现形式。2、构成三要素:(1)E-book 的内容(2)电子书的阅读器(3)电子书的阅读软件西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第7 7页页/共共6565页页电子图书的特点拥有与传统书籍许多相同的特点:包含一定的信息量;其编排按照传统书籍的格式以适应读者的阅读习惯;通过被阅读而传递信息等等。又拥有许多传统书籍不具备的特点:必须通过电子计算机设备读取并通过屏幕显示出来;具备图文声像结合的优点;可检索;可复制;有更高的性价比;有更大的信息含量;有更多样的发行渠道等等。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第8 8页页/共共6565页页电子图书形式1、完全执行文件 这种形式的电子图书一般带有保护性质,资料量大,有保密性,可阅读性比较差。适合于内部刊物等。2、专有格式 这种形式的电子图书需要以某种专门的阅读器阅读,功能比较固定,目前仅有国外几种阅读器适用,升级/二次开发依赖国外软件商的升级,不利于国内快速增长的电子图书市场。3、通用格式 这种形式的电子图书一般以通用的图文混排格式制作,即使没有阅读器,一般用户也可在自己的电脑上阅读,而定制的增强功能的阅读器则可以发挥更高的阅读效率。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第9 9页页/共共6565页页电子图书的格式1EXE文件格式:不支持Flash和Java及常见的音频视频文件,需要IE浏览器支持 2 HLP文件格式3CHM文件格式:Compiled Help Manual,支持JavaScript、VBScript、ActiveX、Java Applet、Flash、常见图形文件(GIF、JPEG、PNG)、音频视频文件(MID、WAV、AVI)等 4PDF文件格式:电子读物美观、便于浏览、安全性很高;但是这种格式不支持CSS、Flash、Java、JavaScript等基于HTML的各种技术5WDL文件格式:这种格式的电子读物由于对打印和拷贝作了限制,所以适当保护了作者和出版商的利益。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1010页页/共共6565页页6SWB文件格式:软件WinEbook Compiler的一种专有格式 7LIT文件格式:不支持与HTML相关的各种技术,只支持图片的浏览,对中文支持不是很好 8EBX文件格式:该格式可以包括sound、wave等多媒体文档 9.TXT:最常见的TXT小说,不仅方便的在电脑上打开,还可以下载到MP3和手机中10.HTML:网页格式,可用网页浏览器直接打开 11.CEB:转换方便,几乎所有格式都可以转换成CEB格式,包括XML、S2、PS、PDF、TIFF、DOC、WPS等 电子图书的格式西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1111页页/共共6565页页12.ABM:一种全新的数码出版物格式,这种格式最大的优点就是能把文字内容与图片、音频甚至是视频动画结合为一个有机的整体13PDG:超星公司把书籍经过扫描后存储为PDG数字格式,存放在数字图书馆中14EBK文件格式该格式是Voyager公司的MAC机(也有PC格式)读书软件格式 15.DOC:Microsoft WORD的专有格式16.PDB/PRC:PDA专用的格式17.CLF:LISTPRO软件的专有格式电子图书的格式西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1212页页/共共6565页页18.RB文件格式:“Rocket eBook”19.CAJ 文件格式:Chinese academic journal 20.NLC 文件格式:中国国家图书馆的电子图书格式21.STK文件格式:宜锐公司的电子书格式22.XPS格式:XPS,XML Paper Specification,一种基于Zip压缩格式的文件,包括Word、Excel、PowerPoint、Access、Publisher、Visio、OneNote、及InfoPath等应用程序所保存的档案都可以存成XPS 电子图书的格式西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1313页页/共共6565页页手机电子书兼容格式手机终端常见的电子书格式为UMD、JAR、TXT这三种。1、umd是掌上书院创立的手机电子书文件格式 2、JAVA手机电子书的格式一般为JAR和JAD 3、TXTPDB格式:是PDA palm的的专用格式 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1414页页/共共6565页页电子图书版权及其它e-Book的数字化特点为其复制提供了异常廉价、简便、快捷和准确的使用方式,与纸质图书和传统出版物相比有许多优越性 从而大大促进了数字作品的传播,为公众提供了便利.但随之出现的版权问题也成为著作权人、出版商、读者关注的焦点。电子图书的出现打破了原有的著作权法范围内作者、出版者和读者之间的利益平衡,引起了严重的版权问题.而成为限制e-Book发展的瓶颈.版权保护的措施和法规不完善已经成为电子图书普及的最大障碍。及时有效的版权管理和加密技术对电子图书的发展显得极为重要。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1515页页/共共6565页页自1999年以来,出现了以保护数字版权为核心的数字版权管理(Digital Rights Management,简称DRM)技术,避免播放和复制未经授权的数字内容,是对著作权法的有效和必要的补充.数字版权管理技术的出现,为解决e-Book等电子出版物的侵权问题提供了较好的思路.中文在线电子书被“免费”使用 获赔20万 因未经许可传播红色童话、永不瞑目等作品的电子书,蛙扑网络技术有限公司被北京中文在线文化发展有限公司告上法庭,被判赔偿原告20万元。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1616页页/共共6565页页3.3 文本编辑UltraEdit西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1717页页/共共6565页页工具栏按钮西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1818页页/共共6565页页西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第1919页页/共共6565页页主要功能1十六进制编辑模式2同时编辑多个文件3多文件的查找和替换4保存为项目文件 5拼写检查6支持多种文件格式7宏功能 8支持多种字体9命令调用西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2020页页/共共6565页页西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2121页页/共共6565页页打开多个文档 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2222页页/共共6565页页Replace对话框 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2323页页/共共6565页页Specify Project File对话框 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2424页页/共共6565页页Check Spelling对话框 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2525页页/共共6565页页File Associations选项卡西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2626页页/共共6565页页转换文本格式 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2727页页/共共6565页页字符集基本的概念字符到底是什么东西?字符是抽象的最小文本单位 语言的基本单元是字符,如每个英文字母都是一个字符,每个汉字也都是一个字符其他控制字符等,如回车、换行字符什么是字符内码?内码指某种语言的字符在计算机存储器内的表现形式;内码主要与字符的编码方式有关系,如ASCII编码的字符“A”的内码是0 x41。什么是字符集、编码字符集?字符集是字符的集合;编码字符集是所有字符都有数字编码的字符集西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2828页页/共共6565页页字符编码的基本概念一个字符的编码就是表示这个字符的一串内码数字;每种字符集采用特定位长的数字用以编码用于编码字符的数字成为“代码点”,不一定所有代码点都用来编码字符字符编码方案是一个或多个编码字符集映射为一个或多个定长编码单元(8/16/32)的方法,如GBK是汉字字符集的一种编码方案,GB18030也是。DBCS,Double-Byte Character SetMBCS,Multi-Byte Character Set西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第2929页页/共共6565页页字符的存放与显示字符是如何存放的?存放的只是表示字符的内码字符是如何在计算机屏幕展现的字符的展现离不开字形库(字体)字形库存放的字符字形以及内码与字形的映射表一般有点阵字形和矢量字形(TTF字体全是矢量字形,FON文件存放的是点阵字型16*16或24*24)西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3030页页/共共6565页页常见字符编码ASCIIISO8859_1BIG5GB2312GBK/GB13000GB18030UnicodeJava中的字符编码西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3131页页/共共6565页页ASCIIASCII(American Standard Code for Information Interchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统。主要含现代英语和西欧英语国家字符使用单字节的7个bit编码ISO8859_1扩展了ASCII,利用了单字节的127以上部分含西欧国家主要语系的字符,表格符号等ISO8859_1编码的是Latin_1字符集西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3232页页/共共6565页页Big5又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众(FIC)创立,故称大五码使用单字节、双字节存储,主要包含繁体中文汉字重复地收录了两个相同的字:“兀”(0 xA461及0 xC94A)、“嗀”(0 xDCD1及0 xDDFC)。GB2312GB2312又称为GB2312-80字符集,全称为信息交换用汉字编码字符集基本集,由原中国国家标准总局发布,1981年5月1日实施使用单字节、双字节存储,主要收录简体中文汉字西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3333页页/共共6565页页GBK/GB13000是GB2312-80的扩展,涵盖简体中文、繁体中文、日文、韩文等GBK是GB2312向GB13000过渡的一个中间产物 使用单字节、双字节存储Unicode两种标准的妥协国际标准化组织(ISO)的 ISO 10646(UCS)项目多语言软件制造商组成的协会组织的 Unicode 项目通用字符集是所有其他字符集标准的一个超集。与其他字符集是双向兼容的。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3434页页/共共6565页页Unicode的几种编码方案UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数。UTF-16 使用一个或两个无符号的 16 位代码单元的序列对 Unicode 代码点进行编码UTF-8 使用一至四个字节的序列对编码 Unicode 代码点进行编码 Java Modified UTF8:字符”U+0000”使用两个字节只使用一至三个字节编码增补字符使用替代方式表示西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3535页页/共共6565页页命令调用 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3636页页/共共6565页页DOS Command对话框 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3737页页/共共6565页页Command Output窗口 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3838页页/共共6565页页3.4 Adobe Reader西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第3939页页/共共6565页页基本用法1使用导览标签2打开文档3保存 Adobe PDF 文档4关于创建 Adobe PDF 文档5导览文档6调整文档的视图7设置页面布局和方向8以全屏视图阅读文档 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4040页页/共共6565页页西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4141页页/共共6565页页编辑Adobe PDF文档1复制文本可以使用“文本选择工具”复制文本。2复制图像复制图像与复制文本类似,所不同的是使用“选择图像工具”来选择要复制的图像。3粘贴图像可以在其他应用程序中,如写字板和Word中将上面复制的文字、图像等进行粘贴。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4242页页/共共6565页页使用注释工具单击“视图工具栏注释工具”命令即可打开如图6-3所示的“注释工具”工具栏。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4343页页/共共6565页页3.5 汉字识别 汉字识别属于文字识别(OCR)的范畴,文字识别是模式识别的重要应用领域。汉字识别技术涉及到模式识别、图像处理、人工智能、模糊数学、组合论、信息论、计算机等多个学科,也涉及到语言文字学、心理学等学科,是一门综合性的技术。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4444页页/共共6565页页汉字OCR技术发展历史西文OCR技术研究始于50年代Optical Character Recognition(OCR)几乎所有的早期模式识别研究者都进行过字符识别的几乎所有的早期模式识别研究者都进行过字符识别的研究。随后的研究。随后的 30 30 多年来,字符识别一直是模式识别多年来,字符识别一直是模式识别的重要内容之一的重要内容之一 汉字OCR技术印刷体汉字的识别最早可以追溯到印刷体汉字的识别最早可以追溯到6060年代年代19661966年,年,IBMIBM公司的公司的CaseyCasey和和NagyNagy发表了第一篇关于印发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了板匹配法识别了1 1,000000个印刷体汉字个印刷体汉字西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4545页页/共共6565页页汉字OCR技术发展历史70年代以来,日本人做了许多工作日本的常用汉字有日本的常用汉字有20002000个左右个左右19771977年东芝综合研究所研制了可以识别年东芝综合研究所研制了可以识别20002000个个汉字的单体印刷汉字识别系统汉字的单体印刷汉字识别系统8080年代初期,日本武藏野电气研究所研制的可年代初期,日本武藏野电气研究所研制的可以识别以识别23002300个多体汉字的印刷体汉字识别系统,个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平代表了当时汉字识别的最高水平日本的三洋、松下、理光和富士等公司也有其日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统研制的印刷汉字识别系统西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4646页页/共共6565页页我国自70年代后期开始字符识别方面的研究,80年代以后,台湾和香港发展的也很快7070年代末期到年代末期到8080年代末期年代末期算法和方案探索算法和方案探索 :单体汉字识别:单体汉字识别9090年代初期年代初期由实验室走向市场,初步实用由实验室走向市场,初步实用9090年代后期年代后期混排混排多语言混排文本:如中英文多语言混排文本:如中英文多字体混排文本:如:宋,楷体,多字体混排文本:如:宋,楷体,)多字号混排文本:不同大小多字号混排文本:不同大小西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4747页页/共共6565页页2000年代后识别率、鲁棒性的提高识别率、鲁棒性的提高单纯单纯OCR文档分析文档分析多语混排,多字号,多字体多语混排,多字号,多字体版面分析版面分析文本的结构文本的结构表格,图像(如插图),公式表格,图像(如插图),公式摄像设备(非扫描仪)摄像设备(非扫描仪)名片名片手机摄像手机摄像通讯录通讯录西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4848页页/共共6565页页国内主要研究机构汉王科技中科院自动化所中科院自动化所1985年刘迎建开发出国内第一个联机手写汉字识别年刘迎建开发出国内第一个联机手写汉字识别系统,并获国家发明专利。系统,并获国家发明专利。1993年初,在中科院自年初,在中科院自动化研究所的支持下创办了中国汉王科技公司,出动化研究所的支持下创办了中国汉王科技公司,出任总经理任总经理中科院计算所智能计算机研究中心中科院计算所智能计算机研究中心西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第4949页页/共共6565页页系统构成西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5050页页/共共6565页页信号采集方式脱机识别扫描仪或者摄像设备扫描仪或者摄像设备数字图像信号数字图像信号联机手写识别手写屏,手写输入板手写屏,手写输入板运动轨迹电信号,记录了笔划和笔顺信息运动轨迹电信号,记录了笔划和笔顺信息电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的电磁式或压电式,在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的算机中,从这些电信号我们可以比较容易地抽取笔划和笔顺的信息信息.西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5151页页/共共6565页页OCR技术一般流程西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5252页页/共共6565页页文字识别软件的使用 目前,大量的非电子化文档,严重影响着我们日常的办公效率,为了更好的解决这个问题,我们可以使用文字识别软件(OCR)对扫描的图像文件进行文本化转换,将纸质文档转化为可以再次编辑的电子文档。目前常用的中文文字识别软件很多,比如:清华紫光 OCR、尚书OCR、汉王OCR、蒙怡OCR、丹青OCR等。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5353页页/共共6565页页汉王PDF OCRV8.0 识别字符识别字符简体字符集:国标GB2312-80的全部一、二级汉字6800多个。纯英文字符集。简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。识别字体种类识别字体种类能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。识别字号识别字号初号 小六号字体。表格识别表格识别可以自动判断、拆分、识别和还原各种通用型印刷体表格。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5454页页/共共6565页页系统设置系统设置 支持的扫描任务语言有:中文简体、简繁混合、纯英文等。如果选中“灰度彩色图像总存为JPG”,那么系统会自动将灰度彩色图像扫描保存成JPG格式。如果选中“识别”页中的“自动倾斜校正”,在版面分析时,系统会自动校正倾斜的图像文件。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5555页页/共共6565页页操作界面操作界面 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5656页页/共共6565页页文件管理区文件管理区打开文件:打开文件:选择“文件”菜单,选择打开图像文件的路径,图像文件便显示在管理区用鼠标可将图像文件拖拽到管理区,也可将打开的图像页复制、粘贴到管理区。删除文件:删除文件:按键盘上的“Delete”键将文件删除。调整文件:调整文件:选中一个文件或按住Ctrl可以选择多个文件,把文件拖放到要调整的位置。文件格式:文件格式:本系统支持TIF、BMP、PDF,彩色灰度图还支持JPG格式。文件语言:文件语言:本系统支持中文简体、英文、简繁体混排方式、以及中英文混排方式。图像文件重命名:图像文件重命名:选中文件,点击文件菜单选择可保存成TIF、BMP、JPG文件(说明:本系统不支持批量图像文件的改名)。图像文件保存路径:图像文件保存路径:在中可以设置获取图像文件的路径、名称、格式。如该路径不存在,系统会提示是否创建该路径;如果要选择已存在的某个路径,可以点击“扫描到”按钮,弹出选择路径对话框,选择需要保存图像的路径。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5757页页/共共6565页页获取图像获取图像获取图像有四种方式:通过点击工具栏上的按钮打开已扫描好的图像文件;通过扫描仪批量扫描文稿;用鼠标将图像文件拖拽管理窗口;将打开的图像文件复制、粘贴到文件管理器中。扫描文稿时,先准备好扫描仪,点击工具栏上的进入扫描程序,将要扫描的稿件放置在扫描仪的适当位置上,屏幕上显示扫描仪配置窗口(这里以扫描仪AV620C为例)。在扫描之前,可以通过扫描窗口选择扫描精度、扫描方式和纸张大小。系统支持黑白二值模式、灰度模式以及彩色模式,即选择黑白扫描方式、灰度扫描方式和彩色扫描方式。建议不要大量采用灰度、彩色扫描模式扫描文件,因为彩色图像文件占用大量的内存和CPU,操作速度会很慢;而且背景图案会影响处理效果。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5858页页/共共6565页页处理图像处理图像 图像反白图像反白本功能只处理白底黑字的图像,若扫描得到的图像不是白底黑字,点“编辑”菜单中的“图像反白”命令作反白处理。旋转图像旋转图像若发现当前图像不是正常位置显示,选择“编辑”菜单内的“旋转图像”菜单项,再选择相应的旋转方向,按90度旋转当前图像(可以连续旋转),将当前图像旋转到正常位置。倾斜校正倾斜校正自动倾斜校正:若扫描后的图像是倾斜的,按系统测定的角度自动倾斜校正。选择“编辑”菜单的“自动倾斜校正”,可以对倾斜的图像作自动倾斜校正使之正常显示。手动倾斜校正:手工调整横竖坐标,使得水平线条与文本图像的倾斜角度一致;也可以用键盘上的上下箭头在按钮间切换,进行校正操作。去除噪声去除噪声调整边框:若发现当前的图像带有多余的版面噪音,可以调整当前图像的图像框范围,将多余的或影响版面分割和识别准确率的版面噪音(扫描过程产生的黑线条、黑污点等)删去,以提高识别准确率。剪切噪音:点击工具栏中的按钮,按住鼠标左键,拖动鼠标选中图像中的噪音(黑点或黑框),放开鼠标左键,就可以将噪音清除。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第5959页页/共共6565页页分析图像分析图像自动版面分析自动版面分析单击工具栏的按钮,或选择“识别”菜单内选择“版面分析”命令,自动对当前文件或管理窗口内选定的一批文件进行版面分析。若单击按钮,或选择“识别”菜单上的“选择全部文件”命令,将全部文件选中,进行版面分析时,系统自动对全部图像文件进行版面分析。调整分析结果调整分析结果移动光标箭头到文件图像上的待调整图像框,点击1、2、3、4、5键,将当前框的属性标识为横栏、竖栏、表格、图像、英文;若框切分不对,可单击工具栏中的按钮,或选择“识别”菜单内的“取消当前栏”,取消当前栏重新画框;若整页切分错误较多,可单击工具栏中的按钮,或选择”识别”菜单内的“取消版面分析”,取消图像页的全部版面分析,手动进行版面分析。在调整分析结果时,如果框的范围包含了其它属性框,被包含的框自动消失;当框的范围与已有的属性框交叉时,调整框大小无效。手工版面分析手工版面分析移动光标箭头到文件图像上的适当位置(例如文章段首),按住鼠标左键不放,拖动至另一适当位置(例如文章段尾),再放开左键,划分出所要识别的图像框图(见图像框线),重复此操作,以划分出全部图像框的框图。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第6060页页/共共6565页页识别图像识别图像 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第6161页页/共共6565页页校对调整窗口显示调整窗口显示字符校对字符校对1、字符校对:对照随行显示的当前字符的原始图像校正识别结果。2、字符修改:选择当前字的候选字替换识别有误的字,也可以调出输入法输入正确的字符。3、字符编辑:在文本编辑区内可以进行退格、删除、撤消等操作,在窗口最下面的状态栏的或处单击,可以切换字符的键入方式。在“编辑”菜单内选择“剪切”“复制”或“粘贴”,可以对选定的文字做相应的操作。保存图像保存图像在工程操作时,想将经过处理后的图像保存,可以点“文件“菜单下的“保存图像”命令进行保存;如果想将处理后的图像文件保存到其它位置,可以点“文件”菜单下的“换名保存图像”命令,将图像文件换名保存。输出到指定格式文件输出到指定格式文件校对完成后的图像文件可以输出保存成文字处理软件(如WORD、WPS97等)可处理的文件,还可以保存成文本文件。点“输出”菜单,选择“到指定格式文件”,在弹出的“保存识别结果”窗口中,用户可以选择文件要存储的路径和文件类型。本系统的识别结果可以保存成*.RTF、*.TXT、和*.HTML以及*.XLS四种格式的文件。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第6262页页/共共6565页页3.6 熊猫看书 熊猫看书是网龙公司开发的一款深受好评的手机看书软件,基于iPhone/Windows Mobile/Symbian/Android/M8/Kjava等多手机平台上的全能免费阅读软件。全面支持TXT、ZIP、HTML、UMD、NDB等多种格式,同时还支持JPG、BMP、PNG、GIF等多种格式图像查看。自适应中文编码,自动排版,支持RSS新闻离线阅读,大容量文本瞬间载入,丰富的个性化设置,带给您友好界面人性化阅读体验 西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第6363页页/共共6565页页主要功能主要功能 A.RSS阅读阅读 国内国际时事新闻、体育娱乐、财经、军事、生活旅游、汽车、游戏、数码时尚以及与手机应用相关等最新消息,尽在掌握。B.强大的设置强大的设置 搜索、历史记录、书签收藏、密码设置,多种风格的背景,丰富的字体、编码等个性化的设置,怎么随意怎么来。C.多格式阅读多格式阅读 熊猫看书不仅支持txt、umd、zip、html、NDB、NDZ等常见的文档,还支持jpg、bmp、png、gif等图片的查看浏览,D.完美体验完美体验 对大容量文本的读取速度有极高的优化,分秒间浏览到需要的信息;智能记忆可以自动记录阅读过的摘要;操作便捷,友好界面的人性化阅读体验。E.杂志漫画杂志漫画 手机也能轻松看杂志动漫,原汁原味精美杂志随时享受;漫画在线阅读,最新最热漫画、搞笑漫画,想看就看。西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第6464页页/共共6565页页软件特色软件特色 A个性化设置个性化设置 搜索、跳转、书签收藏,自动滚屏、亮度调节,多种风格的背景,丰富的字体等个性化设置,满足您的各项阅读需求,非常全面和贴心。B高速阅读高速阅读 极大的优化了大容量文本文件的读取速度,瞬间载入,高速读取,分秒间浏览到需要的信息。C智能记忆智能记忆 自动记录上一次阅读过的内容,方便用户查阅自己的浏览记录。在电子书和图片较多的情况下,大大简化了用户的操作。D图像浏览图像浏览 专业的图片阅读功能,支持手机里所有JPG、BMP、PNG、GIF等图像文件的查看。还提供了全屏查看、放大、缩小、图片旋转等多项功能,甚至还可以将自己喜欢的图片作为软件的背景。E海量资源海量资源 通过熊猫看书不仅能看各类免费电子小说,还能在线阅读丰富的杂志和漫画,图文并茂,随时享受原汁原味的精美杂志和最新最热门的漫画.西北大学分析科学研究所/陕西省电分析化学重点实验室Northwest University第第6565页页/共共6565页页思考题1简述文本编辑软件有哪些功能?2简述字符集含义,并给出5种常用的字符集。3概述电子图书的特点。4电子图书有哪些格式?5简述UltraEdit的主要功能。6、简述汉字OCR技术发展历史。
展开阅读全文