汉王OCR录入工厂软件系统应用方案

上传人:m**** 文档编号:184253311 上传时间:2023-02-01 格式:DOCX 页数:10 大小:162.88KB
返回 下载 相关 举报
汉王OCR录入工厂软件系统应用方案_第1页
第1页 / 共10页
汉王OCR录入工厂软件系统应用方案_第2页
第2页 / 共10页
汉王OCR录入工厂软件系统应用方案_第3页
第3页 / 共10页
点击查看更多>>
资源描述
血汉壬科技汉王 OCR 录入工厂软件系统应用方案血汉壬科技汉王OCR录入工厂软件系统应用方案一、 背 景 概 述信息资源对于网络时代,正如蒸汽机于工业社会,我们致力于信息资源建设, 正是在构建未来社会的基石。要丰富网络资源,提高原有信息知识的利用效率, 对图书、文献等信息资料的数字化就显得尤其重要。目前,我国各级政府对数字化图书馆工程非常重视,国家专门成立了“863” 计划数字化图书馆战略小组,北京市把数字图书馆建设列为四项高科技基础工程 之一。这是一个运用现代高科技的数字资源系统工程,涉及到信息资源加工、存 储、检索、传输和利用的全过程,是信息基础建设的重要组成部分。但如何将种 类繁多的文档资料、行业信息进行出自动化处理,以期满足各种数字化信息的应 用呢?这就不能不说到 OCR 技术(光学字符识别)在信息数字化建设中的至关重 要的作用。二、汉王OCR技术简介OCR 是英文 Optical Character Recognition 的缩写,意为光学字符识别。 中文 OCR 光学符号识别技术是一种汉字文稿的自动输入方式,它通过光学扫描 仪和计算机的配合,经OCR软件将图像数据进行运算分类后,将图像数据转化 为计算机内码,这样就可以极大地减轻数据录入工作的强度、提高数据录入的 速度。随着数字化信息资源的建设与管理对现有印刷品数字化的需求越来越 强,通过OCR技术处理的电子文档将广泛应用于各种电子出版物,网络资源,各 种大型文献资料数据库,数字化图书馆等多种领域,OCR技术应用成为信息资源 建设中的最重要阶段。汉王科技公司自1985年就开始从事OCR技术的研究工作,曾受到国家863 计划、国家自然科学基金委员会、中国科学院的支持.是国内从事文字识别研 究与开发的骨干单位,在联机手写识别、中文 OCR 识别等方面处于国际领先 或先进水平。研究内容涉及到中文、英文、日文、韩文的印刷体识别,中文的手写体识别,手写数字识别,表格识别与还原,版面分析与还原,中文 OCR 系统.汉王 OCR 技术的应用涉及到文字识别、身份证识别、银行票据识别、增值 税发票识别、表格识别、车牌识别、教育系统的无纸化阅卷、大型网络化数据 生产流水线等多方面。同时,汉王公司拥有一支稳定的、优秀的、年轻的、朝 气蓬勃的OCR技术研究开发队伍,完全保证了在OCR技术研究方面的技术优 势。OCR技术主要应用办公自动化中印刷汉字、英文、日文等文件资料的自动输入建立汉字文献档案库 语言处理中文书刊资料的自动输入 汉字文本图像的压缩存储和传输 书刊自动阅读器,盲人阅读器 书刊资料的再版输入,古籍整理 智能全文信息管理系统,汉英翻译系统 名片识别管理系统 车牌自动识别系统 网络出版 表格、票据、发票识别系统 身份证识别管理系统 在教育系统的应用,如无纸化评卷汉王OCR技术居国际领先水平汉字多字体识别多字体识别全面支持宋体、仿宋、楷体、黑体圆体、隶书、隶变、魏 碑、行楷及各种变体 大字符集识别技术大字符集简繁混排识别支持国标GB2312-80的全部二级汉字,简繁混 识不但能识别6700多个简体汉字外,还可识别台湾的繁体5401字,香港 繁体字;中英文混排的识别 多识别引擎采用了 3 个识别核心来提高识别率,降低误识率。并可准确定位可疑字。 英文混排识别技术:目前已达到国际领先水平。 手写汉字识别:支持GB2312-80全部二级汉字,工整字识别率在95%以上,自由书写字的识别率在 80%以上,多识别引擎。 手写体数字识别: 3 个独立的识别引擎,集成识别率99%以上 印刷体数字识别: 4个独立的识别引擎,识别率在 99.5% 表格识别技术:国家级评比第一名一、汉王OCR录入工厂软件系统软件系统定义是应用OCR技术,为满足书籍、报刊杂志、报表票据、公文档案等的海 量录入需求,实现工业化流水线管理方式的大型Intranet软件系统。目前,许多行业的海量信息资料需要转化成电子文档以便各种应用及管 理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大, 造成了大量文档资料的积压,因此就急需一种快速高效的软件系统来满足这 种海量录入需求。“OCR录入工厂软件系统”凭借汉王公司在OCR领域的 领先技术,结合强大的网络功能,实现了海量纸质文件的快速录入,可广泛 运用于数字图书馆、档案资料馆、政府机关等不同机构的大量文字、图表的 自动录入,具有巨大的社会效益和经济效益。录入工厂系统可解决的录入问题现代各种书籍:横版、竖版、简体、繁体;古籍:特别是珍本、善本;各年代的报刊杂志及内部资料;各年代公文档案;各种报表或票据录入工厂软件系统总体功能:实现大量原始资料的快速扫描录入与保存;OCR 录入、校对、整理数据库存储、备份、检索和管理; 对各工序环节能进行监督和调度协调;员工岗位的管理;质量控制系统管理;安全日志;录入工厂软件系统特点1、大量原始资料的快速扫描录入与保存各种版式的现代书籍: 横版、竖版、简体、繁体 古籍:特别是珍本、善本各年代的报刊杂志及内部资料 各年代公文档案 各种 报表或票据汉王表格票据扫描仪扫描速度为:30张/分钟,A4幅面纸:30-35页/分 钟2、汉字识别之王:国际领先的 OCR 录入、校对、整理功能。 采用汉王先进的 OCR 识别技术,识别率高、速度快;快捷精确的横校、纵校、对比校对;支持多种电子文档存储格式:PDF、HTML、RTF、TXT,方 便地实现全文检索,并将逐步与国际标准电子文档格式接轨。3、完善的员工管理功能 综合了考勤管理、岗位管理、工资管理三大功能,系统自动记录员工出勤情况,自动为各岗位分配工作并记录分配情况及工作量,并根据以上记录 情况生成员工工资明细表;提供轻松友好的工作界面4、自动进行各工序环节的监督和调度协调 服务器给各岗位分配任务,并进行任务协调,使各客户端的任务既相互 独立又形成完整的生产流程,提高工作效率,使得文字处理速度可达到每人 班10万字一12万字,比手工录入的效率提高5-8倍系统自动进行员工工作量计算、差错量监控,可将整体差错量控制在万 分之五以内,从而达到了出版质量要求。对本套系统的监控、管理及日常维护,并定期生成安全日志。系统网络结构图扫描 图像处理 版面分析识别纵向校对横向校对还原保存自动版面分析 识别 版面还原 工序调度服务 质量控制 员工管理OCR数据库控制平台系网络拓扑结构:识别系统功能描述汉王OCR录入工厂软件系统具备四大功能:文字自动录入、流水线管理、质量控制和员工管理、系统管理。文字自动录入功能OCR 海量录入系统采用汉王在 OCR 领域领先的成熟的文字自动录入技术, 可实现自动图像预处理、版面分析,能识别中文简体、繁体、英文及混排,多字 体多字号文档。 流水线管理功能OCR 录入工厂系统的操作分为几个步骤:纸质资料的整理、扫描、图像预处 理、版面分析、识别、校对和保存。单机 OCR 系统要求操作员熟悉每个步骤: 扫描、图像预处理、版面分析、识别、校对和保存,这种串行的工作方式会降低 效率,对操作员技能要求也较高。但是,如果将冗长、复杂的生产过程合理地划 分成若干道工序,每道工序操作简便,合理安排工作岗位,并行操作,生产效率 和质量就能得到很大的提高。OCR海量录入系统就是采用生产流水线管理方式, 根据 OCR 技术和操作的特点,将生产过程划分成以下几道工序:数据保存资料整理扫描录入文字识别版面分析图像处理版面还原横校纵校工序说明图书资料整理:为了便于扫描和以后的查询、检索而进行的图书分类、拆 装、命名、编号等。扫描:扫描是纸质文稿图像输入计算机的过程。一般把相关文稿顺序扫描, 在扫描质量控制程序自动检测并修正后,自动保存到数据库中。图像处理:为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图 像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理 质量。版面分析:能自动进行版面理解并定位,判别划框区域是横排文本区、竖 排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。血汉壬科技中 Ifl 聃色自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析 结果加入手工干预。识别:把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文 (包括简体字和繁体字) 、表格、中英文混排, 识别出来的文字内码可以是 GB 码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。纵向校对:具有很强的查错纠错能力。纵向校对是将一个图像或若干个图 像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于 操作员发现错误和修改。横向校对:这是传统的人工校对方法,操作员直接对比识别结果文本和图 像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以 醒目的颜色标出识别可信度不高的文字。版面还原:将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可 以供计算机阅读和查询检索的 RTF、 PDF、 HTML、 SGML/XML 格式的数字文档。数据入库: 版面还原数字文档的保存。质量控制和员工管理 质量控制是为了保证和控制系统的录入质量而采取的一整套方法与措施。主 要是在各工序中加入对员工工作完成情况及差错量的监控和工作量的计算,以求 将整体差错量控制在万分之二以内。员工的工作态度将会直接影响到数据录入的质量和工作效率,要使员工保 持一种积极的工作态度,必须有好的管理制度和客观的评价标准及依据。汉王 OCR 录入工厂系统还可以详尽地提供员工考勤情况和工作质量数据,对员工的 工作情况给予公正的评估。员工管理系统在整个系统中处于支配地位。该部分由考勤管理、工资管理、 质量控制、工作分配、返工单管理和建立用户等几个模块组成。考勤管理:记录各员工的出勤、缺勤状况; 岗位管理:记录各岗位的工作分配及员工的工作量、差错量(质、数量的差 错要求控制在万分之三以内)的状况; 工资管理:根据员工的考勤、工作量、差错量的情况,发放员工的工资并列 出明细帐目表。 系统管理功能“OCR录入工厂软件系统”是一个大型的Intranet网络系统,它包含成千上 万的加工数据资料和员工详尽的工作信息。管理人员通过简明友好的系统管理界 面可以方便地查询数据、备份数据和系统维护。该系统还提供安全日志,供管理 人员查询。系统逻辑模型识别AVAAV应质量 控制版 面 分 析横 向 校 对纵 向 校 对扫 描 录 入图 象 处 理版 面 还 原员工员工OCR数据库V员工管 理数据系统 管理 员质量反馈信息作分配考勤认证员工登录工作申请说 明:整个系统围绕两个互相联系的数据库:员工管理数据库、OCR扫描文件数据 库展开工作。员工管理数据库由员工信息表、工种信息表、员工考勤表、员工工作量表、 班次表、工资管理表等构成一个完整的员工资料库。员工依流程指定的步骤登录、 考勤、申请工作、执行操作并接受管理监督。OCR录入资料数据库经由扫描录入、图像处理、版面分析、识别、纵校、横校、版面还原等工序处理最终形成。其中在信息传输上采取申请任务方式与分配任务方式相结合使用:申请任务方式:用户完成一件工作包的同时查看是否有已经分配的工作包 如没有,则申请另一个工作包。分配任务方式:由管理员分配工作包给每一个员工。为对此流程进行有效管理,建立了原始工作包表、工序跟踪表、返工单表、 员工工作分配表、工作包表等。系统硬件选型服务器:一台 HP 小型服务器作为数据服务器和主域控制器,管理多台终端。 工作站:PII350以上,WIN9X以上操作系统,快速扫描仪结合普通扫描仪 存储设备:视加工规模选用大容量硬盘或磁盘阵列 备份设备:选用磁带库或光盘库 具体项目我方提供相关咨询。二、服务及培训内容北京汉王科技公司承诺以下服务及培训:1、系统的安装、调试和试运行,可根据用户方意见对系统进行合理修改;2、系统投入运行之后提供定期及不定期的维护,以保证系统处于良好的运 行状态。3、安排专门的时间为用户方提供系统的使用和维护培训。1、为每个项目安排专门的项目经理,及时与用户沟通问题。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 建筑环境 > 机械电气


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!