第四章 数字文本与文本处理

上传人:hjk****65 文档编号:204175179 上传时间:2023-04-26 格式:PPT 页数:7 大小:488KB
返回 下载 相关 举报
第四章 数字文本与文本处理_第1页
第1页 / 共7页
第四章 数字文本与文本处理_第2页
第2页 / 共7页
第四章 数字文本与文本处理_第3页
第3页 / 共7页
点击查看更多>>
资源描述
第三章第三章第三章第三章数字文本与文本处理数字文本与文本处理数字文本与文本处理数字文本与文本处理第一节 字符编码 在计算机中,英文采用ASCII码 英文l 文字的编码中文1.汉字的输入编码 数字编码:用数字代表汉字字符,电报码、区位码都属于数字编码 字音编码:指按照汉字的标准化读音,使用拼音作为汉字的编码的方法 字形编码:是指用汉字的形状表示的编码方式。这种编码方式将汉字依笔划、偏旁、部首用数字或字母编码,然后根据其组成方式依次输入 形音编码:将汉字字音与字型相互结合的一种编码方法如全息码就是一种音形编码。l 文字的编码22.汉字的机内编码 汉字的机内编码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示。汉字交换码:指在不同汉字信息处理系统之间进行汉字交换时使用的编码。汉字交换码也称汉字国标码GB2312 3.汉字的输出编码用点阵表示的汉字字形代码,汉字的输出形式。汉字区位码:国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。汉字的输入编码、汉字内码、字模码是汉字的输入编码、汉字内码、字模码是计算机中用于输入、内部处理、输出三计算机中用于输入、内部处理、输出三种不同用途的编码,不要混为一类。种不同用途的编码,不要混为一类。3 OCR(Optical Character Recognition 光学符号光学符号识别),是指将一份文字稿件以图像形式输入给计算机,识别),是指将一份文字稿件以图像形式输入给计算机,计算机取出每个文字的图像,再将其转换成汉字的编码计算机取出每个文字的图像,再将其转换成汉字的编码存入计算机,以达到汉字输入的目的。存入计算机,以达到汉字输入的目的。OCR技术解决的技术解决的是已存在于纸介质上的文字如何被计算机识别并接收的是已存在于纸介质上的文字如何被计算机识别并接收的问题。由于是对扫描后的图像文件进行识别处理,所以问题。由于是对扫描后的图像文件进行识别处理,所以称为脱机汉字识别系统。称为脱机汉字识别系统。第二节 文本输入技术文文本本输输入入手写识别手写识别 语音识别语音识别光学字符识别光学字符识别(OCR技术)技术)键盘输入键盘输入非键盘输入非键盘输入4第三节 文本编辑与处理l 文本编辑 文本编辑的主要功能 对字、词、句、段落进行添加、删除、修改等操作 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等 段落的处理:设置行距、段间距、段缩进、对称方式等 页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 “所见即所得”(What You See Is What You Get,简称 WYSIWYG):一方面所有的编辑操作效果立即可以在屏 幕上看到,另一方面在屏幕上看到的效果与打印机的输出 结果相同。5l 文本处理 文本处理的内容 字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换 文本压缩,文本加密,文本著作权保护 关键词提取,文摘自动生成,文本分类 文本检索(关键词检索、全文检索),文本过滤 文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等 文本处理软件6谢谢 谢!谢!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 酒店餐饮


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!