一些文档预处理的基本技巧(共2页)

上传人:4**** 文档编号:48400816 上传时间:2022-01-04 格式:DOC 页数:2 大小:18.50KB
返回 下载 相关 举报
一些文档预处理的基本技巧(共2页)_第1页
第1页 / 共2页
一些文档预处理的基本技巧(共2页)_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述
精选优质文档-倾情为你奉上从各类数据库下载的中文文档的质量并不好,尤其是化工医药等上下标较多的文档更是需要投入大量的精力进行前期处理。除非提供的是高质量中英文文件对,在匹配中英文句对之前,有必要对文档(尤其是中文文档)进行处理,在此对常见的需要处理的问题及处理的方法进行简单归纳,实际工作过程中请根据实际情况选择进行其中必要的处理。注意:本文中中文方括号【】表示范围,在输入原来内容和替换内容时,仅输入中文方括号内的内容!一、 文档处理的内容及方法以下对常用的文档处理内容和方法进行归纳。在Word中,弹出搜索和替换画面的快捷键为Ctrl+h。1. 不完全的回车符文档中的标准回车符应为回车换行符,而下载的文档中常常会有一些不完全的回车符(一般显示为【】),这样的不完全回车符在进行WinAlign句对匹配时,有可能不能正常地断句;因此,建议将全部这样的不完全回车符替换为标准回车符。解决方法:替换所有【l】为【p】(在英文输入状态下shift+6;l和p分别为小写的字母l和p)2. 句首和句尾的空格由于作为语料库的内容,格式没有任何意义,所以句首和句尾的空格都应该改予以删除。删除一个句首空格的方法:替换所有【p 】为【p】删除一个句尾空格的方法:替换所有【 p】为【p】以上方法应重复运行多次,直至所有句首和句尾的空格删除完毕。3. 删除多余的空行全部替换【pp】为【p】(取消【使用通配符】的勾选)4. 两个汉字间多余空格的处理中文文档中,有些汉字之间会出现多余的空格,两个汉字之间的一个空格需要删除,处理的方法应该是:在替换画面点击【更多】搜索选项,勾选【使用通配符】查找内容为【(一-) (一-)】替换内容为【12】点击【全部替换】5. 常见乱码的处理特别是在从数据库中下载的中文文档中,容易带有乱码,以下是其中的一部分,乱码可以在WinAlign之前或者在入库后统一行查找和修正:a) 【根据】等容易被识别成【木艮据】等,由于【艮】字不是常用汉字,所以可以通过查找【艮】字,根据上下文确定是否修正。b) 类似的还有【方法】、【方式】容易被误写为【万法】、【万式】等等。二、宏的作用与录制方法1. 由于前述的文档处理的步骤具有很强的通用性,因此可以把这些通用的文档处理操作步骤全部记录下来,记录下来的一批操作步骤就是一个“宏”,在下一次对新的文档进行处理时,调用一次所记录的宏,就可以完成进本的文档处理工作。2. 宏的录制方法:以对(一)种的(1)-(4)处理各执行一次为例,录制一个名为A_doc的常用宏:a) 在word中,点击菜单栏的【视图】【宏】【录制宏】【宏名】栏内填入【A_doc】,点击【确定】。b) 按照(一)的(1)-(4)的步骤顺序执行。c) 点击菜单栏的【视图】【宏】【停止录制】。3. 宏的调用方法:打开文档后,点击菜单栏的【视图】【宏】【查看宏】选择【A_doc】,点击【运行】。4. 例1:中英文档推荐使用通用宏(A_align)a) 替换【t】为【p】b) 替换【p 】为【p】c) 使用通配符,替换【(0-9)(0-9)(0-9)(0-9)】为【p1234】d) 使用通配符,替换【(0-9)(0-9)(0-9)(0-9)】为【】5. 例2:中文文档推荐使用通用宏(A_CN)a) 替换【,】为【,】,【.】为【。】,【(】为【(】,【)】为【)】。(所有的全半角标点)b) 替换【万法】为【方法】,【木艮】为【根】,【才居】为【据】等(OCR识别中的一些错误,可通过错误类型报告来完善)c) 使用通配符,替换【(一-) (一-)】为【12】专心-专注-专业
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!