训练语料库预处理模块词语对齐模块短语抽取模块建倒排索引倒排课件

上传人:29 文档编号:240931357 上传时间:2024-05-18 格式:PPT 页数:16 大小:145.59KB
返回 下载 相关 举报
训练语料库预处理模块词语对齐模块短语抽取模块建倒排索引倒排课件_第1页
第1页 / 共16页
训练语料库预处理模块词语对齐模块短语抽取模块建倒排索引倒排课件_第2页
第2页 / 共16页
训练语料库预处理模块词语对齐模块短语抽取模块建倒排索引倒排课件_第3页
第3页 / 共16页
点击查看更多>>
资源描述
2008 年BJUT-MTG 汉英机器翻译系统技术报告报告人 李雁鹏北京工业大学机器翻译组2008-11-272008 年BJUT-MTG 汉英机器翻译系统技术报告报告人1概要n系统简介n预处理、对齐、短语抽取n倒排索引n评测的实验过程n评测结果分析概要系统简介2系统简介-系统结构训练语料库训练语料库训练语料库训练语料库预处理模块预处理模块预处理模块预处理模块词语对齐模块词语对齐模块词语对齐模块词语对齐模块短语抽取模块短语抽取模块短语抽取模块短语抽取模块建倒排索引建倒排索引建倒排索引建倒排索引倒排索引倒排索引倒排索引倒排索引汉语分词模汉语分词模汉语分词模汉语分词模块块块块评测测试集文件评测测试集文件句子提取句子提取句子提取句子提取解码器解码器解码器解码器结果文件生成结果文件生成结果文件生成结果文件生成评测结果文件评测结果文件系统简介-系统结构训练语料库预处理模块词语对齐模块短语抽取模3预处理(1)n中文预处理n分词:SEGSDK(由Mandel Shi开发)nA3全角字符到半角字符:-BJUTn英文预处理n句首大写字母的大小写统计转换:We are we aren标点符号和单词间的空格插入:end.end.n输入:评测所提供的部分训练语料n输出:可用于词语对齐的语料预处理(1)中文预处理4预处理(2)n切分标注模块SEGSDK1.20介绍n由Mandel Shi开发n支持Win平台和Linux平台n汉字简繁体输入的切分、标注和命名实体识别n缺点:长句子会出错,因此需要按标点断开长句为短句n例:年,中国化工工业保持稳定增长。2006年,中国 化工 工业 保持 稳定 增长。预处理(2)切分标注模块SEGSDK1.20介绍年,5词语对齐训练n利用统计机器翻译工具GIZA+n输入:预处理后的语料n输出:词语对齐关系n例:28.The Committee sympathized with many of the concerns expressed.28.委员会 对 许多 事项 表示 的 关切 有 同感。1:1 2:2 3:2 4:3 5:4 5:6 5:10 5:11 7:5 10:9 11:7 12:12 词语对齐训练利用统计机器翻译工具GIZA+28.The6短语抽取n用中科院计算所的“丝路”1.0抽取短语n将获取的对齐关系转换成短语抽取要求的格式n调用短语抽取工具进行短语抽取n利用计算短语翻译概率工具去除重复的短语抽取短语抽取用中科院计算所的“丝路”1.0抽取短语7建立倒排索引-1n抽取出的短语数量很大:百万-千万条n常用的方法:Hashmap,效率高但需要很多内存n倒排索引可以使查找短语更有效率n倒排索引的核心:汉字词语为词条的词典,一般词条只有几万条建立倒排索引-1抽取出的短语数量很大:百万-千万条8建立倒排索引-2n倒排词典的格式n汉语词语n出现词语的短语数量n短语序号桶的桶号数组n词典中不直接存短语序号,而是存由短语序号构成的“序号桶”的桶号n序号桶的格式n桶号n数组:以为单元建立倒排索引-2倒排词典的格式9建立倒排索引-3n实现n词典、桶都是文件n桶号是文件偏移量 方便快速定位n建立索引例n短语文件中序号为833748的行:n宇宙 卫星 被 用来 快速 传送 长途电话。|space satellite is used to speed long distance call.|1 0 1 0建立倒排索引-3实现10建立倒排索引-4n序号为833748的短语在倒排词典中对应如下词条n桶文件中,在对应的桶号数组中必然有833748号短语的记录n如:112570688 汉语词语汉语词语汉语词语汉语词语出现词语的短语数量出现词语的短语数量出现词语的短语数量出现词语的短语数量短语序号桶的桶号数组短语序号桶的桶号数组短语序号桶的桶号数组短语序号桶的桶号数组宇宙188112570688卫星419102833520被2906912960000,31760000,54878832用来4635111263728快速127781893176传送50860316528长途电话1958668168建立倒排索引-4序号为833748的短语在倒排词典中对应如下11建立倒排索引-5n在汉英翻译系统中,很小的倒排词典常驻内存,通过文件偏移量访问桶文件n由于记录了词语在短语中的位置,选择短语时不需要再访问抽取的短语文件n其它辅助文件n各个短语有几个词语的短语长度文件-常驻内存n短语号对应短语文件偏移量的短语偏移文件-常驻内存n抽取的短语文件-建索引时读取,翻译做最后替换时读取建立倒排索引-5在汉英翻译系统中,很小的倒排词典常驻内存,通12建立倒排索引-6n时间性能n建立倒排索引:863的360万条短语,用时5分6秒nCWMT08汉英新闻4014句翻译,用时14分16秒n测试环境:CPU主频1.8GHz,内存1GBn问题n高频词引起性能下降n倒排索引建在词语上,依赖中文词切分:短语对齐到词语,翻译时必须保证正确切分成同一个词语。建立倒排索引-6时间性能13评测的实验过程n从测试数据XML文件中抽取原文句子n利用机器翻译系统逐个句子翻译n人工干预:向系统提供人名、地名和机构名等专名约2000多个,例如n翻译结果转编码,填入测试结果格式的XML中人名人名地名地名机构名机构名Carl,卡尔Cha Liangyong,查良镛Chen Aiyu,陈爱玉Chen Changzhi,陈昌智Chen Deming,陈德铭Chen Jiulin,陈久霖Carolina,卡罗来那Changchun,长春市Chaoyang District,朝阳区Chendu,成都市Canada,加拿大Darfur,达尔富尔Beijing-Tianjin inter-city,京津城际CCTV,中央电视台Commission for Discipline Inspection,纪委Committee of Politics and Law,政法委DONSEN,东森Democratic Alliance,民主联盟评测的实验过程从测试数据XML文件中抽取原文句子人名地名机构14评测结果分析n评测结果n成绩最差的原因n最重要的原因是解码器的设计和实现还不完善n抽取的单词和短语规模小n没考虑目标语言英语的特性处理:性、数、格、时态、语态、否定等n没有语序调整,翻译结果的后处理不完善n转变为动力,努力学习和改进,向大家学习!BLEU4NIST5GTMmWERmPERICT0.09685.91600.57330.82160.61790.2211评测结果分析评测结果BLEU4NIST5GTMmWERmPE15谢谢大家!训练语料库预处理模块词语对齐模块短语抽取模块建倒排索引倒排课件16
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!