机器翻译评测- 中科院计算所自然语言处理研究组- 中国科学院计算技

上传人:沈*** 文档编号:244208971 上传时间:2024-10-03 格式:PPT 页数:46 大小:2.17MB
返回 下载 相关 举报
机器翻译评测- 中科院计算所自然语言处理研究组- 中国科学院计算技_第1页
第1页 / 共46页
机器翻译评测- 中科院计算所自然语言处理研究组- 中国科学院计算技_第2页
第2页 / 共46页
机器翻译评测- 中科院计算所自然语言处理研究组- 中国科学院计算技_第3页
第3页 / 共46页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,CWMT2008,机器翻译评测总结报告,中科院计算所,机器翻译评测组,赵红梅 谢军 吕雅娟 刘群,2008,年,11,月,提纲,概述,参评单位和参评系统,评测语料,评测流程,评测方法,评测结果,评测结果分析,总结和展望,概述,机器翻译核心技术的评测,目的:,推进机器翻译技术的交流和发展,15,个参评单位,2,个语种方向(汉英、英汉),两种领域(新闻、科技),其中科技翻译为,新增,项目,新增,了汉英新闻系统融合项目,新增,了,WoodPecker,评测,新增,了,BLEU-SBP,参考指标,参评单位,厦门大学人工智能研究所,中国软件与技术服务股份有限公司,东北大学自然语言处理实验室,中科院自动化研究所系统,1,中科院自动化研究所系统,2,北京迈创语通软件有限公司,北京赛迪翻译技术有限公司,中国科学院软件研究所,西安汇申软件有限公司,中科院计算技术研究所多语言交互技术研究室,北京航空航天大学计算机学院智能信息处理研究所,微软亚洲研究院,北京工业大学,哈尔滨工业大学机器智能与翻译研究室,SYSTRAN Software,Inc,参评单位和系统数量,项目,受限,不受限,合计,单位,系统,单位,系统,单位,系统,汉英新闻翻译,7,13,7,10,12,23,汉英新闻系统融合,6,10,英汉新闻翻译,4,9,8,11,11,20,英汉科技翻译,4,10,6,10,9,20,合计,15,73,评测语料,机器翻语译料,训练语料,:,新闻、科技公共训练语料:,868,947,句对;,科技独有训练语料:,620,985,句对,其中,万方数据:,320,985,句对,中信所语料:,300,000,句对。,6,家单位参加了万方数据论文摘要句对齐语料的校对,测试语料,:,新闻语料按照分割日期规定均采自国内外新闻网站;,所有测试集中均混入了,3,倍的干扰集,真实测试集规模:,机器翻译评测语料,句数,汉字数,/,单词数,制作单位,汉英新闻翻译汉语语料,1006,41042,计算所,英汉新闻翻译英语语料,1000,21767,计算所,英汉科技翻译英语语料,1008,21339,中信所,参考译文,每句,4,个参考译文,4,个以目标语言为母语的翻译者独立翻译,新闻的参考译文由计算所制作,科技的参考译文由中信所提供,系统融合语料,训练语料,SSMT2007,汉英新闻测试集、参考集和本次评测中,10,家参评单位提交的,17,个系统在,SSMT2007,汉英新闻真实测试语料上的翻译结果(共,1,002,句对),测试语料,以上,17,个系统在,CWMT2008,汉英新闻测试集上的翻译结果。,其中,,12,个系统提交了,n-best,结果,,5,个系统提交了,1-best,结果,。,参考译文,同本次评测汉英新闻翻译项目的参考集,评测语料,评测流程,本次评测采用了网上评测的方式,流程如下:,8,月,31,日 评测组织方发放各个项目的训练数据,10,月,8,日 评测组织方发放新闻翻译项目的测试数据,10,月,10,日 参评单位提交新闻翻译项目的测试运行结果和系统描述,10,月,13,日 评测组织方发放英汉科技翻译项目的测试数据,10,月,15,日 各参评单位提交英汉科技翻译项目的测试运行结果和系统描述,10,月,20,日 评测组织方发放汉英系统融合项目的测试数据,(,即机器翻译项目参评单位提交的运行结果的汇总),10,月,22,日 各参评单位提交汉英系统融合项目的测试运行结果和系统描述,评测方法,格式预处理,:,各系统翻译的结果首先需要转换为评测软件能够处理的内部格式;,此次评测的内部格式更加接近,NIST,评测格式;,部分单位提交的结果格式不符合要求;,解决办法,:下次评测提供格式检测程序!,10,月,22,日收到提交结果后开始进行自动评测,,10,月,28,日全部完成。,体会,:评测中最麻烦的问题莫过于格式和编码,统一采用,UTF-8,编码,但是:,带编码(如,utf-8,)的文件在,Windows,下复制到剪贴板上时(包括使用写字版和,UltraEdit,),很多符号如引号和连字符等都会被转换成默认的编码方式(如,ANSI,编码),从而出现乱码。,不能采用,utf-8,、,无,BOM,编码:因其不识别英镑符号,评测方法,评测指标,:,本次评测采用多种自动评价指标,包括:,BLEU,、,NIST,、,GTM,、,mWER,、,mPER,、,ICT,参考指标,:,BLEU-SBP,:采用修改,bp,的,BLEU,WoodPecker,:提供基于检测点的评测结果,以上指标均为:,大小写敏感的,中文的评测是基于字的,而不是基于词的,评测方法:,BLEU-SBP,我们发现了,BLEU,本身存在的问题:,将测试结果中,2%,的句子缩短为只有,1-2,个单词,,BLEU,值不变!,用,BLEU,进行,A,、,B,两个结果的,显著性差异的符号检验,发现:,Base,BLEU of the base system,Contrast,Better(%),Worse(%),置信度,Signi-ficant,A,0.1964,B,72.07,27.53,0.01,Yes,B,0.2407,A,68.6,31.2,No,A,0.1947,B,61.6,38.0,0.01,Yes,B,0.2353,A,32.6,67.0,0.01,Yes,评测方法:,BLEU-SBP,解决:,采用,BLEU-SBP,指标,(David Chiang et al.,2008),BLEU vs.BLEU-SBP,两者的最大区别在于,bp,(brevity penalty),部分,请参考,Decomposability of Translation Metrics for Improved Evaluation and Efficient Algorithms,David Chiang,et.al,EMNLP2008,评测方法,:,BLEU-SBP,汉英新闻,12,个参评主系统,BLEU4,与,BLEU-SBP,结果对比,评测方法,符号检验:,在,BLEU-SBP,的基础上,针对各主系统的翻译结果,进行了结果之间差异的显著性检验,-,符号检验,(,Collins et al.,2005,),做法:分别以每个主系统为基准系统,测试了所有其它主系统与基准系统结果差异的显著性程度,以此构造了所有主系统翻译结果的差异显著性矩阵。,受限情况,单位,BLEU4,BLEU4-SBP,NIST5,GTM,mWER,mPER,ICT,不受限,1,0.2809,0.2631,7.5235,0.7238,0.6824,0.5050,0.3805,不受限,2,0.2390,0.2233,7.8401,0.7039,0.7178,0.5086,0.3388,不受限,3,0.2275,0.2193,7.9180,0.7101,0.7209,0.5085,0.3262,受限,4,0.2264,0.2122,7.6426,0.7128,0.7307,0.5164,0.3352,不受限,5,0.2188,0.2126,7.8713,0.7140,0.7321,0.5102,0.3108,受限,6,0.2051,0.2037,7.3550,0.7207,0.7225,0.5070,0.2631,受限,7,0.2033,0.1901,7.2819,0.6836,0.7262,0.5274,0.3220,受限,8,0.1838,0.1700,6.8184,0.6596,0.7884,0.5676,0.2752,不受限,9,0.1773,0.1767,7.0795,0.7096,0.7121,0.5176,0.2423,受限,10,0.1686,0.1643,7.2578,0.6907,0.7564,0.5432,0.2814,不受限,11,0.1539,0.1529,6.8468,0.6752,0.7394,0.5393,0.2438,受限,12,0.0968,0.0932,5.9160,0.5733,0.8216,0.6179,0.2211,评测结果:,汉英新闻主系统,汉英新闻主系统,BLEU,结果,汉 英 新 闻 主 系 统,0.0968,0.1539,0.1686,0.1773,0.1838,0.2033,0.2051,0.2188,0.2264,0.2275,0.2390,0.2809,0.05,0.10,0.15,0.20,0.25,0.30,12,11,10,9,8,7,6,5,4,3,2,1,BLEU-4,汉 英 新 闻 主 系 统,0.0968,0.1686,0.1838,0.2033,0.2051,0.2264,0.1539,0.1773,0.2188,0.2275,0.2390,0.2809,0.05,0.10,0.15,0.20,0.25,0.30,12,10,8,7,6,4,11,9,5,3,2,1,BLEU-4,受,限,不,受,限,受限情况,单位,BLEU5,BLEU5-SBP,BLEU6,NIST6,NIST7,GTM,mWER,mPER,ICT,不受限,1,0.3263,0.3113,0.2652,9.2769,9.2869,0.7582,0.6485,0.4008,0.3941,不受限,2,0.3157,0.3070,0.2542,9.5048,9.5143,0.7754,0.6468,0.4048,0.3603,不受限,3,0.2970,0.2847,0.2349,8.9366,8.9430,0.7556,0.6728,0.4087,0.3865,受限,4,0.2622,0.2526,0.2045,8.2371,8.2434,0.7137,0.6928,0.4416,0.3473,不受限,5,0.2611,0.2579,0.2029,8.8019,8.8083,0.7753,0.6698,0.4139,0.3120,受限,6,0.2532,0.2417,0.1946,8.2184,8.2237,0.7110,0.7215,0.4491,0.3146,不受限,7,0.2413,0.2354,0.1867,8.2081,8.2135,0.7283,0.7133,0.4621,0.2810,受限,8,0.2408,0.2353,0.1838,7.5465,7.5504,0.7101,0.6851,0.4566,0.3564,受限,9,0.2369,0.2233,0.1818,7.9624,7.9670,0.7013,0.7184,0.4735,0.3174,不受限,10,0.2129,0.2084,0.1615,7.8425,7.8460,0.6958,0.7395,0.4842,0.2559,不受限,11,0.1964,0.1947,0.1482,7.4316,7.4359,0.7173,0.7215,0.4771,0.2434,评测结果:,英汉新闻主系统,英汉新闻主系统,BLEU,结果,英 汉 新 闻 主 系 统,0.1964,0.2129,0.2369,0.2408,0.2413,0.2532,0.2611,0.2622,0.297,0.3157,0.3263,0.15,0.20,0.25,0.30,0.35,11,10,9,8,7,6,5,4,3,2,1,BLEU-5,英 汉 新 闻 主 系 统,0.2369,0.2408,0.2532,0.2622,0.1964,0.2129,0.2413,0.2611,0.297,0.3157,0.3263,0.15,0.20,0.25,0.30,0.35,9,8,6,4,11,10,7,5,3,2,1,BLEU-5,不,受,限,受,限,受限情况,单位,BLEU5,BLEU5-SBP,BLEU6,NIST6,NIST7,GTM,mWER,mPER,ICT,不受限,1,0.4879,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!