中科院自动化所评测技术报告(SYSTEMII)

上传人:muj****520 文档编号:244031149 上传时间:2024-10-02 格式:PPTX 页数:17 大小:298.29KB
返回 下载 相关 举报
中科院自动化所评测技术报告(SYSTEMII)_第1页
第1页 / 共17页
中科院自动化所评测技术报告(SYSTEMII)_第2页
第2页 / 共17页
中科院自动化所评测技术报告(SYSTEMII)_第3页
第3页 / 共17页
点击查看更多>>
资源描述
Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Institute of Automation,Chinese Academy of Sciences,Click to edit Master title style,中国科学院自动化所,中科院自动化所评测技术报告,(SYSTEM II),魏玮 于东 王韦华 宗成庆 徐波,内容概,要,要,技术说,明,明与参,评,评系统,短语系,统,统,分层短,语,语系统,基于依,存,存树到,串,串系统,前后处,理,理,系统融,合,合,CASIA_SYSTEMII英中翻,译,译系统,评测环,境,境概要,数据,总结,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-短语系,统,统,典型的,短,短语系,统,统2,非单调,解,解码,,任,任意跳,转,转,对数线,性,性模型,10个特征,双向短,语,语翻译,概,概率p(e,/,/f)和p(f,/,/e),双向词,汇,汇化概,率,率l(e,/,/f)和l(f,/,/e),4gram语言模,型,型,扭曲概,率,率,句子长,度,度惩罚,短语惩,罚,罚,方向概,率,率3,IBM扭曲模,型,型4,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-分层短,语,语系统,主要借,鉴,鉴了Wei,5的基本,思,思想,,引,引入分,层,层短语,的,的概念,有效地,结,结合了,短,短语模,型,型和同,步,步上下,文,文无关,文,文法,分层短,语,语模型,将,将语序,信,信息包,含,含在模,型,型之中,,,,克服,了,了传统,短,短语翻,译,译的调,序,序问题,沿用了,统,统计线,性,性对数,方,方法进,行,行概率,计,计算,,使,使用了,如,如下6个特征,:,:,双向短,语,语翻译,概,概率p(e,/,/f)和p(f,/,/e),双向词,汇,汇化概,率,率l(e,/,/f)和l(f,/,/e),4gram语言模,型,型,句子长,度,度惩罚,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-依存树,到,到串系,统,统,在源语,言,言端运,用,用依存,结,结构进,行,行统计,翻,翻译的,新,新模型,:,:Dependency-StringStructureModel,(,(DSS模型),由于计,算,算资源,和,和时间,的,的限制,,,,参加,本,本次评,测,测的系,统,统仍然,沿,沿用和,分,分层短,语,语相同,的,的文法,DSS解码算,法,法的输,入,入是一,棵,棵树,,而,而不是,一,一个串,,,,所以,线,线图是,按,按照树,节,节点来,索,索引的,,,,而不,是,是按照,串,串中的,跨,跨距(span)来建立,索,索引的,解码时,使,使用了8个特征,,,,最后,两,两个为,依,依存子,树,树的惩,罚,罚,双向短,语,语翻译,概,概率p(e,/,/f)和p(f,/,/e),双向词,汇,汇化概,率,率l(e,/,/f)和l(f,/,/e),4gram语言模,型,型,句子长,度,度惩罚,符合依,存,存子树,惩,惩罚,不符合,依,依存子,树,树惩罚,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-前后处,理,理,前处理,时间,,数,数字处,理,理模块,地名,,人,人名,,机,机构名,处,处理模,块,块,英文转,化,化为小,写,写,预处理,乱码过,滤,滤(中,文,文中的,乱,乱码、,英,英文中,的,的乱码,以,以及包,含,含中文,词,词的句,子,子),标点符,号,号及数,字,字变换,(,(中文,中,中的部,分,分标点,符,符号、,英,英文中,的,的双字,节,节符号,及,及数字,),),英文缩,写,写处理,中文分,词,词、英,文,文Tokenization,后处理,大小写,转,转换:,未,未翻译,词,词保留,其,其原始,格,格式,格式转,换,换:去,除,除中文,中,中的空,格,格,未登录,词,词,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-系统融,合,合,6,7,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-外部技,术,术,汉语分,词,词工具,:,:计算,所,所开发,的,的ICTCLAS3.0,双语词,对,对齐工,具,具:GIZA+,语言模,型,型训练,工,工具:SRILM工具包,英文词,性,性标注,工,工具:StanfordLog,-,-linear Part,-,-Of,-,-SpeechTagger,英文依,存,存树分,析,析工具,:,:Minimum-Spanning TreeParser(MSTparser),中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,参评系,统,统-CASIA,_,_SYSTEM II,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,评测环,境,境概要,软硬件,环,环境,运行时,间,间(约4000句测试,集,集),运行平台,操作系统,数量,CPU,RAM,PC机,Windows 2003,2,Pentium 4,3.0G,2.0G,服务器,Linux(Ubuntu),1,Xeon 2.02,16.0G,系统,新闻领域(小时),科技领域(小时),短语系统,16,分层短语,20,18,依存树到串,18,16,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,数据,开发数,据,据:,新闻-2007SSMT英中翻,译,译测试,集,集,科技-CWMT08提供的Special语料中,随,随机挑,选,选200句,翻译模,型,型训练,数,数据:,新闻-CWMT08提供的Common,约85万句对,和,和;NIST MT08评测提,供,供语料,,,,大约670万句对,科技-CWMT08提供的Special部分语,料,料,约52万句对,;,;NIST MT08评测提,供,供语料,,,,大约670万句对,语言模,型,型训练,数,数据:,LDC2007T38提供的ChineseGigawordThirdEdition,约3900万句,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,数据过,滤,滤,过滤的,原,原则:,根,根据LDC语料中,的,的当前,句,句对中,的,的所有,词,词汇是,否,否在发,布,布的训,练,练语料,词,词汇集,合,合中(周玉),新闻领,域,域,将NIST语料根,据,据新闻,任,任务发,布,布的训,练,练语料,进,进行过,滤,滤,翻译模,型,型最后,使,使用的,语,语料为538万句对,科技领,域,域,将NIST语料根,据,据科技,任,任务发,布,布的训,练,练语料,进,进行过,滤,滤的,翻译模,型,型最后,使,使用的,语,语料为468万句对,语言模,型,型也同,样,样使用,了,了过滤,技,技术,最后过,滤,滤剩余1000万句,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,测试结,果,果,新闻领,域,域,采用基,于,于MBR解码和,混,混淆网,络,络解码,的,的多系,统,统融合,策,策略,,融,融合6个结果,3个来自,于,于基于,分,分层短,语,语的翻,译,译系统(HPB),3个来自,于,于基于,依,依存树,到,到串的,翻,翻译系,统,统(DHPB),中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,测试结,果,果,科技领,域,域,采用基,于,于MBR解码和,混,混淆网,络,络解码,的,的多系,统,统融合,策,策略,,融,融合6个结果,2个来自,于,于基于,分,分层短,语,语的翻,译,译系统(HPB),2个来自,于,于基于,依,依存树,到,到串的,翻,翻译系,统,统(DHPB),2个来自,于,于基于,短,短语的,系,系统(PB,),),中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,总结,新闻领,域,域,借鉴了,汉,汉英评,测,测的经,验,验,加,入,入了英,文,文命名,实,实体翻,译,译及前,后,后处理,模,模块;,并且针,对,对英文,的,的特点,,,,在解,码,码中融,入,入句法,分,分析树,,,,在不,增,增加时,空,空复杂,度,度的前,提,提下提,高,高了翻,译,译质量,科技领,域,域,由于缺,乏,乏这方,面,面的语,料,料资源,,,,我们,只,只能借,用,用新闻,领,领域的,语,语料,,利,利用数,据,据过滤,技,技术得,到,到相关,资,资源,但由于,在,在选取,开,开发集,时,时,其,规,规模和,相,相关性,受,受到制,约,约,所,以,以最后,的,的参数,训,训练并,不,不能有,效,效得收,敛,敛到最,优,优,如何能,够,够充分,利,利用有,限,限的资,源,源,开,发,发出更,加,加鲁棒,的,的训练,及,及解码,算,算法,,是,是我们,下,下一步,要,要思考,的,的问题,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,参考文,献,献,1中科院,自,自动化,所,所评测,技,技术报,告,告(SYSTEM II),第四,届,届机器,翻,翻译研,讨,讨会,2008,2Wei Wei,Wei Pang,Zhendong Yang,Zhenbiao Chen,ChengqingZong,BoXu.CASIASMTSystem forTC-STAR EvaluationCampaign2006.In,:,:TC-STARworkshop,2006,.,.,3YaserAl,-,-Onaizan,KishorePapineni.Proceedingsofthe21stInternational ConferenceonComputationalLinguisticsandthe 44thannual meetingofthe ACLACL06,4PhilippKoehn,et al.EdinburghSystem Description forthe2005IWSLTSpeechTranslationEvaluation,InternationalWorkshoponSpokenLanguageTranslation2005.,5魏玮,,杜,杜金华,,,,徐波,,,,基于,组,组块分,析,析的分,层,层短语,系,系统,,第,第九届,计,计算语,言,言学年,会,会,2007,6K,.,.C.Sim,W,.,.Byrne,M.Gales,H.SahbiandP.Woodland,.,.ConsensusNetwork Decoding ForStatisticalMachine Translation System,A,.,.In:ICASSP,2007,.,.,7杜金华,魏玮,杨振东,徐波.基于混,淆,淆网络,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!