资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,#,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Institute of Automation,Chinese Academy of Sciences,Click to edit Master title style,中国科学院自动化所,中科院自动化所评测技术报告,(SYSTEM II),魏玮 于东 王韦华 宗成庆 徐波,内容概,要,要,技术说,明,明与参,评,评系统,短语系,统,统,分层短,语,语系统,基于依,存,存树到,串,串系统,前后处,理,理,系统融,合,合,CASIA_SYSTEMII,英,英中翻,译,译系统,评测环,境,境概要,数据,总结,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-短,语,语系统,典型的,短,短语系,统,统2,非单调,解,解码,,任,任意跳,转,转,对数线,性,性模型,10个,特,特征,双向短,语,语翻译,概,概率p,(,(e/f)和p(f,/,/e),双向词,汇,汇化概,率,率l(e/f,),)和l,(,(f/e),4gram语,言,言模型,扭曲概,率,率,句子长,度,度惩罚,短语惩,罚,罚,方向概,率,率3,IBM扭曲模,型,型4,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-分,层,层短语,系,系统,主要借,鉴,鉴了Wei5的,基,基本思,想,想,引,入,入分层,短,短语的,概,概念,有效地,结,结合了,短,短语模,型,型和同,步,步上下,文,文无关,文,文法,分层短,语,语模型,将,将语序,信,信息包,含,含在模,型,型之中,,,,克服,了,了传统,短,短语翻,译,译的调,序,序问题,沿用了,统,统计线,性,性对数,方,方法进,行,行概率,计,计算,,使,使用了,如,如下6,个,个特征,:,:,双向短,语,语翻译,概,概率p,(,(e/f)和p(f,/,/e),双向词,汇,汇化概,率,率l(e/f,),)和l,(,(f/e),4gram语,言,言模型,句子长,度,度惩罚,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-依,存,存树到,串,串系统,在源语,言,言端运,用,用依存,结,结构进,行,行统计,翻,翻译的,新,新模型,:,:Dependency-StringStructure Model(DSS,模,模型),由于计,算,算资源,和,和时间,的,的限制,,,,参加,本,本次评,测,测的系,统,统仍然,沿,沿用和,分,分层短,语,语相同,的,的文法,DSS,解,解码算,法,法的输,入,入是一,棵,棵树,,而,而不是,一,一个串,,,,所以,线,线图是,按,按照树,节,节点来,索,索引的,,,,而不,是,是按照,串,串中的,跨,跨距(span)来,建,建立索,引,引的,解码时,使,使用了8个特,征,征,最,后,后两个,为,为依存,子,子树的,惩,惩罚,双向短,语,语翻译,概,概率p,(,(e/f)和p(f,/,/e),双向词,汇,汇化概,率,率l(e/f,),)和l,(,(f/e),4gram语,言,言模型,句子长,度,度惩罚,符合依,存,存子树,惩,惩罚,不符合,依,依存子,树,树惩罚,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-前,后,后处理,前处理,时间,,数,数字处,理,理模块,地名,,人,人名,,机,机构名,处,处理模,块,块,英文转,化,化为小,写,写,预处理,乱码过,滤,滤(中,文,文中的,乱,乱码、,英,英文中,的,的乱码,以,以及包,含,含中文,词,词的句,子,子),标点符,号,号及数,字,字变换,(,(中文,中,中的部,分,分标点,符,符号、,英,英文中,的,的双字,节,节符号,及,及数字,),),英文缩,写,写处理,中文分,词,词、英,文,文Tokenization,后处理,大小写,转,转换:,未,未翻译,词,词保留,其,其原始,格,格式,格式转,换,换:去,除,除中文,中,中的空,格,格,未登录,词,词,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-系,统,统融合,6,7,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,技术说,明,明-外,部,部技术,汉语分,词,词工具,:,:计算,所,所开发,的,的ICTCLAS3,.,.0,双语词,对,对齐工,具,具:GIZA,+,+,语言模,型,型训练,工,工具:SRILM工,具,具包,英文词,性,性标注,工,工具:StanfordLog,-,-linear Part,-,-Of,-,-Speech Tagger,英文依,存,存树分,析,析工具,:,:Minimum-SpanningTree Parser,(,(MSTparser),中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,参评系,统,统-CASIA_SYSTEMII,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,评测环,境,境概要,软硬件,环,环境,运行时,间,间(约4000句测,试,试集),运行平台,操作系统,数量,CPU,RAM,PC机,Windows 2003,2,Pentium 4,3.0G,2.0G,服务器,Linux(Ubuntu),1,Xeon 2.02,16.0G,系统,新闻领域(小时),科技领域(小时),短语系统,16,分层短语,20,18,依存树到串,18,16,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,数据,开发数,据,据:,新闻-2007 SSMT,英,英中翻,译,译测试,集,集,科技-CWMT08,提,提供的Special语料,中,中随机,挑,挑选200句,翻译模,型,型训练,数,数据:,新闻-CWMT08,提,提供的Common,,,,约85万句,对,对和;NIST MT08,评,评测提,供,供语料,,,,大约670,万,万句对,科技-CWMT08提供,的,的Special部,分,分语料,,,,约52万句,对,对;NIST MT08,评,评测提,供,供语料,,,,大约670,万,万句对,语言模,型,型训练,数,数据:,LDC2007T38提供,的,的ChineseGigawordThirdEdition,约3900万句,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,数据过,滤,滤,过滤的,原,原则:,根,根据LDC语,料,料中的,当,当前句,对,对中的,所,所有词,汇,汇是否,在,在发布,的,的训练,语,语料词,汇,汇集合,中,中(周,玉,玉),新闻领,域,域,将NIST语,料,料根据,新,新闻任,务,务发布,的,的训练,语,语料进,行,行过滤,翻译模,型,型最后,使,使用的,语,语料为538,万,万句对,科技领,域,域,将NIST语,料,料根据,科,科技任,务,务发布,的,的训练,语,语料进,行,行过滤,的,的,翻译模,型,型最后,使,使用的,语,语料为468,万,万句对,语言模,型,型也同,样,样使用,了,了过滤,技,技术,最,最后过,滤,滤剩余1000万句,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,测试结,果,果,新闻领,域,域,采用基,于,于MBR解码,和,和混淆,网,网络解,码,码的多,系,系统融,合,合策略,,,,融合6个结,果,果,3个来,自,自于基,于,于分层,短,短语的,翻,翻译系,统,统(HPB),3个来,自,自于基,于,于依存,树,树到串,的,的翻译,系,系统,(,(DHPB),中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,测试结,果,果,科技领,域,域,采用基,于,于MBR解码,和,和混淆,网,网络解,码,码的多,系,系统融,合,合策略,,,,融合6个结,果,果,2个来,自,自于基,于,于分层,短,短语的,翻,翻译系,统,统(HPB),2个来,自,自于基,于,于依存,树,树到串,的,的翻译,系,系统(DHPB),2个来,自,自于基,于,于短语,的,的系统,(,(PB),中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,总结,新闻领,域,域,借鉴了,汉,汉英评,测,测的经,验,验,加,入,入了英,文,文命名,实,实体翻,译,译及前,后,后处理,模,模块;,并且针,对,对英文,的,的特点,,,,在解,码,码中融,入,入句法,分,分析树,,,,在不,增,增加时,空,空复杂,度,度的前,提,提下提,高,高了翻,译,译质量,科技领,域,域,由于缺,乏,乏这方,面,面的语,料,料资源,,,,我们,只,只能借,用,用新闻,领,领域的,语,语料,,利,利用数,据,据过滤,技,技术得,到,到相关,资,资源,但由于,在,在选取,开,开发集,时,时,其,规,规模和,相,相关性,受,受到制,约,约,所,以,以最后,的,的参数,训,训练并,不,不能有,效,效得收,敛,敛到最,优,优,如何能,够,够充分,利,利用有,限,限的资,源,源,开,发,发出更,加,加鲁棒,的,的训练,及,及解码,算,算法,,是,是我们,下,下一步,要,要思考,的,的问题,中国科,学,学院自,动,动化所,InstituteofAutomation,ChineseAcademy of Sciences,参考文,献,献,1中科院,自,自动化,所,所评测,技,技术报,告,告(SYSTEM II),第四,届,届机器,翻,翻译研,讨,讨会,2008,2Wei Wei,Wei Pang,Zhendong Yang,Zhenbiao Chen,ChengqingZong,BoXu.CASIASMT SystemforTC,-,-STAREvaluation Campaign 2006,.,.In:TC-STAR workshop,2006.,3YaserAl,-,-Onaizan,KishorePapineni.Proceedingsofthe 21stInternationalConference on ComputationalLinguisticsand the44th annualmeeting of theACLACL 06,4PhilippKoehn,et al.EdinburghSystem Description forthe2005IWSLTSpeechTranslationEvaluation,InternationalWorkshoponSpokenLanguageTranslation2005.,5,魏,魏玮,,,,杜金,华,华,徐,波,波,
展开阅读全文