统计机器翻译简明教程.ppt

上传人:zhu****ei 文档编号:3526081 上传时间:2019-12-17 格式:PPT 页数:37 大小:588KB
返回 下载 相关 举报
统计机器翻译简明教程.ppt_第1页
第1页 / 共37页
统计机器翻译简明教程.ppt_第2页
第2页 / 共37页
统计机器翻译简明教程.ppt_第3页
第3页 / 共37页
点击查看更多>>
资源描述
统计机器翻译简明教程兼谈相关工具的使用,何中军2007年11月,提纲,系统结构前处理词语对齐短语抽取解码后处理参数训练评测,词语对齐,训练语料库,训练语料库为双语语料库格式不固定,可以是文本格式,xml格式等等要求必须句子对齐,back,语料预处理,目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐步骤:汉语分词工具:ICTCLAS汉语全半角转换功能:将A3区的全角字符转换为半角字符程序:A2B命令行:A2Binputoutput英语分词工具:Brill英语首字母小写还原功能:将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。程序:Truecase命令行:Truecaseinputoutput,处理后训练语料库,双语语料库,汉语切词,高新技术产品出口.亿美元。,全半角转换,高新技术产品出口37.6亿美元。,英语切词,TheexportofHigh-techProductsReached3.76billionUSdollars.,theexportofHigh-techProductsReached3.76billionUSdollars.,大小写转换,back,词语对齐,GIZA+词语对齐词语对齐后处理添加句首句尾标记,词语对齐GIZA+训练,输入:汉语文本,英语文本,一行一句,句子对齐,chinese,english,plain2snt,chinese.vcbenglish.vcbchinese_english.snt,mkcls,chinese.vcb.classesenglish.vcb.classeschinese.vcb.classes.catsenglish.vcb.classes.cats,Giza+,*.A3.final,plain2snt:统计单词数,格式转换,命令行./plain2snt.outchineseenglish,2上海7383浦东764开发3895与3724,chinese.vcbFormat:单词编号单词单词出现次数,123456782345678910112124131415,chinese_english.sntFormat:每个句对占3行句子出现次数汉语句子英语句子,mkcls:单词聚类,命令行:./mkcls-n1-pchinese-Vchinese.vcb.classesopt-n:表示训练迭代的次数,一般迭代1次-p:要聚类的文本,一行一句(已分词)-V:输出信息opt:优化运行,1925年171925日47,chinese.vcb.classesFormat:单词词类,2:1月份,83%,AmocoCadiz,_,百分之三十九点四3:+,TC,百二十万,百六十万,百五十万,chinese.vcb.classes.catsFormat:词类:单词,单词,GIZA+:词语对齐,命令行:./GIZA+-Schinese.vcb-Tenglish.vcb-Cchinese_english.snt-Oc2e-S:源语言单词表-T:目标语言单词表-C:源语言目标语言句子对-O:输出文件夹运行结束后,输出很多文件到c2e/文件夹中,主要是产生的对齐文件:,#Sentencepair(1)sourcelength7targetlength16alignmentscore:4.99368e-28thedevelopmentofShanghaisPudongisinstepwiththeestablishmentofitslegalsystemNULL(1381113)上海(4)浦东(56)开发(2)与(10)法制(1516)建设()同步(791214),*.A3.final,每句对3行:,对齐概率目标句子源语言句子,GIZA+对齐几点说明,一般双向训练,汉语-英语,英语-汉语训练流程:,./plain2snt.outchineseenglish./mkcls-n1-pchinese-Vchinese.vcb.classesopt./mkcls-n1-penglish-Venglish.vcb.classesopt./mkdirc2e./mkdire2c./GIZA+-Schinese.vcb-Tenglish.vcb-Cchinese_english.snt-Oc2e./GIZA+-Senglish.vcb-Tchinese.vcb-Cenglish_chinese.snt-Oe2c,词语对齐后处理,对GIZA+的词语对齐进行优化工具:WordAlign命令行:,WordAlignc2e.A3.finale2c.A3.finaloutput,输入:汉语到英语方向的.A3.final文件和英语到汉语方向的.A3.final文件输出:.xml格式的对齐文件,词语对齐后处理(续),(/完/)/(/end/)/1:1/12:2/13:3/1,句对以bead表示,包括源语言词,目标语言词,以及对齐信息。单词后面的/是词性的位置,如有需要,可以将/替换为相应的词性对齐后面的/1表示对齐概率,目前默认是1,添加句首句尾标记,命令行:AddHeadTailinputoutput功能:为对齐后的句子加上开始结束符,,/(/完/)/(/end/)/1:1/12:2/13:3/14:4/15:5/1,back,短语抽取,从词语对齐的语料库中得到短语翻译工具:phraseExtractor功能:抽取短语,统计短语出现次数phraseScoring功能:计算短语的词汇化翻译概率phraseExtractor.pl功能:驱动以上两个程序的脚本文件,银行和保险公司|banksandinsurancecompanies|10.10559910.0257825坚持改革开放|ofreformandopeningup|0.3333330.0010333710.014045,短语抽取(续),phraseExtractor.plcorpus-dir.corpus-filealign.xmlextract-file-namemy-separatortab读取corpus-dir目录下的align.xml对齐文件,最终生成my.bp文件,分隔符为制表符参数说明:-debug,ifdebugthenthemiddlefileswillnotbedeleted,defaultisfalse;-corpus-dir,setthecorpusdir;-corpus-file,thewordalignedfilefromwhichphrasesareextrated;-capacity,howmanyphrasesinafilewhenextracting,defaultis1000000;-extract-file-name,thephrasetablename,defaultisextract;-max-phrase-length,maxsourcephraselength,defaultis7;-separator,theseparatorbetweenphrases,defaultistab;-reorder-types,lexicalreorderingtype,defaultismsd-fe;-fertility,howmanywordscanawordaligned,defaultis9;-orientation,extractlexicalreorderingtableornot,defaultis0;,短语表过滤,根据测试文件对短语表进行过滤,我I0.10.10.10.1我是Iam0.10.10.10.1我是学生Iamastudent0.10.10.10.1一个学生astudent0.10.10.10.1一个小孩achild0.10.10.10.1,我I0.10.10.10.1我是Iam0.10.10.10.1一个学生astudent0.10.10.10.1,测试文件,源短语表,过滤后短语表,短语表过滤(续),SelectBPbpfiletestfileoutfilec2e,bpfile:短语文件testfile:输入文件(文本文件,一行一句),如果是汉语文件,不用分词。如果是英语文件,需要做tokenize。(注意:如果在短语抽取的时候,汉语英语进行了预处理,这里对输入文件也要做相应的预处理。例如,在短语抽取时,汉语做了A3区半角转换,则SelectBP的输入文件也要做半角转换;英语作了tokenize,输入文件也要做tokenize。如果加入了句首句尾标记,则测试文件也要加句首句尾标记)outfile:过滤后的短语表c2e:1,表示汉英翻译,根据汉语文件过滤。0表示英汉翻译,根据英语文件过滤,back,语言模型训练,ngram-count-textenglish-lmlm.gz-unk-kndiscount-order4-write-arpa-text:要训练的文本,一行一句-lm:输出文件名-unk:未登录词-kndiscount:平滑-order:语言模型的元数(n-gram)-write-arpa:apra格式,back,Confucius的解码基于短语的解码器,解码器的配置文件Log-linear模型的训练过程结果评测,BPTABLE_LIMIT10/短语表的剪枝参数NBEST_LIST1000/每句话产生Nbest的个数MAX_STACK_SIZE100/搜索栈的剪枝参数TTbp/iwslt07-bpsmall.txt/短语表的路径POSTABLE*bp/L_0612_pos_p.txt/用于相似度模型的文件路径LMlm/english.m2.bo4.gz/语言模型1LM2lm/iwslt.small.order5.lm.gz/语言模型2LMNGRAM3/语言模型的元数PARA#/下面是log-linear模型的权重p(e|c)1/短语翻译概率p(c|e)1/短语翻译概率lex(e|c)1/词汇化概率lex(c|e)1/词汇化概率phrase0/短语概率(如果是精确匹配,为1,否则,为0)len1/目标句子长度pos_prob0/词性概率sim_prob0/相似度lm1/语言模型lm21/语言模型END#,TSTcorpus/iwslt06.dev-src/测试文件REFcorpus/iwslt06.dev-ref/参考译文FORMATnist/输出格式,NIST评测使用nistISTRAIN1/如果进行最小错误率训练,则为1,表示输出NBest信息PRINT_NBEST1/如果需要nbest输出,设为1,训练过程一定要设为1FEATPATHnbestfeat/特征文件的输出路径RESULTPATHresult/结果文件的输出路径SUFFIX0/结果文件的输出后缀名ENTITYbp/nist0216_0712.dev-src/命名实体文件INFO0/是否输出翻译过程的信息,用于调试,说明:红色部分表示大家不需要使用的,不用改动蓝色部分表示在进行最小错误率训练后,大家需要改动的部分如果想屏蔽掉某项功能,例如命名实体,只需要改动第一列的标记,例如:ENTITY-ENTITY+,Log-linear模型训练过程,1初始化lambda,进行解码,产生Nbest特征文件f12最小错误率训练得到新的lambda3利用新的lambda进行解码,产生Nbest特征文件f24合并f1、f2,生成新的特征文件f1,如果f1与f1相等,即没有新的Nbest产生,结束,否则转55f1=f1,参数训练得到lambda,转3,训练过程,./confucius.plroot-dir.corpusnistfirst-loop0total-loop10-root-dir路径名,一般为本目录下-corpus开发集名字,程序自动到corpus/目录下寻找nist.dev-src和nist.dev-ref,所以,一定要在corpus/下存在这两个文件-first-loop从第几轮开始迭代,默认第0轮-total-loop迭代到第几轮,默认10程序创建三个文件夹:results/存放产生的结果文件nbestfeats/存放用于最小错误率训练的nbest特征文件config/存放最小错误率训练的得到的参数,和Confucius的配置文件,result/,result0.txt,result1.txt分别对应由配置文件searchconfig0.txtsearchconfig1.txt产生的结果文件result0.nist.evalresult1.nist.eval分别是result0.txtresult1.txt的评测文件,从中可以看到它们的bleu值,nbesetfeat/,cands0.txtcands1.txt对应每句话的nbest个数transfeat0.txt,transfeat1.txt对应特征文件,0164111617,第0句有1641个候选译文第1句有1617个候选译文,60.748764.520859.910458.64220128.144-1500080.899412136122110101762.406966.336559.171358.64220129.803-1600077.7209121461321201117,分为两部分:蓝色部分:log-liear模型的特征值,-log,红色部分:n-gram的个数N-gram格式:(对一句话而言)1-gram匹配个数1-gram系统译文个数4-gram匹配个数4-gram系统译文个数最后是最短参考译文的长度(从4个参考译文中,选长度最短的),config/,lamda0.txt,lamda1.txt对应训练得到的log-linear模型的权重searchconfig1.txtsearchconfig2.txt对应解码器要用到的配置文件,注意事项,searchconfigi.txt对应resulti.txttransfeati.txt,candsi.txtlambdai.txt用于产生searchconfigi+1.txt训练完成后(参数收敛),检查result/目录下的resulti.nist.eval,找到bleu值最高的那个resultx.nist.eval,表示它由searchconfigx.txt产生,意味着最好的参数在searchconfigx.txt(lambdax-1.txt)修改searchconfigx.txt,运行Confucius进行评测,修改配置文件,运行测试集,TSTcorpus/iwslt06.dev-srcREFcorpus/iwslt06.dev-refFORMATnistISTRAIN1PRINT_NBEST1FEATPATHnbestfeat/RESULTPATHresult/SUFFIX0ENTITYbp/nist0216_0712.dev-srcINFO0,TSTcorpus/nist05.tst-srcREFNOFILEFORMATnistISTRAIN0PRINT_NBEST0FEATPATHnbestfeat/RESULTPATHresult/SUFFIXnist05ENTITYbp/nist05.entityINFO0,命令行:./Confucius产生的结果文件在result/resultnist05.txt,评测程序mteval-v11b.pl,比较系统译文和参考译文,进行打分命令行./mteval-v11b.plcssource.sgmrreference.sgmtresult.txt-c:区分大小写(大小写敏感)-s:源文件-r:参考译文-t:系统译文,文件格式,不同的评测对应的文件格式不太一致,但是有一些共同部分:源文件一般包含:参考译文包含:系统译文格式必须与源文件一致,且将改为,并添加相应的系统id,今年前两月广东高新技术产品出口亿美元,ExportofHigh-techProductsinGuangdonginFirst,ExportofHigh-techProductsinGuangdonginFirst,source,reference,system,词语对齐参考文献,Peter.F.Brown,StephenA.DellaPietra,VincentJ.DellaPietra,RobertL.Mercer,TheMathematicsofStatisticalMachineTranslation:ParameterEstimation,ComputationalLinguistics,Vol19,No.2,1993http:/www-i6.informatik.rwth-aachen.de/Colleagues/och/software/GIZA+.html,短语抽取参考文献,PhilippKoehn.2004.Pharaoh:abeamsearchdecoderforphrase-basedstatisticalmachinetrnaslationmodels.InProceedingsoftheSixthConferenceoftheAssociationforMachineTranslationintheAmericas,pages115-124.PhilippKoehn,FranzJ.Och,andDanielMarcu.2003.Statisticalphrase-basedtranslation.InProceedingsofHLT-NAACL2003,pages127-133.http:/www.isi.edu/publications/licensed-sw/pharaoh/,最小错误率训练参考文献,FranzJosefOch.MinimumErrorRateTrainingforStatisticalMachineTranslation.InACL2003:Proc.ofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics,Japan,Sapporo,July2003.AshishVenugopal,StephanVogel,ConsiderationsinMaximumMutualInformationandMinimumClassificationErrortrainingforStatisticalMachineTranslation,IntheProceedingsoftheTenthConferenceoftheEuropeanAssociationforMachineTranslation(EAMT-05),Budapest,HungaryMay30-31,2005http:/www.cs.cmu.edu/ashishv/mer.html,谢谢!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!