统计机器翻译简明教程.ppt

资源描述

统计机器翻译简明教程兼谈相关工具的使用,何中军2007年11月,提纲,系统结构前处理词语对齐短语抽取解码后处理参数训练评测,词语对齐,训练语料库,训练语料库为双语语料库格式不固定，可以是文本格式，xml格式等等要求必须句子对齐,back,语料预处理,目的：将各种格式不同的生语料进行加工，形成格式统一的语料库，以便进行词语对齐步骤：汉语分词工具：ICTCLAS汉语全半角转换功能：将A3区的全角字符转换为半角字符程序：A2B命令行：A2Binputoutput英语分词工具：Brill英语首字母小写还原功能：将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写，则将首字母变为小写。程序：Truecase命令行：Truecaseinputoutput,处理后训练语料库,双语语料库,汉语切词,高新技术产品出口.亿美元。,全半角转换,高新技术产品出口37.6亿美元。,英语切词,TheexportofHigh-techProductsReached3.76billionUSdollars.,theexportofHigh-techProductsReached3.76billionUSdollars.,大小写转换,back,词语对齐,GIZA+词语对齐词语对齐后处理添加句首句尾标记,词语对齐GIZA+训练,输入：汉语文本，英语文本，一行一句，句子对齐,chinese,english,plain2snt,chinese.vcbenglish.vcbchinese_english.snt,mkcls,chinese.vcb.classesenglish.vcb.classeschinese.vcb.classes.catsenglish.vcb.classes.cats,Giza+,*.A3.final,plain2snt：统计单词数，格式转换,命令行./plain2snt.outchineseenglish,2上海7383浦东764开发3895与3724,chinese.vcbFormat:单词编号单词单词出现次数,123456782345678910112124131415,chinese_english.sntFormat:每个句对占3行句子出现次数汉语句子英语句子,mkcls：单词聚类,命令行：./mkcls-n1-pchinese-Vchinese.vcb.classesopt-n：表示训练迭代的次数，一般迭代1次-p：要聚类的文本，一行一句（已分词）-V：输出信息opt：优化运行,1925年171925日47,chinese.vcb.classesFormat:单词词类,2:1月份,83%,AmocoCadiz,_,百分之三十九点四3:+,TC,百二十万,百六十万,百五十万,chinese.vcb.classes.catsFormat:词类：单词，单词,GIZA+：词语对齐,命令行：./GIZA+-Schinese.vcb-Tenglish.vcb-Cchinese_english.snt-Oc2e-S：源语言单词表-T：目标语言单词表-C：源语言目标语言句子对-O：输出文件夹运行结束后，输出很多文件到c2e/文件夹中，主要是产生的对齐文件：,#Sentencepair(1)sourcelength7targetlength16alignmentscore:4.99368e-28thedevelopmentofShanghaisPudongisinstepwiththeestablishmentofitslegalsystemNULL(1381113)上海(4)浦东(56)开发(2)与(10)法制(1516)建设()同步(791214),*.A3.final，每句对3行：,对齐概率目标句子源语言句子,GIZA+对齐几点说明,一般双向训练，汉语-英语，英语-汉语训练流程：,./plain2snt.outchineseenglish./mkcls-n1-pchinese-Vchinese.vcb.classesopt./mkcls-n1-penglish-Venglish.vcb.classesopt./mkdirc2e./mkdire2c./GIZA+-Schinese.vcb-Tenglish.vcb-Cchinese_english.snt-Oc2e./GIZA+-Senglish.vcb-Tchinese.vcb-Cenglish_chinese.snt-Oe2c,词语对齐后处理,对GIZA+的词语对齐进行优化工具：WordAlign命令行：,WordAlignc2e.A3.finale2c.A3.finaloutput,输入：汉语到英语方向的.A3.final文件和英语到汉语方向的.A3.final文件输出：.xml格式的对齐文件,词语对齐后处理（续）,(/完/)/(/end/)/1:1/12:2/13:3/1,句对以bead表示，包括源语言词，目标语言词，以及对齐信息。单词后面的/是词性的位置，如有需要，可以将/替换为相应的词性对齐后面的/1表示对齐概率，目前默认是1,添加句首句尾标记,命令行：AddHeadTailinputoutput功能：为对齐后的句子加上开始结束符，,/(/完/)/(/end/)/1:1/12:2/13:3/14:4/15:5/1,back,短语抽取,从词语对齐的语料库中得到短语翻译工具：phraseExtractor功能：抽取短语，统计短语出现次数phraseScoring功能：计算短语的词汇化翻译概率phraseExtractor.pl功能：驱动以上两个程序的脚本文件,银行和保险公司|banksandinsurancecompanies|10.10559910.0257825坚持改革开放|ofreformandopeningup|0.3333330.0010333710.014045,短语抽取（续）,phraseExtractor.plcorpus-dir.corpus-filealign.xmlextract-file-namemy-separatortab读取corpus-dir目录下的align.xml对齐文件，最终生成my.bp文件，分隔符为制表符参数说明：-debug,ifdebugthenthemiddlefileswillnotbedeleted,defaultisfalse;-corpus-dir,setthecorpusdir;-corpus-file,thewordalignedfilefromwhichphrasesareextrated;-capacity,howmanyphrasesinafilewhenextracting,defaultis1000000;-extract-file-name,thephrasetablename,defaultisextract;-max-phrase-length,maxsourcephraselength,defaultis7;-separator,theseparatorbetweenphrases,defaultistab;-reorder-types,lexicalreorderingtype,defaultismsd-fe;-fertility,howmanywordscanawordaligned,defaultis9;-orientation,extractlexicalreorderingtableornot,defaultis0;,短语表过滤,根据测试文件对短语表进行过滤,我I0.10.10.10.1我是Iam0.10.10.10.1我是学生Iamastudent0.10.10.10.1一个学生astudent0.10.10.10.1一个小孩achild0.10.10.10.1,我I0.10.10.10.1我是Iam0.10.10.10.1一个学生astudent0.10.10.10.1,测试文件,源短语表,过滤后短语表,短语表过滤（续）,SelectBPbpfiletestfileoutfilec2e,bpfile：短语文件testfile：输入文件（文本文件，一行一句），如果是汉语文件，不用分词。如果是英语文件，需要做tokenize。（注意：如果在短语抽取的时候，汉语英语进行了预处理，这里对输入文件也要做相应的预处理。例如，在短语抽取时，汉语做了A3区半角转换，则SelectBP的输入文件也要做半角转换；英语作了tokenize，输入文件也要做tokenize。如果加入了句首句尾标记，则测试文件也要加句首句尾标记）outfile：过滤后的短语表c2e：1，表示汉英翻译，根据汉语文件过滤。0表示英汉翻译，根据英语文件过滤,back,语言模型训练,ngram-count-textenglish-lmlm.gz-unk-kndiscount-order4-write-arpa-text:要训练的文本，一行一句-lm:输出文件名-unk：未登录词-kndiscount：平滑-order:语言模型的元数（n-gram）-write-arpa:apra格式,back,Confucius的解码基于短语的解码器,解码器的配置文件Log-linear模型的训练过程结果评测,BPTABLE_LIMIT10/短语表的剪枝参数NBEST_LIST1000/每句话产生Nbest的个数MAX_STACK_SIZE100/搜索栈的剪枝参数TTbp/iwslt07-bpsmall.txt/短语表的路径POSTABLE*bp/L_0612_pos_p.txt/用于相似度模型的文件路径LMlm/english.m2.bo4.gz/语言模型1LM2lm/iwslt.small.order5.lm.gz/语言模型2LMNGRAM3/语言模型的元数PARA#/下面是log-linear模型的权重p(e|c)1/短语翻译概率p(c|e)1/短语翻译概率lex(e|c)1/词汇化概率lex(c|e)1/词汇化概率phrase0/短语概率（如果是精确匹配，为1，否则，为0）len1/目标句子长度pos_prob0/词性概率sim_prob0/相似度lm1/语言模型lm21/语言模型END#,TSTcorpus/iwslt06.dev-src/测试文件REFcorpus/iwslt06.dev-ref/参考译文FORMATnist/输出格式,NIST评测使用nistISTRAIN1/如果进行最小错误率训练，则为1，表示输出NBest信息PRINT_NBEST1/如果需要nbest输出，设为1，训练过程一定要设为1FEATPATHnbestfeat/特征文件的输出路径RESULTPATHresult/结果文件的输出路径SUFFIX0/结果文件的输出后缀名ENTITYbp/nist0216_0712.dev-src/命名实体文件INFO0/是否输出翻译过程的信息，用于调试,说明：红色部分表示大家不需要使用的，不用改动蓝色部分表示在进行最小错误率训练后，大家需要改动的部分如果想屏蔽掉某项功能，例如命名实体，只需要改动第一列的标记，例如：ENTITY-ENTITY+,Log-linear模型训练过程,1初始化lambda，进行解码，产生Nbest特征文件f12最小错误率训练得到新的lambda3利用新的lambda进行解码，产生Nbest特征文件f24合并f1、f2，生成新的特征文件f1，如果f1与f1相等，即没有新的Nbest产生，结束，否则转55f1=f1，参数训练得到lambda，转3,训练过程,./confucius.plroot-dir.corpusnistfirst-loop0total-loop10-root-dir路径名，一般为本目录下-corpus开发集名字，程序自动到corpus/目录下寻找nist.dev-src和nist.dev-ref，所以，一定要在corpus/下存在这两个文件-first-loop从第几轮开始迭代，默认第0轮-total-loop迭代到第几轮，默认10程序创建三个文件夹：results/存放产生的结果文件nbestfeats/存放用于最小错误率训练的nbest特征文件config/存放最小错误率训练的得到的参数，和Confucius的配置文件,result/,result0.txt,result1.txt分别对应由配置文件searchconfig0.txtsearchconfig1.txt产生的结果文件result0.nist.evalresult1.nist.eval分别是result0.txtresult1.txt的评测文件，从中可以看到它们的bleu值,nbesetfeat/,cands0.txtcands1.txt对应每句话的nbest个数transfeat0.txt，transfeat1.txt对应特征文件,0164111617,第0句有1641个候选译文第1句有1617个候选译文,60.748764.520859.910458.64220128.144-1500080.899412136122110101762.406966.336559.171358.64220129.803-1600077.7209121461321201117,分为两部分：蓝色部分：log-liear模型的特征值，-log，红色部分：n-gram的个数N-gram格式：（对一句话而言）1-gram匹配个数1-gram系统译文个数4-gram匹配个数4-gram系统译文个数最后是最短参考译文的长度（从4个参考译文中，选长度最短的）,config/,lamda0.txt,lamda1.txt对应训练得到的log-linear模型的权重searchconfig1.txtsearchconfig2.txt对应解码器要用到的配置文件,注意事项,searchconfigi.txt对应resulti.txttransfeati.txt,candsi.txtlambdai.txt用于产生searchconfigi+1.txt训练完成后（参数收敛），检查result/目录下的resulti.nist.eval，找到bleu值最高的那个resultx.nist.eval，表示它由searchconfigx.txt产生，意味着最好的参数在searchconfigx.txt（lambdax-1.txt）修改searchconfigx.txt，运行Confucius进行评测,修改配置文件，运行测试集,TSTcorpus/iwslt06.dev-srcREFcorpus/iwslt06.dev-refFORMATnistISTRAIN1PRINT_NBEST1FEATPATHnbestfeat/RESULTPATHresult/SUFFIX0ENTITYbp/nist0216_0712.dev-srcINFO0,TSTcorpus/nist05.tst-srcREFNOFILEFORMATnistISTRAIN0PRINT_NBEST0FEATPATHnbestfeat/RESULTPATHresult/SUFFIXnist05ENTITYbp/nist05.entityINFO0,命令行：./Confucius产生的结果文件在result/resultnist05.txt,评测程序mteval-v11b.pl,比较系统译文和参考译文，进行打分命令行./mteval-v11b.plcssource.sgmrreference.sgmtresult.txt-c:区分大小写（大小写敏感）-s:源文件-r:参考译文-t：系统译文,文件格式,不同的评测对应的文件格式不太一致，但是有一些共同部分：源文件一般包含：参考译文包含：系统译文格式必须与源文件一致，且将改为，并添加相应的系统id,今年前两月广东高新技术产品出口亿美元,ExportofHigh-techProductsinGuangdonginFirst,ExportofHigh-techProductsinGuangdonginFirst,source,reference,system,词语对齐参考文献,Peter.F.Brown,StephenA.DellaPietra,VincentJ.DellaPietra,RobertL.Mercer,TheMathematicsofStatisticalMachineTranslation:ParameterEstimation,ComputationalLinguistics,Vol19,No.2,1993http:/www-i6.informatik.rwth-aachen.de/Colleagues/och/software/GIZA+.html,短语抽取参考文献,PhilippKoehn.2004.Pharaoh:abeamsearchdecoderforphrase-basedstatisticalmachinetrnaslationmodels.InProceedingsoftheSixthConferenceoftheAssociationforMachineTranslationintheAmericas,pages115-124.PhilippKoehn,FranzJ.Och,andDanielMarcu.2003.Statisticalphrase-basedtranslation.InProceedingsofHLT-NAACL2003,pages127-133.http:/www.isi.edu/publications/licensed-sw/pharaoh/,最小错误率训练参考文献,FranzJosefOch.MinimumErrorRateTrainingforStatisticalMachineTranslation.InACL2003:Proc.ofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics,Japan,Sapporo,July2003.AshishVenugopal,StephanVogel,ConsiderationsinMaximumMutualInformationandMinimumClassificationErrortrainingforStatisticalMachineTranslation,IntheProceedingsoftheTenthConferenceoftheEuropeanAssociationforMachineTranslation(EAMT-05),Budapest,HungaryMay30-31,2005http:/www.cs.cmu.edu/ashishv/mer.html,谢谢！,

展开阅读全文

统计机器翻译简明教程.ppt

最新文档