统计机器翻译简明教程.ppt

资源描述

统计机器翻译简明教程兼谈相关工具的使用何中军2007年11月提纲系统结构前处理词语对齐短语抽取解码后处理参数训练评测词语对齐训练语料库训练语料库为双语语料库格式不固定可以是文本格式 xml格式等等要求必须句子对齐 back 语料预处理目的将各种格式不同的生语料进行加工形成格式统一的语料库以便进行词语对齐步骤汉语分词工具 ICTCLAS汉语全半角转换功能将A3区的全角字符转换为半角字符程序 A2B命令行 A2Binputoutput英语分词工具 Brill英语首字母小写还原功能将英语语料库中的句首字母进行大小写转换如果首单词在语料库中出现的次数小写多于大写则将首字母变为小写程序 Truecase命令行 Truecaseinputoutput 处理后训练语料库双语语料库汉语切词高新技术产品出口亿美元全半角转换高新技术产品出口37 6亿美元英语切词 TheexportofHigh techProductsReached3 76billionUSdollars theexportofHigh techProductsReached3 76billionUSdollars 大小写转换 back 词语对齐 GIZA 词语对齐词语对齐后处理添加句首句尾标记词语对齐 GIZA 训练输入汉语文本英语文本一行一句句子对齐 chinese english plain2snt chinese vcbenglish vcbchinese english snt mkcls chinese vcb classesenglish vcb classeschinese vcb classes catsenglish vcb classes cats Giza A3 final plain2snt 统计单词数格式转换命令行 plain2snt outchineseenglish 2上海7383浦东764开发3895与3724 chinese vcbFormat 单词编号单词单词出现次数 123456782345678910112124131415 chinese english sntFormat 每个句对占3行句子出现次数汉语句子英语句子 mkcls 单词聚类命令行 mkcls n1 pchinese Vchinese vcb classesopt n 表示训练迭代的次数一般迭代1次 p 要聚类的文本一行一句已分词 V 输出信息opt 优化运行 1925年171925日47 chinese vcb classesFormat 单词词类 2 1月份 83 AmocoCadiz 百分之三十九点四3 TC 百二十万百六十万百五十万 chinese vcb classes catsFormat 词类单词单词 GIZA 词语对齐命令行 GIZA Schinese vcb Tenglish vcb Cchinese english snt Oc2e S 源语言单词表 T 目标语言单词表 C 源语言目标语言句子对 O 输出文件夹运行结束后输出很多文件到c2e 文件夹中主要是产生的对齐文件 Sentencepair 1 sourcelength7targetlength16alignmentscore 4 99368e 28thedevelopmentofShanghai sPudongisinstepwiththeestablishmentofitslegalsystemNULL 1381113 上海 4 浦东 56 开发 2 与 10 法制 1516 建设同步 791214 A3 final 每句对3行对齐概率目标句子源语言句子 GIZA 对齐几点说明一般双向训练汉语英语英语汉语训练流程 plain2snt outchineseenglish mkcls n1 pchinese Vchinese vcb classesopt mkcls n1 penglish Venglish vcb classesopt mkdirc2e mkdire2c GIZA Schinese vcb Tenglish vcb Cchinese english snt Oc2e GIZA Senglish vcb Tchinese vcb Cenglish chinese snt Oe2c 词语对齐后处理对GIZA 的词语对齐进行优化工具 WordAlign命令行 WordAlignc2e A3 finale2c A3 finaloutput 输入汉语到英语方向的 A3 final文件和英语到汉语方向的 A3 final文件输出 xml格式的对齐文件词语对齐后处理续完 end 1 1 12 2 13 3 1 句对以bead表示包括源语言词目标语言词以及对齐信息单词后面的是词性的位置如有需要可以将替换为相应的词性对齐后面的 1表示对齐概率目前默认是1 添加句首句尾标记命令行 AddHeadTailinputoutput功能为对齐后的句子加上开始结束符完 end 1 1 12 2 13 3 14 4 15 5 1 back 短语抽取从词语对齐的语料库中得到短语翻译工具 phraseExtractor功能抽取短语统计短语出现次数phraseScoring功能计算短语的词汇化翻译概率phraseExtractor pl功能驱动以上两个程序的脚本文件银行和保险公司 banksandinsurancecompanies 10 10559910 0257825坚持改革开放 ofreformandopeningup 0 3333330 0010333710 014045 短语抽取续 phraseExtractor pl corpus dir corpus filealign xml extract file namemy separatortab读取corpus dir目录下的align xml对齐文件最终生成my bp文件分隔符为制表符参数说明 debug ifdebugthenthemiddlefileswillnotbedeleted defaultisfalse corpus dir setthecorpusdir corpus file thewordalignedfilefromwhichphrasesareextrated capacity howmanyphrasesinafilewhenextracting defaultis1000000 extract file name thephrasetablename defaultis extract max phrase length maxsourcephraselength defaultis7 separator theseparatorbetweenphrases defaultistab reorder types lexicalreorderingtype defaultismsd fe fertility howmanywordscanawordaligned defaultis9 orientation extractlexicalreorderingtableornot defaultis0 短语表过滤根据测试文件对短语表进行过滤我I0 10 10 10 1我是Iam0 10 10 10 1我是学生Iamastudent0 10 10 10 1一个学生astudent0 10 10 10 1一个小孩achild0 10 10 10 1 我I0 10 10 10 1我是Iam0 10 10 10 1一个学生astudent0 10 10 10 1 测试文件源短语表过滤后短语表短语表过滤续 SelectBPbpfiletestfileoutfilec2e bpfile 短语文件testfile 输入文件文本文件一行一句如果是汉语文件不用分词如果是英语文件需要做tokenize 注意如果在短语抽取的时候汉语英语进行了预处理这里对输入文件也要做相应的预处理例如在短语抽取时汉语做了A3区半角转换则SelectBP的输入文件也要做半角转换英语作了tokenize 输入文件也要做tokenize 如果加入了句首句尾标记则测试文件也要加句首句尾标记 outfile 过滤后的短语表c2e 1 表示汉英翻译根据汉语文件过滤 0表示英汉翻译根据英语文件过滤 back 语言模型训练 ngram count textenglish lmlm gz unk kndiscount order4 write arpa text 要训练的文本一行一句 lm 输出文件名 unk 未登录词 kndiscount 平滑 order 语言模型的元数 n gram write arpa apra格式 back Confucius的解码基于短语的解码器解码器的配置文件Log linear模型的训练过程结果评测 BPTABLE LIMIT 10 短语表的剪枝参数 NBEST LIST 1000 每句话产生Nbest的个数 MAX STACK SIZE 100 搜索栈的剪枝参数 TT bp iwslt07 bpsmall txt 短语表的路径 POSTABLE bp L 0612 pos p txt 用于相似度模型的文件路径 LM lm english m2 bo4 gz 语言模型1 LM2 lm iwslt small order5 lm gz 语言模型2 LMNGRAM 3 语言模型的元数 PARA 下面是log linear模型的权重p e c 1 短语翻译概率p c e 1 短语翻译概率lex e c 1 词汇化概率lex c e 1 词汇化概率phrase0 短语概率如果是精确匹配为1 否则为0 len1 目标句子长度pos prob0 词性概率sim prob0 相似度lm1 语言模型lm21 语言模型 END TST corpus iwslt06 dev src 测试文件 REF corpus iwslt06 dev ref 参考译文 FORMAT nist 输出格式 NIST评测使用nist ISTRAIN 1 如果进行最小错误率训练则为1 表示输出NBest信息 PRINT NBEST 1 如果需要nbest输出设为1 训练过程一定要设为1 FEATPATH nbestfeat 特征文件的输出路径 RESULTPATH result 结果文件的输出路径 SUFFIX 0 结果文件的输出后缀名 ENTITY bp nist0216 0712 dev src 命名实体文件 INFO 0 是否输出翻译过程的信息用于调试说明红色部分表示大家不需要使用的不用改动蓝色部分表示在进行最小错误率训练后大家需要改动的部分如果想屏蔽掉某项功能例如命名实体只需要改动第一列的标记例如 ENTITY ENTITY Log linear模型训练过程 1初始化lambda 进行解码产生Nbest特征文件f12最小错误率训练得到新的lambda3利用新的lambda进行解码产生Nbest特征文件f24合并f1 f2 生成新的特征文件f1 如果f1 与f1相等即没有新的Nbest产生结束否则转55f1 f1 参数训练得到lambda 转3 训练过程 confucius pl root dir corpusnist first loop0 total loop10 root dir路径名一般为本目录下 corpus开发集名字程序自动到corpus 目录下寻找nist dev src和nist dev ref 所以一定要在corpus 下存在这两个文件 first loop从第几轮开始迭代默认第0轮 total loop迭代到第几轮默认10程序创建三个文件夹 results 存放产生的结果文件nbestfeats 存放用于最小错误率训练的nbest特征文件config 存放最小错误率训练的得到的参数和Confucius的配置文件 result result0 txt result1 txt 分别对应由配置文件searchconfig0 txtsearchconfig1 txt 产生的结果文件result0 nist evalresult1 nist eval分别是result0 txtresult1 txt的评测文件从中可以看到它们的bleu值 nbesetfeat cands0 txtcands1 txt 对应每句话的nbest个数transfeat0 txt transfeat1 txt 对应特征文件 0164111617 第0句有1641个候选译文第1句有1617个候选译文 60 748764 520859 910458 64220128 144 1500080 899412136122110101762 406966 336559 171358 64220129 803 1600077 7209121461321201117 分为两部分蓝色部分 log liear模型的特征值 log 红色部分 n gram的个数N gram格式对一句话而言 1 gram匹配个数1 gram系统译文个数 4 gram匹配个数4 gram系统译文个数最后是最短参考译文的长度从4个参考译文中选长度最短的 config lamda0 txt lamda1 txt对应训练得到的log linear模型的权重searchconfig1 txtsearchconfig2 txt对应解码器要用到的配置文件注意事项 searchconfigi txt对应resulti txttransfeati txt candsi txtlambdai txt用于产生searchconfigi 1 txt训练完成后参数收敛检查result 目录下的resulti nist eval 找到bleu值最高的那个resultx nist eval 表示它由searchconfigx txt产生意味着最好的参数在searchconfigx txt lambdax 1 txt 修改searchconfigx txt 运行Confucius进行评测修改配置文件运行测试集 TST corpus iwslt06 dev src REF corpus iwslt06 dev ref FORMAT nist ISTRAIN 1 PRINT NBEST 1 FEATPATH nbestfeat RESULTPATH result SUFFIX 0 ENTITY bp nist0216 0712 dev src INFO 0 TST corpus nist05 tst src REF NOFILE FORMAT nist ISTRAIN 0 PRINT NBEST 0 FEATPATH nbestfeat RESULTPATH result SUFFIX nist05 ENTITY bp nist05 entity INFO 0 命令行 Confucius产生的结果文件在result resultnist05 txt 评测程序mteval v11b pl 比较系统译文和参考译文进行打分命令行 mteval v11b pl c ssource sgm rreference sgm tresult txt c 区分大小写大小写敏感 s 源文件 r 参考译文 t 系统译文文件格式不同的评测对应的文件格式不太一致但是有一些共同部分源文件一般包含参考译文包含系统译文格式必须与源文件一致且将改为并添加相应的系统id 今年前两月广东高新技术产品出口亿美元 ExportofHigh techProductsinGuangdonginFirst ExportofHigh techProductsinGuangdonginFirst source reference system 词语对齐参考文献 Peter F Brown StephenA DellaPietra VincentJ DellaPietra RobertL Mercer TheMathematicsofStatisticalMachineTranslation ParameterEstimation ComputationalLinguistics Vol19 No 2 1993http www i6 informatik rwth aachen de Colleagues och software GIZA html 短语抽取参考文献 PhilippKoehn 2004 Pharaoh abeamsearchdecoderforphrase basedstatisticalmachinetrnaslationmodels InProceedingsoftheSixthConferenceoftheAssociationforMachineTranslationintheAmericas pages115 124 PhilippKoehn FranzJ Och andDanielMarcu 2003 Statisticalphrase basedtranslation InProceedingsofHLT NAACL2003 pages127 133 http www isi edu publications licensed sw pharaoh 最小错误率训练参考文献 FranzJosefOch MinimumErrorRateTrainingforStatisticalMachineTranslation In ACL2003 Proc ofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics Japan Sapporo July2003 AshishVenugopal StephanVogel ConsiderationsinMaximumMutualInformationandMinimumClassificationErrortrainingforStatisticalMachineTranslation IntheProceedingsoftheTenthConferenceoftheEuropeanAssociationforMachineTranslation EAMT 05 Budapest HungaryMay30 31 2005http www cs cmu edu ashishv mer html 谢谢

展开阅读全文

统计机器翻译简明教程.ppt

最新文档