统计机器翻译简明教程.ppt

上传人:sh****n 文档编号:7499616 上传时间:2020-03-22 格式:PPT 页数:37 大小:588KB
返回 下载 相关 举报
统计机器翻译简明教程.ppt_第1页
第1页 / 共37页
统计机器翻译简明教程.ppt_第2页
第2页 / 共37页
统计机器翻译简明教程.ppt_第3页
第3页 / 共37页
点击查看更多>>
资源描述
统计机器翻译简明教程兼谈相关工具的使用 何中军2007年11月 提纲 系统结构前处理词语对齐短语抽取解码后处理参数训练评测 词语对齐 训练语料库 训练语料库为双语语料库格式不固定 可以是文本格式 xml格式等等要求必须句子对齐 back 语料预处理 目的 将各种格式不同的生语料进行加工 形成格式统一的语料库 以便进行词语对齐步骤 汉语分词工具 ICTCLAS汉语全半角转换功能 将A3区的全角字符转换为半角字符程序 A2B命令行 A2Binputoutput英语分词工具 Brill英语首字母小写还原功能 将英语语料库中的句首字母进行大小写转换 如果首单词在语料库中出现的次数小写多于大写 则将首字母变为小写 程序 Truecase命令行 Truecaseinputoutput 处理后训练语料库 双语语料库 汉语切词 高新技术产品出口 亿美元 全半角转换 高新技术产品出口37 6亿美元 英语切词 TheexportofHigh techProductsReached3 76billionUSdollars theexportofHigh techProductsReached3 76billionUSdollars 大小写转换 back 词语对齐 GIZA 词语对齐词语对齐后处理添加句首句尾标记 词语对齐 GIZA 训练 输入 汉语文本 英语文本 一行一句 句子对齐 chinese english plain2snt chinese vcbenglish vcbchinese english snt mkcls chinese vcb classesenglish vcb classeschinese vcb classes catsenglish vcb classes cats Giza A3 final plain2snt 统计单词数 格式转换 命令行 plain2snt outchineseenglish 2上海7383浦东764开发3895与3724 chinese vcbFormat 单词编号单词单词出现次数 123456782345678910112124131415 chinese english sntFormat 每个句对占3行句子出现次数汉语句子英语句子 mkcls 单词聚类 命令行 mkcls n1 pchinese Vchinese vcb classesopt n 表示训练迭代的次数 一般迭代1次 p 要聚类的文本 一行一句 已分词 V 输出信息opt 优化运行 1925年171925日47 chinese vcb classesFormat 单词词类 2 1月份 83 AmocoCadiz 百分之三十九点四3 TC 百二十万 百六十万 百五十万 chinese vcb classes catsFormat 词类 单词 单词 GIZA 词语对齐 命令行 GIZA Schinese vcb Tenglish vcb Cchinese english snt Oc2e S 源语言单词表 T 目标语言单词表 C 源语言 目标语言句子对 O 输出文件夹运行结束后 输出很多文件到c2e 文件夹中 主要是产生的对齐文件 Sentencepair 1 sourcelength7targetlength16alignmentscore 4 99368e 28thedevelopmentofShanghai sPudongisinstepwiththeestablishmentofitslegalsystemNULL 1381113 上海 4 浦东 56 开发 2 与 10 法制 1516 建设 同步 791214 A3 final 每句对3行 对齐概率目标句子源语言句子 GIZA 对齐几点说明 一般双向训练 汉语 英语 英语 汉语训练流程 plain2snt outchineseenglish mkcls n1 pchinese Vchinese vcb classesopt mkcls n1 penglish Venglish vcb classesopt mkdirc2e mkdire2c GIZA Schinese vcb Tenglish vcb Cchinese english snt Oc2e GIZA Senglish vcb Tchinese vcb Cenglish chinese snt Oe2c 词语对齐后处理 对GIZA 的词语对齐进行优化工具 WordAlign命令行 WordAlignc2e A3 finale2c A3 finaloutput 输入 汉语到英语方向的 A3 final文件和英语到汉语方向的 A3 final文件输出 xml格式的对齐文件 词语对齐后处理 续 完 end 1 1 12 2 13 3 1 句对以bead表示 包括源语言词 目标语言词 以及对齐信息 单词后面的 是词性的位置 如有需要 可以将 替换为相应的词性对齐后面的 1表示对齐概率 目前默认是1 添加句首句尾标记 命令行 AddHeadTailinputoutput功能 为对齐后的句子加上开始结束符 完 end 1 1 12 2 13 3 14 4 15 5 1 back 短语抽取 从词语对齐的语料库中得到短语翻译工具 phraseExtractor功能 抽取短语 统计短语出现次数phraseScoring功能 计算短语的词汇化翻译概率phraseExtractor pl功能 驱动以上两个程序的脚本文件 银行和保险公司 banksandinsurancecompanies 10 10559910 0257825坚持改革开放 ofreformandopeningup 0 3333330 0010333710 014045 短语抽取 续 phraseExtractor pl corpus dir corpus filealign xml extract file namemy separatortab读取corpus dir目录下的align xml对齐文件 最终生成my bp文件 分隔符为制表符参数说明 debug ifdebugthenthemiddlefileswillnotbedeleted defaultisfalse corpus dir setthecorpusdir corpus file thewordalignedfilefromwhichphrasesareextrated capacity howmanyphrasesinafilewhenextracting defaultis1000000 extract file name thephrasetablename defaultis extract max phrase length maxsourcephraselength defaultis7 separator theseparatorbetweenphrases defaultistab reorder types lexicalreorderingtype defaultismsd fe fertility howmanywordscanawordaligned defaultis9 orientation extractlexicalreorderingtableornot defaultis0 短语表过滤 根据测试文件对短语表进行过滤 我I0 10 10 10 1我是Iam0 10 10 10 1我是学生Iamastudent0 10 10 10 1一个学生astudent0 10 10 10 1一个小孩achild0 10 10 10 1 我I0 10 10 10 1我是Iam0 10 10 10 1一个学生astudent0 10 10 10 1 测试文件 源短语表 过滤后短语表 短语表过滤 续 SelectBPbpfiletestfileoutfilec2e bpfile 短语文件testfile 输入文件 文本文件 一行一句 如果是汉语文件 不用分词 如果是英语文件 需要做tokenize 注意 如果在短语抽取的时候 汉语英语进行了预处理 这里对输入文件也要做相应的预处理 例如 在短语抽取时 汉语做了A3区半角转换 则SelectBP的输入文件也要做半角转换 英语作了tokenize 输入文件也要做tokenize 如果加入了句首句尾标记 则测试文件也要加句首句尾标记 outfile 过滤后的短语表c2e 1 表示汉英翻译 根据汉语文件过滤 0表示英汉翻译 根据英语文件过滤 back 语言模型训练 ngram count textenglish lmlm gz unk kndiscount order4 write arpa text 要训练的文本 一行一句 lm 输出文件名 unk 未登录词 kndiscount 平滑 order 语言模型的元数 n gram write arpa apra格式 back Confucius的解码 基于短语的解码器 解码器的配置文件Log linear模型的训练过程结果评测 BPTABLE LIMIT 10 短语表的剪枝参数 NBEST LIST 1000 每句话产生Nbest的个数 MAX STACK SIZE 100 搜索栈的剪枝参数 TT bp iwslt07 bpsmall txt 短语表的路径 POSTABLE bp L 0612 pos p txt 用于相似度模型的文件路径 LM lm english m2 bo4 gz 语言模型1 LM2 lm iwslt small order5 lm gz 语言模型2 LMNGRAM 3 语言模型的元数 PARA 下面是log linear模型的权重p e c 1 短语翻译概率p c e 1 短语翻译概率lex e c 1 词汇化概率lex c e 1 词汇化概率phrase0 短语概率 如果是精确匹配 为1 否则 为0 len1 目标句子长度pos prob0 词性概率sim prob0 相似度lm1 语言模型lm21 语言模型 END TST corpus iwslt06 dev src 测试文件 REF corpus iwslt06 dev ref 参考译文 FORMAT nist 输出格式 NIST评测使用nist ISTRAIN 1 如果进行最小错误率训练 则为1 表示输出NBest信息 PRINT NBEST 1 如果需要nbest输出 设为1 训练过程一定要设为1 FEATPATH nbestfeat 特征文件的输出路径 RESULTPATH result 结果文件的输出路径 SUFFIX 0 结果文件的输出后缀名 ENTITY bp nist0216 0712 dev src 命名实体文件 INFO 0 是否输出翻译过程的信息 用于调试 说明 红色部分表示大家不需要使用的 不用改动蓝色部分表示在进行最小错误率训练后 大家需要改动的部分如果想屏蔽掉某项功能 例如命名实体 只需要改动第一列的标记 例如 ENTITY ENTITY Log linear模型训练过程 1初始化lambda 进行解码 产生Nbest特征文件f12最小错误率训练得到新的lambda3利用新的lambda进行解码 产生Nbest特征文件f24合并f1 f2 生成新的特征文件f1 如果f1 与f1相等 即没有新的Nbest产生 结束 否则转55f1 f1 参数训练得到lambda 转3 训练过程 confucius pl root dir corpusnist first loop0 total loop10 root dir路径名 一般为本目录下 corpus开发集名字 程序自动到corpus 目录下寻找nist dev src和nist dev ref 所以 一定要在corpus 下存在这两个文件 first loop从第几轮开始迭代 默认第0轮 total loop迭代到第几轮 默认10程序创建三个文件夹 results 存放产生的结果文件nbestfeats 存放用于最小错误率训练的nbest特征文件config 存放最小错误率训练的得到的参数 和Confucius的配置文件 result result0 txt result1 txt 分别对应由配置文件searchconfig0 txtsearchconfig1 txt 产生的结果文件result0 nist evalresult1 nist eval分别是result0 txtresult1 txt的评测文件 从中可以看到它们的bleu值 nbesetfeat cands0 txtcands1 txt 对应每句话的nbest个数transfeat0 txt transfeat1 txt 对应特征文件 0164111617 第0句有1641个候选译文第1句有1617个候选译文 60 748764 520859 910458 64220128 144 1500080 899412136122110101762 406966 336559 171358 64220129 803 1600077 7209121461321201117 分为两部分 蓝色部分 log liear模型的特征值 log 红色部分 n gram的个数N gram格式 对一句话而言 1 gram匹配个数1 gram系统译文个数 4 gram匹配个数4 gram系统译文个数最后是最短参考译文的长度 从4个参考译文中 选长度最短的 config lamda0 txt lamda1 txt对应训练得到的log linear模型的权重searchconfig1 txtsearchconfig2 txt对应解码器要用到的配置文件 注意事项 searchconfigi txt对应resulti txttransfeati txt candsi txtlambdai txt用于产生searchconfigi 1 txt训练完成后 参数收敛 检查result 目录下的resulti nist eval 找到bleu值最高的那个resultx nist eval 表示它由searchconfigx txt产生 意味着最好的参数在searchconfigx txt lambdax 1 txt 修改searchconfigx txt 运行Confucius进行评测 修改配置文件 运行测试集 TST corpus iwslt06 dev src REF corpus iwslt06 dev ref FORMAT nist ISTRAIN 1 PRINT NBEST 1 FEATPATH nbestfeat RESULTPATH result SUFFIX 0 ENTITY bp nist0216 0712 dev src INFO 0 TST corpus nist05 tst src REF NOFILE FORMAT nist ISTRAIN 0 PRINT NBEST 0 FEATPATH nbestfeat RESULTPATH result SUFFIX nist05 ENTITY bp nist05 entity INFO 0 命令行 Confucius产生的结果文件在result resultnist05 txt 评测程序mteval v11b pl 比较系统译文和参考译文 进行打分命令行 mteval v11b pl c ssource sgm rreference sgm tresult txt c 区分大小写 大小写敏感 s 源文件 r 参考译文 t 系统译文 文件格式 不同的评测对应的文件格式不太一致 但是有一些共同部分 源文件一般包含 参考译文包含 系统译文格式必须与源文件一致 且将改为 并添加相应的系统id 今年前两月广东高新技术产品出口 亿美元 ExportofHigh techProductsinGuangdonginFirst ExportofHigh techProductsinGuangdonginFirst source reference system 词语对齐参考文献 Peter F Brown StephenA DellaPietra VincentJ DellaPietra RobertL Mercer TheMathematicsofStatisticalMachineTranslation ParameterEstimation ComputationalLinguistics Vol19 No 2 1993http www i6 informatik rwth aachen de Colleagues och software GIZA html 短语抽取参考文献 PhilippKoehn 2004 Pharaoh abeamsearchdecoderforphrase basedstatisticalmachinetrnaslationmodels InProceedingsoftheSixthConferenceoftheAssociationforMachineTranslationintheAmericas pages115 124 PhilippKoehn FranzJ Och andDanielMarcu 2003 Statisticalphrase basedtranslation InProceedingsofHLT NAACL2003 pages127 133 http www isi edu publications licensed sw pharaoh 最小错误率训练参考文献 FranzJosefOch MinimumErrorRateTrainingforStatisticalMachineTranslation In ACL2003 Proc ofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics Japan Sapporo July2003 AshishVenugopal StephanVogel ConsiderationsinMaximumMutualInformationandMinimumClassificationErrortrainingforStatisticalMachineTranslation IntheProceedingsoftheTenthConferenceoftheEuropeanAssociationforMachineTranslation EAMT 05 Budapest HungaryMay30 31 2005http www cs cmu edu ashishv mer html 谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!