统计机器翻译研究进展.ppt

上传人:xt****7 文档编号:6002475 上传时间:2020-02-13 格式:PPT 页数:24 大小:259KB
返回 下载 相关 举报
统计机器翻译研究进展.ppt_第1页
第1页 / 共24页
统计机器翻译研究进展.ppt_第2页
第2页 / 共24页
统计机器翻译研究进展.ppt_第3页
第3页 / 共24页
点击查看更多>>
资源描述
统计机器翻译研究进展 杜金华 Outline Overview SMTatCASIABaselineSystemRecentImprovements目前研究方向Parsing Syntax basedSMT长句分析 骨干关联分析中文BaseNP的研究中文命名实体总结与致谢 BaselineSystem ForNISTMT 06Evaluation Phrase basedTranslationwithVariableTemplateSubstitutionwordaligncorpus usingGIZA andOch srefinedmethodcollectphrasepairsconsistentwithwordalignmentSRILMlanguagemodellog linearmodeltocombinemodelcomponentsbeamsearchdecoder SystemComponents reorderingmodellanguagemodeltrigramLMtrainedusingSRILMtoolkitphrasetranslationmodelf ephrasetranslationmodele fwordtranslationmodelf ewordtranslationmodele f Examples VariableTemplateSubstitution对数字 时间 人名 地名进行双语替换如 我的房间号是301 我的房间号是 digit Myroomnumberis301 Myroomnumberis DIGIT 短语模板 抽取短语长度from LOCATIONto LOCATION1 47961e 002您将在 timep离开 location you llleave LOCATIONat TIMEP3 30669e 002 RecentImprovements 更新了汉语分词与命名实体识别模块 降低了因此而引入的噪音改进了短语抽取与概率计算模块4 Gramlanguagemodel最小错误率参数训练根据AshishVenugopal的matlab版本改写后处理模块近期计划针对NISTMT 06任务使用改进的系统进行一次评测试验 目前研究方向 Parsing Syntax basedSMT长句分析 骨干关联分析中文BaseNP的研究中文命名实体 Parsing Syntax basedSMT 基于中文句法分析器的研究实现了基于头驱动的句法分析器基于骨架依存概念的翻译基于英文句法分析器的研究利用英文Parser构造syntax basedSMT系统基于句法分析的SMTTree to StringString to Tree 基于骨架依存概念的翻译 骨架依存概念刻画了树上各个结点之间的关系 一般主要是中心词与它相邻结点的支配与被支配关系 基于依存树的句法分析能为机器翻译提供有用的结构信息 骨架依存树 目标是 仅分析出句子的整体句法结构 整体句法结构用该句的中心词及其直接支配成分来表示 骨架依存树考虑语句的整体结构信息和词汇语义信息的同时 避免对语句进行复杂的分析 基于骨架依存树的翻译 我们的设想基本思想是一种分层次的翻译模型 由骨架映射 短语翻译 词翻译的逐层细化的过程 我们已经能够进行短语及词一级的翻译 现在问题的关键是如何找到子句的骨架 并利用骨架变换来描述两种语言的结构变换 将骨架变换形式化为转换规则 lexicalandnon lexical 并统一到概率的框架下 长句分析 骨干 Skeleton 关联分析 长句分析目前仍无有效的方法对长句进行Parsing或者翻译目前对长句的处理只是研究如何将其切分NIST语料中FBIS中的长句特点并列成分多修饰语过多语言结构层次多插入语 Examples 我们坚信 有马列主义 毛泽东思想和邓小平理论的指引 有以江泽民同志为核心的党中央的正确领导 有全军官兵的团结奋斗 有全国各族人民的大力支持 我们的目标一定能够达到 大亚湾核电站总经理刘锡才说 这是高起点起步的结果 是中央英明决策 决定全面引进先进而成熟的百万千瓦级大型商业核电技术和设备 并按国际标准建造和管理的结果 是公司员工坚持创新 追求卓越 赶超世界先进水平长期努力的结果 美国新闻署的一份材料承认 美国在其大部分历史上未能确保许多公民 尤其是非洲裔美国人 土著美国人和所有妇女 的基本人权 骨干关联分析 骨干关联分析研究目标 以长句分析为切入点 对句子骨干关联结构进行分析 以服务于统计机器翻译研究任务 句子骨干识别及之间结构关联分析双语骨干映射关系基于骨干分析的翻译 骨干关联分析 骨干 Skeleton 的定义句子骨干在句法结构上首先是一个句子成分 可以是并列关系 从属关系或者其他属性描述关系 其在意义表示上具有相对独立性 骨干内部具有相对完整的句法结构 隐式或显式 其次 句子的不同骨干是由不同的特征集合进行区分 特征的选择能够识别骨干的边界双语骨干关联结构映射建立双语骨干对应关系 为翻译过程中目标语言重排序服务 基于骨干关联分析的翻译 中文BaseNP BaseNP识别的作用自然语言处理的基本任务之一BaseNP比单个词语含有更丰富的语言信息 歧义少 与整句parsing相比较 工作量小 更具实际应用价值 其他自然语言研究的基础例 信息检索系统 机器翻译 其他短语识别 基于文本的生物信息获取 biology 等等 什么是BaseNP 基本名词短语 basenounphrase baseNP 简单的 非嵌套的名词短语 不含有其他的子项短语 ZhaoJun HuangChangning 1998 给出了BaseNP的严格形式化定义BaseNP的严格形式化定义BaseNP BaseNP BaseNPBaseNP BaseNP 名词 名动词BaseNP 限定性定词 BaseNP 名词限定性定词 形容词 区别词 动词 名词 处所词 数量词 外文字串 ZhaoTiejunetal 2001 进一步对汉语基本短语进行了研究 提出了7种形式的汉语基本短语 中文baseNP训练测试集的建立 在PennChineseTreebank5 0和英文baseNP语料库建立方法基础上 加入了针对中文的词性和句法特征 建立较为完善的大规模baseNP训练测试语料 约50万中文词 中文BaseNP 中文BaseNP识别的的算法采用两级分类器第一级 采用TBL和CRF两个分类器第二级 采用SVM分类器算法流程 试验结果 中文命名实体 基于WFST WeightedFiniteStateTransducer 框架的命名实体识别与翻译Finite Statemodels FSM and inparticular WFSThaveprovenquitesuccessfulinmanyfieldsofwrittenandspokenlanguageprocessing Thisincludesinparticularmachinetranslation largevocabularycontinuousspeechrecognitionandspeechsynthesis AninterestingfeatureofFSMsisthattheycanbeautomaticallybuiltor learned fromtrainingdatausingcorpus basedtechniques Comparedtomoretraditionalknowledge basedapproaches thesetechniquesareattractivefortheirpotentialofmuchlowerdevelopmentcosts AnotherinterestingpropertyofFSMsistheirfeasibilityforimplementingorapproximatingknowledge basedtechniques DifferentknowledgesourcescanhenceberepresentedviaFSMs thusallowingtheintegrationofaprioriknowledgewithinductivetechniquesinanaturalandformallyelegantway ThismakestheFSMframeworkanadequateoneforlanguageprocessing 数字时间的自动识别 采用WFST weightedfinitestatetransducer 识别关键要解决两个问题 通过一些有效的数字时间短语建立状态机给定一个有限状态机后 数字时间字串的匹配算法下一步将人名 地名和机构名融入WFST框架 总结与致谢 对在研方向将继续深入的研究 并不断进行创新研究密切关注国内外统计机器翻译的发展趋势 调整研究策略希望能进一步加强交流与讨论 谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!