287801$陈元红$lecture10

上传人:gb****c 文档编号:243023370 上传时间:2024-09-14 格式:PPT 页数:36 大小:196.50KB
返回 下载 相关 举报
287801$陈元红$lecture10_第1页
第1页 / 共36页
287801$陈元红$lecture10_第2页
第2页 / 共36页
287801$陈元红$lecture10_第3页
第3页 / 共36页
点击查看更多>>
资源描述
,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,命名实体翻译分析与研究,报告人:马艳姿,1,Outline,NE(Named Entity)翻译概述,NE对齐,组织机构名的翻译研究,参考文献,2,一、NE翻译概述,NE翻译,各类机器翻译方法,NE对齐,双语NE语料库,双语平行文档语料库,3,一、NE翻译概述,采用各种机器翻译方法的缺陷:,翻译结果不够规范,NE中的一些词义是特定的,例如:,风陵渡Fenglingdu, wind comb cross (),音译问题,4,一、NE翻译概述,采用NE对齐建立词典进行NE翻译的缺陷:,不够灵活,覆盖面取决于双语语料库的大小,5,二、NE对齐,6,二、NE对齐,NE对齐与NE识别的关系,通常,NE,对齐先要分别在两种语言中进行,NE,识别,然后在识别结果的基础上产生候选翻译对,再过滤得到对齐结果;,识别和对齐结合在一起进行,或只进行单语识别;,两个过程交替迭代进行的,以得到较好的对齐结果和较高的识别精度。,7,二、NE对齐,NE对齐和短语对齐的关系,NE,有具体,严格的边界,和,NE,识别的关系,NE,对齐一般是完整,不间断,共同问题,:,如何从词对位实现,NE,或短语的对位,8,二、NE对齐,NE对齐和分词的关系,对于汉语来说,识别和对齐之前往往需要进行词切分;,不进行切分,通过窗口移动直接在句子中得到候选翻译项,9,二、NE对齐,NE对齐的两个过程:,(单语或双语)进行,NE,识别后,从平行双语句子对中抽取,NE,候选翻译对,将候选翻译对进行过滤,得到最优的,NE,对齐,10,二、NE对齐,在过程1中分词和NE识别可能引入的错误:,Segmentation error,Untagged,Partially tagged,Tagged with other words as one NE,11,二、NE对齐,解决方法:,用单语NE识别代替双语NE识别,滑动窗(An open-end NE alignment window),基于双语,NE,识别,:,将已标注为,NE,的词作为中心,窗口向两边扩展,基于单语,NE,识别,:,利用,IBM,模型得到的翻译词表来确定“锚点”。然后以这些“锚点”为中心,在一定长度的词窗范围内选取词或词组作为候选命名实体。,12,二、NE对齐,过滤候选翻译对(过程2):,采用多特征融合的方法,所以一般利用多特征对齐模型或者最大熵模型等,可用的特征模型:,Translation Model,Transliteration Model,Tagging Model,Co-occurrence Model,Distortion Model,Abbreviation handling ,13,三、组织机构名的翻译研究,机构名(ON, Organization name)特点:,1、ON的结构最复杂,其中可能包含人名,地名等;,2、通过NE对齐建立翻译词典的方法比较适合人名、地名的翻译,而对于,粒度大,结构易变,的ON,还要抓住其本质结构;,例如:,中国国际对外科技交流中心,闽台新闻交流联谊会,BNF形式: ON,location name organization name ordinal number person name organization type other modifier* ,14,三、组织机构名的翻译研究,行政管理机构名,主要是从属于国家或地方级别的公共机构,例如国家部门、省市政府、大学和协会等。这类机构名的组成比较规则,并且它的组成词大部分是已登录词。,企业机构名,主要是私有的带有盈利性质的机构,例如酒店、银行、公司等,这类机构名多以地名开头,中间加以企业字号,例如“吉百利”等,大部分是未登录词。,15,三、组织机构名的翻译研究,行政管理机构名和企业机构名比较(LDC2005T34),统计,类别,总数,分词结果,翻译次序结构,音,译,结尾信息,行政,管理,机构,30800,121个词,包含17个词,的NE占95.6%,34有次序的调整,5,825类,企业,机构,54747,121个词,包含27个词,的NE占92.0%,94顺序翻译,90以上,单一如银行,公司,16,三、组织机构名的翻译研究,行政管理机构名和企业机构名比较,:,行政管理机构名特征:1、有比较强的组成结构信息;2、地名,人名涉及音译,通过词典可以大部分解决;翻译的重点在结构,企业机构名特征:1、绝大部分按顺序翻译,即使有次序调整,只是前后调换一次;例如:,中国银行/bank of china/ 2、企业商标名以音译为主,约定俗成,音译缺乏规律性,例如:吉百利/cadbury/;3、词尾信息单一:以“公司”结尾占83。翻译的重点在于音译。采用NE对齐方法实现翻译可行,17,三、组织机构名的翻译研究,行政管理机构名对位结果分析,Society(1) for(2) the(3) Study(4) of(5) Mao(6) Zedongs(7) Philosophical(8) Ideas (9),毛泽东 ( 6 7 ) 哲学 ( 8 ) 思想 ( 9 ) 研究 ( 3 4 5) 会 ( 1 2 ),Society for,the Study of,Mao Zedongs Philosophical Ideas,毛泽东哲学思想 ( 6 7 8 9 ),研究 ( 3 4 5),会 ( 1 2 ),假设每个连续部分相当于一个phrase(大于词的结构),上面这个例子包含了3个phrase。,18,三、组织机构名的翻译研究,对3000多个机构名对位处理后得到的结果:,可以看出ON翻译以顺序翻译占大比例,多个phrase的情况:,Beijing association for international exchange of personnel,NULL ( 3 6 ) 北京 ( 1 ) 国际 ( 4 ) 人才 ( 7 ) 交流 ( 5 ) 协会 ( 2 ),用pharse-based等机器翻译方法?,用词典直接翻译?,每个ON包含的phrase数量,1,2,3,4,5,6,NE数,2105,502,541,78,15,1,19,三、组织机构名的翻译研究,ON对位结果中很强的语块信息,20,三、组织机构名的翻译研究,基于语块的机构名翻译方法:,定义每个ON中包含三类语块:,1.,第一类语块(FC)例如:“北京第一”,“国际”等,作为最高级的修饰词。,整个语块在翻译中的位置:前置或后置于后续语块,语块内部翻译特点:连续的,顺序,21,三、组织机构名的翻译研究,基于语块的机构名翻译方法:,2. 第二类语块(SC)例如:“对外科技交,流”等,作为次高级的修饰词,整个语块在翻译中的位置:与TC相邻,前置或后置于它,语块内部翻译特点:词的次序需要调整,,22,三、组织机构名的翻译研究,基于语块的机构名翻译方法:,3. 第三类语块(TC)例如:“国家实验室”, “筹建委员会”,“研究所”等。每个机构名必有的块结构。,整个语块在翻译中的位置:与SC相邻,语块内部翻译特点:连续,词按顺序翻译,23,三、组织机构名的翻译研究,基于语块的机构名翻译方法:,借鉴Chunk-based model (Watanabe, 2003),切分语块模型(chunking model),步骤一,每个语块内词的排序和翻译,语块的调序 (chunk reordering),将语块内部调序翻译和外部调序同时进行。,步骤二,24,三、组织机构名的翻译研究,基于语块的机构名翻译方法:,翻译模型步骤一:,1、single-ON和multi-ON的切分,例如:北京医科,大学,/第一附属,医院,2、语块的切分,O 代表一个single-ON:,25,三、组织机构名的翻译研究,Chunking model:,几种情况:,FC SC TC,FC TC,SC TC,TC,26,三、组织机构名的翻译研究,翻译模型步骤二:,采用同步上下文无关文法(Synchronous CFG grammar)重写规则,最终要实现:,27,三、组织机构名的翻译研究,翻译模型步骤二:,Hierarchical Phrase-based model 的格式(Chiang, 2005)synchronous CFG方法:,在我们的翻译模型中,包含一个非终结符和终结符,这个终结符和非终结符分别是一个语块的单位,例如,这些CFG规则,由语料库(ON对)训练后得到,28,三、组织机构名的翻译研究,翻译模型步骤二:,根据三类语块的特性,为重写过程规定三个步骤:,Step1: 确定第一语块(FC)位置和翻译,Step2: 确定第三语块(TC)位置和翻译,Step3: 确定第二语块(SC)的翻译,29,三、组织机构名的翻译研究,翻译模型步骤二:,例子“中国国际对外交流中心”的同步CFG文法推导过程,:,30,三、组织机构名的翻译研究,ON翻译模型测试,测试语料:集外436个机构名(每个包括29个词),共1521个词。以含义完整和准确作为评估标准,定义了四个等级:,等级,标准,1,至少有一个词没被翻译,部分准确或完全不准确,2,每个词都被翻译,但部分准确,3,意思准确,和标准含义相符,4,和标准答案完全符合,31,三、组织机构名的翻译研究,根据标准,打分结果:,32,三、组织机构名的翻译研究,加入到SMT系统的测试,测试语料:2004年863测试语料,共308个句子,通过命名实体识别后,对其中的机构名进行翻译,再运行phrase-based MT系统,BLEU打分由0.1217提高到0.1400,2005 NIST集上的结果,33,三、组织机构名的翻译研究,NE,(中文),双语NE语料库,双语平行文档的,NE对齐,NE翻译,SMT,34,四、参考文献,David Chiang. (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In,Proceedings of the 43rd Annual Meeting of the ACL, pages 263-270.,F. Huang. S. Vogel and A. Waibel. (2004). Improving Named Entity Translation Combining Phonetic and Semantic Similarities. In,Proceedings of the HLT/NAACL2004.,Boston, MA, May,2004.,Feng, Donghui, Yajuan Lv, and Ming Zhou. 2004. A new approach for English-Chinese named entity alignment. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), pages 372-379.,Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2003. A statistical approach to Chinese-to-English back-transliteration. In Proceedings of the 17th Pacific Asia Conference on Language, Infor-mation, and Computation (PACLIC), Singapore, pages 310-318.,Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2004a. Bilingual named-entity pairs extrac-tion from parallel corpora. In Proceedings of IJCNLP-04 Workshop on Named Entity Recognition for Natural Language Processing Applications, Hainan Island, China, pages 9-16.,Franz Josef Och and Hermann Ney. (2002). Discriminative training and maximum entropy models for statistical machine translation. In,Proceedings of the 40th Annual Meeting of the ACL, pages 295-302.,Philipp Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical phrase-based translation. In,Proceedings of HLT-NAACL 2003, pages 127-133.,Taro Watanabe, Eiichiro Sumita and Hiroshi G. Okuno. (2003). Chunk-based Statistical Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, July 2003, pp. 303 - 310.,35,Thank you!,36,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!