中软译星翻译质量改进策略

上传人:陈** 文档编号:97449135 上传时间:2022-05-27 格式:DOCX 页数:6 大小:22.80KB
返回 下载 相关 举报
中软译星翻译质量改进策略_第1页
第1页 / 共6页
中软译星翻译质量改进策略_第2页
第2页 / 共6页
中软译星翻译质量改进策略_第3页
第3页 / 共6页
点击查看更多>>
资源描述
编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第6页 共6页中软译星翻译质量改进策略任燕 洪忻中国软件与技术服务股份有限公司 北京 100081renyan hongxin 摘要: 本文总结了译星翻译系统所采用的技术方法,以及译星系统针对一般篇章翻译所采取的一些策略。在技术方法中,介绍了译星系统的语言模型、结构设计、源文分析与译文生成思想。对于翻译策略,提出了基于词组的语言单元分析方法,以及语义结构优先语法结构的处理原则,从而加强了词组和语义在机器翻译中的地位与作用。同时还介绍了如何加强语义分析的具体实施方法。以这些翻译策略为改进原则,译星翻译系统的翻译质量得到了提高。其中,译星汉英系统的篇章翻译忠实度达到了54%,译星英汉系统篇章翻译达到了51%。关键词:词组、语义结构Transtar Approaches for Translation ImprovementYan Ren Xin HongChina National Software & Service Co.,Ltd No. 55 Xueyuan Nanlu, Haidian, Beijing 100081, ChinaAbstract: This paper summarizes the technical model in Transtar system. It also introduces some improving approaches of Transtar in its general-article translation. In terms of technical model, it introduces Transtar linguistic model, structural design, basic idea on source analysis and target generation. In terms of translation approach, it puts forward the idea of Phrase as Sentence Unit and Semantic Function as Analysis Preference. Therefore, it puts more stresses on phrase and semantics during machine translation. It also gives a brief introduction on how to conduct semantic function analysis. With these new approaches, Transtar has improved its translation performance. Transtar Chinese-English translation accuracy reaches 54%. And Transtar English-Chinese translation reaches 51%.Key words:Phrase, Semantic Function我国的机器翻译产品是于上个世纪八十年代正式投入市场的。当时推出机器翻译产品的目的和服务方向主要是为了满足科技类外文资料的大规模翻译的需求,而且当时直至以后相当长的阶段,机器翻译的目标都是以简单句为主,对于真正意义的“自然语言”,并没有做广泛而深入的研究与处理。其语言规则和分析算法的形成是根据一些简单的例句。这种作法使得一些商品化机译系统远远落后于用户的需要。实际上,用户对机译系统的需要包括了人类生活的各个方面的活动,如社会、政治、经济、科技、商务等等。这些方面的语言现象都是极其复杂的,经常出现好几十字甚至上百字的长句,用户希望机器翻译系统能正确地处理这样的长句,因此,我们认为,机器翻译系统的开发者首先要把自己摆在用户的位置上,力争对实际应用中所碰到的各种复杂长句都能给出高质量的翻译。以面向用户的实际需要,努力提高翻译质量作为基本的出发点,这几年我们在系统开发时从报章、杂志及书籍中搜集了各个方面的资料,建立了有关政治、经济、科技和商务各个方面的开发语料库。在分析这些语料库的基础上,形成了我们的语法、语义、规则框架,在这一过程中,我们尤其注意了框架的易调试性和可扩充性,这使得我们在开发过程中能通过大量调试不断地修正、完善和扩充我们的规则系统。具体来讲,译星系统的翻译目标,从过去的为科技类翻译服务,转向一般篇章翻译服务,从只处理简单句,向处理复杂句过渡。为此,译星系统在语言翻译质量的改进上,主要做了以下工作:1. 由于一般篇章涉猎范围几乎无所不包,译星系统大大扩充了其词汇量,新添词汇10余万条,词汇范围涉及科技、政治、历史、军事、文化等等,从而使得译星系统对不同内容的篇章信息的翻译能力得到加强。2. 由于一般篇章是纯粹的“自然语言”,而不是人为编写的简单句,因而必须使得译星系统对于真正意义的自然语言的处理能力得到加强。为此,译星系统对以往的规则体系做了相应的调整,使得译星的规则体系可以尽可能支持翻译自然语言。一、 译星系统的技术方法 中软译星机器翻译系统所采用的语言模型是转换模型,翻译目前采用基于规则的“转换法”,即从源语言的语法形式翻译成为目标语的语法形式。这种分析方法的分析重点是语言的语法结构和语义功能结构。“转换法”实际上是在源语言和目标语言之间做结构的转换。同时,由于人脑翻译更侧重于对语言意义(语义)的理解,为了提高译星机器翻译的人工智能程度,译星机器翻译技术又加强了对语言的语义分析,吸取了逻辑语义学(Logical Semantics)思想。这种技术就是在语法分析的基础上,融入大量的语义分析,即对源语言进行语法分析的同时,结合尽可能多的语义信息,从语言的意义上对语言做更深层次的分析,因而更接近人对语言的分析和理解过程,具有更高的人工智能程度。译星系统采用模块化的结构设计,系统由各自独立的模块组合而成。根据用户的不同使用领域、运行环境以及软硬设备的配置,可以组装成灵活多变的系统。由于这种设计特点,译星系统可以翻译不同领域、不同专业的文章。译星系统的知识库是由词典数据库和规则数据库两部分组成的。知识库完全独立于系统程序。词典数据库针对不同应用领域包含基础词典、专业词典和用户定义的专用词典。在源文分析方面,译星系统的基本思想是:利用词典的丰富语法和语义功能信息以及规则库中的语法逻辑规则及语义功能结构分析规则,可以分析出句子中的各个逻辑语段(名词语段,动词语段等),得出各个语段之间的逻辑关系,以及各个语段的功能描述。在译文生成方面,其实质是按目标语言的特点把源语言的语句还原回规范的目标语言语句,据此有序地输出各个语段,同时处理好多义词的义项选择,选用恰当的对译词,给出正确的翻译结果。这就是目标语生成的基本思想。二、 译星系统关键技术的改进语法规则体系(由语法逻辑规则及语义功能结构分析规则构成)和词典知识库是机器翻译的核心。机器翻译从源语言的分析到目标语言的生成,其整个过程是靠语法规则体系完成的,可以说,机器翻译的整个过程都是依靠语法规则体系的支持与控制,而机器翻译的质量高低也决定于语法规则体系的完善程度。在调试过程中,我们感到要提高复杂句的翻译质量,其关键还是要使简单句的翻译能够过关,只有在简单句的翻译质量有了保证后,才谈得上翻译复杂的句子,因为所有复杂的句子都是由简单的句子扩展、延伸出来的,只要简单句的语法关系处理好了,对复杂句的语法关系的处理就有了基础。具体来讲,机器翻译的关键点在于对源语言的分析,一般说只要对源语言的分析成功了,那么生成的目标语在语法上也会是正确的,尽管可能不符合目标语言的表达习惯。而要保证对源语言的分析正确,有两个要点要把握好,即语言单位的正确合成及语言单位之间关系的正确分析,因为任何一句话,都是由其语言单位及这些单位之间的关系构成的,因而只要把源语言的语言单位正确地找出来,并正确分析出这些单位之间的关系,就可以正确分析出源语言的语法结构。译星系统在改进翻译质量的过程中,抓住的就是这两个要点。以下我们详细分析我们是如何解决这两个要点的。1、 语言单位的分析: 语言单位通常分为词素、词、词组和句子四级单位。在译星翻译系统中,我们把语言单位的分析主要放在了提高词组即语段的合成能力,为此我们提出了以词组为基本单位的分析原则,即不同于把“词”作为语言分析的基本单位,我们认为词组应该被当作语言分析的基本单位。词组是介于词与句子中间的一级语言单位,如果没有把词组作为一个整体、一个单位来处理,在机器翻译的结果中,源文一个词组内的几个词就可能分散在译文各处,从而使得译文语序混乱。因此,我们认为,词组在语言分析中应该作为一个整体、一个基本单位,即词并不直接组成句子,而是先组成词组,然后再由词组直接组成句子。在机器翻译中应该尽可能加强词组合成能力。而一旦句子内的词组被正确分析出来,就可以大大减少计算机分析句子的难度,因为,一个句子可能有不少词,但是一旦词被合成为词组后,词组的数量就大大少于词的数量,这样由许多词组成的句子就被简化为由少数词组组成的句子,因而为计算机的分析减少了难度。以上是从简化、明晰句子结构的角度考虑的,即认为词组是句子的基本“语法单位”。其实,词组不仅是基本的语法单位,一个完整的词组还表达了一个完整的语义概念,如果词组在机器翻译中被打乱或拆散,那么它所表达的语义概念就被破坏了,因此从语义角度讲,也应该把词组作为分析句子的基本组成单位。另外,以词组为基本句子单位对于解决词的多义性问题也是最佳的解决方法,因为一个词在没有进入词组之前,其语法属性和语义属性都是不确定的,而一旦进入词组之后,由于词组内上下文的语义和语法信息的制约,其语法和语义的歧义是可以排除的,因而其语法和语义属性就可以确定下来。2、 语言单位之间关系的分析:如何正确处理语言单位之间的关系,我们认为对于语言单位的关系,即不能处理少了,也不能处理多了,因为一句话内部语言单位的关系是客观存在的,而不是人为构想的,如果该有的关系机器没有找出来,那么翻译出来的句子就会语法松散,如果没有的关系机器给添加了,那么翻译出来的句子在语法上会冗余冲突,因而能够不多不少的分析出语言单位的关系,翻译出来的目标语就会清晰明朗。为了尽可能将语言单位之间的关系正确分析出来,译星系统提出了语义功能结构优先语法结构的分析策略。这是由于从实质上讲,所谓“翻译”,包括机器翻译,其目的不是简单的进行语言形式的转换,而是在“意义等价”的前提下,进行从源语言到目标语言的转换。因而正确的传达“语义”才是翻译的真正目的,也是检验翻译质量的最终标准。对于机器翻译,在从源语言的语法形式转换到目标语言的语法形式的过程中,“语义”应该是处于中心地位。语法功能分析只是给出了语句中各个短语之间的语法联系,并没有给出他们之间的语义关系,我们通过功能结构的分析,可以分析出短语之间的内涵,从而能确定出比较准确的分析结果。在机器翻译中,对于“语义功能结构优先语法结构”的具体实施,我们认为可以从以下几个方面入手。1). 加强机器翻译系统中的词的语义分类,尤其是动词与名词,因为在任何语言中,动词和名词都是最主要的词,在机器翻译系统中,动词和名词语义分类的详细程度及合理程度直接影响机器翻译的质量。2). 在英语分析中,运用语义信息加强动词与介词、名词与介词的关系研究。英文的最大特点之一,就是其介词的运用极其重要和广泛。事实上,介词是英语语法结构的支柱,正确分析出英语介词的语法功能是提高机器翻译的一大关键。而英语介词的语法功能则主要体现在它与动词和名词的关系,而要正确分析出这种关系则主要靠动词和名词的语义信息。 在汉语分析中,汉语与英语不同,它的介词虽然也有,但运用的程度远不及英语。对于汉语,其分析难点之一在于词性歧义的排除上,因为如果不能正确分析出词的词性,句子结构就难以分析正确,翻译结果也往往是错误的。为此,我们首先建立针对汉语的词的语义分类系统,然后把这些语义信息运用到句子的分析中。使用“语义功能结构优先”策略,来排除歧义,而解决句子结构的分析难点。汉语分析的另一个难点是语句结构的歧义,而语句结构的歧义往往可以通过语义功能的区分来排除。下面通过两个实例进行具体的说明,在这两个例子里,语句中词的词性、语序完全一样,但它们却有截然不同的语法结构关系和语义功能结构关系:例1.工程师,老师更了解。利用词典提供的语义功能信息和规则库中的语法逻辑规则和语义功能结构分析规则系统可得结论:1. 名词“工程师”,“老师”通过逗号可以构成一个并列式名词语段;2. 此名词语段具有施事性,因此可以作为动词语段“更了解”的主语;所以对此系统给出了一个主谓结构。例2.这种原因,老师更了解。1. “原因”,“老师”不能通过逗号构成一个名词语段,它们在句子中是两个名词语段,各自有不同的功能;2. 名词“原因”不具备施事性,不能作为动词“了解”的施事者,只能作为它的受事者;3. “老师”具有施事性,可以作为“了解”的主语;所以系统的分析结论是这个句子是一种主谓结构,通过目标语生成模块,可以将译文还原为规范的主谓宾结构“老师更了解这种原因。”三、译星系统2005年863评测结果 l 汉英系统表1. 系统在测试集上的评测结果测试内容NISTBLEUGTMmWERmPERAdeqFleu对话翻译6.20970.17470.66770.67170.535157.4252.49篇章翻译6.21200.13610.64520.75600.572753.9747.28l 英汉系统 表2. 系统在测试集上的评测结果测试内容NISTBLEUGTMmWERmPERAdeqFleu对话翻译6.63850.26570.69170.61290.464470.4164.47篇章翻译8.26000.32460.76290.65190.419151.2242.47l 汉日系统表2. 系统在测试集上的评测结果测试内容NISTBLEUGTMmWERmPERAdeqFleu对话翻译6.98790.30690.76370.70710.477147.5637.28篇章翻译8.58580.37500.8265 0.64500.388644.74 35.29四、对今后评测工作的建议我们认为863中文信息处理与智能人机接口评测对于激励各参评单位的工作热情,加快各单位自身的基础性工作,确实有明显作用。为了使各单位能更好地达到863中文信息处理与智能人机接口评测的目的,我们建议863评测组能更快、更早地提供训练集,同时所提供的训练集应更加面向实用,选择实际用户所需求的领域和素材。同时,测试语料应面向实用的语言环境,例如,现在,在报章、报告中对标点符号的使用并不严格,往往很多句子只有逗号分隔符,所以对机器翻译系统的一个要求就是要识别每一个完整的句子,以往的评测资料对这一点重视不够。为了使863中文信息处理与智能人机接口评测能更好地促进各单位之间的交流,总结各单位经验,我们建议主办方可以免费公开以往在863资助下所完成的基础资源工作,使这些基础资源充分发挥作用。参考文献1王力,中国语法理论M,商务印书馆, 19512朱德熙,语法问答M,商务印书馆, 19853石安石,语义论M,商务印书馆, 19934陆俭明,八十年代中国语法研究A,商务印书馆, 19935王逢鑫,英语意念语法M,北京大学出版社,1996作者简介任燕,1962,女,硕士,高级工程师,中国软件与技术服务股份有限公司机器翻译事业部经理,从事汉英、汉日机器翻译开发。洪忻,1967,男,工程师,中国软件与技术服务股份有限公司机器翻译事业部,从事英汉机器翻译开发。第 6 页 共 6 页
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 工作总结


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!