资源描述
2020/4/27,1,自然语言理解(NaturalLanguageUnderstanding,NLU),也称为计算语言学(ComputationalLinguistics),是研究如何利用计算机来理解和生成自然语言的理论和方法它是人工智能三大研究方向之一;是一门自然科学和社会科学交叉的学科,特别是计算机科学、数学、语言学、心理学和哲学相互交叉的科学。,自然语言理解与机器翻译,2020/4/27,2,自然语言就是我们生活中使用的语言,如汉语、英语、日语等等它是相对于人工设计的形式化的计算机语言如Basic、Fortran、C、Lisp等等而言的随着社会信息化程度的提高,人们越来越重视NLU技术的研究其研究成果已经在机器翻译、信息检索、自然语言人机接口等重要领域得到应用。机器翻译(MachineTranslation,MT)是自然语言处理中的一个最早的研究分支,它是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。,2020/4/27,3,机器翻译和自动文摘,2020/4/27,4,机器翻译内容提要,机器翻译定义机器翻译的发展历史机器翻译现状机器翻译方法机器翻译发展趋势机器翻译应用系统类型结语,2020/4/27,5,什么是机器翻译,机器翻译(machinetranslation)是使用电子计算机把一种自然语言(源语言,sourcelanguage)翻译成另外一种自然语言(目标语言,targetlanguage)的一门学科这门新学科同时也是一种新技术.它涉及到语言学、计算机科学、数学等许多部门,是非常典型的多边缘的交叉学科,2020/4/27,6,一些研究领域,-在语言学中,机器翻译是计算语言学的一个研究领域-在计算机科学中,机器翻译是人工智能的一个研究领域-在数学中,机器翻译是数理逻辑和形式化方法的一个研究领域.,2020/4/27,7,机器翻译的发展历史,机器翻译的发展经历了兴起、低落和重新兴盛的曲折历程。在昌盛的时候,人们为研究成果的精彩纷呈和应用的成功而欢呼,即使在低潮时,人们也在不断地反思,为重新发展积蓄力量。国外的状况国内的状况,2020/4/27,8,国外状况(1),机器翻译最早开始于美国,自本世纪4O年代电子计算机诞生之日起就开始了将计算机应用于语言翻译的探索。1949年,美国工程师WWeaver散发了题为“翻译”的备忘录,对机器翻译的重要性及可行性进行了论证。Weaver首先提出了用统计方法进行机器翻译的想法。1952年,第一次全美机器翻译会议召开。,2020/4/27,9,国外状况(2),1954年机器翻译创刊,同年,Georgeton(乔治城大学)大学成功研制了第一个机译系统,由此机器翻译掀起热潮。1966年,Barlill在美国全国科学院的ALPAC报告中指出:机器翻译速度慢,准确率差,比人工翻译费用高得多,在近期或可以预见的未来,开发出实用的机器翻译系统是不可能的。各部门纷纷停止了对机器翻译研究的经费支持,从而导致机译走向低潮。,2020/4/27,10,国外状况(3)-低潮期机译研究,GETA(Grenoble-France)在BernardVauquois教授领导下,开发了基于配价语法的机器翻译系统,研制了机器翻译专用软件ARIANE,推动了逻辑程序设计的研究。TAUM-METEO(UniversityofMontreal,从1977开始研制了实用性机器翻译系统(English-French,)TAUM,翻译天气预报文献,在技术上,TAUM继承了GETA的机器翻译方法。SYSTRAN:这个系统在Apollo-Soyuz空间研究方面承担了机器翻译的任务,立下汗马功劳,后来被EEC正式采用,作为重要的翻译工具。,2020/4/27,11,2020/4/27,12,国外状况(4)-复苏,1970年代末,机器翻译进入了它的第三个时期-繁荣期(1976年1980年代末)。繁荣期的最重要的特点,是机器翻译研究走向了实用化,出现了一大批实用化的机器翻译系统,机器翻译产品开始进入市场,变成了商品,由机器翻译系统的实用化引起了机器翻译系统的商品化。,2020/4/27,13,机器翻译的平台期,整个1990年代,机器翻译进入了一个平台期基于规则的机器翻译方法理论上无法突破在应用上,机器翻译由于受到翻译质量制约,难于进一步扩展,反而是基于翻译记忆思想的计算机辅助翻译获得了巨大进展,2020/4/27,14,就在机器翻译进入平台期的时候,一些新的因素也在萌芽基于实例的机器翻译思想基于统计的机器翻译思想互联网的出现大大促进了机器翻译的需求,2020/4/27,15,机器翻译新热潮,1999年开始,出现了一个机器翻译的新热潮,其最主要的特征是统计机器翻译方法开始占据主导地位,机器翻译的质量出现了一个跨越式的提高,2020/4/27,16,机器翻译的新热潮,1980年代末IBM首次开展统计机器翻译研究年IBM首次提出统计机器翻译的信源信道模型1993年IBM提出五种基于词的统计翻译模型IBMModel1-51994年IBM发表论文给出了Candide系统与Systran系统在ARPA评测中的对比测试报告1999年JHU夏季研讨班重复了IBM的工作并推出了开放源代码的工具2001年IBM提出了机器翻译自动评测方法BLEU2002年NIST开始举行每年一度的机器翻译评测2002年第一个采用统计机器翻译方法的商业公司LanguageWeaver成立,2020/4/27,17,机器翻译新热潮,2002年FranzJosefOch提出统计机器翻译的对数线性模型2003年FranzJosefOch提出对数线性模型的最小错误率训练方法2004年PhilippKoehn推出Pharaoh(法老)标志着基于短语的统计翻译方法趋于成熟2005年DavidChiang提出层次短语模型并代表UMD在NIST评测中取得好成绩2005年Google在NIST评测中大获全胜,随后Google推出基于统计方法的在线翻译工具,其阿拉伯语-英语的翻译达到了用户完全可接受的水平,目前已经可以支持40多种语言的互译2006年NIST评测中USC-ISI的串到树句法模型第一次超过Google(仅在汉英受限翻译项目中),2020/4/27,18,2020/4/27,19,国内状况,我国机器翻泽的研究从一开始就得到了国家的高度重视。早在1956年它便以“机器翔译自然语言的数学理论”列入了当时的科学发展纲要。以后则列为“六五”、“七五”。以及“863”等重大科研项目但因为“文革”有过1O年的停滞。,2020/4/27,20,国内状况,7O年代中期,我国机器翻译研究从停滞走向了复苏8O年代中期到9O年代初期产生丁两个在中国机译史上具有重要意义的实用化系统它们分别是军事科学院研制的”KYl”英汉机译系统和中科院计算所研制的”863一IMT”英汉机译系统,2020/4/27,21,国内状况,90年代初期至今,中国的机器翻译走入了快速发展的时期,出现了许多商品化系统。近期的机译系统大体上有这样一些持点:多数配有大规模的多种领域的专业词典,多数能在网上运行,有相当不错的方便用户的界面。新的应用领域的机器翻译研究,如对话翻译系统的研发等也已开始,2020/4/27,22,机器翻译现状(面临问题),1、影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:原文:Thank-younotesareheart-warming.机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。,2020/4/27,23,在结构层面上,常见的结构歧义有and(和)结构,如nicegirlsandboys,它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。,2020/4/27,24,2、人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。,2020/4/27,25,例1,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。原文:“ButthisbeautyofNaturewhichisseenandfeltasbeauty,istheleastpart.”BeautyRalphWaldoEmerson机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。,2020/4/27,26,例2:美国著名作家马克.吐温早期优秀小说竞选州长中的原句。原文:Ihauleddownmycolorsandsurrendered.RunningForGovernorMarkTwain机器译文:我沿着我的颜色拖并且投降。张有松译文:我偃旗息鼓,甘拜下风。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工修改、加工。,2020/4/27,27,机器翻译的方法,机器翻译的基本过程机器翻译的总任务可以描述为:将一种语言(源语言)的文本送入计算机,通过计算机程序生成另一种语言(目标语言)的文本,且源语言文本与目标语言文本具有相同的含义。机器翻译系统的类型很多,采取的策略和技术也有差别,但它们的基本工作过程大体上是一致的。机器翻译的第一步是在不同层次上分析源文本,而后是目标语文本的生成这两个步骤是机器翻译系统基本实现过程中的两个主要组成部分。,2020/4/27,28,机器翻译的四种实现方法,基于分析和转换的机器翻译方法基于中间语言的翻译方法基于统计的机器翻译方法基于实例的机器翻译方法,2020/4/27,29,基于分析和转换的机器翻译方法,机器翻译系统的操作过程与人做翻译过程一样,有检索、分析、转换和生成的主要四个阶段这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机制,2020/4/27,30,基本原理一般情况下,分析以句法为主、语义为辅,正确的句法结构转换加正确的词汇译文可以从源语言向目标语言传递完整的正确信息。因此,以句法结构转换附加一定的语义信息,能够构成转换的基本层次,就标准的机器翻译系统来说,句子和短语层次的结构转换是机器翻译转换部分的研究重点,这方面一般采用一下产生式方式的转换规则形式。,2020/4/27,31,转换规则形式:S:S1+S2+SiT1+T2+Tj:T上式理解为S是SL(源语言)的某个待翻译单位(句子、短语等等),S1S2是S中的下一级组成单位;对于S,如果满足条件,则TL(目标语言)中有T1Tj译文构成了相应的等价物T。上述方法称为基于句法的转换方法,因为S1+S2+Si一般来说就是源语言的的句法结构表示;也可以称为直接转换方法,因为对于每个源语言的翻译组块,都马上给出一个目标语言组块与之对应。应该说,这种转换方法符合人的直觉认识,也能够实现。,2020/4/27,32,基于中间语言的翻译方法,基于中间语言的翻译方法是对源语言进行分析以后产生一种称为中间语言的表示形式,然后直接由这种中间语言的表示形式生成目标语言。所谓中间语言就是自然语言的计算机表示形式的系统化,它试图创造出一种独立于各种自然语言,同时又能表示各种自然语言的人工语言。,2020/4/27,33,基于中间语言的机器翻译方法的优势是无需一种语言到另一种语言的一一转换,对于多语种的翻译系统可以节约大量的转换知识的手工获取工作量。假如有N种语对需要相互翻译,只要有2N个分析和生成模块就够了,其中一半是源语言分析模块,输入为原文,输出以IL表示;另一半是目标语言生成模块,输入为IL表示,输出为目标语言译文。,2020/4/27,34,然而,中间语言的机器翻译方法也常遭到怀疑。因为是否能够构造出表示各种不同的自然语言语法、语义的中间语言至少目前还是未知数。此外,中间语言能不能把各种语言的所有特征保留下来,又能很好生成对应的各种语言也是问题所以,构造中间语言是一个巨大、复杂的工程,还包含许多理论研究,迄今为止的探索还没有好的答案。,2020/4/27,35,基于统计的机器翻译的方法,它的基本原理是实现源语言词汇到目标语言词汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用大规模的双语语料库作为基础,对源语言和目标语言词汇的对应关系进行统计,根据统计规律输出译文。,2020/4/27,36,这种方法没有使用语言知识,主要特征是概率统计与随机过程的方法成为了分析和生成过程的唯一方法。它的主要内容是双语句对的对齐,通过词汇同现的可能性来计算一种语言的一个词映射到另一种语言的一个词(或两个、零个词)的概率。应该说,基于统计的机器翻译方法的出现改变了机器翻译研究的面貌,,从而开始了机器翻译研究的新阶段。,2020/4/27,37,基于实例的机器翻译方法,建立机器翻译系统需要大量的知识,在基于转换和基于中间语言的机器翻译方法中,知识按一定规则译成代码,这既耗时花费也大。此外,知识获取瓶颈阻碍了机器翻译的快速发展,这是早期机器翻译面临的重大难题。,2020/4/27,38,日本机器翻译专家Nagao在80年代提出了一种新方法,用已经存在的翻译实例(双语文本)作为知识源,这种方法称为基于类比的翻译,后来普遍称为基于实例的翻译。基于实例的思想己被广泛的采用,既用于机器翻译的设计,也用于机器翻译不同处理阶段的实现中。用不断积累的已经译好的文本作为机器翻译的样本的思想,也是具有吸引力的。,2020/4/27,39,基于实例的机器翻译方法通过结构化的翻译例子直接把源语言的短语和句子与目标语言的短语和句子对应起来。方法的不同使得处理步骤或多或少,但都必须实现源语言到目标语言的转换,其映射关系或者是词到词,或者是短语或句子到与之相应的等价物,或者是一棵句法树到另一棵句法树。,2020/4/27,40,基于实例的机器翻译(EBMT)的实现过程简单概述如下:给定源语言输入句子S,在双语语料库中匹配查找一个最相近的句子S,则S的译文就被接受为的译文。翻译的过程一般就是查找和复现相似的例子,发现和记起特定的源语言表达或相似的表达在以前是如何翻译的,把以前的翻译实例作为主要知识源,2020/4/27,41,机器翻译发展趋势,机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的塔利班俘虏。如果用人来做翻译,由于语言不通,即使翻译被塔利班收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。”,2020/4/27,42,因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。,2020/4/27,43,机器翻译应用系统类型,按应用方式划分信息分发型MTfordissemination要求高质量,不要求实时采用人机互助,或者受限领域、受限语言等方式提高翻译质量信息吸收型MTforassimilation不要求高质量,要求方便、实时翻译浏览器、便携式翻译设备、,2020/4/27,44,按应用方式划分信息交流型MTforinterchange不要求高质量,通常要求实时,语言随意性较大语音翻译、网络聊天翻译、电子邮件翻译信息存取型MTforinformationaccess将机器翻译嵌入到其他应用系统中跨语言检索、跨语言信息抽取、跨语言文摘、跨语言非文本数据库的检索,2020/4/27,45,结语,目前,机器翻译的水平较50年前有了很大的提升,但要彻底克服语言障碍,使MT投入实际应用,还需数学家、计算机专家、人工智能专家、语言学家、心理学家、认知学家、逻辑学家等通力合作,共同努力,从理论研究和应用开发上有所突破,相信机器翻译会到达光明的彼岸。,2020/4/27,46,自动文摘,2020/4/27,47,自动文摘作用,自动文摘技术的作用是生成给定原文的中心内容,或把所需要的内容从文章中自动抽取出来,并用同于或不同于原文的句子表示出来。其软件系统称之为自动文摘系统。,2020/4/27,48,自动文摘引言,自动文摘技术的研究开始于20世纪50年代末,IBM公司的Luhn首次设计了一个自动文摘系统。进入90年代以来,随着Internet的开通,自动文摘引起了世人的极大关注,越来越多的学者纷纷开始从认知心理学、情报科学、计算语言学等各个方面展开研究,提出了实现自动文摘的新的思路和方法,自动文摘的研究进入了前所未有的繁荣期。,2020/4/27,49,自动文摘的两个阶段,基于统计的机械文摘-机械式自动文摘基于意义的理解文摘-理解式自动文摘,2020/4/27,50,2020/4/27,51,机械文摘基本原理,机械文摘是指根据文章的外在特征抽取原文中的部分句子作为摘要。机械文摘的基本原理是:文章中有一些能够反映文章主题的词,可以称为有效词(Significantword),有效词集中的句子就是能概括文摘主旨的句子,如关键句(KeySentence),关键句集构成摘要。严格地说,根据这种方法提取出来的文本只能称为摘录,而不是真正意义上的文摘。,2020/4/27,52,机械文摘的生成通常是通过分析文本的六种形式特征来确定的。这六种特征是:词频、标题、位置、句法结构、线索词、指示性短语等,它们从不同的角度揭示文本主题。由此也可以看出,机械文摘所使用的方法主要是依靠统计(如统计词频)和经验(如分析关键词关键句出现的位置)获得的。,2020/4/27,53,通过传统的机械文摘技术给出的文摘虽然通常能够抓住文献的关键所在,并用作者的原句加以概括,而且获得了一定的实际应用,但它的缺点也是明显的,其中最为突出的有以下几个方面:摘要的质量不稳定,缺乏句问的连贯性,有时摘要内容冗余等。,2020/4/27,54,基于上述机械文摘的缺陷,人们探索了利用自然语言理解技术进行自动文摘的方法。由于受到知识不足的限制,基于理解的文摘技术只能适用于某个狭窄的领域,如用于处理有军事情况的新闻等,但摘要的质量明显优于传统文摘。,2020/4/27,55,理解文摘,基于理解的文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。该方法与机械文摘的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。,2020/4/27,56,基本原理,基本原理是:在某一特定领域的文章中,必然存在着特定的信息焦点,即读者感兴趣的内容,如军事情况报道必然包含有关的地点、人数、伤亡情况等内容。利用语言学手段将文章中代表这些信息焦点的文字识别出来,用话语加以组织即可形成一篇连贯的高质量的文摘。,2020/4/27,57,理解文摘过程,基于理解的文摘方法实现主要分以下几步骤:(1)文本预处理:借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构树。(2)语义分析:运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义标示。,2020/4/27,58,(3)语用分析和信息提取:更具知识库中预先存放的领域知识在上下文中进行处理,并将提取出来的关键内容存入一张信息表。(4)文本生成:将信息表中的内容转换为一段完整连贯的文字输出。,2020/4/27,59,理解文摘优缺点分析,基于理解的自动摘要采用了复杂的自然语言理解和生成技术,对文献意义的把握更准确一些,因此摘要质量较好,具有简洁精练、全面准确、可读性强等优点。理解摘要不仅要求计算机具有自然语言理解和生成能力,还需要表达和组织各种背景、领域知识。这些工作的难度十分巨大,迄今为止进展甚微。因此,理解摘要方法的使用比较少见,仅限于非常狭小的应用领域中。,2020/4/27,60,理解文摘应用举例,基于理解的文摘方法需要较成熟的人工智能技术和大型的专家知识库,对文章进行深层的句法和语义分析。典型的理解式文摘方法使用预定制的模板,从原文中提炼重要的信息填入模板中,从而生成摘要。采用这种方法的系统包括FRUMP(DeJong,1982),TOPIC(Hahnetal,1985),SCISOR(Rau,1988)和SUMMON(McKeownetal,1995)等。,2020/4/27,61,哈尔滨工业大学研制了一个基于理解的军事领域自动文摘实用系统(MilitaryAreaTextAutomaticAbstractSystem,MATAS)。该系统考虑了句子之间的语义联系,但是系统不能自动判断段落的文体,需要人工干预4。北京邮电大学研究实现了面向新闻报道的News系统及面向神经网络学习算法领域的Ladies自动文摘系统。,2020/4/27,62,自动文摘面临的研究,(1)基于理解的文摘系统大多受限于特定领域,难以移植,发展空间不大。(2)需要加强对概念的研究,形成一套以概念为核心的自然语言分析体系。(3)多文档文摘是亟待研究的一个课题。(4)便携式设备和移动电话的发展为自动文摘的应用提供了新的机遇和挑战。(5)文摘及自动文摘系统的评价问题尚需进一步研究。,2020/4/27,63,Thankyou!,
展开阅读全文