AI11章自然语言理解.ppt

上传人:tia****nde 文档编号:12705832 上传时间:2020-05-14 格式:PPT 页数:48 大小:678KB
返回 下载 相关 举报
AI11章自然语言理解.ppt_第1页
第1页 / 共48页
AI11章自然语言理解.ppt_第2页
第2页 / 共48页
AI11章自然语言理解.ppt_第3页
第3页 / 共48页
点击查看更多>>
资源描述
2020/5/14,1,自然语言理解,主讲:付宏杰单位:信息工程学院,使用教材:人工智能基础高济朱淼良何钦铭高等教育出版社,第五章自然语言理解,2020/5/14,2,第五章:自然语言理解,基本概念当我们从事任何一项研究的时候,总要关注两方面的问题:一是是什么,为什么?二是做什么,怎么做?这恰恰是科学与技术紧密相关的两个方面。自然语言处理既是一项技术,又是一门科学。,2020/5/14,3,5.1基本概念,信息的主要载体语言语言的两种形式文字和声音文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组成的70以上(文字:70,图象:20;其它:10)q如何让计算机实现人们希望实现的语言处理功能?q如何让计算机真正实现海量的语言信息的自动处理和有效利用?,2020/5/14,4,5.1基本概念,q语言学(linguistics)是指对语言的科学研究。作为一门纯理论的学科,语言学在近期获得了快速发展,尤其从上个世纪60年代起,已经成为一门知晓度很高的广泛教授的学科。包括:历时语言学(diachroniclinguistics)(或称历史语言学(historicallinguistics)和共时语言学(synchroniclinguistics)、描述语言学(descriptivelinguistics)、对比语言学(contrastivelinguistics)、结构语言学(structurallinguistics)等等。,2020/5/14,5,5.1基本概念,q语音学(phonetics)研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。包括:(1)发音语音学(articulatoryphonetics),研究发音器官如何产生语音;(2)声学语音学(acousticphonetics),研究口耳之间传递语音的物理属性;(3)听觉语音学(auditoryphonetics),研究人通过耳、听觉神经和大脑对语音的知觉反应。,2020/5/14,6,5.1基本概念,根据不同的研究方法,语音学又分为:(a)一般语音学(generalphonetics):对语音发音、声学或知觉的一般研究。与语言学的分析目的没有什么关系。(b)实验语音学(experimentalphonetics):对具体语言语音特点的研究。语言学研究的一部分,有人甚至认为是语言学不可或缺的基础。,2020/5/14,7,5.1基本概念,问题:语音学究竟是一门独立的学科还是应视为语言学的一个分支呢?复数的语言科学(linguisticsciences)语言学和其它学科的交叉产生了许多语言学的新分支,包括纯理论的和应用性的,如人类语言学(anthropologicallinguistics)、计算语言学(computationallinguistics)、生物语言学(biolinguistics)、心理语言学(psycholinguistics)、教育语言学(educationallinguistics)和社会语言学(sociolinguistics)等等。,2020/5/14,8,5.1基本概念,q计算语言学(ComputationalLinguistics)计算语言学是利用电子数字计算机进行的语言分析。虽然许多其它类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据例如建立语音、词、词元素的搭配以及统计它们的频率。大不列颠百科全书,2020/5/14,9,5.1基本概念,q计算语言学(ComputationalLinguistics)是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问题。已开发的领域包括自然语言处理(naturallanguageprocessing,NLP),言语合成,言语识别,自动翻译,编制语词索引,语法的检测,以及许多需要统计分析和领域(如文本考释)。现代语言学词典戴维.克里斯特尔,1997,2020/5/14,10,5.1基本概念,q自然语言处理或称自然语言理解(naturallanguageunderstanding,NLU),人工智能研究的重要内容之一。自然语言处理(naturallanguageprocessing,NLP)就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。-冯志伟自然语言的计算机处理,2020/5/14,11,5.1基本概念,近几年来,自然语言处理研究得到了前所未有的重视和长足的进展,并逐渐发展成为一门相对独立的学科而倍受关注,而且自然语言处理技术不断与语音识别(speechrecognition)、语音合(speechsynthesis)等语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学”、“自然语言处理”或“自然语言理解”这些术语时,往往默认为同一个概念。甚至有些专著中干脆直接这样解释:计算语言学也称自然语言处理或自然语言理解刘颖,2002。,2020/5/14,12,5.2关于“理解”标准,q如何判断计算机系统的智能?计算机系统的表现(act)如何?反应(react)如何?相互作用(interact)如何?与有意识个体(人)比较如何?图灵(Turing)设计的“模仿游戏”,即图灵实验(Turingtest),2020/5/14,13,5.3自然语言理解研究的内容,q按照应用目标划分v机器翻译(Machinetranslation,MT):实现一种语言到另一种语言的自动翻译。应用:文献翻译、网页翻译和辅助浏览等。实用系统:Systran()36种语言对,20个专门领域。,2020/5/14,14,5.3自然语言理解研究的内容,机器翻译现状和对机器翻译的认识机器翻译研究在过去的五十多年曲折发展经历中,无论是它给人们带来的希望还是失望我们都必须客观地看到,机器翻译作为一个科学问题在被学术界不断深入研究的同时,企业家们已经从市场上获得了相应的利润。在机器翻译研究中实现人机共生(man-machinesymbiosis),人机互助比追求完全自动的高质量的翻译(FullAutomaticHighQualityTranslation,FAHQT)更现实、更切合实际Hutchins,1995我们需要的是计算机帮助人类完成某些翻译工作,而不是完全替代人,人与机器翻译系统之间应该是互补的关系,而不是相互竞争Hutchins,2001,2020/5/14,15,5.3自然语言理解研究的内容,用机器翻译的个别例子来批评甚至诋毁机器翻译研究是不适当的。例1:Thespiritiswilling,butthefleshisweak.(心有余,而力不足。)精神是愿意的,但骨肉是微弱的。(Systran)English-Russian-English:Thewineisgood,butthemeatisspoiled.(酒是好的,肉是馊的。),2020/5/14,16,5.3自然语言理解研究的内容,例2:Outofsight,outofmind.眼不见,心不烦。)出于视域,在头脑外面。(Systran)FromEnglishtoRussian:又瞎又疯。,2020/5/14,17,5.3自然语言理解研究的内容,v信息检索(Informationretrieval):信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。面向多语言的信息检索叫做跨语言信息检索(Cross-language/Trans-lingualinformationretrieval)。代表系统:Google:百度:,2020/5/14,18,5.3自然语言理解研究的内容,v自动文摘(Automaticsummarization/Automaticabstracting):将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。应用:电子图书管理、情报获取等v文档分类(Documentcategorization):文档分类也叫文本自动分(Textcategorizationclassification)或信息分类(Informationcategorization/classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。应用:图书管理、内容管理、信息监控等,2020/5/14,19,5.3自然语言理解研究的内容,v问答系统(Question-answeringsystem):通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统(man-computerdialoguesystem)。应用:人机对话系统、信息检索等,2020/5/14,20,5.3自然语言理解研究的内容,信息过滤(Informationfiltering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息应用:网络有害信息过滤、信息安全等语言教学(Languageteaching):借助计算机辅助教学工具,进行语言教学、操练和辅导等。应用:语言学习等,2020/5/14,21,5.3自然语言理解研究的内容,v文字识别(Characterrecognition):通过计算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可以处理的电子文本。应用:文字输入、识别等文字编辑和自动校对(Automaticproofreading):对文字拼写、用词、甚至语法、文档格式等进行自动检查、校对和编排。应用:排版、印刷和书籍编撰等,2020/5/14,22,5.3自然语言理解研究的内容,v语音识别(speechrecognition):将输入计算机的语音信号识别转换成书面语表示。语音识别也称自动语音识别(automaticspeechrecognition,ASR)。应用:文字录入、人机通讯、语音翻译等等。困难:大量存在的同音词、近音词、集外词、口音等等。例如:输入:美欧贸易摩擦升级识别结果:美欧贸易摩擦生机,2020/5/14,23,5.3自然语言理解研究的内容,极端情况下的同音字(词)现象施氏食狮史(赵元任)石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮,十时,适十狮适市,是时,适施氏适市,施氏视是十狮,拭矢试,使是十狮逝世,适石室,石室湿,氏使侍拭石室,石室拭,始食是十狮尸,始识是十狮尸,实十石狮尸,试释是事。,2020/5/14,24,5.3自然语言理解研究的内容,文语转换(text-to-speech):将书面文本自动转换成对应的语音表征。应用:朗读系统、人机语音接口等等。说话人识别/认同/验证(speakerrecognition/identification/verification):对一言语样品做声学分析,依此推断(确定或验证)说话人的身份。应用:信息安全、防伪等等。,2020/5/14,25,5.4自然语言理解研究的基本问题,q形态学(Morphology)问题:研究词是如何由意义的基本单位词素(morphemes)构成的。词素(morphemes)词(word)?词根、前缀、后缀、词尾例:人,蜈蚣老虎老虎;图书馆图书馆re+ex+portreexport,2020/5/14,26,5.4自然语言理解研究的基本问题,q语义学(Semantics)问题:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。这句话说了什么?(1)苹果不吃了。(2)这个人真牛。(3)这个人眼下没些什么,那个人嘴不太好。,2020/5/14,27,5.4自然语言理解研究的基本问题,q语用学(Pragmatics)问题:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。从狭隘的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境。相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义。为什么要说这句话?(1)火,火!(2)A:看看鱼怎么样了?B:我刚才翻了一下。,2020/5/14,28,2020/5/14,29,5.5自然语言理解面临的困难,v语义歧义他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。生活报1994.11.13.第六版,2020/5/14,30,q自然语言中存在未知的语言现象,v新的词汇例如:“非典”、专业术语、外来语、人名等v新的含义例如:窗口、奔腾、农民等v新的用法和语句结构等尤其在口语中或部分网络语言中,不断出现一些“非规范的”新的语句结构。,2020/5/14,31,5.6不同语言的差异,q不同的语系孤立语(分析语):形态变化少,语法关系靠词序和虚词表示,如汉语。曲折语:用词的形态变化表示语法关系,如英语。黏着语:词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语。,2020/5/14,32,5.6不同语言的差异,q不同的语言单位汉语:汉字(单音节、无空格)英语:英语(多音节、有空格)日语:字和词(多音节、无空格),2020/5/14,33,5.6不同语言的差异,q不同的语法v例如:(1)二楼1三号房间2桌子3上有一本书。(2)Thereisabookonthedesk3inRoom32atthe2ndfloor1.q语义的差异,2020/5/14,34,5.7自然语言理解研究的基本方法,理性主义与经验主义方法的哲学分野之一:对语言知识来源的不同认识理性主义认为:人的很大一部分语言知识是与生俱来的,由遗传决定的。Chomsky的内在语言官能(innatelanguagefaculty)理论被广泛接受。人工编汇初始语言知识推理系统自然语言处理系统。,2020/5/14,35,5.7自然语言理解研究的基本方法,经验主义认为:人的语言知识是通过感观输入,经过一些简单的联想(association)与通用化(generalization)的操作而得到的。大量的语言数据中获得语言的知识结构。,2020/5/14,36,5.7自然语言理解研究的基本方法,q理性主义与经验主义方法的哲学分野之二:研究对象的差异理性主义方法:研究人的语言知识结构(语言能力,languagecompetence),实际的语言数据(语言行为,languageperformance)只提供了这种内在知识的间接证据。经验主义方法:直接研究这些实际的语言数据。,2020/5/14,37,5.7自然语言理解研究的基本方法,q理性主义与经验主义方法的哲学分野之三:运用不同的理论理性主义:通常基于Chomsky的语言原则principles),通过语言所必须遵守的一系列原则来描述语言。经验主义:通常是基于Shannon的信息论。,2020/5/14,38,5.7自然语言理解研究的基本方法,理性主义:通常通过一些特殊的语句或语言现象的研究来得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中并不常见。经验主义:偏重于对大规模语言数据中人们所实际使用的普通语句的统计。,2020/5/14,39,5.7自然语言理解研究的基本方法,q理性主义方法与经验主义方法的融合符号智能计算智能理性主义研究方法符号处理系统经验主义研究方法基于语言数据的计算方法理性主义与经验主义的合谋融合方法,2020/5/14,40,5.8自然语言理解的发展和研究现状,q自然语言理解的发展萌芽期:1946年世界上第一台计算机出现,自然语言理解的研究起始于机器翻译。发展期:自1966年美国自动语言处理咨询委员会(ALPAC)提出ALPAC报告。研究重点转写其它分支:人机接口、对话系统、信息检索等。基本方法:基于规则分析方法。繁荣期:自20世纪80年代末期以后,基于语料库的统计方法引入自然语言处理。,2020/5/14,41,5.8自然语言理解的发展和研究现状,q基本研究现状v实用或半实用的技术已经得到广泛运用文字处理器文字输入网络搜索引擎辅助翻译、电子词典语音合成,2020/5/14,42,5.8自然语言理解的发展和研究现状,v许多技术离真正实用的目标还有相当的距离,若干理论问题有待于进一步深入研究现有模型和方法的改进期待新的理论方法v许多新的研究方向不断出现网络内容管理、信息监控、有害信息过滤等语音文摘生成,2020/5/14,43,5.9参考文献,q专著1瓮富良,计算语言学导论,中国社会科学出版社,1998。2冯志伟,自然语言的计算机处理,上海外语教育出版社,1996。3姚天顺,自然语言理解一种让机器懂得人类语言的研究,清华大学、广西科技出版社,2002(第二版)。4赵铁军,机器翻译原理,哈尔滨工业大学出版社,2000。,2020/5/14,44,5.9参考文献,5JamesAllen,NaturalLanguageUnderstanding.TheBenjamin/CummingsPublishingCompany,Inc.1995.6ChristopherD.Manning,HinrichSchute,FoundationsofStatisticalNaturalLanguageProcessing.TheMITPress.1999.7RensBod,JenniferHayetal.ProbabilisticLinguistics.TheMITPress.2003.,2020/5/14,45,5.9参考文献,q期刊1)ComputationalLinguistics2)MachineTranslation3)ComputerSpeechandLanguage4)ComputationalLinguisticsandChineseLanguageProcessing5)ACMTrans.onAsiaLanguageProcessing6)IEEETrans.onSpeechandAudioProcessing,etc.7)中文信息学报8)计算机学报、软件学报、计算机研究与发展,2020/5/14,46,5.9参考文献,q会议论文集1ProceedingsofACL(AnnualMeetingoftheAssociationforComputationalLinguistics)2ProceedingsofCOLING(Inter.Conf.onComputationalLinguistics)3ProceedingsofIJC-NLP(Inter.Conf.onNaturalLanguageProcessing)4全国计算语言学联合学术会议论文集,2020/5/14,47,本章小结,q对自然语言理解的基本认识基本概念研究内容及面临的问题研究方法参考文献,2020/5/14,48,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!