资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,a单击此处编辑母版文本样式,a第二级,a第三级,a第四级,a第五级,*,合肥工业大学 人工智能与数据挖掘研究室,*/2,目录,第一章,绪论,第二章,知识表示,第三章搜索技术,第四章推理技术,第五章机器学习,第六章专家系统,第七章自动规划系统,第八章 自然语言理解,第九章 智能控制,第十章 人工智能程序设计,8.1,语言及其理解的一般问题,8.1.1,语言和语言理解,1.,语言的构成,语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语,(,如哑语和旗语,),等。,语言使用于传递信息的表示方法、约定和规则的集合。,语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的,语法,与,语义,规则。,语言由语音、词汇和语法构成。,语言的基本属性:,语音,和,文字,8.1,语言及其理解的一般问题,8.1.1,语言和语言理解,语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。,语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。,语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则。语法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则。造句法则是用词或词组造句的规则。,8.1,语言及其理解的一般问题,8.1.1,语言和语言理解,另一方面,语言是音义结合的,每个词汇有其语音形式。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素,。,语言,词汇,语法,词,熟语,词素,词法,句法,构形法,构词法,造句法,词组构造法,8.1,语言及其理解的一般问题,8.1.1,语言和语言理解,2.,语言的理解,微观:语言理解是指从自然语言到机器,(,计算机系统,),内部之间的一种映射。,宏观:语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:,(,1,)回答有关提问;,(,2,)提取材料摘要;,(,3,)不同词语叙述;,(,4,)不同语言翻译。,8.1,语言及其理解的一般问题,8.1.1,语言和语言理解,对自然语言的理解却是一个十分艰难的任务。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。,自然语言理解的困难是由下列,3,个因素引起的:,(,1,)目标表示的复杂性;,(,2,)映射类型的多样性;,(,3,)源表达中各元素间交互程度的差异性。,自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。,8.1,语言及其理解的一般问题,8.1.1,语言和语言理解,语言理解包括下列几个方面的内容:,(,1,)能够理解句子的正确词序规则和概念,又能理解不含规则的句子。,(,2,),知道词的确切含义、形式、词类及构词法。,(,3,)了解词的语义分类以及词的多义性和歧义性。,(,4,)指定和不定特性及所有,(,隶属,),特性。,(,5,)问题领域的结构知识和时间概念。,(,6,)语言的语气信息和韵律表现。,(,7,)有关语言表达形式的文学知识。,(,8,)论域的背景知识。,8.1,语言及其理解的一般问题,8.1.2,自然语言理解研究的进展和发展趋势,1.,研究进展,机器翻译是自然语言理解最早的研究领域。,(,1,)萌芽时期(,20,世纪,40,年代,60,年代中期),1949,年 俄,-,英和英,-,俄文字的机器翻译,1956,年,N.Chomsky,形式语言和转换生成语法理论,1966,年 美国科学院报告,否定性结论,(,2,)复苏发展时期(,20,世纪,60,年代后期,80,年代中期),关键词匹配技术;句法,-,语义分析技术。,MIT,的,SIR,系统、,ELIZA,系统,8.1,语言及其理解的一般问题,8.1.2,自然语言理解研究的进展和发展趋势,句法方面理论研究成果:约束管辖理论、扩充转移网络、词汇功能语法、功能合一语法、广义短语结构语法、句法分析算法、,语义分析方面:格语法、语义网络、优选语义学、蒙塔格语法、,进入,80,年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。,8.1,语言及其理解的一般问题,8.1.2,自然语言理解研究的进展和发展趋势,(,3,)繁荣发展时期(,20,世纪,80,年代后期至今),基于语料库的统计方法:从真实预料中获取语言知识,基于统计模型的自然语言处理系统,理性主义与经验主义的结合,口语理解和生成,我国自然语言理解研究,8.1,语言及其理解的一般问题,8.1.2,自然语言理解研究的进展和发展趋势,2.,发展趋势,(,1,)基于句法,-,语义规则的理性主义方法和以模型和统计为基础的经验主义互相结合、共同发展。,(,2,)语料库语言学使大规模真实文本的处理成为自然语言处理的主要战略目标。,(,3,)统计数学方法日益受到重视,机器学习的方法获取语言知识。,(,4,)词汇知识库继语料库之后成为一个新的受到普遍关注的研究问题。,8.1,语言及其理解的一般问题,8.1.3,自然语言理解过程的层次,语言的分析和理解过程是一个层次化的过程。现代语言学家把这一过程分为,3,个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述,3,个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。,1.,语音分析,语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。,8.1,语言及其理解的一般问题,8.1.3,自然语言理解过程的层次,2.,词法分析,词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。,3.,句法分析,句法分析是对句子和短语的结构进行分析。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。,8.1,语言及其理解的一般问题,8.1.3,自然语言理解过程的层次,4.,语义分析,语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为一个重要的研究内容。,8.2,词法分析,英语等拼音文字:分词简单,词素提取难,中文:词素提取易(每个字就是一个词素),分词难,中文分词两大难题:。,(,1,)歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。,(,2,)新词识别,中科院词法分析系统,ICTCLAS,,准确率可达,95%,8.3,句法分析,句法模式匹配和转移网络,句法模式匹配就是采用句法模式来对语言的句子进行匹配从而进行句法分析。但是自然语言是非常多样化的,因而需要有许多模式。这些模式可用状态转移图来表示,这种用状态转移图来表示的表达方式称之为转移网络(,TN,,,transition network,)。,8.3,句法分析,扩充转移网络,扩充转移网络,ATN,是由伍兹,(Woods),在,1970,年提出的。,ATN,是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。,8.3,句法分析,词汇功能语法的结构,词汇功能语法(,LFG,)是由卡普兰和布鲁斯南,(Bresnan),在,1982,年提出的,它是一种功能语法,但是更加强调词汇的作用。,LFG,用一种结构来表达特征、功能、词汇和成分的顺序。,8.4,语义分析,语义分析:获得语言所表达的意义。,第一步是要确定每个词在句子中所表达的词义,这涉及到词义和句法结构上的歧义问题;,第二步是要根据已有的背景知识来确定语义。,方法:语义的逻辑分析法、语义分析文法,8.5,句子理解,简单句理解的内容,简单句理解两方面的工作:,(1),理解语句中的每一个词。,(2),以这些词为基础组成可以表达整个语句意义的结构。,复合句的理解,句子之间的相互关系:,(1),相同的事物;,(2),事物的一部分;,(3),行动的一部分;,(4),与行动有关的事物;,(5),因果关系;,(6),计划次序。,8.6,语料库语言学,语料库的研究:自然语言文本的采集、存储、检索、统计、词性和句法标注、句法语义分析、,定义:,Aijmer 1991“,根据篇章材料对语言的研究称为语料库语言学”,McEnery 1996“,基于现实生活中语言应用实例进行语言研究称为语料库语言学”,Crystal 1991“,以语料为语言描写的起点或者以语料为验证有关语言假说的方法称为语料库语言学”,语料库:,8.7,机器翻译,机器翻译的过程:,原文输入,原文分析:查词典、语法分析,译文综合:调整词序、修辞、从译文词典中取词,译文输出,8.8,语音识别,预处理,特征提取,模式识别,训练,模式库,语音输入,语音识别结果,8.9,应用举例,问题,思考,思考,答案,讯飞语音云,问答服务云,讯飞语音云,思考,声音,声音,文字,答案,问题,文字,1,2,3,国家大学生创新实验项目,演讲完毕,谢谢观看!,内容总结,目录。语言使用于传递信息的表示方法、约定和规则的集合。语言正是在这种严密的制约关系中构成的。词组构造法是词搭配成词组的规则。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。对自然语言的理解却是一个十分艰难的任务。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。自然语言理解的困难是由下列3个因素引起的:。1949年 俄-英和英-俄文字的机器翻译。(2)语料库语言学使大规模真实文本的处理成为自然语言处理的主要战略目标。(4)词汇知识库继语料库之后成为一个新的受到普遍关注的研究问题。语言的分析和理解过程是一个层次化的过程。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达,
展开阅读全文