资源描述
,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Company Logo,*,Click to edit Master title style,第一章 绪论,统计自然语言处理,Company Logo,第一章 绪论,基 本 概 念,1,自然语言处理研究的内容和面临的困难,2,自然语言处理的基本方法及其发展,3,自然语言处理的研究现状,4,Company Logo,第一章 绪论,以色列的“巴比通天塔”纪念币,Company Logo,第一章 绪论,以色列的“巴比通天塔”纪念币,“圣经故事”系列是以色列纪念币发行中的延续性项目之一。今年发行的是第七套,它选取的题材为招致上帝愤怒的“巴比通天塔”。,旧约,创世纪,第,11,章讲述了“通天塔”的故事。很久很久以前,天下的人都居住在一个叫做古巴比伦的地方,那时候人们都使用同一种语言。后来,古巴比伦人计划修建一座塔,塔顶要高耸入云,直达天庭,以显示人们的团结和力量。塔越建越高,惊动了天庭的耶和华。他想,现在天下的人都是一个民族,都说一种语言,他们团结一致,什么奇迹都可以创造,那神还怎么去统治人类?于是上帝便决定要惩罚惩罚人类。他施魔法变乱了人们的口音,使他们无法沟通,高塔因此无法继续建造下去。最后,上帝还把人类驱散到地球的各个角落。,摘自中国金币网(,http:/ Logo,第一章 绪论,计算机发明以来,人类首先想到的计算机的应用之一,就是自动翻译。然而时至今日,计算机处理自然语言的能力在大多数情况下都不能满足人类社会信息化时代的要求。有关专家指出,语言障碍已经成为制约,21,世纪社会全球化发展的一个重要因素。,因此,如何尽早实现自然语言的有效理解,打破不同语言之间的固有壁垒,已经成为备受人们关注的极具挑战力的国际前沿研究课题。,Company Logo,1.1,基本概念,1.1.1,语言学和语音学;,语言学,(linguistics),是指对语言的科学研究。作为一门纯理论的学科,语言学在近期获得了快速发展,尤其从上个世纪,60,年代起,已经成为一门知晓度很高的广泛教授的学科。,包括:历时语言学(,diachronic linguistics,)(或称历史语言学(,historical linguistics,)和共时语言学(,synchronic linguistics,)、描述语言学(,descriptive linguistics,)、对比语言学(,contrastive linguistics,)、结构语言学(,structural linguistics,)等等。,Company Logo,1.1,基本概念,1.1.1,语言学和语音学;,语音学,(phonetics),研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。,包括,:(1),发音语音学,(articulatory phonetics),,研究发音器官如何产生语音;,(2),声学语音学,(acoustic phonetics),,研究口耳之间传递语音的物理属性;,(3),听觉语音学,(auditory phonetics),研究人通过耳、听觉神经和大脑对语音的知觉反应。,Company Logo,1.1,基本概念,1.1.2,自然语言处理;,自然语言处理,或称自然语言理解,(natural language understanding,NLU),,人工智能研究的重要内容之一。,自然语言处理(,natural language processing,,,NLP,)就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。,-,冯志伟,1996,自然语言的计算机处理,Company Logo,1.1,基本概念,1.1.2,自然语言处理;,自然语言处理,自然语言处理是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力,语言应用的模型,建立计算机框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。,马纳瑞斯,1999,Company Logo,1.1,基本概念,1.1.2,自然语言处理;,计算语言学,(Computational Linguistics),计算语言学是利用电子数字计算机进行的语言分析。,大不列颠百科全书,Company Logo,1.1,基本概念,1.1.2,自然语言处理;,计算语言学,(Computational Linguistics),是语言学的一个研究分支,用计算技术和概念来阐述语言学和语音学问题。已开发的领域包括自然语言处理,(natural language processing,NLP),,言语合成,言语识别,自动翻译,编制语词索引,语法的检测,以及许多需要统计分析和领域(如文本考释)。,现代语言学词典,戴维,.,克里斯特尔,,1997,Company Logo,1.1,基本概念,1.1.2,自然语言处理;,近几年来,自然语言处理研究得到了前所未有的重视和长足的进展,并逐渐发展成为一门相对独立的学科而倍受关注,而且自然语言处理技术不断与语音识别,(speech recognition),、语音合成,(speech synthesis),等语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学”、“自然语言处理”或“自然语言理解”这些术语时,往往默认为同一个概念。甚至有些专著中干脆直接这样解释:计算语言学也称自然语言处理或自然语言理解,刘颖,,2002,。,Company Logo,1.1,基本概念,1.1.3,关于“理解”的标准;,如何判断计算机系统的智能?,计算机系统的表现,(act),如何?,反应,(react),如何?,相互作用,(interact),如何?,与有意识个体(人)比较如何?,图灵,(Turing),设计的“模仿游戏”,即图灵实验,(Turing test),Company Logo,1.1,基本概念,1.1.,关于“理解”的标准;,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.1,自然语言处理研究的内容;,机器翻译,(Machine translation,MT),:实现一种语言到另一种语言的自动翻译。,应用:文献翻译、网页翻译和辅助浏览等。,自动文摘,(Automatic summarization/Automatic abstracting),:将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。,应用:电子图书管理、情报获取等,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.1,自然语言处理研究的内容;,信息检索,(Information retrieval),:信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。,面向多语言的信息检索叫做跨语言信息检索,代表系统:,Google:,百度:,文档分类,(Document categorization),:文档分类也叫文本自动分类,(Text categorization/classification),或信息分类,(Information categorization/classification),,其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。,应用:图书管理、内容管理、信息监控等,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.1,自然语言处理研究的内容;,问答系统,(Question-answering system),:通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入,/,输出技术,以及人机交互技术等相结合,构成人机对话系统,(man-computer dialogue system),。,应用:人机对话系统、信息检索等,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.1,自然语言处理研究的内容;,文字编辑和自动校对,(Automatic proofreading),:对文字拼写、用词、甚至语法、文档格式等进行自动检查、校对和编排。,应用:排版、印刷和书籍编撰等,信息过滤,(Information filtering),:通过计算机系统自动识别和过滤那些满足特定条件的文档信息。,应用:网络有害信息过滤、信息安全等,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.1,自然语言处理研究的内容;,语言教学,(Language teaching),:借助计算机辅助教学工具,进行语言教学、操练和辅导等。,应用:语言学习等,文字识别,(Character recognition),:通过计算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可以处理的电子文本。,应用:文字输入、识别等,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.1,自然语言处理研究的内容;,语音识别,(speech recognition),:将输入计算机的,语音信号识别转换成书面语表示。语音识别也称自动语音识别,(automatic speech recognition,ASR),。,应用:文字录入、人机通讯、语音翻译等等。,文语转换,(text-to-speech),:将书面文本自动转换,成对应的语音表征。,应用:朗读系统、人机语音接口等等。,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.1,自然语言处理研究的内容;,说话人识别,/,认同,/,验证,(speaker recognition/,identification/verification),:对一言语样品做声学分析,依此推断(确定或验证)说话人的身份。,应用:信息安全、防伪等等。,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.2,自然语言处理涉及的几个层次;,形态学,(Morphology),问题:研究词是如何由意义的基本单位词素(,morphemes,)构成的。,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.2,自然语言处理涉及的几个层次;,语法学,(Syntax),问题:研究句子结构成分之间的相互关系和组成句子序列的规则。,为什么一句话可以这么说也可以那么说?,语义学,(Semantics),问题:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。,这句话说了什么?,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.2,自然语言处理涉及的几个层次;,语用学,(Pragmatics),问题:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。从狭隘的语言学观点看,语用学处理的是语言结构中有形式体现的那些语境。相反,语用学最宽泛的定义是研究语义学未能涵盖的那些意义。,为什么要说这句话?,A:,看看鱼怎么样了?,B:,我刚才翻了一下。,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.3,自然语言理解面临的困难,自然语言中大量存在的歧义,(ambiguity),现象,结构歧义,例如,:(1)Who has seen John?,主语,(2)Who has John seen?,宾语,(3),今天中午吃馒头。,(4),今天中午吃食堂。,Company Logo,1.2,自然语言处理研究的内容和面临的困难,1.2.3,自然语言理解面临的困难,(5)I saw a man with a tel
展开阅读全文