第七章-自然语言处理课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,人工智能技术基础,前言,目录,7.1,自然语言处理应用场景,7.2,自然语言处理基本功能模块,7.3,文本处理,7.4,机器翻译,7.5,应用案例,7.1,自然语言处理应用场景,先通过一个案例说明自然语言处理中常用的术语及其代表的知识平面。,由,下,图可以看出，自然语言处理系统首先把指令,“,删除文件,B”,在音位学平面转化成序列,“shan chu # wenjian # bi”;,然后在形态学平面把这个音位序列转化为语素序列“删除”，“文件”，,“B”,；接着在词汇平面把这个语素序列转化为字词序列并标注出相应的词性：（删除，,VERB,），（“文件”，,NOUN,）（,“B”,，,ID,）；在句法学平面进行句法分析，得到这个单词序列的句法结构，用树形图表示；在语义学平面得到这个句法结构的语义解释：删除文件（“,B,”）；在语用学平面得到这个指令的语用解释“,rm-i B,”，此处用的是,UNIX,系统的指令符号和书写规范，最后计算机执行这个命令。,自然语言处理过程,7.2,自然语言处理基本功能模块,7.2.1,词汇自动处理,词汇是语言的建筑材料，是语言描述的中心。汉语词汇的自动处理主要分为文本的自动分词和自动标注。先看两个文档：,文档,1,：学校有关于人工智能的书籍，学校开设人工智能课程。,文档,2,：学校推动教学改革，推动人工智能课程改革。,然后对文档,1,、文档,2,进行如下分词：,文档,1,：学校,|,有,|,关于,|,人工智能,|,的,|,书籍，,|,学校,|,开设,|,人工智能,|,课程。,文档,2,：学校,|,推动,|,教学,|,改革,|,，推动,|,人工智能,|,课程,|,改革。,上述分词其实是我们根据自己民族语言习惯人工进行的分词，人工智能要解决的是机器怎样进行中文分词。,工程上，已经解决了机器怎样进行中文分词。怎样解决的呢？以文档,2,为例，增加文档,2,的另一种分词结果，和上述文档,2,的分词罗列如下：,文档,2,：学校,|,推动,|,教学,|,改革,|,，推动,|,人工智能,|,课程,|,改革。,A1 A2 A3 A4 A5 A6 A7 A8,学校,|,推动,|,教学改革,|,，推动,|,人工,|,智能,|,课程改革。,B1 B2 B3 B4 B5 B6 B7,下面会构建语料库，机器能根据语料库自动计算上面两种不同分词方式各自出现的概率,哪个概率大就使用哪个分词方式。,人工智能应用中，通常将现代汉语分为,15,类：名词、时间词、方位词、数词、量词、代词、区别词、动词、趋向动词、能愿动词、形容词、副词、介词、连词、助词。,自动词类标注的关键是排除兼类词歧义，所谓兼类词也就是词类的歧义，这是汉语自动处理的难点之一。,试比较：我在北京上学（“在”为介词，,“,上,”,为动词）,我在床上（“在”为动词，,“,上,”,为方位词）,上面的例子中，,“,在,”,为,“,动,-,介,”,兼类，,“,上,”,为,“,方位,-,动,”,兼类。汉语中往往越是常用的词，不同的用法就越多，兼类现象也就越多。,7.2.2,句法自动处理,就汉语文本来说，经过词汇自动处理，每个词都从连续的汉字流中被切分出来，词与词之间出现了空白，并且都被标注了供机器处理的各种信息。然而，经过词汇自动处理之后，句子中词与词之间的词法关系，句子中词组与词组之间的结构关系，仍然是不清楚的，需要进一步处理，这就是句法自动处理。,下面通过一个简单的乔姆斯基形式语法类型,G,演示计算机自动识别句子的各个句法单位以及他们之间的相互关系的过程，这个过程英文为,parsing,，可译为自动句法分析，设语法类型,G,为：,先予以说明：,S,是初识符号，它属于集合,VN,，集合,VN,中的符号是用来描述语法的，可将,NP,、,VP,、,V,依次解释为名词短语、动词短语、动词。,VT,是该语言中的词汇，是终极符号。,P,叫做重写规则，共有（,i,）,(v),五条，箭头,左边的符号简称为规则左边，右边的符号简称为规则右边，,VN,VT,S,P,四元组定义了语法,G=,（,VN,VT,S,P,）。我们用该语法,G,分析句子,“,熊猫吃竹叶,”,。,首先，从初始状态,S,开始，写出句子,“,熊猫吃竹叶,”,的推导过程：,推导过程,所用规则,S,开始,NP,VP,(i),NP,V,NP,(ii),熊猫,V,NP,(iv),熊猫,吃,NP,(v),熊猫,吃,竹叶,(iv),上述推导过程，也就是句子的生成过程，可用,下,图的句法树形图表示：,句法树形图,其次，我们采用自低向上剖析（,buttom-up parsing,）方法剖析句子,“,熊猫吃竹叶,”,，将句子切分为如下形式：,熊猫,|,吃,|,竹叶,根据重写规则,(iv),，可得如下剖析图,熊猫,|,吃,|,竹叶,NP_,然后，剖析符号串,“NP|,吃,|,竹叶,”,，先检查语法,G,中有没有右部为,NP,的重写规则，检查结果是没有。再检查符号串,“NP|,吃,|,竹叶,”,中的第二个词“吃”，根据规则（,V,）可得如下剖析图,熊猫,|,吃,|,竹叶,NP_ V_,剖析过程中，要在语法,G,容许的范围内，尽量把符号串的语法符号,NP,，,V,等组合起来。先检查语法,G,中有没有右部为,NP,的重写规则，检查结果是没有，再检查语法,G,中有没有把,NP,和,V,组合起来的重写规则，检查结果也是没有。随后检查符号串,“NP|V|,竹叶,”,中的第二项,V,，根据规则（,iii,），可得如下剖析图,熊猫,|,吃,|,竹叶,NP_ V_,VP_,继续剖析，此时语法,G,中重写规则（,i,）的右边为符号串,NP VP,，重写规则（,iv,）的右边为,“,竹叶,”,，此处该应用重写规则（,i,）呢还是（,iv,）呢？经过试验，该应用重写规则（,iv,），可得如下剖析图：,熊猫,|,吃,|,竹叶,NP_ V_ NP_,VP_,继续剖析，可以发现支配,V,的这个,VP,语法符号不能引导我们找到成功的途径，需要去掉,VP,这叫做采用,“,回溯,”,（,backtracking,）的方法，可得如下剖析图：,熊猫,|,吃,|,竹叶,NP_ V_ NP_,应用重写规则（,ii,）,可得如下剖析图：,熊猫,|,吃,|,竹叶,NP_ V_ NP_,_VP_,再应用重写规则（,i,）,可得如下剖析图：,熊猫,|,吃,|,竹叶,NP_ V_ NP_,_VP_,S,S,的跨度从句首开始，到句末结束，覆盖了整个句子，因此句子剖析成功。,7.2.3,语义自动处理,语义分析是自然语言处理的最基础的功能模块，本小节只简要介绍义素分析法、语义网络的形式模型,1.,义素分析法,义素是意义的基本要素，也是词的意义的区别特征，或者说，词的意义是一些语义特征（即义素）的总和，例如，“哥哥”的意思是,+,人, +,亲属, +,同胞, +,年长, +,男性,等义素的总和，,“,妹妹,”,的意思是,+,人, +,亲属, +,同胞, -,年长, -,男性,等义素的总和。“,+,”表示肯定，,“-”,表示否定，这样,-,男性,就是,+,女性,。一组词的义素可以用义素矩阵来表示，汉语中表同胞的亲属词的义素矩阵如表,所示,可见，义素矩阵反映了相应亲属词的基本语义特征，义素分析法是语义形式化描述的一种好办法。,2.,语义网络,语义网络可以较好的描述人类的联想记忆，可用有向图表示，该有向图由三元组（结点,1,，弧，结点,2,）连接而成的，如图所示，可将该三元组视为构图的积木。,语义网络三元组的表示法,结点表示概念，弧是有方向、有标记的，弧的方向体现了结点,1,为主，结点,2,为辅，弧上的标记表示结点,1,的属性或结点,1,与结点,2,之间的关系。从逻辑表示的方法来看，语义网络中的一个三元组相当于一个二元谓词，语义网络内各个概念之间的关系，主要由,ISA,，,PART-OF,，,IS,等谓词来表示。这样命题“墙上有黑板”，可以表示为,下图,PART-OF,关系,当用语言网络来表述事件时，语义网络中结点之间的关系，还可以是施事（,AGENT,）、受事（,PATIENT,）、位置（,LOCATION,）等。例如，“张忠老师帮助王林同学”这一事件可以表示为图,事件的语义网络,7.3,文本处理,7.3.1,文本特征,1.,词袋模型,词袋模型是一种常用的提取文本特征的数学模型，它将一篇文档看作是一个装有若干词语的袋子，这样就仅考虑了词语在文档中出现的次数，而忽略了词语的顺序以及句子的结构，这种简化是建模所必要的，事实证明也很有效。例如：,文档,1:,学校有关于人工智能的书籍，学校开设人工智能课程。,依照汉语理解习惯，我们将文档,1,拆分成词语并标记词语出现的次数，这样形成的集合：,（学校：,2,），（有：,1,），（关于：,1,），（人工智能：,2,），（的：,1,），（书籍：,1,），（开设：,1,），（课程：,1,）,就是文档,1,对应的“词袋”（,bag-of-word,）,词袋模型对文档,1,进行了很大的简化，但仍保留了文档,1,的关键信息，我们通过“人工智能”、“书籍”、“课程”等词语仍然可以知道文档,1,与学习人工智能有关，这正是词袋模型的用处。,例,7.1,写出文档,2,对应的词袋。,文档,2,：学校推动教学改革，推动人工智能课程改革。,解：,（学校：,1,），（推动：,2,），（教学：,1,），（改革：,2,），（人工智能：,1,），（课程：,1,）,2.,语料库和词典,文档是文本文件的内容，先看单篇文档的词典，文档词典决定词频向量。有了中文分词的技术，可以形成词袋，有了词袋，可以构造包含词袋里词语的词典。像通常的字典、词典一样，词典里的词语是按顺序排列的，例如文档,2,的词典为：,序号：,1 2 3 4 5 6,词语：学校,推动,教学,改革,人工智能,课程,上述词典里的每个词语在词袋中都有标记的次数，将这个次数按照词典中词语的顺序排列起来，就得到这篇文档的词计数向量。文档,2,的词计数向量为（,1,2,1,2,1,1,），对词计数向量进行归一化，得到词频向量（,term frequency vector,）。,f=(,).,文本处理包含像期刊、微信、网页等许多不同种类，实际应用中，通常将要处理的文本收集一起做成语料库，然后提取语料库中所有出现的词语，并形成一个词典。例如增加文档,3,。,文档,3,：国家推动人工智能产业发展。,构建一个包含三篇文档的语料库：,文档,1,：学校有关于人工智能的书籍，学校开设人工智能课程。,文档,2,：学校推动教学改革，推动人工智能课程改革。,文档,3,：国家推动人工智能产业发展。,根据语料库提取所有出现过的词语形成词典：,1 2 3 4 5 6 7 8 9 10 11 12 13 14,学校有关于人工智能的书籍开设课程推动教学改革国家产业发展,“的”、“了”、“也”等这类不携带任何主题信息的高频词称为停止词，构建词典时我们通常不会去除停止词。,统计每篇文档中每个词语出现的次数，如表,上述统计结果即是三篇文档的词计数向量,文档,1,：（,2,1,1,2,1,1,1,1,0,0,0,0,0,0,）,文档,2,：（,1,0,0,1,0,0,0,1,2,2,1,0,0,0,）,文档,3,：（,0,0,0,1,0,0,0,0,1,0,0,1,1,1,）,语料库词典统一了各文档词计数向量的维数。,3.,词频率与逆文档频率（,tf-idf,）,前面已经计算出了一篇文档的词频率,tf(term frequency),。词频率越大，这个词语在这篇文档中出现的次数就越多，这个词语对这篇文档的重要性就越大，信息检索中，就是要在大量文档形成的语料库中，查找出那些对关键词语重要的文档，词频率,tf,只包含词语的信息，未包含语料库的信息，这个包含语料库信息的指标叫逆文档频率,idf,（,inverse document frequency,）。,假定语料库中总共有,D,篇文档，语料库形成的词典中第,i,个词语在某篇文档中出现过，计数一次，假设共有,D,i,篇文档出现了第,i,个词语，那么第,i,个词语的文档频率即为,df,i,=D,i,/D,，这个词语的逆文档频率为文档频率的负对数，即,idf,i,=-logD,i,/D,由于,D,i,D,负号保证了,idf,大于等于,0,。,例,7.3,计算前述语料库中词语的文档频率和逆文档频率,解文档总数,D=3,在去除“的”，“也”，“了”之类的停止词后，三个文档都可以表示成一个,13,维的词计数向量，如下所示：,文档,1,：,n,1,=,（,2,1,1,2,1,1,1,0,0,0,0,0,0,）,文档,2,：,n,2,=,（,1,0,0,1,0,0,1,2,2,1,0,0,0,）,文档,3,：,n,3,=,（,0,0,0,1,0,0,0,1,0,0,1,1,1,）,词语出现次数,D,i:,（,2,1,1,3,1,1,2,2,1,1,1,1,1,）,文档频率,tf=D,i,/D,（,1,）,动手计算：,-log,= log3 = 1.584963,-log,= log3-1= 0.584963,log1 = 0,所以所求的逆文档频率为：,（,0.59,1.59,1.59,0,1.59,1.59,0.59,0.59,1.59,1.59,1.59,1.59,1.59,）,进一步分析发现，“人工智能”一词在三篇文档中都出现，结果“人工智能”一词的逆文档频率为,log,=log1=0,，说明这个语料库最恰当的命名是人工智能语料库，这是一个围绕着人工智能构建的语料库。,4.,文档特征,将一个词语在某篇文档中的词频率,tf,与该词语的逆文档频率（,idf,）相乘，就是该词语在这篇文档中的词频率,-,逆文档频率（,tf-idf,）,词频率,-,逆文档频率是对词频率的一种修正。,一篇文档，将该文档的词频向量中的频率值修正为词频率,-,逆文档频率，得到这篇文档的词频率,-,逆文档频率向量，它就是文档的特征。,例,7.4,计算文档,1,，文档,2,，文档,3,的特征,解,三篇文档的词频率向量统一维数后依次为：,f,1,=(,0,0,0,0,0,0),f,2,=(,0,0,0,0,0,0,0),f,3,=(0,0,0,0,0,0,0,0,),由例,7.3,这三篇文档的词频率向量,tf,对应的逆文档频率,idf,为,idf=,（,0.59,1.59,1.59,0,1.59,1.59,0.59,0.59,1.59,1.59,1.59,1.59,1.59,）,所以，三篇文档的文档特征依次是（手动计算）：,tf-idf,1,=(0.118,0.159,0.159,0,0.159,0.159,0.059,0,0,0,0,0,0),tf-idf,2,=(0.07375,0,0,0,0,0,0.07375,0.1475,0.3975,0.19875,0,0,0),tf-idf,3,=(0,0,0,0,0,0,0.118,0,0,0.318,0.318,0.318),如何找出两个文档之间的距离，或者以搜索引擎为例，如何找到最相关的文档。两个文档或者文档与查询之间的距离最小，意味着他们一定是最相似或者最相关。文本处理中，两个文档的距离是计算两个,tf-idf,文档向量夹角的余弦值。文档与查询之间的距离计算也与之相同，因为查询是作为一个小文档来处理的。,n,维空间中两个向量（,x,1,x,2,，,x,n,）、（,y,1,y,2,，,y,n,）之间的夹角为,，那么余弦值：,cos,=,(7.1),显然，向量之间的夹角能衡量两个向量之间相近的程度。,两个向量夹角的余弦值按公式,(7.1),计算，对两个,tf-idf,文档向量而言，由,tf-idf,0,，所以余弦值介于,0,到,1,之间。从三角形的基本原理可知，如果两个向量夹角的余弦值越大，那这两个向量代表的文档就越相似。,0,度角的余弦值是,1,，代表文档是相同的或者非常相似。文档如果表现为正交向量，其值则接近于,0,。,利用（,7.1,）式求余弦值,经常先进行归一化处理，即将,tf-idf,（,x,1,x,2,，,x,n,）表达成式子：,（,. ,）,那么（,7.1,）式就成为两个单位向量（,. ,）和,的内积：,cos,+,+,.+,例,7.5,求文档,1,，文档,2,，文档,3,之间的相似性,解：用余弦相似性度量法予以度量三文档之间的相似性，根据例,7.4,，先进行归一化处理。：,tf-idf,1,归一化：,(0.343,0.462,0.462,0.462,0.462,0.171,0,0,0,0,0,0),tf-idf,2,归一化：,(0.154,0,0,0,0,0,0.154,0.307,0.829,0.414,0,0,0),tf-idf,3,归一化：,(0,0,0,0,0,0,0,0.21,0,0,0.565,0.565,0.565),利用（,7.2,）式,文档,1,，文档,2,之间的相似性：,cos,= 0.079,文档,1,，文档,3,之间的相似性：,cos,= 0,文档,2,，文档,3,之间的相似性：,cos,= 0.064,7.4,机器翻译,语言是有限手段的无限运用，人们使用和理解的句子范围都是无限的。机器翻译的实质，就是把源语言中无限数量的句子，通过有限的规则，自动转换为目标语言中无限数目的句子。乔姆斯基说：一个人的语言知识是以某种方式体现在人脑这个有限的机体之中的，因此，语言知识就是一个由某种规则和原则构成的有限系统。但是一个会说话的人却能讲出并理解他从未听到过的句子，而且这种能力是无限的，人们使用和理解的句子范围都是无限的。,7.4.1,基于规则的机器翻译,基于规则的机器翻译，采用规则型语言模型，它以生成语言学为基础，人工编制语言规则，这些语言规则主要来自语言学家掌握的语言学知识，难免有主观性和片面性。,一个完整的机器翻译过程可以分为如下六个步骤：,源语言词法分析；,源语言句法分析；,源语言目标语言词汇转换；,源语言目标语言结构转换；,目标语言句法生成；,目标语言词法生成。,机器翻译金字塔,可以看出，这个机器翻译金字塔的左侧是源语言的分析，右侧是目标语言的生成，中间是源语言到目标语言的转换。源语言的分析独立于目标语言的生成，只是在转换部分才同时涉及源语言和目标语言，这种,“,独立分析,-,独立生成,-,相关转换,”,的思想，成为了基于规则的机器翻译的原则。,7.4.2,基于统计的机器翻译,基于统计的机器翻译，采用统计语言模型，以分析大规模语料库为基础，计算机利用模型中的概率参数，可以估计出自然语言中语言成分出现的可能性，相对客观和全面。,基于统计的机器翻译，把机器翻译问题看成是一个噪声信道问题：,可以这样来看机器翻译：一种语言,T,由于经过了一个噪声信道而发生了扭曲变形，在信道的另一端呈现出另一种语言,S,。语言,T,是信道意义上的输入，在翻译意义上就是目标语言，语言,S,是信道意义上的输出，在翻译意义上就是源语言。从这种观点来看，一种语言中的任何一个句子都有可能是另外一种语言中的某几个句子的译文，只是这些句子的可能性各不相同，机器翻译就是要找出其中可能性最大的句子，也就是对所有可能目标语言,T,计算出概率最大的一个作为源语言,S,的译文。,7.4.3,神经网络机器翻译,神经语言模型,NLM,（,neural language model,）使用词的分布式表示对自然语言序列建模，将每个词予以编码，识别两个相似的词，共享一个词（及其上下文）和其他类似词（和上下文之间）的统计强度。统计语言模型为每个词学习的分布式表示，允许模型处理具有类似共同特征的词来实现这种共享。例如，假设词,“,狗,”,和,“,猫,”,映射到具有许多属性的表示，则包含词,“,猫,”,的句子可以告知模型对包含词,“,狗,”,的句子做出预测，反之亦然。这些词表示有时称为词嵌入，这样在嵌入空间中，具有相似含义的词彼此邻近。,机器翻译的编码器,-,解码器框架的总体思想,神经机器翻译系统使用神经语言模型。首先使用,RNN,模型（也可以是,CNN,）读取输入序列并产生概括输入序列的数据结构，简称这个概括为,“,上下文,”C,，上下文,C,可以是向量或者张量，如图,7-10,中的,“,中间的语义表示,”,。然后利用另外一个,RNN,模型读取上下文,C,并且生成目标语言的句子。,7.5,科大讯飞翻译机,2.0,讯飞翻译机,2.0,是科大讯飞于,2018,年,4,月,20,日推出的新一代人工智能翻译产品，如图,7-26,所示。讯飞翻译机,2.0,145.5mm*52.5mm*13.4mm,比较小巧，重量仅有,120g,随身携带非常方便。金属的外壳使得其在耐用性上也有不错的表现。后置一颗,1300,万像素摄像头，专门用来进行拍摄翻译使用。摄像头的下方是一颗,“SOS”,紧急呼救按钮。,讯飞翻译机,2.0,采用语音识别技术、自然语言理解、,NMT,翻译技术、语音合成以及四麦克风阵列等多项人工智能技术，如图,7-27,所示，支持在六麦克风、双麦克风和单麦克风场景下的语音分离和英文识别任务，支持语种覆盖近,200,个国家和地区，包括,AI+,翻译（语音对话翻译、离线翻译、拍照翻译、人工翻译、方言翻译）及增值服务（全球上网、,SOS,紧急救援、,AI,语音助手、口语学习）两大功能。,语音对话翻译：支持,33,种语言即时互译，,1,秒给出翻译结果，基于,4000,万句对话，贴合原意翻译结果，中英语音识别准确率,98%,，通过四麦列阵的方式实现录音高清降噪，过滤环境音的效果，大大提升语音翻译时的录词准确性。帮助你快速学习各种常用的情景对话，出行会话、购物会话、餐饮会话、住宿会话、观光会话、生活服务，这些场景内的常用对话都能协助用户来理解和学习,离线翻译：在没有信号的情况下，离线翻译自动生效，当前支持中英离线翻译，语种持续增加，达到日常交流跟在线翻译无差异。曾在,2018,俄罗斯世界杯前支持中俄离线翻译。,拍照翻译：讯飞翻译机,2.0,支持手写字体拍摄翻译，而且支持,12,种语言（英、日、韩、泰、法、德、西、俄、意、葡、阿拉伯等）的拍照翻译。即使出国旅游走进外国餐厅，你也可以从容的用讯飞翻译机,2.0,拍摄翻译出外文菜单！不仅仅菜单，外语的商品标签、各种指示牌、外语地图、说明书等等。,SOS,紧急救援：讯飞翻译机,2.0,的,SOS,紧急求救键也非常实用，实现预设好紧急联系人信息，一旦出现意外或者紧急情况，长按,SOS,键,5,秒以上就可以发出“求救”信号，对于出国在外游玩的人，这样的功能非常实用。,非常感谢你的观看,Thank you!,感谢,谢谢，精品课件,资料搜集,

展开阅读全文

第七章-自然语言处理课件

最新文档