知识库构建和应用专业知识讲座课件

资源描述

本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。目目录n语义信息抽取n知识库n语义检索n海量数据处理本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。n语义信息抽取n泛网资源与信息n语义抽取内容n模式抽取n层级构建本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取海量资源与信息泛在网为我们提供了无所不在的资源及信息。l如何在海量信息中获取我们需要的信息？l如何快捷的获取？机器理解？l如何让机器更好的理解？语义抽取本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取语义抽取内容n实体抽取(Named entity extraction)：人物、地点、机构、疾病，等命名或专有实体。n属性抽取(Attribute extraction)：实体的自身属性。n关系挖掘(Relation mining)：实体之间的关系。n事件挖掘(Event mining)：由多个关系元组所构成。本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取实体抽取n识别识别文本中出文本中出现现的的实实体体MUC(1997):Person,Location,Organization,Date/Time/CurrencyACE(2005):100多种更具体的多种更具体的类类型型n针对针对不同不同实实体体类类型与型与领领域考域考虑虑不同方法不同方法封封闭类闭类(e.g.,geographicallocations,diseasenames,gene&proteinnames)：人工人工规则规则+词词典典语语法相关法相关(e.g.,phonenumbers,zipcodes)：正正则则表达式表达式语义语义相关相关(e.g.,personandcompanynames)：综综合考合考虑虑上下文上下文,句法特征句法特征,词词典典,启启发发式式规则规则等等本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取实体抽取n人工规则方法某些情况构建简单:电话号码、邮政编码等。调试和维护简单拓展性问题n机器学习方法当容易构建大量训练数据时适合采用能够捕捉复杂的模板主要方法：Naive Bayes；Hidden Markov Models；Maximum Entropy Markov Models；Conditional Random Fields(CRF)本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取属性抽取属性包括：属性名属性值本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取属性抽取本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取属性抽取n基于无基于无结结构化构化与前面方法与前面方法类类似似模板改模板改变变:AofIAofIisV;VisAofI种子改种子改变变:(China,capital)(China,capital,Beijing)n基于基于WikipediaInfoboxn基于基于HTML表格表格本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取关系抽取nACE（Automatic Content Extraction）会议将关系抽取任务表述为：探测和识别文档中特定类型的关系，并对这些抽取出的关系进行规范化表示。n一个比较完整的关系抽取系统应包括依次相连的5个模块：NLP处理和实体抽取、模式匹配或分类、共指消解、新关系处理以及规范化输出。n关系抽取的困难可以归纳为3个方面：特定领域标引数据集的获取模式的获取共指消解本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取关系抽取n基于模式匹配的关系抽取先构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。n基于词典驱动的关系抽取基于词典驱动的关系抽取方法非常灵活，新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。但只能识别以动词为中心词的关系。n基于机器学习的关系抽取将关系抽取看作是一个分类问题。在人工标引语料的基础上构造分类器，然后将其应用在领域语料关系的类别判断过程中。目前使用比较多的学习算法有MBL算法和SVM算法。n混合抽取方法基于基于词汇：“located in”基于句法基于句法结构：构：“(Obj)(Verblocated)(*)(Subj)”n机器学机器学习方法方法有有监督学督学习：基于人工：基于人工标注数据注数据训练模型（模型（SVM,MaxEnt,KNN等）等）1.基于特征的方法基于特征的方法2.核方法核方法：核函数核函数Kernel(x,y)定定义对象象x与与y之之间的相似度的相似度,则可直接使用核函数可直接使用核函数代替上述公式中基于代替上述公式中基于显式特征的点式特征的点积运算运算半半监督学督学习：基于自基于自举方法从种子方法从种子样例中例中训练模型模型自自举方法方法(Bootstrapping)轮流流发现实体关系体关系对与抽取模板。与抽取模板。无无监督学督学习：自自动发现主要的关系与相主要的关系与相应的的对象象基于基于对象象对与关系上下文的与关系上下文的对偶性偶性利用聚利用聚类算法算法本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取事件抽取n事件由事件触发词和描述事件结构的元素构成，通常需要共指消解，消岐，去重，推理。n事件抽取由两个步骤组成：事件类别识别：事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别。事件元素识别：事件元素是指事件的参与者。根据所属的事件模板抽取相应的元素，并为其标上正确的元素标签。本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取事件抽取n事件抽取主要有两种方法：模式匹配和机器学习的方法。模式匹配的方法对某类事件的识别和抽取是在一些模式的指导下进行的，采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。机器学习的方法把事件抽取任务看作分类问题，把主要的精力放在分类器的构建和特征的发现、选择上。本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取模式抽取n一阶共现：模版（PB）Hours may vary on holidays,such as Easter,Thanksgiving and Christmas.Pattern:(such as|including)T,T*(and|,|.)Easter,Thanksgiving,Christmas n二阶共现：分布式相似性（DS）前提是假设：出出现在相似上下文在相似上下文(词语、句法、句法)中的中的词语比比较相似相似。定定义上下文（句法上下文上下文（句法上下文,词语上下文上下文.）将每个短将每个短语表示表示为一个特征向量（特征一个特征向量（特征:短短语出出现的一个上下文的一个上下文；特征；特征值:上下文上下文针对短短语的的权重）重）计算短算短语相似性（特征向量之相似性（特征向量之间的相似性：的相似性：Cosine,Jaccard）本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义信息抽取语义层级构建n为短语(term)赋予类标签或上位词(label)Beijingcity，capital；Applecompany，fruit方法方法:Patternmatching+countingn为语义类(semantic class)赋予类标签(label)Beijing,Shanghai,Dalian.cities,Chinesecities.方法方法:投票投票(Voting)n构建构建层级本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。n知识库n典型知识库n构建方式n应用本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。知知识库典型知典型知识库n人工构建的知人工构建的知识库识库WordNet:专专家构建、英家构建、英语语Wikipedia:社区网民构建社区网民构建,实实体体/属属性性n自自动动抽取得到的知抽取得到的知识库识库YAGO:Wikipedia+WordNet,自自动动构建构建,准确率高准确率高DBpedia:Wikipedia+社区网民社区网民创创建的映射建的映射规则规则,召回率高召回率高Freebase:Wikipedia+其他数据其他数据库库+用用户编辑户编辑本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。知知识库构建方式构建方式nYAGO自自动动构建方式构建方式1.利用利用WordNet和和Wikipedia（Infobox和和Categories）抽）抽取相关知取相关知识，再合并构成，再合并构成联通通本体。本体。2 2.一致性一致性检查：包括：包括实体的体的唯一性；关系唯一性；关系领域与范域与范围；类型的一致性。型的一致性。http:/www.mpi-inf.mpg.de/yago-naga/yago/本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。知知识库构建方式构建方式nDbpedia自自动动构建方式构建方式1.人工构建分人工构建分类体系体系ontology：259classes,6levels,1200properties。2 2.映射映射规则：将：将Wikipediainfoboxesandtables映射到其自有的映射到其自有的ontology，人工映射，人工映射规则。http:/dbpedia.org 本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。知知识库构建方式构建方式nFreebase自自动动构建方式构建方式1.从从Wikipedia，ChefMoz，NNDB和和MusicBrainz等多个数据源等多个数据源导入数据。入数据。2.用用户可可贡献数据。献数据。Totaltriples:1.9 billion https:/ 本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。知知识库应用用n自动问答系统n语义相似性计算 n情感倾向nWeb数据标注n地图标注n侧面搜索n 本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。n语义检索n语义解析n语义计算n文本推理n文本复述本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义检索语义解析（词法分析）n词法分析（英语：lexical analysis）是计算机科学中将字符序列转换为单词（Token）序列的过程。如下所示本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。句法分析语义解析（短语结构分析）n短语结构指的是词法分析之后词和词之间的结构关系，包括并列，动宾等等。如下所示本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。句法分析语义解析（依存关系分析）n依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配其它成分的中心成分，而它本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。如下所示本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。句法分析语义解析（语义角色标注）n语义角色标注是指在语法分析的基础上，对句子中各种词语进行更深一层的角色分析。如下所示本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算n词汇语义计算是语义计算的基础，也是关键技术点本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算词汇语义计算n词语相似度的计算主要分两类：（1）基于语义词典的方法，如wordnet、知网等（2）基于语料统计的方法本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算基于语义词典的词汇n语义词典一般由多个同义词集合组成，每个集合里面是表示相同词义的词的集合。每个词条包括多个同义词集合，同义词集合通过不同的词义关系相连。使用同义集合代表概念，词汇关系在词语之间体现，语义关系在概念之间体现。n基于语义词典的词汇语义计算方法很多，如下介绍几种典型的：（1）WuAndPalmer算法通过与概念词最近的公共父结点概念词的位置关系来计算其相似度；（2）LeacockAnd-Chodorow算法则是将两概念间的路径长度转化为信息量来进行相似度计算；（3）在基于信息内容的算法上,Resnik提出了直接利用公共父结点概念词的信息内容来计算概念词之间的相似度的算法。本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算基于语义词典n语义词典方法的缺点：（1）对于很多语言并没有好用的语义词典（2）有些词不被语义词典包含，例如实体、新词等（3）大部分方法依赖于上下位层次关系：这限于名词，对于形容词和动词并不完善本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算基于语料统计n上下文共现向量方法n潜在语义分析LSA（Latent Semantic Analysis）n词向量本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算上下文共现向量方法n构建上下文向量，每个词为一个1xV(V为所有词总数)的向量，记录其他词是否与该词一起出现n基于向量距离/相似度公式（典型的胃余弦距离）进行计算两个词的相似度本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算潜在语义分析LSAn构建词和文档的矩阵An给词赋予权重，例如TF-IDF权重n对矩阵进行SVD（Singular Value Decomposition）分解n留下奇异值不为0对应的k行和k列n矩阵U中的每一行表示相应词语与隐含语义空间中语义维度之间的关联本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算词向量n词向量是用来将语言中的词用数学方式表示成一个向量的形式，一种最简单的词向量方式是one-hot representation，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个 1，其他全为 0，1 的位置对应该词在词典中的位置。但这种词表示有两个缺点：（1）容易受维数灾难的困扰，尤其是将其用于 Deep Learning 的一些算法时；（2）不能很好地刻画词与词之间的相似性（术语好像叫做“词汇鸿沟”）。n针对这种情况，Hinton于1986年提出Distributed Representation，之后对词向量的研究成为学术界的热点，尤其是在2000年之后，提出了多种词向量训练模型。本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算词向量解释n模型中的隐层有多少个节点，词向量就是多少维，隐层中的每一个节点相当于一个语义，从输入层到隐层的映射，相当于将一个词映射到不同的语义维度上。语义越相近的词，向量相似度越高。n语料库越大，训练出来的词向量越准确。本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算文本推理n从自然语言表示角度，在词法层，句法层，语义层，将文本依次看成字符串形式，成分结构或依存关系和语义表达/逻辑表达式。在基于各个表达层级选择推理逻辑方法。n文本推理的难点：需要大量背景知识的支持句式结构、语义表达的多样化需要构建使用完整的推理规则本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。语义计算文本复述n根据在知识库索引中找到的信息，进行文本组织复述，反馈给查询者n复述生成方法：基于规则的方法基于词典的方法基于自然语言生成的方法基于机器翻译的方法本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。n海量数据处理nNesper本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。NesperNEsper概念概念n背景：针对实时信息的高并发性和高吞吐量的需求而设计nEsper是用于CEP（复杂事件处理）和ESP（事件流处理）应用程序的组件，是一个适合实时分析数据的内存计算引擎。（Java）高吞吐量低延迟复杂计算nNesper 引擎（类似数据库倒置）设定查询条件实时数据通过这些查询条件，引擎对其进行数据过滤n核心包NEsper.dll：EPL语法解析引擎，事件监听机制，事件处理核心模块NEsper.IO.dll：与excel,database,msmq,http,socket,XML等数据源读本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。Nesper事件事件处理流程理流程n程序先获取数据n把数据传入EPL语句进行执行（执行时可以进行筛选处理）n监听获取处理后的数据，进行处理 Esper提供2种机制来处理事件事件流查询（Epl实现）基于表达式的事件模式匹配（CEP）本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿。文档如有不当之处，请联系本人或网站删除。NesperEPLn在复杂事件处理中，为了要达到高吞吐量(throughput)、高度利用性(availability)、以及低度延迟(latency)，让企业能够达到实时决策，因此使用事件串流处理(event stream processing)。n使用EPL(Event Processing Language)为SQL-LIKE 的语言，可以方便的对事件串流提供复杂的逻辑处理，使事件串流在内存中做模式比对处理，及查询的动作。这些过程中，都在内存内进行，不须经由储存装置。nEpl是Esper的核心 SqlEpl数据在那里，你每次执行SQL就会触发一次查询；查询在这里，数据输入达到一定条件即可触发查询。

展开阅读全文

知识库构建和应用专业知识讲座课件

最新文档