HowtoTrainKnowledgeVector

资源描述

How to Train Knowledge Vectorl我们想要什么？l我们有什么？l构建知识库lbaseline 量化知识库。通过向量来表征概念。使得我们可以用机器学习的方法来挖掘新的知识。我们想要什么？我们有什么？Entry(4.8million)link links in article see also Article(10+GB)profile body Infobox Class由词条所在页面的出链构建关系库.注意，1、我们只是采用单一的关系，即有边或者没有边。2、为了刻画entry间的距离，我们引入权重，使得边的值从-1到1连续取值。初始值由link在文章不同位置的重要程度决定。经过训练后，这些初始值会以最终的模型预测值为准。3、关系应该具有方向性。（待议）（可能需要引入出链关系变换矩阵和入链关系变换矩阵）构建知识库如何利用文本信息？将训练词向量的方法和训练关系空间的方法结合起来，让两种模型共享知识向量。Discuss1、这里我们认为知识向量就是词向量。改进的方法可能是，我们会将知识向量当做文章向量，相当于训练时的代表知识的词向量不作为最终的向量。因为文本中entry的词频一般比较低，可能导致词向量训练不充分。2、我们认为从文本中训练出的词向量不需要经过映射，直接就可以用于知识间的内积距离计算。由于词向量中不仅包含关系信息，也包含上下文信息。因此改进的方法可能是加映射矩阵。或者文章向量也许可以帮助我们解决这个问题。3、这里没有考虑关系的方向问题。通过增加左右两个映射矩阵，或者训练两个词向量，也许可以解决。4、我们没有考虑实体的重要性。往往一个实体可以由与他相关的重要的实体很好的刻画。后期的改进是加入pagerank等方法，使得我们把重点关注到更加重要的知识上。5、由于训练词向量时，entry的词频往往比较低，使得词向量训练不充分，通过将低频的entry替换为tag，从而有效解决这个问题。注意，我们最后会以文章向量作为知识的表征。Baseline)max(_EntrySettwwtofoutchaintwwttVocabjwwwwwrongwrongttiittiijiteeweefuntion

展开阅读全文

HowtoTrainKnowledgeVector

最新文档