HowtoTrainKnowledgeVector

上传人:zhan****gclb 文档编号:195268221 上传时间:2023-03-16 格式:PPT 页数:7 大小:277.50KB
返回 下载 相关 举报
HowtoTrainKnowledgeVector_第1页
第1页 / 共7页
HowtoTrainKnowledgeVector_第2页
第2页 / 共7页
HowtoTrainKnowledgeVector_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
How to Train Knowledge Vectorl我们想要什么?l我们有什么?l构建知识库lbaseline 量化知识库。通过向量来表征概念。使得我们可以用机器学习的方法来挖掘新的知识。我们想要什么?我们有什么?Entry(4.8million)link links in article see also Article(10+GB)profile body Infobox Class由词条所在页面的出链构建关系库.注意,1、我们只是采用单一的关系,即有边或者没有边。2、为了刻画entry间的距离,我们引入权重,使得边的值从-1到1连续取值。初始值由link在文章不同位置的重要程度决定。经过训练后,这些初始值会以最终的模型预测值为准。3、关系应该具有方向性。(待议)(可能需要引入出链关系变换矩阵和入链关系变换矩阵)构建知识库如何利用文本信息?将训练词向量的方法和训练关系空间的方法结合起来,让两种模型共享知识向量。Discuss1、这里我们认为知识向量就是词向量。改进的方法可能是,我们会将知识向量当做文章向量,相当于训练时的代表知识的词向量不作为最终的向量。因为文本中entry的词频一般比较低,可能导致词向量训练不充分。2、我们认为从文本中训练出的词向量不需要经过映射,直接就可以用于知识间的内积距离计算。由于词向量中不仅包含关系信息,也包含上下文信息。因此改进的方法可能是加映射矩阵。或者文章向量也许可以帮助我们解决这个问题。3、这里没有考虑关系的方向问题。通过增加左右两个映射矩阵,或者训练两个词向量,也许可以解决。4、我们没有考虑实体的重要性。往往一个实体可以由与他相关的重要的实体很好的刻画。后期的改进是加入pagerank等方法,使得我们把重点关注到更加重要的知识上。5、由于训练词向量时,entry的词频往往比较低,使得词向量训练不充分,通过将低频的entry替换为tag,从而有效解决这个问题。注意,我们最后会以文章向量作为知识的表征。Baseline)max(_EntrySettwwtofoutchaintwwttVocabjwwwwwrongwrongttiittiijiteeweefuntion
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!