领域术语自动抽取方法研究

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,10/18/2024,51,10/18/2024,领域术语自动抽取方法研究,刘桃,报告内容,绪论,课题研究的目的、意义及研究现状,论文主体,领域文本自动判别方法,领域术语自动抽取方法,在文本分类和问答式信息检索中的应用,结论,报告内容,绪论,课题研究的目的、意义及研究现状,论文主体,领域文本自动判别方法,领域术语自动抽取方法,在文本分类和问答式信息检索中的应用,结论,绪论,研究目的,为面向领域的应用提供可定制的领域文本自动判别方法和领域术语自动抽取方法,研究意义,对所有面向领域的应用都有重要意义,垂直搜索,文本自动分类,语言建模,词义消歧,绪论：,领域文本自动判别,研究现状,领域文本自动判别,有监督文本分类方法,文本表示：,概率模型、向量空间模型,特征选择：TF-IDF、互信息、期望交叉熵、信息增益等,分类算法：Rocchio法、贝页斯分类法、K最近邻分类法、支持向量机、决策树、神经网络,半监督文本分类方法,产生式模型和期望最大化、直推式支持向量机、自助学习法、协同训练法、主动学习法,基于正例的文本分类方法,PEBL、 Spy_EM、Roc_SVM、类别约束SVM（Biased_SVM）、 PNLH方法,绪论：领域术语自动抽取研究现状,中文词语的领域类别判定之前要进行中文新词发现,中文新词发现,启发式特征：构词力、构词模式、互信息、上下文依赖,机器学习模型：隐马尔科夫模型、最大熵、最大熵马尔科夫模型、支持向量机、条件随机域,绪论：领域术语自动抽取研究现状,词语的领域类别判定,基于语言学知识的方法,英文的拼写线索、包含词缀等信息的术语要素词典、潜层语法分析、设定规则模版,基于统计量度的方法,基于类别的TFIDF(KFIDF)、领域相关性+领域一致性（DR+DC）、C-值、C/NC值,机器学习方法,基于自助学习法的半监督术语获取方法,基于词语分类的术语获取方法,绪论：研究现状,领域术语自动抽取的评价,人工评价：语言学家或者研究者通过个人判断来确定抽取的词语是否为领域术语,对抽取结果有直观感受,费时、费力,受人主观性影响,应用评价：看领域术语抽取模块在应用系统中的表现,评测迅速,完全面向应用，不同的应用系统可能会产生不尽相同的结果,报告内容,绪论,课题研究的目的、意义、研究现状,论文主体,领域文本自动判别方法研究,领域术语自动抽取方法研究,在文本分类和问答式信息检索中的应用设计,结论,研究框架,领域文本自动判别,有监督文本分类,基于正例的文本分类,领域术语自动抽取,中文新词发现,术语抽取自助学习法,基于统计量度的术语抽取,应用研究,在文本分类中的应用,在问答式信息检索中的应用,词语的领域类别判定,概念语义网络,专业信息采集,特征集扩展,特征选择,领域文本自动判别方法,完整分类体系下的领域文本判别,有监督文本分类方法,需要为每个类别提供一定规模的训练语料,实现了一个文本分类评测平台,包括10种可定制的特征选择算法和4种可定制的分类算法,特征选择算法：词频与倒文档频度（TFIDF）、期望交叉熵（ECE）、统计、互信息（MI）、文本证据权（WE）、信息增益（IG）、文档频度（DF）、KFIDF、DR+DC、NCD+NDD方法,分类算法：简单贝叶斯（NB）、Rocchio、K最近邻（KNN）和支持向量机（SVM）,领域文本自动判别方法,非完整分类体系下反例集获取困难,完整分类体系下训练某个类别的分类器时，其他类别训练语料的合集作为反例集,非完整分类体系下获取某个类别的平衡反例集比较困难,基于正例的文本分类方法,不需要提供已标注的反例集,需要使用大规模未标注样本,基于正例的文本分类问题的传统方案,步骤一：启发式样本标注,1-DNF,PNLH,spy,rocchio,步骤二：建立分类器,通过迭代建立一系列分类器,只建立一个分类器,传统方法存在的问题,启发式样本标注中,高准确率,和,高召回率,不可兼得,1_DNF：将U中不含全部正例特征的文档看作反例,高准确率，低召回率,PNLH：定义正例参考值(PRP)，将PRP值小于U集全部文档PRP平均值的文档当作反例,低准确率，高召回率,不同途径得到的标注样本的置信度不一致，传统方法不加区别的使用所有样本,势必导致分类准确率下降,基于置信度加权的领域文本判别法,多策略样本标注算法,自动标注尽可能多的样本，即在保证样本标注召回率的前提下，按照标注样本的置信度对样本集进行划分,加权支持向量机算法,为不同置信度的样本赋予不同的权重,不同标注策略的样本置信度实验,Retuers语料上的标注样本置信度,一级正例,二级正例,一级反例,二级反例,三级反例,acq,1.0000,0.6739,0.9940,0.9542,0.3528,corn,1.0000,0.4643,1.0000,1.0000,0.8558,crude,1.0000,0.8371,0.9999,0.9996,0.7407,earn,1.0000,0.6884,0.9993,0.8499,0.6822,grain,1.0000,0.9071,0.9999,0.9988,0.6486,interest,1.0000,0.4531,0.9999,0.9992,0.8303,money-fx,1.0000,0.5316,0.9999,0.9992,0.7472,ship,1.0000,0.8309,0.9992,0.7772,0.7888,trade,1.0000,0.6733,1.0000,0.9988,0.7058,wheat,1.0000,0.6733,1.0000,1.0000,0.7058,avg,1.0000,0.6733,0.9992,0.9577,0.7058,三级反例及基于置信度加权对分类性能的影响实验,noN3noWei,useN3noWei,noN3useWei,useN3useWei,acq,0.9415,0.9518,0.9481,0.9599,corn,0.5315,0.5552,0.5399,0.6274,crude,0.8465,0.8175,0.8582,0.8281,earn,0.9178,0.9312,0.9473,0.9707,grain,0.8604,0.8123,0.8621,0.8643,interest,0.6918,0.7022,0.7222,0.7314,money-fx,0.7481,0.7784,0.7604,0.7789,ship,0.7297,0.6515,0.7158,0.6496,trade,0.686,0.7928,0.7072,0.8092,wheat,0.6793,0.7199,0.6874,0.7055,avg,0.7633,0.7713,0.7749,0.7925,是否使用三级反例及基于置信度加权对Retuers数据集的分类性能影响,对比实验,S_EM,WL,BiasedSVM1,BiasedSVM2,WeiSVM,acq,0.9568,0.9202,0.9504,0.9579,0.9599,corn,0.5027,0.5893,0.5987,0.593,0.6274,crude,0.8569,0.8638,0.797,0.8046,0.8281,earn,0.9677,0.9403,0.9772,0.9766,0.9707,grain,0.8706,0.864,0.8345,0.8374,0.8643,interest,0.6793,0.7673,0.666,0.6515,0.7314,money-fx,0.7594,0.7741,0.7031,0.7558,0.7789,ship,0.7281,0.6959,0.5724,0.5965,0.6496,trade,0.5888,0.8026,0.7276,0.7586,0.8092,wheat,0.6363,0.6418,0.6989,0.7112,0.7055,avg,0.7547,0.7859,0.7526,0.7643,0.7925,Retuers数据集上不同方法的分类性能对比,报告内容,绪论,论文主体,领域文本自动判别相关技术研究,领域术语自动抽取相关技术研究,基于局部最大算法的中文新词发现,基于统计量度的术语抽取方法,领域术语抽取自助学习法,在文本分类和问答式信息检索中的应用设计,结论,传统中文新词发现方法的缺点,启发式特征+经验阈值,难以筛选合适的全局阈值统一抽取新词,机器学习方法,训练时间较长,基于局部最大算法的中文新词发现,中文词语是关联强度较大、结合较为紧密的字序列,高内聚性,可独立运用性,利用平摊对称条件概率(SCP_F)衡量字序列的结合力,局部最大算法思想：,如果ngram,W,的关联强度大于所有包含它的(n+1)gram 的关联强度，并且ngram,W,的关联强度不小于所有,W,包含的(n-1)gram 的关联强度，则,W,被看作候选新词。,能够很好地刻画词语的高内聚性和可独立运用性,基于局部最大算法的中文新词发现,基于后缀数组的实现方案,传统方法在计算n3的ngram时，速度非常慢，不能满足互联网环境下大规模网络文本的实时新词发现需求,采用基于后缀数组的数据结构,采用基于等价类划分的思想降低存储空间,只需要存储每个等价类中的一个最长序列,基于局部最大算法的中文新词发现过程,实验结果,在MSR语料上的新词发现前后对比实验结果,在PKU语料上的新词发现前后对比实验结果,MSR,OOV 召回率,精确率,召回率,IV 召回率,F1量度,Baseline,0.361,0.936,0.971,0.988,0.953,Baseline+NE,0.497,0.943,0.968,0.981,0.955,Baseline+NWI,0.581,0.951,0.967,0.977,0.959,Baseline+NWI+NE,0.629,0.957,0.97,0.98,0.963,PKU,OOV 召回率,精确率,召回率,IV 召回率,F1量度,Baseline,0.234,0.891,0.937,0.98,0.913,Baseline+NE,0.42,0.914,0.943,0.975,0.928,Baseline+NWI,0.534,0.931,0.949,0.975,0.94,Baseline+NWI+NE,0.63,0.944,0.958,0.978,0.951,对比实验,系统编号,OOV 召回率,精确率,召回率,IV 召回率,F1量度,14,0.717,0.966,0.962,0.968,0.964,7,0.592,0.962,0.962,0.972,0.962,27(a),0.379,0.952,0.969,0.985,0.96,27(b),0.381,0.953,0.968,0.984,0.96,4,0.323,0.945,0.973,0.991,0.959,15(b),0.718,0.964,0.952,0.958,0.958,5,0.21,0.94,0.974,0.995,0.957,13,0.496,0.956,0.959,0.972,0.957,12,0.673,0.96,0.952,0.96,0.956,24,0.503,0.952,0.958,0.97,0.955,Baseline+NWI+NE,0.629,0.957,0.97,0.98,0.963,在MSR语料上和中文分词评测中其他系统的对比实验结果,实验结果,词典编号,新词比率,总词数,1,0.224,4622,2,0.269,3374,3,0.300,2757,4,0.334,2131,5,0.426,1189,6,0.494,750,小规模词典统计信息,不同新词比率下的新词识别性能,在不同新词比率下测试新词发现的性能,在缺乏词表或者为了扩展已有的小词表的情况下，局部最大算法可以用来抽取词语。,报告内容,绪论,论文主体,领域文本自动判别相关技术研究,领域术语自动抽取相关技术研究,基于局部最大算法的中文新词发现,基于统计量度的术语抽取方法,领域术语抽取自助学习法,在文本分类和问答式信息检索中的应用设计,结论,基于统计量度的术语抽取,抽取原则一,：领域术语应该在不同领域类别间分布不均匀,频繁出现在某领域文档中，很少出现在其它领域文档中的词语是领域术语的可能性较大。,出现该词语的领域类别数越少，该词语越有可能是领域术语。,抽取原则二,：领域术语在其相关领域的文档集中应尽可能分布均匀,出现在某领域的大多数文档中的词语可能是该领域的术语。,正规化策略,：减轻不同语料规模和文档长度的影响,传统方法:KFIDF,DR_DC,对术语抽取标准描述不够细致和全面,基于正规化分布熵的领域术语抽取方法,基于正规化分布熵的领域术语抽取,符号定义：,D,i,(1,i,m,):,第,i,个领域类别,d,ij,(1,j,n,i,):,类别,D,i,中的第,j,个文档,l,ij,:,文档,d,ij,的长度,即在该文档中出现的所有词语的词频之和,L,i,:,类别,D,i,包含的所有文档长度之和,数学描述：,词语的正规化的类间分布熵NCD,词语的类间分布熵：,词语“党性”和“知觉”在类别A(马列主义)均以0.5的概率出现,但“党性”只出现在A(马列主义)与D(政治、法律)两个类别,而“知觉”共出现在11个类别的语料,基于正规化分布熵的领域术语抽取,词语在领域D,i,的正规化的类内分布熵NDD,“蛔虫”在类别G(文化、科学、教育、体育)的一篇介绍中小学生健康问题中蛔虫感染的文章中多次出现,但在该类别的其它文档中未出现,那么该词就不具有领域代表性,不能成为G类的领域术语.,C1 马列主义,无产阶级,社会主义,全党,马克思主义,共产主义,马克思列宁主义,马克思,无产者,资产阶级,共产主义社会,剥削,阶级,生产资料,恩格斯,私有制,资产者,C2 法律,司法,人民法院,最高人民法院,案件,审理,诉讼,法院,司法机关,当事人,职权,国家机关,审判,被告人,民事,行使,民事诉讼,C3 军事,作战,军种,军事,军队,战争,兵力,事变,美军,新军,战法,我军,武器,军兵种,火力,军事科学,战场,C4 体育,比赛,首场,球员,球队,英格兰队,队友,世界杯,夺冠,冠军,决赛,足协,后卫,主帅,瑞典队,任意球,小组赛,C5 医药卫生,患者,治疗,血管,临床,疗效,药物,病人,冠心病,并发症,动脉,冠状动脉,手术,症状术后,口服,疗法,服用,C6 轻工业,包装,食品,调味,保质期,肉制品,玻璃瓶,品牌,肉食品,方便化,果汁,腥味,肉类,专卖店,草莓,货架,糖度,中图分类体系下抽取结果示例,实验结果,中图分类体系下随机抽取的六个领域上的领域术语抽取数目,类别编号,词语总数,抽取词语个数,DR+DC,NCD+NDD,B 哲学、宗教,88830,1776,881,E 军事,41030,621,677,H 语言、文字,38666,638,741,R 医药、卫生,18182,444,571,TD 矿业工程,27925,318,162,TS 轻工业、手工业,21792,257,358,DR+DC,方法抽取词语个数会随着语料规模的变化产生较大变化,NCD+NDD,方法抽取词语数目不完全依赖于语料规模,实验结果,图1 前200个词语的正确率,随机抽取的六个领域上领域术语抽取正确率,图2 其余词语的正确率,对于语料规模很大的类别,NCD+NDD,法的,正确率要明显高于,DR+DC,法,在其它正确率相当的,类别中,抽取的术语数目要明显高于,DR+DC,法,领域术语自动抽取相关技术,未标注文本,种子术语,词语的领域类别判定,基于统计量度的术语抽取,术语抽取自助学习法,领域对比语料,简单、快速,术语抽取自助学习法,总体思想：,给定：领域集合D,1,D,2,D,n,对应的种子术语集合T,0,=T,1,0,T,2,0,T,n,0,过程：,术语分类器通过挖掘未标注文档中的新词语和给定种子术语之间的关联，将新术语归类到相应领域类别中，得到了扩大的术语集：T,1,=T,1,1,T,2,1,T,n,1,，然后再用此扩大的术语集训练分类器，直到迭代终止，得到最终的新术语集,T,z,= T,1,z,T,2,z,T,n,z,。,基于词语上下文表示的术语抽取自助学习法,基于词语上下文表示的术语抽取自助学习法,传统基于文档空间表示法的缺陷,无法表示文档内部的信息,只能获取在多个文档中出现的术语,基于全局上下文的词语表示,术语t,i,出现在语料,的子集d,i,1,d,i,2,d,i,t,中，设c,i,j,表示术语t,i,在文档d,i,j,中的上下文特征集，则t,i,的全局上下文是c,i,1,c,i,2,c,i,t,的并集。,基于潜在语义索引的特征空间压缩,术语抽取自助学习法,实验,D1,D2,D3,D4,D5,财经,娱乐,技术,体育,军事,新浪网前5个领域,每个类别手工抽取20个词语作为种子术语,新浪网下载的10000篇文档作为未标注语料,对比方法：,基于上下文空间表示法的术语抽取,基于文档空间表示法的术语抽取,领域类别信息,领域,上下文空间表示法,文档空间表示法,Precision,Pseudo-recall,Precision,Pseudo-recall,D1,82.67%,95.22%,83.28%,87.92%,D2,88.77%,89.47%,86.00%,80.30%,D3,90.00%,89.87%,83.67%,86.37%,D4,87.05%,91.03%,85.68%,84.13%,D5,81.33%,93.22%,82.58%,87.06%,Avg,85.96%,91.76%,84.24%,85.16%,领域,上下文空间表示法,文档空间表示法,Precision,Pseudo-recall,Precision,Pseudo-recall,D1,82.41%,92.41%,79.39%,70.66%,D2,79.62%,85.38%,77.78%,53.85%,D3,86.78%,81.76%,87.86%,38.24%,D4,82.61%,75.52%,83.00%,65.52%,D5,75.14%,80.00%,73.00%,56.00%,Avg,81.31%,83.01%,80.21%,56.85%,两种方法在抽取频率为1的低频词上的性能比较,两种方法抽取术语性能比较,报告内容,绪论,论文主体,领域文本自动判别方法研究,领域术语自动抽取方法研究,在文本分类和问答式信息检索中的应用,结论,文本自动分类过程,文本自动分类需要解决三个技术问题：文本表示、文本特征选择和选择分类算法。,在文本自动分类中的应用,应用一：特征集扩展,将基于局部最大算法的中文新词发现方法应用于文本分类语料的分词处理，从而扩大文本表示的特征集,方法,准确率,召回率,F,值,特征集扩展前,0.866,0.818,0.841,特征集扩展后,0.874,0.828,0.850,特征集扩展前后文本分类性能对比,小规模原始词典下文本分类性能对比,在文本自动分类中的应用,基于统计量度NCD+NDD的术语抽取,传统特征选择,代替,应用二：特征选择,方法,准确率,召回率,F值,MI,0.419,0.409,0.414,DF,0.556,0.529,0.542,WE,0.564,0.541,0.552,IG,0.559,0.546,0.552,TFIDF,0.596,0.572,0.584,ECE,0.617,0.597,0.607,KFIDF,0.616,0.601,0.608,CHI,0.633,0.602,0.617,DR+DC,0.631,0.626,0.628,NCD+NDD,0.663,0.669,0.666,在中图分类数据集上的对比实验,方法,准确率,召回率,F值,MI,0.660,0.626,0.643,WE,0.719,0.672,0.695,DF,0.730,0.694,0.712,IG,0.751,0.701,0.725,KFIDF,0.783,0.746,0.764,TFIDF,0.785,0.750,0.767,ECE,0.790,0.776,0.783,CHI,0.802,0.782,0.792,DR+DC,0.853,0.801,0.826,NCD+NDD,0.874,0.828,0.850,在旅游类数据集上的对比实验,在旅游领域问答式信息检索中的应用,应用一：专业文本采集,网络文本采集是通过预先设定的种子URL集合，以各种不同的爬行策略循环迭代地访问Web下载网页,当采集的信息只限定于特定的领域，出于性能上的考虑其不必也不可能对整个Web进行遍历,探讨了领域文本自动判别技术在专业文本采集中的应用,在旅游领域问答式信息检索中的应用,应用二：概念语义网络:以实现智能化的概念检索,旅游领域概念语义网络,领域术语抽取算法获取旅游领域术语,构建了如下八个类别的概念语义网络,宾馆饭店、城市概况、地方文化、交通指引、休闲娱乐、,旅游景点、旅游服务、购物美食,宾馆饭店类别的部分,概念语义网络图示,在旅游领域问答式信息检索中的应用,概念语义网络维护工具功能模块图,实现了一个概念语义网络维护工具,用于构建、使用、维护概念语义网络，将其纳入到问答式信息检索系统中。,报告内容,绪论,课题研究的目的、意义、研究现状,论文主体,领域文本自动判别方法研究,领域术语自动抽取方法研究,在文本分类和问答式信息检索中的应用,结论,结论,针对,利用,正例和未标注数据的领域文本判别问题，,提出基于样本置信度划分的,加权支持向量机,方法。,这种方法可以克服传统方法中启发式样本标注的精确度和召回率不可兼得的弊端，提高了领域文本判别系统的性能。,针对中文新词发现问题，提出了一种基于局部最大算法的中文新词发现方法，用于识别语料中的候选领域新词。,该方法是一种高效鲁棒的新词发现算法，将该新词发现方法和命名实体识别工具相结合，可以使整个分词系统的性能达到较高水平。将其应用于文本分类的特征集扩展，可以提高文本自动分类系统的性能。,结论,针对词语的领域,类别,判,定,问题，提出了基于正规化分布熵（,NCD+NDD,）的领域术语抽取方法,NCD+NDD方法比传统DR+DC方法具有更高的术语抽取准确率和召回率；将其用于文本分类的特征选择，取得了比传统特征选择算法更好的文本分类性能。,针对,利用,种子术语和未标注文本的领域术语抽取，提出了基于词语全局上下文表示的术语抽取自助学习法,该方法克服了传统基于文档空间的表示法中不能描述文档内部信息的缺陷，该方法比文档空间表示法具有更高的术语抽取伪召回率和精确率。,谢谢！,

展开阅读全文

领域术语自动抽取方法研究

最新文档