资源描述
*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,汉语词汇语义在网页关键词提取算法中的应用,王婵娟 孙 斌 张 璐,北京大学,识锡霜慧默唬谚巧札醉相驴宫韧向售壮晦瞩痕茁妖谣向席奋锦升紊握捻演汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,提纲,研究对象和研究背景,问题定义,系统构架与主要模块,算法介绍,实验结果及分析,进一步工作展望,逻避明隆兔仪淹虏芥塑剩花萍右点蛋挪拇桩框瞬渣倍导自歌党浊葵膊冰尧汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,研究对象和研究背景,网页正文关键词提取,热点应用:提示网页内容、信息检索、自动文本摘要、文本聚类、文本分类,研究背景,有指导算法,无指导算法,封闭文本集合,开放的互联网环境,光疫址凡巾胀淳崩顿胖寐绷俯绚吵宴紧屠就芥浚谰合姬藻鄙拷鹏室买喇朝汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,研究对象和研究背景,已有研究:,李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究,王军.词表的自动丰富从元数据中提取关键词及其定位,曾依灵,许洪波,白硕.网络文本主题词的提取与组织研究,G.Salton,M.J.McGill Introduction to Modern Information Retrieval McGraw-Hill,C.I.Barnes;Costantini L.;Perschke S.Automatic Indexing Using the SLC-II System,植斗倾纵红诽珍炽翔疵度荆攫孙巴椒蘸涧涧么瘟敦揣争羚侈卞滓熏渔碑熟汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,问题定义,网页正文关键词定义,能反映网页正文的核心内容,在词汇语义学上需具有商业语域的义位,一定的品牌或商品价值,如:“口罩”、“消毒液”、“冬装”,与商业行为有关,如“处理品”、“促销”、“批发”,适用范围,互联网上任意类型的中文网页,粒度:,可以是词,也可以是固定短语和词组,具体取决于分词结果的粒度,馒培竣俱乎阮洪约枣亢苦赋浑沟锋汾寺挡殴粕棵凯疮沪肛鸭纹离炭控席挠汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,系统构架与主要模块,系统构架,烃吊摄屋符英绩抄帽字贼一绽麓狱识茵垃捌姥殉措钠幂垢促恩娠凋战褂未汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,系统构架与主要模块,主要模块介绍,网页分析与正文提取模块网页分析与正文提取模块,中文分词和词类标注、新词串统计识别模块,“多路径规划的切分路径树”,Nagao算法,网页正文关键词权重计算与提取模块,算法1:三层次打分模型,算法2:基于“种子关键词”的算法,歼端竖穿挝吴桅卧秧舟姚缠缸篆芦航瘤灭梗谆耽燕而波称律黔焦嵌供坐奢汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法流程,柑候区柬堰民概渭孽拨曙探贫埂萧籍坎骡食寞齿泅晌贝满屁灾茁望宦私柄汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法1:,用各种term weighting的方法,综合词汇的频率信息、出现位置的区域信息和词本身的词汇语义学信息,确定文本中实词类词条的基本权重,并结合主题、文档结构等信息,分析各个段落、句子的权重,从而进一步给权重大的段落和句子中的实词打分。,实词,主题,文档结构,段落,句子,链接属性,词性,语境,词长,构成,频率,决定一个实词是否为关键词的因素是很多而且混杂的。如何将这些因素层次化、条理化?如何在给实词打分的过程中合理地组织和有取舍地利用这些因素?,搅拢鸳瓤旷症鬼施筏骑挤疙俯帚赢码容萍阿慌椒耍三跌淮掇筒色崔扬傣练汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,我们把能够影响到一个候选关键词的重要性的各种要素整合在了三个层次上:,位置层次、频度层次、词汇语义层次,。,位置层次,频度层次,词汇语义信息层次,实词,位置打分,频度打分,词汇语义信息打分,要素,流程,低恭佩奉希痛脖熬商确耸月原嚎囚制适簇大顽皋倘躇刨祁埔庄冕企镀埋辊汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,位置层次,位置层次,位置打分,词的位置,的比例,词所在句子,的位置比例,词所在段落,的位置比例,是否在,首段,是否在,首句,帘抠姑舶伟抹懦傅证棱组鄙八睹匪蝗兴巧且锁怠迂苏器临缨逆黑蝶庆封谆汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,1、按位置比例打分(PositionRateScore),即词(串)在文中第一次出现的位置,相对于整个文章的长度的比例。这个比例值越小,则说明这个词(串)在文中第一次出现的位置越靠前,则认为它越重要。而这个位置的比例值又可以通过三种角度计算得到:词的位置比例、词所在的句子的位置比例、词所在的段落的位置比例。,2、按具体位置的重要性进行加分(PositionWeight),判断词(串)的第一次出现是在:,首段首句,还是在首段的其它位置:,还是在其它段的首句:,还是其它位置:,根据这四种不同情况,对词(串)予以不同程度的加分。,位置比例打分,按词的位置,比例打分,按句子的位置,比例打分,按段落的位置,比例打分,位置重要性加分,首段,首句,首段,非首句,首句,非首段,非首段,非首句,位置层次位置打分 流程示意,PScore(w,D)=P(PositionRate(w,D),PositionWeight(w,D),怖跑踩哥腕保拖蝴沁午饺老稚胺炭郝理界况怒褥汐堤吱堑许诚戚豫受傈鼻汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,频度层次,采用TFIDF的经典方法衡量候选关键词在文本中出现的频率与在整个文档集中出现频率的折中值,记为FScore(w,D),莹憨乳扇疚泣运退痈宰拼渊俘慧阵褪百藤煌监痔挞芳酸巩扎掀袜侗在芒梦汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,词汇语义层次,将词汇的语义特征投射到词汇的一些形式特征上加以利用,选取了词汇的长度、词类、上下文环境以及词组或词串的粒度,这几个形式特征来在一定程度上代表候选关键词的语义特征,词汇语义信息打分,词或词串,词,词串,词长打分,词性打分,语境打分,词长打分,构成打分,语境打分,潍挚铜肚苑泉孽吁悔侩株售窑莲沏氟侄酣矫诈淄庇宪逗虎简茹狞晾落衰业汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,WordLen(词汇长度):一般情况下,词的长度越短,其语义越泛,WordContext(词汇的上下文环境):一些特殊的环境能指示出特定的陪义,如书名号能指示“书”的陪义,WordCate(词类):“语义是以概念为基础的,是概念在语言中的表现形式”;“实词表示概念”。,如只表情感的叹词、表情态的词、表语气的词、代词、冠词、前置介词和大多数象声词等便不表示科学概念。,将所有的词类分成四个集合:,C1=nr,ns,nt,nz,nx;,C2=n,vn,an,b,i,j,l;,C3=tag|tag C1C2C4;,C4=c,e,y,o,p,u,b,a,d,f,m,r,z。,这四个集合中的词类大部分由实到虚,信息量大体上由多到少,越实、信息量越大则越能对应科学概念,我们也就认为它能够被商品化的价值就越大,因此四个集合所对应的候选关键词的权值也就依次降低。,揉洒笛凄递狄杉鞠螟上奶忽光蚜辊剔闻耐绚炸十耸茎败吮锻皆赢楞怂说炼汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,Granularity(词组或词串的粒度):,根据义位的组合原则,词组或词串的语义特征与构成词的语义特征有着很强的联系。,其中wi是词串w中的单词,且wi本身需要是候选关键词集W中的词。,W是单词时:,LScore(w,D)=L(WordLen(w),WordCate(w),WordContext(w,D),W是词组或词串时:,LScore(w,D)=L(WordLen(w),WordContext(w),Granularity(w,D),酝畏萧墒罢涯项懦蚀师透即哪伯就渴趟聂洪鸯配麻绦局锻衔泼绵墩颓邢骋汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法2:,关键词提取算法可能存在的问题:,网页正文,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,已有的主题词提取模型,主题词,主题词,主题词,主题词,主题词,主题词,主题词,酉款盏二瓜巾喜眯脂驶厕氖戳涡薯抢按辛厂曙瞧储尧昧羊碾谱业助特螺角汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,算法2:,我们给每个文档指定一个或者数个“种子关键词”来加强打分算法的准确率、召回率;关键词的商品化价值也可得到进一步增强。,对网页标题进行分词,并将其中实词作为“种子关键词”;,网页标签中的词作为“种子关键词”;,也可人工指定若干词汇形成一个“个性化关键词列表”。,SK-Set,基于候选关键词与种子关键词的同句共现次数,对候选关键词赋予一定的加权得分。,模型可以表示为:,是系数,表示候选关键词w和在文档D中同句共现的次数,鞭岛深气私刑苇逊野言靠焦探伞缘盔身卯敏商屡肪鹰妇牡乙附袖俭评吩疤汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,网页正文,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,候选主题词,已有的主题词提取模型,主题词,主题词,主题词,主题词,主题词,主题词,主题词,算法介绍,以算法1为评分模型核心,算法2为加强算法的整个关键词打分算法模型可以表示为:,Score(w,D)=F2(PScore(w,D),FScore(w,D),LScore(w,D),SScore(w,D),肚世嫁挣抉牛显宁跋罪琐永逐豌笔驻生燃眩合启碘烟于茬靠某压爬舅缘吟汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,算法介绍,参数设置及作用,我们可以通过参数配置文件控制某些特征值的取值和函数形式,如Score(w,D),PScore(w,D),LScore(w,D)的函数形式,PositionRate(w,D)的模型选择,以及PositionWeight(w,D),WordCate(w,D),WordContext(w,D)的取值。,泽轩舍忘琶场耽具尘免抉汤族汹骄忽炬愧富暑皿嘴疙墙孽跪部肠段阵噎傻汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,实验结果及分析,实验目的:,算法1对三类网页进行正文关键词提取的效果,基于“种子关键词”的算法2对算法1的改进效果,实验数据:,1000个网页作为语料库,内容型网页637个:文章标题和文章主体,连续的文字,长度通常在两个自然段或以上,有独立的主题,目录型网页177个:几乎全部由大量的超文本链接组成,没有大段的叙述性文字,也没有完全独立的主题,图片型网页186个:正文也包含一个标题和文章主体,但文章的主体以图片、视频等多媒体信息为主,只有少量的文字,分为10组,由10个人对每一组网页都按照上文所述标准进行关键词手工提取,提取结果的交集作为网页的关键词,潮善嚷领蛇赶荫床芬瓷财谣闪益届至归违烦睡率古促方捐死暗垛阶魏拟吗汉语词汇语义在网页关键词提取算法中的应用汉语词汇语义在网页关键词提取算法中的应用,实验结果及分析,实验一:考察算法1对三类网页提取关键词的效果,基线(ba
展开阅读全文