资源描述
1,目录,引言关键问题ICTCLAS评测由字构词总结,2,目录,引言关键问题ICTCLAS评测由字构词总结,3,Everythingismadeofparticles,soPhysicsisveryimportant.TheWorld-Wide-WebismadeofLanguage,soComputationalLinguisticsisveryimportant.ACL2007执行委员会主席MarkSteedman,4,中文分词做什么?,中文以字为基本书写单位,词语之间没有明显的区分标记。通俗的说,中文分词就是要由机器在中文文本中词与词之间加上标记。输入:我是学生。输出:我/是/学生/。,5,英语有词语切分问题吗?,英语中不是完全没有词语切分问题,不能仅凭借空格和标点符号解决切分问题。缩写词N.A.T.Oi.e.m.p.hMr.ATAtleast10%ofunseenandmissednamedentitieshavebeenlabeledoutcorrectlyforatleastonce.“Ifthecontextsurroundingoneoccurrenceofatokensequenceisveryindicativeofitbeinganentity,thenthisshouldalsoinfluencethelabelingofanotheroccurrenceofthesametokensequenceinadifferentcontextthatisnotindicativeofentity”.,33,Bakeoff2007法国电信北京研发中心,34,Bakeoff2007法国电信北京研发中心,LocalFeaturesUnigram:Cn(n=-2,-1,0,1,2)Bigram:CnCn+1(n=-2,-1,0,1)andC-1C10/1FeaturesAssign1toallthecharacterswhicharelabeledasentityand0toallthecharacterswhicharelabeledasNONEintrainingdata.Insuchway,theclassdistributioncanbealleviatedgreatly,takingBakeoff2006MSRANERtrainingdataforexample,ifwelabelthecorpuswith10classes,theclassdistributionis:0.81(B-PER),1.70(B-LOC),0.95(BORG),0.81(I-PER),0.88(I-LOC),2.87(I-ORG),0.76(EPER),1.42(E-LOC),0.94(E-ORG),88.86(NONE)ifwechangethelabelschemeto2labels(0/1),theclassdistributionis:11.14(entity),88.86(NONE),35,Bakeoff2007法国电信北京研发中心,Non-localFeaturesToken-positionfeatures(NF1)Theserefertothepositioninformation(start,middleandlast)assignedtothetokensequencewhichismatchedwiththeentitylistexactly.Thesefeaturesenableustocapturethedependenciesbetweentheidenticalcandidateentitiesandtheirboundaries.Entity-majorityfeatures(NF2)Theserefertothemajoritylabelassignedtothetokensequencewhichismatchedwiththeentitylistexactly.Thesefeaturesenableustocapturethedependenciesbetweentheidenticalentitiesandtheirclasses.Sothatthesamecandidateentitiesofdifferentoccurrencescanberecalledfavorably,andtheirlabelconsistenciescanbeconsideredtoo.Token-positionfeatures&entity-majorityfeatures(NF3)Thesefeaturescapturenon-localinformationfromNF1andNF2simultaneously.,36,技术进步背后的理念更新,中文的词语只应有一个标准,还是可以有多个标准并存?中文词语是被怎样精良定义的?规范+词表+大规模标注语料库字本位,还是词本位?,37,目录,引言关键问题ICTCLAS评测由字构词总结,38,由字构词,每个字在构造一个特定的词语时,都占据着一个特定的构词位置(词位)。把分词视为字的词位分类问题。词位分类词首B占领词尾E抢占词中M独占鳌头单字词S已占全国分词结果上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。词位标注上/B海/E计/B划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/M美/M元/E。/S,39,由字构词背后的思想,“,thePOCtagsreflectourobservationthattheambiguityproblemisduetothefactthatahanzicanoccurindifferentword-internalpositionsanditcanberesolvedincontext.”NianwenXue中文词一般不超过4个字,所以字位的数量很少。部分汉字按一定的方式分布。利用相对固定的字推断相对不定的字的位置问题,如:“们”总是出现在一个词里最后的位置,由此可以推断:“们”与前面的字结合成词;“们”后面的字是下一个词的开头。虽然不能将所有的词列入词典,但字是基本稳定的。,40,由字构词方法的构词法基础(1),能产度(Productivity)令,任意字在词位下的能产度可定义如下:主词位对于任意一个字,如果它在某个词位上的能产度高于0.5,称这个词位是它的主词位。MSRA2005语料中具有主词位的字量分布:,41,由字构词方法的构词法基础(2),自由字并不是每个字都有主词位,没有主词位的字叫做自由字。除去76.16%拥有主词位的字,仅有大约23.84%的字是自由的。这是基于词位分类的分词操作得以有效进行的基础之一。,42,由字构词方法的实验数据(1),以下数据摘自N.XueandL.Shen.2003.实验概况数据来源:PennChineseTreebank,由新华新闻专线文章构成。训练数据:237,791词(404,680字)测试数据:12,598词(21,612字),未登录词占3.95%实验1a,正向最大匹配算法实验1b,正向最大匹配算法+测试数据得到的词典实验2,最大熵模型+字位标注,43,由字构词方法的实验数据(2),实验结果当有未登录词时,FMM算法的f值大大下降,而由字构词的方法仍然取得了很好的f值。在未登录词召回率方面,由字构词方法的优越性就体现的更明显了。虽然未登录词没有出现在训练数据中,但是构成这些词的字出现过,所以基于这些字的分布,可以发现这些词。测试数据中,有137个人名(既有中国人名,也有外国译名,其中122个不同),119个被正确的切分,召回率为86.86%。总的来说,对于这个模型,长名更容易有问题。,无未登录词,2003年863评测中,人名识别召回率最高为78.07%,44,由字构词的优点,平衡的看待词表词和未登录词的识别问题。词表词和未登录词都是用统一的字标注过程来实现,既不必强调词表词信息,也不用专门设计特定的未登录词识别模块,使得分词系统的设计大大简化。,45,基于有效子串的中文分词,此方法参见赵海的论文基于有效子串标注的中文分词。基于字标注的方法忽略了很多有意义的组合信息。如“北京”,高频而且固定,但是基于字标注的学习算法不能有效利用这一信息。利用迭代最大匹配过滤算法,构造子串词典使用截断频率抽取高频词利用生成子串词典对训练语料做最大匹配切分如果切分跨越了训练语料中的切分,如“中医疗法”,则从词典中去掉该词重复检查双词典最大匹配算法使用子串词典,对测试语料进行最大匹配切分保证以上切分不跨越辅助词典中的词将以上切分出来的子串的各部分,用做子串标注单元使用基于字标注的方法,对子串进行标注,46,WordBoundaryDecisionSegmentationModel,Chu-RenHuang,InstituteofLinguistics,AcademiaSinicaTheWBDmodeltreatswordsegmentationasabinarydecisiononwhethertorealizethenaturaltextualbreakbetweentwoadjacentcharactersasawordboundary.Context:abcdInterval:Unigrams:b,cBi-gramsab,bc,cdVector:Advantages:F,robust,spaceandtimecost,47,目录,引言关键问题ICTCLAS评测由字构词总结,48,总结,国际中文自然语言处理Bakeoff为中文分词技术提供了一个公开、可比的评测平台,推动了中文分词技术的进步。基于字标注的方法通过改进未登录词识别能力,提升了分词系统的总体性能。“基于字标注的方法+机器学习”成为中文分词主流技术。,49,中文分词给我们带来的机遇,目前研究中文分词的科研单位有:中科院、清华、北大、哈工大、北京语言学院、东北大学、IBM研究院、微软亚洲研究所。企业有:海量科技。因为中文需要分词,所以会影响一些研究,但同时给一些企业带来机会。因为国外的企业想要进入中国市场,首先要解决中文分词问题。而中文研究方面,中国人有明显的优势。,50,值得进一步研究的工作,中文分词CRF+基于字标注的方法ME+基于字标注的方法分词的颗粒度基于边界标注的方法中文词性标注中文分词和词性标注一体化系统HHMM(参照ICTCLAS),51,参考文献(1),宗成庆.统计自然语言处理.清华大学出版社,2008.黄昌宁,赵海.中文分词十年回顾.中文信息学报,2007,21(3):8-19.黄昌宁,赵海.由字构词中文分词新方法A.中文信息处理前沿进展中国中文信息学会二十五周年学术会议论文集C,2006.孙茂松,邹嘉彦.汉语自动分词综述J.当代语言学,2001,3(1),22-32.杨尔弘,方莹等.汉语自动分词和词形评测.中文信息学报,2006,20(1):44-49.赵海.对于bakeoff-3的简单综述.,52,参考文献(2),ProceedingsoftheSixthSIGHANWorkshoponChineseLanguageProcessing.SproatR.,Shi,C.etal.AStochasticfinite-statewordsegmentationalgorithmforChineseJ.ComputationalLinguistics,1996,22(3):377-404.Hua-PingZhang,QunLiu,Xue-QiCheng,HaoZhangandHong-KuiYu.ChineseLexicalAnalysisUsingHierarchicalHiddenMarkovModel.proceedingsof2ndSigHanWorkshop,August2003,pp.63-70.N.XueandL.Shen.2003.ChinesewordsegmentationasLMRtagging.InProc.OfSIGHANWorkshop.,53,推荐一个找论文的网站,ACLAnthologyNetworkhttp:/clair.si.umich.edu/clair/anthology/index.cgiThenetworkiscurrentlybuiltusing13706oftheACLpapers.ThisincludesallpapersuptoandincludingthosepublishedinNovember2008whichweresuccessfullyprocessed.,54,谢谢!,
展开阅读全文