资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,精,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,精,*,*,基于语料库的工作,张宇,精,1,基于语料库的工作张宇精1,大纲,什么是语料库,语料库的发展简史,语料库建设中处理的问题,数据标注,精,2,大纲什么是语料库精2,什么是语料库,语料库,英文为,Corpus,存储语言材料的仓库,现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本,.,精,3,什么是语料库语料库,英文为Corpus精3,关于语料库的三点基本认识,语料库中存放的是在语言的实际使用中真实出现过的语言材料;,语料库是以电子计算机为载体承载语言知识的基础资源;,真实语料需要经过加工(分析和处理),才能成为有用的资源;,精,4,关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真,语料库示例,北京大学计算语言所富士通人民日报标注语料库样例:,历史,/n,将,/d,铭记,/v,这个,/r,坐标,/n,:,/w,北纬,/b,/m,度,/q,、,/w,东经,/b,/m,度,/q,;,/w,人们,/n,将,/d,铭记,/v,这,/r,一,/m,时刻,/n,:,/w,年,/t,月,/t,日,/t,时,/t,分,/t,。,/w,中国,/ns,政府,/nnt,顺利,/ad,恢复,/v,对,/p,香港,/ns,行使,/v,主权,/n,,,/w,并,/c,按照,/p“/w,一国两制,/j”/w,、,/w“/w,港人治港,/l”/w,、,/w,高度,/d,自治,/v,的,/u,方针,/n,保持,/v,香港,/ns,的,/u,繁荣,/an,稳定,/an,。,/w,精,5,语料库示例北京大学计算语言所富士通人民日报标注语料库样例:精,语料库的分类,生语料库,/,熟语料库,生语料库,就是未经加工的,没有任何切分,标注标记的原始语料库,熟语料库,就是指经过加工,带有切分,标注标记的语料库,系统型语料库,/,专用型语料库,系统型语料库,就是依据事先确定的选材原则和比例选取语料的语料库,专用型语料库,就是指专门服务于某个特定目的的语料库,单语种语料库,/,多语种语料库,精,6,语料库的分类生语料库/熟语料库精6,语料库发展简史,第一代(,1970,80,年代),第二代(,1980,90,年代),第三代(,1990,年代),精,7,语料库发展简史第一代(197080年代)精7,第一代语料库,Brown,语料库,LOB,语料库,LLC,语料库,百万词级以语言研究为导向,精,8,第一代语料库Brown语料库百万词级以语言研究为导向精8,第二代语料库,COBUILD,语料库,Longman,语料库,千万词级词典编纂应用导向,精,9,第二代语料库COBUILD语料库 千万词级词典编纂应用导向,第三代语料库,ACL/DCI,语料库,The,A,ssociation for,C,omputational,L,inguistics,D,ata,C,ollection,I,nitiative,UPenn,树库,LDC,(,Linguistic Data Consortium,),超大规模(上亿词级)标准编码体系深度标注,/,多语种,NLP,应用,精,10,第三代语料库ACL/DCI语料库 超大规模(上亿词级)标准编,语料库建设中处理的问题,文本,生文本,标注文本,语料库建设中处理的问题,低级格式问题,标记化:什么是一个词?,词法,句子,精,11,语料库建设中处理的问题文本精11,低级格式问题,垃圾格式,由于语料库的来源复杂,语料库中可能存在无法处理的各种各样的格式或内容,他们是没有用处的,需要过滤掉。,文档页眉、分隔符、排版代码、表和图表,如果数据来源于,OCR,,会引入错误识别的问题,精,12,低级格式问题垃圾格式精12,低级格式问题,大小写,the,,,The,,,THE,Richard,Brown,brown,paint,识别句子中人名的启发式方法,把每个句子开头的大写字母转换成小写字母,把一串连续大写的词当作标题和副标题,这样,其余的大写字母就可以认为是名字,精,13,低级格式问题大小写精13,标记化:什么是一个词,什么是词,前后有空格的连续字母组成的字符串,可以包含连字符和省略号,但是不能包含其它的标点符号。,Kucera and Francis,(,1967,),$22.50,,,Micro$oft,,,C,|,net,精,14,标记化:什么是一个词什么是词精14,标记化:什么是一个词,句点,大多数句点的作用是表明句子结束,其它情况表示缩写,例如:,etc.,,,Calif.,。,保留句点的意义,Wash.,(,Washington,),-Wash,etc.,出现在句子的末尾的时候,只保留一个句点,这个句点同时表示两种意思。,精,15,标记化:什么是一个词句点精15,标记化:什么是一个词,单撇号,Im,,,isnt,I am,,,is not,dogs,表示什么?,dog is,,,dog has,,还是所有格形式?,词末尾的单撇号如何处理?,通常代表一对引号的结束,不是该词的一部分,如果它跟着一个,s,出现,boys toys,精,16,标记化:什么是一个词单撇号精16,标记化:什么是一个词,连字符:不同形式表示相同形式的词,带有连字符的一串字母应该看成一个词还是两个?(有时候是一个,有时候是两个),一个,来源于排版印刷,找到一行中最后的连字符,丢弃它,把本行的词和下一行的连起来,e-mail,co-operate,连字符用于表示引用的短语或者数量、比率,the 26-year-old,database,data base,data-base,破折号和词语之间的空格,精,17,标记化:什么是一个词连字符:不同形式表示相同形式的词精17,标记化:什么是一个词,相同形式表示不同的“词语”,saw,工具,saw see,的过去时,精,18,标记化:什么是一个词相同形式表示不同的“词语”精18,标记化:什么是一个词,其它语言中的分词,中文、日文、泰文,严守一把手机关上,严守一 把 手机 关上,德语中大多数的词语有空格分割,但是复合名词写成单独的词,Lebensversicherungsgesellschaftsangestellter,人身保险公司的雇员,database data base harddisk hard disk,精,19,标记化:什么是一个词其它语言中的分词精19,标记化:什么是一个词,非词语分界的空格,data base database,9365 1873 93651873,New York,San Francisco,如果和连字符一起出现,问题就更加复杂了,the New,York New,Haven Railroad,习惯搭配形成的词,Work out,I couldnt,work,the answer,out,.,精,20,标记化:什么是一个词非词语分界的空格精20,标记化:什么是一个词,精,21,标记化:什么是一个词精21,词法,词干化,去除词缀只留词干的过程,operating-operate,computing-compute,词干化的优点,对词的各种变化形式进行归类,减少了词的数目,意味着一定水平上的词义消歧,Lying,lie,lay,(卧倒),lie,lied,(欺骗),精,22,词法词干化精22,词法,词干化中的问题,词干化会浪费一些信息,operating system,operate system,business,busy,词法分析把词切分成词次,但是有的时候把密切相关的信息组合到一起是有意义的,保卫祖国,保卫 祖国,公民有,保卫祖国,依法服兵役的义务,保卫,社会主义建设,战斗在,祖国,边疆及各个岗位上,英语中只有很少的词态,所以对其进行词态处理不是很有必要。而其它语言中,进行词态处理可能会有很大的意义,芬兰语,每个动词有百万种变化形式,精,23,词法词干化中的问题精23,句子,句子:以一个“。”、“,”、“!”或者“?”结尾的内容。,90%,的情况都是这样,句子可能会被其它的分隔符号切分开,(e.g.,:;-),句子的顺序可能会被打乱,“,You should be here,”she said,“before I know it!”,引号可能在句子的最后一个标点的后面,识别句子的边界,可以采用一些启发式的方法,也有一些学者尝试自动的方法来识别句子的边界。,精,24,句子句子:以一个“。”、“,”、“!”或者“?”结尾的内容。,启发式的方法,在,.?!,(和可能的,:;-,)出现位置之后加一个假设的句子边界,如果假设边界后面有引号,那么把假设边界转移到引号后面,如果在句点之前是一个不纵出现在句子末尾的众所周知的缩写形式,而且通常后面会跟一个大写的名字,例如:,prof.,如果句点前面是一个众所周知的缩写形式,但是句点后面没有大写词。这样即可正确地处理像,etc.,这样的大多数缩写用法,这些缩写一般出现在句子的中间或者末尾,如果下面的条件成立,则删除,?,或者,!,的边界资格,这些符号后面跟着一个小写字母(或者一个已知的名字),认为其它假设边界就是句子的边界,精,25,启发式的方法在.?!(和可能的:;-)出现位置之后,自适应的句子边界检测,Dr.J.M.Freeman and T.Boone Pickens Jr.,David D.Palmer,Marti A.Hearst,Adaptive Sentence Boundary Disambiguation,Technical Report,97/94,UC Berkeley:98-99%correct,精,26,自适应的句子边界检测Dr.J.M.Freeman an,数据标注,标注方案,我们可以在普通文本的语料库上做很多工作,在此之上,如果增加一些信息,那么会得到更多的东西,句子的边界,段落的边界,,Lexical tags,句法结构,语义表达,语义类别,不同的标注方案,COCOA format(,文本的头信息,例如作者、时间、日期、题目等,),:使用尖括号,第一个字母表示某个域的主要语义,通用标记语言,SGML(related:HTML,TEI,XML),精,27,数据标注标注方案我们可以在普通文本的语料库上做很多工作,在,SGML,例子,This book does not delve very deeply into SGML.,In XML,such empty elements may be specifically marked by ending the tag name with a forward slash character.,SGML can be very useful.,Character and Entity codes:begin with ampersand and end with semicolon,is the less than symbol,is the less than symbol,r,rsum,精,28,SGML例子 This book does n,语法标注,Tagging corresponds to indicating the various conventional parts of speech.Tagging can be done automatically(we will talk about that in a later lecture).,多种标注集,,e.g.,Brown Tag Set,University of Lancaster Tag Set,Penn Treebank Tag Set,British National Corpus(CLAWS*),Czech National Corpus,标注集的设计,标注集的特征,Target Fe
展开阅读全文