自然语言理解-词法分析.ppt

资源描述

词法分析语言根据词的形态结构分类分析型语言没有专门表示语法意义的附加成分汉语藏语黏着型语言词内有专门表示语法意义的附加成分芬兰语日语曲折性语言用词的形态变化表示语法关系英语德语法语什么是词词是语言中最小的能独立运用的单位是信息处理的基本单位界定词的困难所在单字词与语素之间的划界词与短语之间的划界汉语自动分词把没有明显分界标志的字串自动切分为词串背景汉语的特点汉语是大字符集的语言英语有26个字母而常用的汉字就有六七千个总数超过五万书面汉语的词与词之间没有明确的分隔标记背景汉语中兼类现象严重例如和根据现代汉语词典可以有五种读音六种词性以及十六种不同的词义印欧语系多有形态变化而汉语缺少形态变化例如复数单数过去现在阴性阳性等等汉语词法分析所面临的问题分词词表重叠词词缀分词和理解孰先孰后歧义切分字段专有名词的识别分词词表汉语词的抽象定义既词是什么与具体判定既什么是词问题语言学界并未完全解决词表对自动分词而言是最基础的构件分词词表信息处理用现代汉语分词规范迄今也没有一个公认的具有权威性的词表这是分词问题所面临的第一个困难汉语双字形容词的重叠形式汉语单字形容词的重叠形式汉语双字动词的重叠形式汉语单字动词的重叠形式汉语其他词类的重叠形式名词哥哥人人山山水水是是非非方方面面头头脑脑数词一一做了回答两两结伴而来量词个个都是好样的回回考满分副词常常仅仅的的确确汉语重叠词的特点汉语词能否重叠具有很强的个性特点研究研究工作工作有些词重叠后词性发生了变化形容词重叠后一般成为状态词个别量词重叠后可以成为其他词性回回副词个个名词汉语词缀前缀老鹰老虎老三老王超豪华超标准超高速非党员后缀骨头砖头甜头苦头盼头想头桌子椅子孩子票子房子文学家指挥家艺术家科学性可能性学术性碗儿花儿玩儿份儿片儿分词和理解孰先孰后计算机分词仍然面临知识短缺的大问题计算机大概永远做不到像人那样先理解后分词不可企求百分之百的正确切分这是自动分词所面临的第二个困难汉语切分歧义例子公路局处理解放大道路面积水问题南京市长江大桥说歧义切分字段定义1 1交集型歧义字串ABC 其中汉字字串A B C的长度均大于零该字串可以切分为AB C或A BC 则称该字串为交集型歧义字串例如出现在出现在切分1 出现在出现在切分2 歧义切分字段定义1 2组合型歧义字串AB 其中汉字字串A B的长度均大于零该字串可以切分成AB或A B 则称该字串为组合型歧义字串例如马上马上切分1 马上马上切分2 歧义切分字段混合型歧义由交集型歧义和组合型歧义自身嵌套或两者交叉组合而产生的歧义人才能这样的人才能经受住考验人才能这样的人才能经受住考验人才能这样的人才能经受住考验真歧义和伪歧义真歧义确实能在真实语料中发现多种切分形式比如应用于地面积伪歧义虽然有多种切分可能性但在真实语料中往往取其中一种切分形式比如挨批评市政府交集型歧义字段的链长链长交集型歧义字段中含有交集字段的个数称为链长链长为1 和尚未链长为2 结合成分链长为3 为人民工作链长为4 中国产品质量结合成分子时链长为6 努力学习语法规则链长为7 治理解放大道路面积水真实语料中歧义字段的分布汉语真实文本中的分词歧义情况材料一孙茂松等1999一个1亿字真实汉语语料库中抽取出的前4 619个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59 20 其中4279个属伪歧义占92 63 如和软件充分发挥情不自禁地覆盖率高达53 35 材料二刘开瑛2000 第4章78248个交集型歧义字段中伪歧义 94 真歧义 6 汉语真实文本中的分词歧义情况续分词歧义的四个层级何克抗等1991 50883字语料词法歧义 84 1 用方块图形式加以描述句法歧义 10 8 他一阵风似的跑了语义歧义 3 4 学生会写文章语用歧义 1 7 美国会采取措施制裁伊拉克分词模型歧义切分字段分词模型阶段一生成解空间根据分词词表及其某种切分原则找出输入句子的侯选切分集合以供下一阶段处理最大匹配法是极端之一给出唯一侯选侯选即解分词模型全切分法是另一个极端给出输入句子的所有可能切分形式可实现无盲点分析代价是解空间膨胀太大又会造成许多不必要的干扰关键能否在保证无切分盲点的前提下给出尽可能小的解空间分词模型阶段二在解空间中求解解决切分歧义的策略大致有三基于规则基于词频基于隐Markov模型阶段二在解空间中求解基于规则这类研究吸取了人工智能及专家系统的思想基于规则主要困扰是囿于目前汉语parser的能力任何期望倚重parser作为解决歧义切分之手段的设想尚缺乏现实的基础由于无法实现parsing 分词系统所能利用的句法语义规则必然是局部的基本上仅涉及若干毗邻词之间的线性关系可靠性不强难以建立完整有效无矛盾的体系阶段二在解空间中求解基于词频基于词频的排歧问题可抽象为求有向图两点间最优路径问题较最大匹配法可望将切分精确率提高约1 基于词频本质上这是一个关于词的零阶Markov模型也称作unigram 存在明显缺陷其表现不依赖于上下文而变化例如字段只是或一律作为一个词被切出来或一律被切成只是完全取决于只是和只是的词频阶段二在解空间中求解基于隐Markov模型语法知识以统计形式量化在标记的概率转移矩阵中表示简洁均匀处理灵活一致避免了采用规则系统的某些弊端基于隐Markov模型统计数据从不受任何限制的实际语料中获得可有效提高分析系统的能力及覆盖面并且分词结果能随时反馈到统计数据中使系统有一定的自学习功能模型的求解仍可归结为有向图两点最优路径问题基于隐Markov模型关键以隐Markov模型为主要手段解决切分歧义是一种最有希望的方案但单打一恐怕不能完全奏效必须集成多种手段方法专有名词的识别许多分词算法都是在完备词表的假设下设计的这一假设并不成立新词不断涌现而且专有名词虽然不新但不可能尽收专有名词的识别一般说来专有名词包括中国人名中国地名译名组织机构名事件名时间数量名商标名专有名词的识别陈 nhf平 nhs为 vl北京大学 ni中国经济研究中心 ni经济学 n教授 n w中心 n副 f主任 n w主管 v科研 j w w1968 m年 nt获 v中国科技大学 ni物理系 n学士 n学位 n w1987 m年 nt获 v美国 ns德克萨斯大学 ni物理学 n博士 n学位 n w 陈平人名美国地名北京大学中国科技大学中国经济研究中心及德克萨斯大学属于组织机构名专有名词的识别不同的语料专名所占的比例也不同对455万字的人民日报语料统计的结果显示专名占5 74 其中中国人名占2 55 地名占2 55 外国译名占0 73 如果不予处理会对切分精确率造成比歧义字段更大的影响研究进展中文词语的分析过程预处理过程的词语粗切分切分排歧与未登录词识别词性标注在实际的系统中这三个过程可能相互交叉反复融合也可能不存在明显的先后次序研究进展主要的汉语自动分词系统有北航的CDWS系统国内公开的第一个实用性汉字分词系统采用的自动分词方法为最大匹配法辅助以词尾字构词检错技术使用知识库进行纠错北航的CASS系统它使用的自动分词方法是正向增字最大匹配法使用知识库处理歧义字段研究进展山西大学的ABWS分词系统使用两次扫描联想回溯法利用联想回溯来有效地解决歧义组合结构的切分同时兼有自动检错和纠错的功能其分词子系统较好地利用了语言学中的词法知识句法知识并具有调用分词规则切分歧义字段和回收生词等功能北师大的自动分词专家系统首次将专家系统方法引入到分词系统中研究进展清华大学SEG分词系统此系统提供了带回溯的正向反向双向最大匹配法和全切分评价切分算法由用户来选择合适的切分算法其特点则是带修剪的全切分评价算法清华大学SEGTAG系统该系统对词典中的每一个重要的词都加上了切分标志即标志 ck 或 qk 通过这两种标志并使用几条规则来实现有限的全切分为了获得切分结果系统采用在有向图DAG上搜索最佳路径的方法所运用的搜索算法有两种即动态规划和全切分搜索叶子评价使用了词频词类频度词类共现频度等统计信息研究进展中科院计算所的词语分析系统ICTCLAS 采用N 最短路径方法进行词语粗分概率统计然后用HMM的方法进行分词和标注的一体化处理国家语委文字所应用句法分析技术的汉语自动分词此分词模型考虑了句法分析在自动分词系统中的作用以更好地解决切分歧义切词过程考虑到了所有的切分可能并运用汉语句法等信息从各种切分可能中选择出合理的切分结果研究进展复旦分词系统首先使用正向最小匹配和逆向最大匹配对文本进行双向扫描如果两种扫描结果相同则认为切分正确否则就判别其为歧义字段使用构词规则和词频统计信息来进行排歧哈工大的统计分词系统是一种典型的运用统计方法的纯切词系统它试图将串频统计和词匹配结合起来研究进展杭州大学改进的MM分词系统其实质为MM 规则微软研究院多国语言处理平台NLPWin中的中文词语分析词系统采用了切词句法分析一体化的方法使用语法规则并以概率模型作导向来进行排歧北京大学计算语言学研究所的汉语切分与标注系统把分词和词类标注结合起来采用基于规则的标注排歧与基于语料库统计模型的排歧相结合的处理方法研究进展北大计算语言汉语文本分析系统该系统中采用了一种综合性歧义切分处理方法其要点有把汉语基本词典中所有的歧义词标记出来把所有的歧义字段分为两类简单歧义字段和复杂歧义字段在切分时如果匹配出来的词不是歧义词则可以安全地切分出来研究进展当匹配出歧义词时根据词条的歧义信息歧义偏移值判断当前歧义字段的类别如果是简单歧义则使用一条非常简单的规则即可全部得解即优先切出非歧义词如果是复杂歧义字段则调用一个侦歧过程进一步判断歧义字段的类型是歧义词歧义词还是连续型歧义字段考察词条的歧义触发信息和歧义消隐信息即可解决所有局部直接上下文的歧义通过浅层句法分析及其同步的语义检查义类代码及配价项的检查消解句子级歧义一个具体系统前处理在前处理中解决的问题文本的一致性文本中的控制词文本的一致性中文编码GB 中文词 GB标点 GB字符 ASCII ASCII标点 ASCII字符同一文本中会出现GB和ASCII 例鲁迅说世上本没有路鲁迅说世上本没有路鲁迅说世上本没有路例鲁迅说世上本没有路 C2B3D1B8A3BAA1B0B0CBB5CAC0C9B1BEC3BBD3D0C2B7A3A1A1B1鲁迅说世上本没有路 C2B3D1B8A3BA3A22B5CAC0C9B1BEC3BBD3D0C2B72122鲁迅说世上本没有路 C2B3D1B8A3BA3AB0CBB5CAC0C9B1BEC3BBD3D0C2B721A1B1 GB ASCII混用问题数据结构GBtwobytesASCIIonebyte系统必须正确识别不然就会出现乱码解决方法将ASCII扩展到两个字节鲁迅说世上本没有路 C2B3D1B8A3BAA1B0B0CBB5CAC0C9B1BEC3BBD3D0C2B7A3A1A1B1鲁迅说世上本没有路 C2B3D1B8A3BA003A0022B5CAC0C9B1BEC3BBD3D0C2B700210022鲁迅说世上本没有路 C2B3D1B8A3BA003AB0CBB5CAC0C9B1BEC3BBD3D0C2B70021A1B1 控制词问题控制此并不影响人的理解但影响系统的识别这就是人们常说的鹬蚌相争的故事这就是人们常说的鹬蚌相争的故事怎样做鹬蚌相争是词组成语鹬蚌相争还是成语吗系统必须删除才能处理文本解决方法删除所有控制词空格回车制表符为便于人的阅读在段落之间保留控制词分词全切分切分将一个字符串分为几部分普通全切分长度为N的字符串有2n 1个全切分结果例太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平普通全切分是无用的 2n 1个结果中绝大多数是没有用的需要重新定义全切分重定义切分切分将一个字符串分为几个人类能理解的部分太平洋保险保太平假设这些部分是词典中的词在2n 1个结果中选择每一部分要么是词典中的词要么长度为一选择结果太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平太平洋保险保太平全切分问题怎样生成结果怎样压缩时间和空间的复杂度弧系统使用户来表示一个切分部分Arc是相应的数据结构 typedefstructtagArcWW unsignedintuBegin unsignedintuEnd WordItem uCode UINTuCatThis ArcWW MemberofArc uBegin 弧的起点uEnd 弧的终点uCode 该切分单位在词典中的位置uCatThis 词性在标注部分填入使用弧太平洋保险保太平弧表示为太平洋保险保太平012345678 在数据结构中全切分的弧表示问题转换对于一个字符串作全切分得到包含所有切分单位的弧集词表结构最大匹配项为了提高效率我们引入了最大匹配项的概念太平洋保险保太平太平洋太平太红色的是最大匹配项词典词的最大匹配项词典词的最大匹配项是词典中的词最大匹配项是词的最大真前缀不然的话最大匹配项为空字符串S的最大匹配词字符串S的最大匹配词是词典中的词最大匹配词是S的最大前缀不然的话最大匹配词是S的第一个词分词全切分生成所有可能的切分结果切分的结果是其中之一生成正确的切分结果在全切分结果中选择正确的一个切分全切分的工作列举所有的歧义切分消歧在全切分结果中选择正确的那一个选择不同的切分算法使用不同的切分策略切分全切分生成一个弧集不同的弧的组合表示不同的切分结果太平洋保险保太平最大正向选择策略自左到右都选择最长的候选项太平洋保险保太平最大正向最大正向算法中弧的定义第一条最大正向弧的uBegin是0 第n 1条弧的uBegin是第n条弧的uEnd 最大正向弧是在所有uBegin相同的弧中uEnd最大的那条最小正向最小正向算法中弧的定义第一条最小正向弧的uBegin是0 第n 1条弧的uBegin是第n条弧的uEnd 最大正向弧是在所有uBegin相同的弧中uEnd最小的那条切分静止点 SSP SSP在每一个切分路径中都存在于两条弧之间太平洋保险保太平012345678 切分静止点 SSP 全切分的结果是从字串头到尾一些算法需要自尾到头的信息最大逆向选择策略自右向左每次选择最长的候选项太平洋保险保太平最大逆向最大逆向算法的弧定义在两个SSP中的弧集称为切分静态弧集SegmentStaticArcSet SSAS 在一个SSAS中第一条最大逆向弧的uEnd是尾SSP 第n 1条弧的uEnd是第n条弧的uBegin 在一个SSAS中最后一条最大逆向弧的uBegin是头SSP 最大逆向弧是所有有相同的uEnd的弧中uBegin最小的那条最小逆向 Choicepolicy 自右向左选择最小的候选项太平洋保险保太平最小逆向最小逆向算法弧的定义在两个SSP中的弧集称为切分静态弧集SegmentStaticArcSet SSAS 在一个SSAS中第一条最小逆向弧的uEnd是尾SSP 第n 1条弧的uEnd是第n条弧的uBegin 在一个SSAS中最后一条最小逆向弧的uBegin是头SSP 最小逆向弧是所有有相同的uEnd的弧中uBegin最大的那条最大概率令S C1C2 Cn 1Cn C1 Cx1 Cx1 1 Cx2 Cxm 1 Cxm W1W2 Wm根据贝叶斯公式 P W C P W P C W P C P C 是确定值 P C W 是给定词串情况下字串出现的概率可以认为是1 所以 P W C P W 最大概率最大概率算法弧的定义在两个SSP中的弧集称为切分静态弧集SegmentStaticArcSet SSAS 在一个SSAS中第一条最大概率弧的uEnd是尾SSP 第n 1条弧的uEnd是第n条弧的uBegin 在一个SSAS中最后一条最大概率弧的uBegin是头SSP 最大概率弧集是每条弧概率之积最大的那个弧集最短路径选择策略选择含弧最少的结果太平洋保险保太平4arcs thesmallestnumofanarcchain 最短路径最短路径算法的弧定义在两个SSP中的弧集称为切分静态弧集SegmentStaticArcSet SSAS 在一个SSAS中第一条最短路径弧的uEnd是尾SSP 第n 1条弧的uEnd是第n条弧的uBegin 在一个SSAS中最后一条最短路径弧的uBegin是头SSP 最短路径弧集是拥有弧数最少的弧集屈折语的词法分析词词根词缀词尾词法分析的工作识别屈折变化如take took takes派生变化如morphology morphological复合变化屈折语的词法分析技术描述性的词法分析过程性的词法分析基于规则的词法分析描述性的词法分析为每个单词及其变型设置一个词典入口例如do PRES PR1 PR2 does PRES PR3 did PAST done VEN 相当于字典检索不适用于大词汇量的系统过程性的词法分析根据词的变形规律进行分析例 IFpreword的词尾为ied THEN把preword复制到word去掉word的词尾ied 并在word词尾加y如果能在词典中检索出word 则把PAST VEN的属性付给word 否则 IFpreword的词尾为ed THEN把preword复制到word去掉word的词尾ed如果能在词典中检索出word 则把PAST VEN的属性付给word 优点减少了词典入口数量提高辞典的检索速度缺点对于形态丰富的语言来说效率低基于规则的词法分析词的表层形式和深层形式Walk是深层形式Walks是表层形式词法分析就是寻找两者之间的映射基于规则的词法分析规则示例名词复数 s PLUR es PLUR ies y PLUR 动词第三人称单数 s SINGULAR THIRDPERSON PRESENT es SINGULAR THIRDPERSON PRESENT ies y SINGULAR THIRDPERSON PRESENT 基于规则的词法分析规则示例动词现在分词 ing VING ing e VING ying ie VING ing VING 动词过去分词过去式 ed PAST VEN ed e PAST VEN ied y PAST VEN ed PAST VEN 基于规则的词法分析输入一个单词输出一个或多个单词其中每个单词还原为原形加前后缀可以有多个算法略词法分析的分析程度词干层如 impossibilities impossibility ies词根层如 impossibilities im poss ibil it ies分析程度取决于自然语言处理系统的深度不解决未定义词分析到词干层解决未定义词要分析到词根层

展开阅读全文