资源描述
,张华平 刘 群 zhanghp 中科院计算技术研究所 2002-5-28,中文词语一体化分析,纲要,问题背景与难点分析 主要研究方法与相关系统 我们的研究思路基于多层HMM的一体化方法 基于N-最短路径的词语粗分 基于角色标注的未登录词识别 计算所中文词语一体化分析系统ICTCLAS 结论,问题背景与难点分析,问题背景,汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 词是最小的能够独立活动的有意义的语言成分 。 中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等,更是少不了词的详细信息 。,问题背景与难点分析 II,分词的必要性,物,理,学,physics,products,price,image,body,theory,barber,science,understand,reason,school,study,credit,student,subject,物理学,physics,physicist,evidence,6 5 5 = 150 : 2,问题背景与难点分析 III,中文词语分析的主要难点 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣; 我们缺人手 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过,问题背景与难点分析 IV,未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 最终识别 多样性 复杂性 上下文干扰,主要研究方法与相关系统,当前主要的研究方法 基于规则的方法 最大匹配法(Maximum Matching)正向、逆向、双向 最优路径(+词频选择)法(最少分词法) 基于统计的方法 (N元语法,HMM) 基于规则和基于统计相结合 其他的一些方法 (压缩,自监督,基于转移的错误驱动方法等),主要研究方法与相关系统II,当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交叉歧义的切之,否则全切分。 “动态规划“和“全切分搜索+叶子评价“,主要研究方法与相关系统III,Microsoft Research多国语言处理平台NLPWin中的中文词语分析词系统 双向的Chart Parsing,使用了语法规则并以概率模型作导向 切词-句法分析一体化 北大计算语言所分词和词类标注系统 分词和词类标注结合起来 基于规则的标注排歧与基于语料库统计模型的排歧结合 处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理,主要研究方法与相关系统IV,现有方法的一些潜在不足(待探讨): 规则与统计的结合,更大意义上是一种组合,两种处理出现在系统中相对独立的两个不同阶段。 排歧、识别未登录词更多的是利用规则,难以量化。即使量化,也很难和普通词实现真正量值上的比较。 歧义字段、未登录词作为特殊情况处理,后期处理中没有与普通词统一。 没有相对统一的处理模型和评估体系。 最终导致:准确率、召回率在开放测试的条件下并不像宣称的那样理想,尤其是在未登录词、歧义字段存在的情况里。,我们的研究思路 基于多层HMM的一体化方法,目标: 分词、词性标注的一体化;未登录词与普通词处理的一体化;评估体系一体化。 基本思想: 采取HMM模型,建立切分词图。词语粗分阶段,先得出N个概率最大的切分结果。然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视它为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。,基于多层HMM的一体化方法II,利用噪声-信道模型,建立目标评估函数,其中 C:原始字串;W:切分的词串;T:词性标注序列 P(C|W)=1P(CW)=P(W) P(W,T)|C)=P(T|CW)P(W|C)=P(T|W)P(W|C) =P(T)P(W|T)/P(W) P(W)/P(C) = P(T)P(W|T)/P(C) (字串C出现的概率P(C)为一常数,不影响结果,可以忽略),(W,T)*= .(0),基于多层HMM的一体化方法III,利用隐马模型展开P(T)P(W|T),并引入共现概率 P(W,T)|C) =P(ti|ti-1)P(wi|ti).(1) P*(W,T)=lnP(W,T) =ln P(wi|ti) = ln P(ti|ti-1) + ln P(wi|ti) .(2) 评价函数或者决策函数如下: (W,T)*= ln P(ti|ti-1) + ln P(wi|ti),基于多层HMM的一体化方法IV,一体化需要解决的主要问题 排歧问题 未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)?,基于N-最短路径的词语粗分,基本思想 根据词典,建立字串词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1, 第2,第i,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。,基于N-最短路径的词语粗分II,出发点 实际上是最短路径方法和全切分的有机结合。一方面避免了最短路径分词方法大量舍弃正确结果的可能,另一方面又大大解决了全切分搜索空间过大,运行效率差的弊端。 “求同存异,保留争端”。即:解决在切词阶段能解决的大部分问题;而对歧义、未登录词等问题尽量保留下来,留给后续过程处理。 统计与非统计方法,基于N-最短路径的词语粗分III,测试结果 说明: 统计N-最短路径 句子总数为: 185,192,基于N-最短路径的词语粗分IV -对比测试实验召回率/结果数,基于角色标注的未登录词识别,现有未登录词识别方法的不足 大部分只针对切分碎片进行识别。 “单点激活”: 必须遇到具明显特征的上下文或者未登录词用字时,才会触发未登录词的识别过程。 对识别出来的很难给出实际意义上的概率值 歧义排除乏力 吕梁的特点是贫困人口占全省的左右。 格威特等高水准的竞争对手也是促使李宁牌不断创新突破的一个诱因 周鹏和同学,未登录词识别II,基于角色的未登录词识别方法 采用Viterbi算法,确定句子概率最大的角色序列,在角色序列的基础上,进行模式匹配。 未登录词的角色 内部组成:首部、中部、尾部、内部成词 上下文 上下文与内部组成交叉成词 句子中其他成分,未登录词识别 III,汉族人名的角色表(示例,有省略),未登录词识别 IV,具体实现 R# 角色标注过程类似于词性标注,也是一层HMM 示例: 馆内陈列周恩来和邓颖超生前使用过的物品 馆/内/陈列/周/恩/来/和/邓/颖/超生/前/使用/过/的/物品/ 馆/A内/A 陈列/K周/B恩/C来/D和/M邓/B颖/C超生/V前/A使用/A过/A的/A物品/A V需要拆分,最终匹配人名模板,得到“周恩来”“邓颖超”,未登录词识别 V,未登录词概率的计算 P(wi|ti) wi= c1 c2 cn 角色序列 Ri= r1 r2 rn P(wi|ti)=P(wi|Ri) P(ti|Ri) = P(ti|Ri) P(ti|Ri)可以由语料统计得到;例如单姓+单名生成姓名的概率等于单姓单名除以总的人名数目;其结果大约为12%,未登录词识别 VI,汉族人名测试结果,计算所中文词语一体化分析系统ICTCLAS,Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) 设计的基本原则 一体化 结果不唯一 “当断则断,不留后患” “求同存异,保留争端”,ICTCLAS系统处理流程,ICTCLAS功能模块,ICTCLAS,N-最短路径切分 (概率统计),未登录词识别,隐马标注,人名,地名,译名,其他,结果生成,重叠词,规范,其他,ICTCLAS初评结果,评测语料库为人民日报1998年1月1日-1月15日(12000行)的新闻语料 总共词数:601646 切分正确率(按词统计)98.38%;按句子统计93.15% 一级标注正确率(按词统计):97.16%;按句子统计78.44%,结论,汉语词语分析是中文信息处理的基础,无论是理论上,还是实际应用上都极其重要。 其难点主要在于排歧和未登录词的识别。 目前常用的研究方法及相关系统,存在着一些不足:不统一;量化困难,缺乏可比性。 N-最短路径方法进行词语粗分,可以尽可能的解决词语切分问题,同时将未登录词与歧义问题保留到下一过程。 基于角色标注的未登录词识别方法,可以克服触发与候选字段选取的盲目性,并能计算出候选词的概率。最终效果能满足实际要求。 基于HMM的一体化方法能够将未登录词、歧义排除和普通词的处理统一起来,我们在ICTCLAS中进行了实际的应用。,敬请指导!谢谢!,
展开阅读全文