第七章自然语言在信息组织中的应用

资源描述

第七章信息组织中的自然语言应用第一节自然语言在信息组织中的应用概述本节内容一一. .自然语言的演化与发展自然语言的演化与发展二二. .自然语言的优缺点自然语言的优缺点三三. .自然语言与自然语言处理自然语言与自然语言处理一、自然语言的演化与发展检索语言检索语言广义而言，检索语言包括受控语言广义而言，检索语言包括受控语言( (人人工语言工语言) )和自然语言语言两类语言系统。和自然语言语言两类语言系统。狭义而言，检索语言包括规范的受控狭义而言，检索语言包括规范的受控语言。语言。检索语言的演化与发展检索语言的演化与发展前信息检索阶段的自然语言前信息检索阶段的自然语言原生态的自然语言是前信息检索阶段的原始的原生态的自然语言是前信息检索阶段的原始的“检索语言检索语言” 规范的受控语言规范的受控语言如分类表、标题表、单元词表、叙词表、分类如分类表、标题表、单元词表、叙词表、分类主题一体化词表主题一体化词表受控语言向自然语言受控语言向自然语言“回归回归” 自然语言的应用是以计算机为前提的自然语言的应用是以计算机为前提的; ; 在对词汇控制的科学性上、规范化程度上以及在对词汇控制的科学性上、规范化程度上以及方法等方面的进步，使自然语言成为现代信息方法等方面的进步，使自然语言成为现代信息检索，尤其是网络信息检索的主流保障语言。检索，尤其是网络信息检索的主流保障语言。一、自然语言的演化与发展检索系统中检索语言的应用变化检索系统中检索语言的应用变化基于印刷型文献的手工检索基于印刷型文献的手工检索以受控语言（分类法、主题法）为主以受控语言（分类法、主题法）为主基于数据库的计算机检索基于数据库的计算机检索受控语言和自然语言结合受控语言和自然语言结合基于网络的信息检索基于网络的信息检索以自然语言为主以自然语言为主一、自然语言的演化与发展二、自然语言的优缺点二、自然语言的优缺点优点优点(VS受控语言受控语言)缺点缺点(VS受控语言受控语言)结论结论优点优点可以降低标引难度及成本，从而提高标引可以降低标引难度及成本，从而提高标引速度；速度；采用用户熟悉的自然语言，符合用户检索采用用户熟悉的自然语言，符合用户检索习惯，减少了概念转换中产生的失真现象，习惯，减少了概念转换中产生的失真现象，专指度强；专指度强；由于自然语言标引检索多采用自动处理方由于自然语言标引检索多采用自动处理方式，省略了编制词表和词汇的智力负担；式，省略了编制词表和词汇的智力负担；操作简单方便，灵活，比较适合没有专业操作简单方便，灵活，比较适合没有专业知识的广大网络用户使用等。知识的广大网络用户使用等。二、自然语言的优缺点缺点缺点由于自然语言对标引用词不加严格控制，由于自然语言对标引用词不加严格控制，必然会形成非关键性词语的大量出现，影必然会形成非关键性词语的大量出现，影响检准率的提高；响检准率的提高；由于不能反映概念词间的一一对应关系，由于不能反映概念词间的一一对应关系，也不能反映概念关系的隐含性，无法排除也不能反映概念关系的隐含性，无法排除同义词（漏检）、近义词、多义词（误检）同义词（漏检）、近义词、多义词（误检）等词间的模糊现象，势必也会直接影响到等词间的模糊现象，势必也会直接影响到检全率的提高。检全率的提高。二、自然语言的优缺点结结论论自然语言和受控语言都有各自独特的优点自然语言和受控语言都有各自独特的优点和缺点，不能简单彼此替代，而应当相互和缺点，不能简单彼此替代，而应当相互补充、交融。补充、交融。针对上述自然语言及其检索中存在的这些针对上述自然语言及其检索中存在的这些问题问题一方面要依靠计算机技术和自然语言处理技术一方面要依靠计算机技术和自然语言处理技术的突破发展；的突破发展；另一方面受控语言的基本原理另一方面受控语言的基本原理对词汇的控对词汇的控制，是永远不会被省略的，变化的只是词汇控制，是永远不会被省略的，变化的只是词汇控制的方式、方法和手段。制的方式、方法和手段。二、自然语言的优缺点三、自然语言与自然语言处理三、自然语言与自然语言处理（一）自然语言处理（一）自然语言处理（二）自然语言在信息组织和检索中的应（二）自然语言在信息组织和检索中的应用用（一）自然语言处理（一）自然语言处理自然语言处理是自然语言得以应用所要解决的首自然语言处理是自然语言得以应用所要解决的首要的核心问题。要的核心问题。自然语言处理是人工智能领域的一个重要分支，自然语言处理是人工智能领域的一个重要分支，它主要研究计算机对输入的自然语言文本的分析、它主要研究计算机对输入的自然语言文本的分析、理解和生成，旨在建立人与计算机之间友好的交理解和生成，旨在建立人与计算机之间友好的交流通道，实现更高层次的信息交互。流通道，实现更高层次的信息交互。自然语言处理（自然语言处理（natural language processing,简称简称NLP）是实现自然语言理解的核心基础，是语言）是实现自然语言理解的核心基础，是语言信息处理的一个重要分支。信息处理的一个重要分支。自然语言处理追求的目标是自然语言处理追求的目标是计算机是如何来理解计算机是如何来理解一个句子和领会一个文档所要表述的意思。一个句子和领会一个文档所要表述的意思。三、自然语言与自然语言处理三、自然语言与自然语言处理 Cont. 由于自然语言十分复杂，人是如何理解由于自然语言十分复杂，人是如何理解语言的，也还是个谜，因此给语言的，也还是个谜，因此给“理解理解”下一个定义极其困难。下一个定义极其困难。从信息处理的角度看，语言既然是信息的载从信息处理的角度看，语言既然是信息的载体，如果计算机实现了体，如果计算机实现了机器翻译机器翻译、自动文摘自动文摘以及以及人机会话人机会话等语言信息处理功能，则认为等语言信息处理功能，则认为计算机具备了理解自然语言的能力。计算机具备了理解自然语言的能力。自然语言处理的核心技术主要是解决自自然语言处理的核心技术主要是解决自然语言的歧义问题。然语言的歧义问题。关键问题：如何建立大规模知识库。关键问题：如何建立大规模知识库。三、自然语言与自然语言处理三、自然语言与自然语言处理语言学上对语言的层次划分语言学上对语言的层次划分第一层次第一层次语音和文字，即基本语言信号的构成；语音和文字，即基本语言信号的构成；第二层次第二层次词法和句法词法和句法( (合称合称“语法语法”) )，即语言基本运，即语言基本运用单位的构成和组合的形式规律；用单位的构成和组合的形式规律；第三层次第三层次语义语义, ,即语言所要表达的概念结构；即语言所要表达的概念结构；第四层次第四层次语用语用, ,即语言与语言使用环境的相互作用。即语言与语言使用环境的相互作用。三、自然语言与自然语言处理三、自然语言与自然语言处理自然语言处理研究内容的基础部分自然语言处理研究内容的基础部分语法分析语法分析(Syntactic Understanding) 语义分析语义分析(Semantic Understanding) 语用分析语用分析(Pragmatic Understanding)例如：“汤姆给了玛丽一本大书。”三、自然语言与自然语言处理三、自然语言与自然语言处理语法层分析语法层分析根据语言的语法，单词可以组成不同的词根据语言的语法，单词可以组成不同的词组，词组可以包含不同的角色。组，词组可以包含不同的角色。单词单词角色角色汤姆汤姆人名人名给给动词动词玛丽玛丽人名人名一一冠词冠词大的大的形容词形容词书书名词名词三、自然语言与自然语言处理三、自然语言与自然语言处理等级表示语法结构等级表示语法结构三、自然语言与自然语言处理三、自然语言与自然语言处理语义层分析语义层分析语义结构（句子各个部分之间的联系）三、自然语言与自然语言处理三、自然语言与自然语言处理知识装饰下的丰富的语法结构三、自然语言与自然语言处理三、自然语言与自然语言处理扩展的语义结构三、自然语言与自然语言处理三、自然语言与自然语言处理计算机产生的语义结构三、自然语言与自然语言处理三、自然语言与自然语言处理语境层分析语境层分析例1：“Could you turn the light on?”n“语境语义”“Press the light switch.”“句子的语义” “Are you capable of achieving to increase the amount of light?” 。（句子脱离语言环境，本身的所表示的语义）三、自然语言与自然语言处理三、自然语言与自然语言处理例2：“It is dark in here.”n语境语义“Light is weak here.”n句子语义“Press the light switch. ”三、自然语言与自然语言处理三、自然语言与自然语言处理语义和语境含义之间的匹配三、自然语言与自然语言处理三、自然语言与自然语言处理（二）自然语言在信息组织和检索中的应用（二）自然语言在信息组织和检索中的应用自然语言检索，从技术上讲，就是将自然自然语言检索，从技术上讲，就是将自然语言处理技术应用于信息检索系统的信息语言处理技术应用于信息检索系统的信息的组织、标引和输出。的组织、标引和输出。具体地，汉语自动分词和自动标引、单汉具体地，汉语自动分词和自动标引、单汉字标引、自动文摘、全文检索等都是自然字标引、自动文摘、全文检索等都是自然语言在信息组织和检索中的具体应用。语言在信息组织和检索中的具体应用。汉语的机械分词法、单汉字标引汉语的机械分词法、单汉字标引( (未介入自然未介入自然语言理解的成份语言理解的成份) )基于理解的自动标引技术、自动文摘技术基于理解的自动标引技术、自动文摘技术( (应应用了自然语言理解技术用了自然语言理解技术 ) )三、自然语言与自然语言处理三、自然语言与自然语言处理小结小结自然语言的演化自然语言的演化自然语言与受控语言的优缺点自然语言与受控语言的优缺点自然语言理解自然语言理解自然语言在信息组织和检索中的具体自然语言在信息组织和检索中的具体应用有哪些？应用有哪些？第二节自动分词与自然语言标引第七章信息组织中的自然语言本节内容汉语分词汉语分词一一. .汉语分词及其障碍概述汉语分词及其障碍概述二二. .汉语分词方法汉语分词方法三三. .汉语分词系统演示汉语分词系统演示四四. .汉语分词系统测评汉语分词系统测评自然语言标引自然语言标引一一. .自由标引自由标引二二. .自动标引自动标引三三. .单汉字索引与全文索引单汉字索引与全文索引汉语分词汉语分词一、汉语分词及其障碍概述一、汉语分词及其障碍概述（一）汉语的语言特点（一）汉语的语言特点（二）汉语切分中的难点（二）汉语切分中的难点（三）汉语分词方法（三）汉语分词方法(一)汉语的语言特点汉语的语言特点汉语属于黏着性语言，较之于属于屈折型语言的汉语属于黏着性语言，较之于属于屈折型语言的西语系（如英语、法语、德语等）语言，词与词西语系（如英语、法语、德语等）语言，词与词之间缺乏任何形式上的标志；之间缺乏任何形式上的标志；汉语特有的书写形式、灵活多变的构词方式以及汉语特有的书写形式、灵活多变的构词方式以及不同的分词形式代表着不同含义不同的分词形式代表着不同含义克服制约中文信息处理发展的最大瓶颈克服制约中文信息处理发展的最大瓶颈“英语文本的信息处理天然地就在词平面上。而汉语英语文本的信息处理天然地就在词平面上。而汉语文本起步是在字平面上，落后英文一个层次。这一个文本起步是在字平面上，落后英文一个层次。这一个层次的差异是本质上的、全局性的，如果解决不好，层次的差异是本质上的、全局性的，如果解决不好，中文信息处理将在整体上永远困顿于低水平，无法向中文信息处理将在整体上永远困顿于低水平，无法向高级形态发展高级形态发展”汉语切分中的难点汉语切分中的难点汉字之间存在着不同的组词方式；汉字之间存在着不同的组词方式；如如“发展中国家兔的饲养发展中国家兔的饲养”一句，现有的汉语词就可一句，现有的汉语词就可能导致有两组语词分隔结果：发展中国家能导致有两组语词分隔结果：发展中国家/ /兔兔/ /的的/ /饲饲养，发展养，发展/ /中国中国/ /家兔家兔/ /的的/ /饲养。饲养。从标引的角度分析，交集型的标引词汇难以处理。从标引的角度分析，交集型的标引词汇难以处理。如，如，“并行程序设计语言并行程序设计语言”，其标引词应为，并行程，其标引词应为，并行程序设计序设计/ /程序设计语言，而不应从任一处简单分开。程序设计语言，而不应从任一处简单分开。汉语虚词众多，而且绝大多数汉字当与不同的汉汉语虚词众多，而且绝大多数汉字当与不同的汉字组词时，其词可能为关键词，也可能为非用词。字组词时，其词可能为关键词，也可能为非用词。如，如，“非非”与与“家家”、“常常”、“洲洲”分别组成不同分别组成不同意义的词意义的词“是非是非”、“非常非常”（非用词）和（非用词）和“非用词非用词”（关键词）。（关键词）。新词的频繁出现也给汉语分词增添了难度。新词的频繁出现也给汉语分词增添了难度。( (二二) )汉语自动分词的困难汉语自动分词的困难分词歧义未登录词识别1.分词歧义的类型分词歧义的类型交集型歧义交集型歧义如果如果ABAB和和BCBC都是词典中的词，那么如果待切都是词典中的词，那么如果待切分字串中包含分字串中包含“ABCABC”这个子串，就必然会造成这个子串，就必然会造成两种可能的切分：两种可能的切分：“AB/C/AB/C/” 和和 “A/BC/A/BC/”。这。这种类型的歧义就是交集型歧义。比如种类型的歧义就是交集型歧义。比如“网球场网球场”就可能造成交集型歧义（网球就可能造成交集型歧义（网球/ /场场/:/:网网/ /球场球场/ /）。）。组合型歧义组合型歧义如果如果ABAB和和A A、B B都是词典中的词，那么如果都是词典中的词，那么如果待切分字串中包含待切分字串中包含ABAB这个子串，就必然会造这个子串，就必然会造成两种可能的切分：成两种可能的切分：AB/ AB/ 和和A/ B/ A/ B/ 。这。这种类型的歧义就是组合型歧义。比如种类型的歧义就是组合型歧义。比如个人个人就就可能造成组合型歧义（我）个人可能造成组合型歧义（我）个人/ :/ :（三）（三）个个/ /人人/ /）。）。分词歧义2.2.汉语真实文本中的分词歧义情况汉语真实文本中的分词歧义情况真歧义真歧义确实能在真实语料中发现多种切分确实能在真实语料中发现多种切分形式形式比如比如“应用于应用于”、“地面积地面积” 伪歧义伪歧义虽然有多种切分可能性，但在真实虽然有多种切分可能性，但在真实语料中往往取其中一种切分形式语料中往往取其中一种切分形式比如比如“挨批评挨批评”、“市政府市政府”分词歧义汉语真实文本中的分词歧义情况（续）汉语真实文本中的分词歧义情况（续）材料一材料一：孙茂松：孙茂松等等 19991999一个一个1 1亿字真实汉语语料库中抽取出的前亿字真实汉语语料库中抽取出的前4,6194,619个高个高频交集型歧义切分覆盖了该语料库中全部交集型歧频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的义切分的59.20%59.20%，其中，其中42794279个属伪歧义（占个属伪歧义（占92.63%92.63%，如如“和软件和软件”、“ 充分发挥充分发挥”、“情不自禁情不自禁地地”），覆盖率高达），覆盖率高达53.35%53.35%。材料二材料二：刘开瑛：刘开瑛 20002000，第，第4 4章章7824878248个交集型歧义字段中，伪歧义：个交集型歧义字段中，伪歧义：94%94% 真歧义：真歧义：6%6% 分词歧义分词歧义的四个层级分词歧义的四个层级（何克抗（何克抗等等 1991, 1991, 5088350883字语料）字语料）词法歧义词法歧义：84.1% 84.1% （“用方块图形式加以描述用方块图形式加以描述”）句法歧义句法歧义：10.8% 10.8% （“他一阵风似的跑了他一阵风似的跑了”）语义歧义语义歧义：3.4% 3.4% （“学生会写文章学生会写文章”）语用歧义语用歧义：1.7% 1.7% （“美国会采取措施制裁伊拉美国会采取措施制裁伊拉克克”）基于句法和语义处理技术的歧义分析精度的上限（语义级理想切分精度1/6250）所谓切分精度，即指错误率汉语真实文本中的分词歧义情况（续）汉语真实文本中的分词歧义情况（续）分词歧义3.切分歧义的解决策略切分歧义的解决策略汉语文本中含有许多歧义切分字段，典型的歧义有交集型歧汉语文本中含有许多歧义切分字段，典型的歧义有交集型歧义（约占全部歧义的义（约占全部歧义的85%85%以上）和组合型歧义。只有向分词以上）和组合型歧义。只有向分词系统提供进一步的语法、语义知识才有可能作出正确的决策。系统提供进一步的语法、语义知识才有可能作出正确的决策。排除歧义常常用词频、词长、词间关系等信息排除歧义常常用词频、词长、词间关系等信息比如比如“真正在真正在”中，中，“真真”作为单字词的频率大大低于作为单字词的频率大大低于“在在”作为单作为单字词的频率，即字词的频率，即“在在”常常单独使用而常常单独使用而“真真”作为单字词使用的可能作为单字词使用的可能性较小，所以应切成性较小，所以应切成“真正真正/ /在在”。有时切分歧义发生在一小段文字中，但为了排除歧有时切分歧义发生在一小段文字中，但为了排除歧义，需要看较长的一段文字义，需要看较长的一段文字。如如学生会学生会既可能是一个名词，指一种学生组织，也可能是既可能是一个名词，指一种学生组织，也可能是学生学生/ /会会，其中，其中会会为为可能可能或或能够能够的意思。在的意思。在“学生会主席学生会主席”中只能是中只能是前者，在前者，在学生会去学生会去中只能是后者，在中只能是后者，在“学生会组织义演活动学生会组织义演活动”中歧中歧义仍然排除不了，则需要看更多的语境信息。义仍然排除不了，则需要看更多的语境信息。分词歧义1.未登录词（unknown word）中外的人名，地名中外的人名，地名 “雪村雪村”，“老张老张”，“莎士比亚莎士比亚”，“叙利叙利亚亚” ；中外组织机构单位名称和商品品牌名中外组织机构单位名称和商品品牌名希望电脑希望电脑，国际乒联国际乒联，非常可乐非常可乐；专业领域的大量术语专业领域的大量术语线性回归线性回归，韦特比算法韦特比算法；新词语，缩略语新词语，缩略语 “卡拉卡拉OKOK”，“E E时代时代”，“打假打假”；“超女超女”、“非典非典”、“去离子水去离子水”、 “酱紫酱紫” 汉语重叠形式、离合词的分析汉语重叠形式、离合词的分析看看看看家家家家打听打听打听打听高高兴兴高高兴兴乐呵乐呵呵呵看一看看一看看了看看了看黑不溜逑黑不溜逑古里古怪古里古怪游了一会儿泳游了一会儿泳发理了没有发理了没有担什么心担什么心未登陆词2.未登录词识别未登录词识别 “于大海发明爱尔肤护肤液于大海发明爱尔肤护肤液”需要切分成需要切分成“于大海于大海/ /发明发明/ /爱尔肤爱尔肤/ /护肤液护肤液”，并需要识别出，并需要识别出“于大海于大海”是人名，是人名，“爱尔肤爱尔肤”是商标名，是商标名，“护肤液护肤液”是术语是术语名词。名词。如如“斯普林菲尔德是伊里诺州首府斯普林菲尔德是伊里诺州首府”，“丹增嘉措丹增嘉措7070多岁了多岁了”，其中的美国地名、藏族人名都需识别。，其中的美国地名、藏族人名都需识别。比如，一个分词系统若不做中外人名识别，分词后比如，一个分词系统若不做中外人名识别，分词后进行词频统计，可能会发现进行词频统计，可能会发现“张张”、“王王”、“李李”、“刘刘”、“尔尔”、“斯斯”的频率比的频率比“却却”、“如如”、“你你”的频率还要高，用这样的统计结果的频率还要高，用这样的统计结果做汉语处理，其效果肯定有问题。做汉语处理，其效果肯定有问题。未登陆词3.3.识别未登录词的策略识别未登录词的策略尽可能多地收集词汇，以降低碰到未登尽可能多地收集词汇，以降低碰到未登录词的机会；录词的机会；通过构词规则和上下文特征规则来识别通过构词规则和上下文特征规则来识别； “雪村先生雪村先生创作了很多歌曲创作了很多歌曲” 通过统计的方法来猜测经过一般的分词过程通过统计的方法来猜测经过一般的分词过程后剩下的后剩下的“连续单字词碎片连续单字词碎片”是人名、地名是人名、地名等的可能性，从而识别出未登录词。等的可能性，从而识别出未登录词。未登陆词二、汉语分词方法二、汉语分词方法（一）基于词典匹配的分词方法（二）基于理解的分词方法（三）基于统计的分词方法 ( (一一) )基于词典匹配的分词方法基于词典匹配的分词方法这种方法又叫做这种方法又叫做机械分词方法机械分词方法, ,它是按照一定的策略将待分它是按照一定的策略将待分析的汉字串与一个析的汉字串与一个“充分大的充分大的”机器词典中的词条进行配，机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。若在词典中找到某个字符串，则匹配成功（识别出一个词）。分类：分类：按照扫描方向的不同：正向匹配和逆向匹配按照扫描方向的不同：正向匹配和逆向匹配按照不同长度优先匹配的情况按照不同长度优先匹配的情况: :最大匹配和最小匹配；最大匹配和最小匹配；按照是否与词性标注过程相结合：单纯分词方法和分词按照是否与词性标注过程相结合：单纯分词方法和分词与标注的一体化方法。与标注的一体化方法。常用的几种机械分词方法如下：常用的几种机械分词方法如下：正向最大匹配正向最大匹配(MM)(MM) 逆向最大匹配逆向最大匹配 (RMM)(RMM)最少切分（使每一句中切出的词数最小）最少切分（使每一句中切出的词数最小）双向匹配法。双向匹配法。(MM+RMM)(MM+RMM) 机械分词方法一般模型机械分词方法一般模型对于机械分词方法，可以建立一个一般的模型，对于机械分词方法，可以建立一个一般的模型，形式地表示为形式地表示为: :ASMASM（d d，a a，m m），即），即Automatic Segmentation Automatic Segmentation ModelModel。其中，。其中， d d：匹配方向，：匹配方向，+1+1表示正向，表示正向，-1-1表示逆向；表示逆向； a a：每次匹配失败后增加：每次匹配失败后增加/ /减少字串长度（字符数），减少字串长度（字符数），+1+1为为增字，增字，-1-1为减字；为减字； m m：最大：最大/ /最小匹配标识，最小匹配标识，+1+1为最大匹配，为最大匹配，1 1为最小匹配。为最小匹配。例如例如: :ASMASM（+ +， - -， + +）就是正向减字最大匹配（即）就是正向减字最大匹配（即MMMM方方法）；法）；ASMASM（- -， - -， + +）就是逆向减字最大匹配法（即）就是逆向减字最大匹配法（即RMMRMM方法）。方法）。对于现代汉语来说，只有对于现代汉语来说，只有m=+1m=+1是实用的方法是实用的方法。 (一)基于词典匹配的分词方法机械分词系统采用的改进方法机械分词系统采用的改进方法实际使用的分词系统，都是把机械分词作为一实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。来进一步提高切分的准确率。改进扫描方式改进扫描方式标点符号、表示汉字之间联系关系的汉字标点符号、表示汉字之间联系关系的汉字具体切分方法：用切分标记先将文本分割成词具体切分方法：用切分标记先将文本分割成词组或短语，再将它们按一定的分解模式分割成组或短语，再将它们按一定的分解模式分割成单词或专用词。单词或专用词。将分词和词类标注结合起来将分词和词类标注结合起来利用丰富的词类信息对分词决策提供帮助，并利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。调整，从而极大地提高切分的准确率。 (一)基于词典匹配的分词方法 (一)基于词典匹配的分词方法最最大大匹匹配配法法最大匹配法分词示例最大匹配法分词示例词语计算语言学课程课时设定最大词长MaxLen = 5 S2= 分词词表S1=计算语言学课程是三个课时 (一)基于词典匹配的分词方法最大匹配法切词过程演示最大匹配法切词过程演示输入字串：时间就是生命TmpWord：时间就是输出词串：查词典yesno时间/ 就是生命就/ 是/ 生命/ (一)基于词典匹配的分词方法最大匹配法分词存在的问题最大匹配法分词存在的问题最大词长的确定最大词长的确定 A.A.词长过短，长词就会被切错（词长过短，长词就会被切错（“中华人民共和国中华人民共和国”） B.B.词长过长，效率就比较低词长过长，效率就比较低( (算法的时间复杂度太高算法的时间复杂度太高) ) 掩盖了分词歧义掩盖了分词歧义A.A.“有意见分歧有意见分歧” （正向最大匹配和逆向最大匹配结（正向最大匹配和逆向最大匹配结果不同）果不同）有意有意/ / 见见/ / 分歧分歧/ / 有有/ / 意见意见/ / 分歧分歧/ /B.B.“结合成分子时结合成分子时” （正向最大匹配和逆向最大匹配结（正向最大匹配和逆向最大匹配结果相同）果相同）结合结合/ / 成分成分/ / 子时子时/ / (一)基于词典匹配的分词方法最大匹配法解决分词歧义的能力最大匹配法解决分词歧义的能力IF W = 个人, WLeft = 数词 THEN W = 个/人/ ENDIF 能发现部分交集型歧义无法发现组合型歧义对最大匹配法进行扩展：增加歧义词表，规则等知识库歧义词表才能个人家人马上研究所 (一)基于词典匹配的分词方法最大匹配法解决分词歧义的能力最大匹配法解决分词歧义的能力（续）对于某些交集型歧义，可以通过增加回溯机制来改进最大匹配法的分词结果。例如：“学历史知识” 顺向扫描的结果是：“学历/ 史/ 知识/” (一)基于词典匹配的分词方法最大概率法分词最大概率法分词基本思想是：（1）一个待切分的汉字串可能包含多种分词结果（2）将其中概率最大的那个作为该字串的分词结果路径1： 0135路径2： 0235该走哪条路呢？ (一)基于词典匹配的分词方法最大概率法分词最大概率法分词 S: 有意见分歧 W1: 有/ 意见/ 分歧/ W2: 有意/ 见/ 分歧/Max(P(W1|S), P(W2|S) ?NnwwPii语料库中的总词数在语料库中的出现次数)(独立性假设，一元语法)(.)()(),.,()(2121iiwPwPwPwwwPWP)()()()|()|(WPSPWPWSPSWP (一)基于词典匹配的分词方法最大概率法分词词语概率有0.0180有意0.0005意见0.0010见0.0002分歧0.0001P(W1) = P(有) * P(意见) * P(分歧) = 1.8 10-9P(W2) = P(有意) * P(见) * P(分歧) = 110-11P(W1) P(W2) (一)基于词典匹配的分词方法提高计算效率提高计算效率)()( )( 1iiiwPwPwP)()( )( 意见有意见PPP)()( 有有PP到达候选词wi时的累计概率公式1如何尽快找到概率最大的词串（路径）？ (一)基于词典匹配的分词方法最大概率法切分过程演示最大概率法切分过程演示S结结合合合成成成分成成分分分子分分子子子时分分子子子时时子子时时时子子时时时 (一)基于词典匹配的分词方法最大概率法分词的问题最大概率法分词的问题并不能解决所有的交集型歧义问题并不能解决所有的交集型歧义问题“这事的确定不下来”W1= 这/ 事/ 的确/ 定/ 不/ 下来/W2= 这/ 事/ 的/ 确定/ 不/ 下来/ 无法解决组合型歧义问题无法解决组合型歧义问题“做完作业才能看电视”W1= 做/ 完/ 作业/ 才能/ 看/ 电视/W2= 做/ 完/ 作业/ 才/ 能/ 看/ 电视/ P(W1)P(W2) (一)基于词典匹配的分词方法(二二)基于理解的分词方法基于理解的分词方法其基本思想其基本思想: :就是在分词的同时进行句法、语义分析，利就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。此目前基于理解的分词系统还处在试验阶段。 (三三)基于统计的分词方法基于统计的分词方法从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。共现的频率或概率能够较好的反映成词的可信度。可以对语料中可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的同现信息。相邻共现的各个字的组合的频度进行统计，计算它们的同现信息。同现信息体现了汉字之间结合关系的紧密程度。同现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如并不是词的常用字组，例如“这一这一”、“之一之一”、“有的有的”、“我的我的”、“许多的许多的”等，并且对常用词的识别精度差，时空开等，并且对常用词的识别精度差，时空开销大。销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。除歧义的优点。三三. .自动分词系统演示自动分词系统演示四四. .汉语分词系统的评测汉语分词系统的评测评估一个分词和词性标注系统的优劣有评估一个分词和词性标注系统的优劣有多方面的指标多方面的指标分词正确率分词正确率分词速度分词速度歧义字段识别率歧义字段识别率未登录词识别率未登录词识别率词性标注正确率词性标注正确率词性标注速度词性标注速度人工干预性能人工干预性能分词软件的易使用性和易维护性等。分词软件的易使用性和易维护性等。汉语自动分词的现状汉语自动分词的现状基本实现了从实验室走向大规模真实文本的基本实现了从实验室走向大规模真实文本的应用。应用。 19951995年年1212月，国家科委组织了月，国家科委组织了863863智能机专智能机专题自动分词评测，题自动分词评测，国内有几个系统参加。国内有几个系统参加。开放测试条件下的评测结果是：开放测试条件下的评测结果是：分词精度最高为分词精度最高为89.489.4；交集型切分歧义处理的正确率最高为交集型切分歧义处理的正确率最高为78.078.0，覆盖型切分歧义处理的正确率最高为覆盖型切分歧义处理的正确率最高为59.059.0；而未登录词识别的正确率，人名最高为而未登录词识别的正确率，人名最高为58.058.0，地名最高为地名最高为65.065.0（刘开瑛（刘开瑛19971997）四.汉语分词系统的评测20032003年测评结果年测评结果四.汉语分词系统的评测自然语言标引自然语言标引自然语言标引自然语言标引一一. .自然语言标引概述自然语言标引概述二二. .自由标引自由标引三三. .自动标引自动标引四四. .单汉字索引与全文索引单汉字索引与全文索引一一. .自然语言标引概述自然语言标引概述自然语言标引是指采用原文中的信息作为标引自然语言标引是指采用原文中的信息作为标引源，从中选取能够有效表征信息内容的特征词源，从中选取能够有效表征信息内容的特征词的过程。的过程。计算机自动标引，是由计算机自动标引，是由LuhnLuhn先生在先生在19571957年率先年率先提出的。提出的。19561956、19581958年年LuhnLuhn先后撰文提出自动抽词标引的基先后撰文提出自动抽词标引的基本思想：一篇文章中一个词再现的频率是这个词的本思想：一篇文章中一个词再现的频率是这个词的重要性的有效测试。一个句子中具有给定重要测试重要性的有效测试。一个句子中具有给定重要测试的词的相关状态，成为该句子重要性的有效测试。的词的相关状态，成为该句子重要性的有效测试。按照词的出现频率，以一定的标准排除高频词与低按照词的出现频率，以一定的标准排除高频词与低频词，剩下的就是最能代表文献内容的词。频词，剩下的就是最能代表文献内容的词。自然语言标引方式自然语言标引方式（一）自由标引（一）自由标引（二）自动标引（二）自动标引西文自动标引西文自动标引中文自动标引中文自动标引自动抽词标引自动抽词标引自动赋词标引自动赋词标引自动赋分类号标引自动赋分类号标引单汉字索引与全文索引单汉字索引与全文索引（一）自由标引（一）自由标引自由标引即人工关键词标引。是指将那自由标引即人工关键词标引。是指将那些出现在文献的标题（篇名、章节名）些出现在文献的标题（篇名、章节名）以及摘要、正文中，对表征文献主题内以及摘要、正文中，对表征文献主题内容具有实质意义的语词，亦即对揭示和容具有实质意义的语词，亦即对揭示和描述文献主题内容来说是重要的、带关描述文献主题内容来说是重要的、带关键性的（可以作为检索入口的）那些语键性的（可以作为检索入口的）那些语词抽取，抽取时不加规范或只做少量规词抽取，抽取时不加规范或只做少量规范化处理范化处理。 “自由标引主要适用于报纸文献、期刊自由标引主要适用于报纸文献、期刊文献的大型篇名数据库等的标引。文献的大型篇名数据库等的标引。自由标引的优点自由标引的优点由于不使用词表控制，标引速度要比使用词表由于不使用词表控制，标引速度要比使用词表的主题标引快许多倍，这还意味着标引成本的的主题标引快许多倍，这还意味着标引成本的降低；降低；可用与文献主题专指度一致的词进行标引，保可用与文献主题专指度一致的词进行标引，保证较高的检准率；证较高的检准率；标引过程是标引人员进行主题分析的过程，如标引过程是标引人员进行主题分析的过程，如果标引人员具有一定的业务水平，则其标引质果标引人员具有一定的业务水平，则其标引质量可大大高于自动抽词标引量可大大高于自动抽词标引。（一）自由标引（二）自动标引（二）自动标引自动标引（自动标引（Automatic Indexing），又），又称计算机辅助标引（称计算机辅助标引（Computer Aided Indexing），是根据文献内容，依靠计），是根据文献内容，依靠计算机系统全部或部分地自动给出标引符算机系统全部或部分地自动给出标引符号的过程。号的过程。换句话说，就是利用计算机系统模仿人换句话说，就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的的标引活动并自动生成情报检索所需的索引符号的过程。索引符号的过程。自动标引的意义自动标引的意义 (1)(1)适应信息资源快速增长的需要适应信息资源快速增长的需要信息资源的快速增长，造成信息相对过信息资源的快速增长，造成信息相对过剩。只有提高信息组织的效率，才能摆剩。只有提高信息组织的效率，才能摆脱信息相对过剩带来的困惑，因此信息脱信息相对过剩带来的困惑，因此信息标引显得非常重要。自动标引适应了这标引显得非常重要。自动标引适应了这一需要。一需要。（二）自动标引 (2)(2)相对手工标引存在很大优势，克相对手工标引存在很大优势，克服了手工标引难以克服的缺点。服了手工标引难以克服的缺点。与熟练标引人员相比，自动标引的准确性与熟练标引人员相比，自动标引的准确性不如手工标引，但在其他指标方面自动标引不如手工标引，但在其他指标方面自动标引具有无可比拟的优势：具有无可比拟的优势：处理能力强处理能力强处理速度快处理速度快成本低成本低一致性好，稳定性好一致性好，稳定性好（二）自动标引 (3)(3)自动标引一致性好自动标引一致性好美国的美国的ClevertonCleverton曾作过一些试验，结果：曾作过一些试验，结果：两组人员为同一主题编出的叙词表中词的同两组人员为同一主题编出的叙词表中词的同一率仅一率仅60%60%；两位有经验的标引员用同一叙；两位有经验的标引员用同一叙词表对同一篇文献进行标引，其标引词的同词表对同一篇文献进行标引，其标引词的同一率仅有一率仅有30%30%左右；两个在同一数据库中用左右；两个在同一数据库中用同一检索系统检索同一问题的用户，检索出同一检索系统检索同一问题的用户，检索出的结果同一率仅的结果同一率仅40%40%；两位科研人员根据同；两位科研人员根据同一提问判断一组指定文献的相关性，其同一一提问判断一组指定文献的相关性，其同一率不会超过率不会超过60%60%。（二）自动标引 (4)(4)自动标引不受标引人员状态和情自动标引不受标引人员状态和情绪的影响，稳定性好。绪的影响，稳定性好。美国学者伦兹作过两个试验，美国学者伦兹作过两个试验，6 6名标引人员名标引人员在不同时间标引同一文献，一致率为在不同时间标引同一文献，一致率为15.8%15.8%；由同一标引人员在不同时间标引同一文献，由同一标引人员在不同时间标引同一文献，一致率为一致率为16.19%16.19%。采用计算机自动标引，无。采用计算机自动标引，无论何时对同一篇文献总能标引出相同的主题论何时对同一篇文献总能标引出相同的主题词。词。（二）自动标引 (5)(5)实验比较：实验比较：美国学者美国学者SaltonSalton对受控人工标引系统对受控人工标引系统MEDLARSMEDLARS和自动标引系统和自动标引系统SMARTSMART做了一些比较，做了一些比较，结论是：相对简单的自动文本分析系统在文结论是：相对简单的自动文本分析系统在文献检索环境中产生的检索结果，其质量不亚献检索环境中产生的检索结果，其质量不亚于受控标引通常所能达到的水平。于受控标引通常所能达到的水平。（二）自动标引自动标引分类自动标引分类 “狭义狭义”的自动标引包括主题标引的自动抽的自动标引包括主题标引的自动抽词标引和自动赋词标引两种方式。词标引和自动赋词标引两种方式。 “广义广义”的自动标引还指在主题自动标引基的自动标引还指在主题自动标引基础上的自动赋分类号标引。础上的自动赋分类号标引。自动标引自动标引自动主题标引自动主题标引自动分类标引自动分类标引自动主题标引关键在于：自动主题标引关键在于：词语抽取；对所识别出的主题词进行优选，以最终词语抽取；对所识别出的主题词进行优选，以最终产生能表达文献主题内容的标引词。产生能表达文献主题内容的标引词。自动标引的分类自动标引的分类（二）自动标引自动标引方式及其关系自动标引方式及其关系（二）自动标引自动抽词标引自动抽词标引自动抽词标引的大体过程如下自动抽词标引的大体过程如下：第一，使用计算机分析文献正文或者文摘；第一，使用计算机分析文献正文或者文摘；第二，对照停用词表，从正文或者文摘中删第二，对照停用词表，从正文或者文摘中删除高频的语法功能词；除高频的语法功能词；第三，分析保留词的出现频率，再按加权函第三，分析保留词的出现频率，再按加权函数导出各词的权值；数导出各词的权值；第四，将权值大于特定阈值的词选作标引用第四，将权值大于特定阈值的词选作标引用的关键词。的关键词。（二）自动标引自动赋词标引是在自动抽词的基础上，引入预先自动赋词标引是在自动抽词的基础上，引入预先编制的词表来规范自动抽取的词，利用计算机的编制的词表来规范自动抽取的词，利用计算机的自动换词功能，将关键词转换成规范词，赋予文自动换词功能，将关键词转换成规范词，赋予文献主题概念献主题概念。自动赋词标引的主要过程如下：自动赋词标引的主要过程如下：第一，为每一个控制词编制一个词间关系文档（也称第一，为每一个控制词编制一个词间关系文档（也称词情文档，相当于词表）；词情文档，相当于词表）；第二，分析文献正文或者摘要，找出其中的重要关键第二，分析文献正文或者摘要，找出其中的重要关键词（自动分词）；词（自动分词）；第三，将重要关键词与词间关系文档进行比较；第三，将重要关键词与词间关系文档进行比较；第四，如果文献中出现了与词间关系文档中匹配的语第四，如果文献中出现了与词间关系文档中匹配的语词，则该语词是相关的，并确定将该词用于标引。词，则该语词是相关的，并确定将该词用于标引。（二）自动标引自动赋词标引自动赋分类号标引自动赋分类号标引自动赋分类号必须以自动抽词为基础。将自动自动赋分类号必须以自动抽词为基础。将自动抽词的基础上，根据自然语言词与分类号的对抽词的基础上，根据自然语言词与分类号的对应表和自动分类规则，利用计算机的自动换词应表和自动分类规则，利用计算机的自动换词功能，将关键词转换成分类号，建立倒排索引功能，将关键词转换成分类号，建立倒排索引文档。文档。（二）自动标引1.1.西文自动标引西文自动标引（1 1）文本的词汇分析）文本的词汇分析（2 2）非用词的去除）非用词的去除（3 3）词干提取）词干提取（4 4）索引项的选择）索引项的选择（二）自动标引（二）自动标引西西文文自自动动标标引引算算法法流流程程2.2.中文自动标引中文自动标引中文自动标引流程中文自动标引流程单汉字标引单汉字标引（二）自动标引中文自动标引的基本流程中文自动标引的基本流程（1 1）确定标引源）确定标引源（2 2）预处理）预处理（3 3）分词处理）分词处理（4 4）确定关键词）确定关键词（5 5）转换为受控词）转换为受控词（6 6）给出主题标识符）给出主题标识符（二）自动标引（1 1）确定标引源）确定标引源即确定标引所依据的文献内容（标引源）。即确定标引所依据的文献内容（标引源）。标引源的选择是影响标引质量的一个重要因标引源的选择是影响标引质量的一个重要因素。素。标题是自动标引的主要标引源，大多数研究标题是自动标引的主要标引源，大多数研究是基于标题进行的。但仅以标题为标引源，是基于标题进行的。但仅以标题为标引源，信息量少，标引质量差，难以推广使用。信息量少，标引质量差，难以推广使用。如果对全文进行扫描，则存在数据量大和截如果对全文进行扫描，则存在数据量大和截取词汇太多等问题，为标引带来许多杂音，取词汇太多等问题，为标引带来许多杂音，影响标引质量和速度。影响标引质量和速度。（二）自动标引标引源标引源一般选择以下内容作为标引源：一般选择以下内容作为标引源：1.1.标题标题：包括文章的主标题、章节标题、小结标题等。：包括文章的主标题、章节标题、小结标题等。这是首选标引源。这是首选标引源。2.2.文摘文摘：较标题而言，信息量较大，一般能够完全反应：较标题而言，信息量较大，一般能够完全反应文献讨论的主题，但仅利用文摘难以确定文献讨论的主题，但仅利用文摘难以确定5-65-6个最重要个最重要的词。的词。3.3.首尾章节首尾章节：科技论文首章节（引言、问题的提出等）：科技论文首章节（引言、问题的提出等）常提出主要内容，尾章节常作总结。常提出主要内容，尾章节常作总结。4.4.章节的首尾段章节的首尾段：常反映章节讨论的主题，替代整个章：常反映章节讨论的主题，替代整个章节，节省大量无效劳动。节，节省大量无效劳动。5.5.段落的首尾句段落的首尾句：国外有学者对科技文献的：国外有学者对科技文献的200200个段落进个段落进行了主题句的分析，结果：行了主题句的分析，结果：85%85%的段落主题句是段落的的段落主题句是段落的第一句，第一句，7%7%的段落主题句是最后一句。用段落首尾句的段落主题句是最后一句。用段落首尾句替代整个段落，节省工作量，免除许多替代整个段落，节省工作量，免除许多“杂音杂音”。（二）自动标引(2)(2)文档的预处理文档的预处理字符内码的检测与转换：字符内码的检测与转换：BIG5码与码与GB码的自动检测与转换。码的自动检测与转换。文档格式的检测与转换：去掉文档格式的检测与转换：去掉DOC、XML、RTF等格式的文件夹杂的许多无等格式的文件夹杂的许多无意义的格式符号，即将不同格式文件转意义的格式符号，即将不同格式文件转换成适于自动标引的纯文本格式。换成适于自动标引的纯文本格式。（二）自动标引(3)(3)分词处理分词处理在确定关键词之前，必须对文档进行切在确定关键词之前，必须对文档进行切分，即将语句切分成由词组成的集合。分，即将语句切分成由词组成的集合。西方文字有分隔符，切分容易实现。而西方文字有分隔符，切分容易实现。而汉语采用连写方式，词之间没有自然分汉语采用连写方式，词之间没有自然分隔符，词语的准确切分较为困难（研究隔符，词语的准确切分较为困难（研究相当长时间），目前自动切分已基本能相当长时间），目前自动切分已基本能满足实际需要。满足实际需要。（二）自动标引(4)(4)确定关键词确定关键词根据文本词语切分结果，以词语在文本根据文本词语切分结果，以词语在文本中出现的频次、位置及词的词性等因素中出现的频次、位置及词的词性等因素为依据，确定可表达文档中心内容的词为依据，确定可表达文档中心内容的词作为该文档的关键词。作为该文档的关键词。（二）自动标引确定关键词的主要方法确定关键词的主要方法主要方法：主要方法：绝对词频统计法绝对词频统计法：以词在文章中出现的绝对以词在文章中出现的绝对频次为根本依据确定文章的中心关键词，理论频次为根本依据确定文章的中心关键词，理论基础是齐夫定律。基础是齐夫定律。词频权重法词频权重法：除考虑词频外，还考虑词的位除考虑词频外，还考虑词的位置、词的词性、词本身的价值、词的长度等因置、词的词性、词本身的价值、词的长度等因素，对词进行加权，然后根据权值大小确定关素，对词进行加权，然后根据权值大小确定关键词。键词。（二）自动标引（5 5）转换为受控词）转换为受控词关键词与受控词（主题词、关键词与受控词（主题词、副主题词副主题词、特征词）之间存在着一定的关系（如同特征词）之间存在着一定的关系（如同义词关系、上位关系、下位关系等）。义词关系、上位关系、下位关系等）。使用一定的方法，将以上提取的关键词使用一定的方法，将以上提取的关键词转换为受控词。转换为受控词。（二）自动标引（二）自动标引转换为受控词的方法转换为受控词的方法目前有效可行的方法包括：目前有效可行的方法包括：使用关键词使用关键词- -受控词对照表受控词对照表：该表含有关键词与：该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系，规范化的主题词、副主题词、特征词之间的对照关系，由此对应转换。由此对应转换。利用词汇相似度利用词汇相似度：大多数意义相同或相近的词之间：大多数意义相同或

展开阅读全文

第七章自然语言在信息组织中的应用

最新文档