《词与词组分析》PPT课件.ppt

资源描述

,人工智能与机器翻译,主讲：杨宪泽,单词与词组分析,对于机器翻译研究来说，本章的第一任务是要建立语言的机器词典, 这一机器词典是多语言的。例如各自的藏, 英, 汉语机器词库。单词与词组的处理与分析, 对于汉语来说, 首先必须要进行单词的自动切分。自动切分歧义部分是解决的难点, 不但可能用到规则推理, 而且还可能用到语法分析, 语义用分析, 更详细的过程可以结合第六章等一起研究。词语分类和兼类的分析与处理是本章研究的又一重点。本章的最后将研究词处理的一些细节问题。,人工翻译离不开词典，当然，机器翻译也离不开机器词典。机器词典也被称为电子词典，简称词典。机器词典的作用在机器翻译中是最重要的，因为做任何机器翻译工作都必须通过查机器词典来得到相关的翻译元素-单词和词组。如何有效的组织、建立机器词典，如何更好地利用机器词典中包含的各种知识，是一个值得深入研究的课题。,5. 1 . 1 基于分析和转换的机器翻译方法,机器词典的作用：（1）机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了性能的进一步提高。因为语言词汇是一个开放的集合，无论建立多么庞大的词典，都不可能穷举所有的词。而且，随着时间的推移，还会出现大量的新词。因此，只有尽可能的扩充机器词典的规模，才可能使机器翻译系统更实用，更会被更多的行业、更多的人所接受。（2）机器词典是机器翻译的质量的关键，要达到机器翻译的全自动、高质量，就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大的数量，而且要有尽可能高的质量，只要这样，才可能是机器翻译的质量更高。（3）电子词典（机器词典）不仅可以用于机器翻译，而且也可以用在自然语言理解、自然语言处理诸多方面。因此，电子词典（机器词典）是大规模知识工程的基础工作，它可以为知识系统提供一个基本的知识源。,对于机器翻译系统来说，为了适应不同专业领域的翻译要求，需要配有大量的专业词汇。因此，机器翻译系统的词典又可以分为通用词典和专业词典两部分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词典、动词词典、成语词典等等。机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结构形式和相应的算法相配合，可以节约存储空间，提高检索速度，从而提高机器翻译系统的整体翻译速度。机器词典从存储形式来看，可以分为定长字段型、变长字段型和定变长混合型三种类型；从索引格式看，可以分为一级索引和多级索引等等。词语的长短是不同的，例如，某些常用词的信息特别丰富，书本词典可以占满几页，而有一些词语却只要一行。这样，如果所有词语都使用定长字段，则必须依据最长词语确定字段长度，而相当多的短词语将浪费巨大的存储空间。所以，一般情况下一条词语的有关信息的存储都采用变长形式，这可以用链接技术实现。,5 . 2 自动分词汉语自动分词是我国计算机科学研究的重要课题之一, 它是自然语言理解、自动翻译、电子词典等信息处理的基础性工件。所谓分词, 就是要把一句话, 一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志, 而且词语长短不一, 词语的定义也不统一, 语言学中对词的定义多种多样, 造成切分的多样性, 这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限, 没有一个统一的标准, 许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作, 就没有那么简单了。尽管计算机自动分词在诸多方面存在着许多困难, 但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步), 这就促进了研究的持续不断, 提出了不少方法, 它们各有优缺点, 也可能是基于特定环境的。,5. 2 . 1典型的自动分词方法 5 . 2 . 1 . 1 正向最大匹配法和逆向最大匹配法正向最大匹配法是最早提出的自动分词方法, 它的基本思想是先取一句话的前六个字查字库, 若不是一个词, 则删除六个字的最后一个字再查, 这样一直查下去, 至找到一个词为止。句子剩余部分重复此工作, 直到把所有的词都分出为止。逆向最大匹配法也一样, 每次匹配不成功时去掉汉字串中最前面的一个字。两法思路清晰, 易于计算机实现, 但由于试图用相对稳定的词表来代替灵活多变, 充满活力的词汇, 把词库搜索作为判词的唯一标准, 因而具有很大的主观性和局限性。另外, 这两种方法实际上否认了语言中的歧义现象。在实际应用中, 方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。,A1: 一条汉语语句分划成单一字符X1,X2,XM。 A2: 决定语词中可能出现的词最大字符长度Lmax, 最小字符长度 Lmin。 A3: 逆向匹配,取语句最后的Lmin个字查关键词库, 若查不到, 加入一个字重复此工作,直至字符数为Lmax为止。 A4: 若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句只剩下L min为止。,5 . 2 . 1 . 2 高频优选法这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的分析而提出来的。根据现代汉语频率词典，对于报刊和政论性文章，不同音节词的词频构成为：双音节词大约有74%；三音节词大约有3 . 7%；单音节词大约有17 . 2%；而五以上字音节词则大约只有0 . 4%左右。汉语是一字一音节，因而也可以说，两字组词的频率比其它所有方式的概率加起来都还要多。自动分词时首先考虑两字词，然后再考虑单字词，如此频率低的词语最后才考虑。这种方法提高了分词效率，但对歧义问题也无能为力，出错率并不低。,5 . 2 . 1 . 3 其它方法设立切分标志切分标志有自然和非自然之分。自然切分标志是指文章的非文字符号，例如标点符号等等；非自然切分标志是利用词缀和不构成词的词（单字词等等）。设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计算机中用程序来识别所有的非自然标志。这样一来，一个句子链将被化为若干短链，然后再用其它切分方法进行各种细加工，这种多方法合作的综合应用，途径增多，可以大大提高效率。,扩充转移网络分词法它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言，对有限状态机作的第一次扩充可以使其具有递归能力，这样就形成递归转移网络（RTN）。在RTN中，弧线上的标志不仅可以是终极符（语言语句中的各种词语）或非终极符（还没有推导完的词类、符号等等，例如名词N，动词V，形容词A等等），还可以调用另外的子网络名字的非终极符（例如字或字串的成语条件）。这样，计算机在运行某个子网络时，就可以调用另外的子网络，还可以递归调用。目前大多数的自然语言理解系统都把词典组织成一个表，表是静态的。使用扩充转移网络来组织词典就可以构成一个动态的词典，词法扩充转移网络的使用，它使分词处理和自然语言理解系统的句法处理阶段交互成为可能，并且有效地解决了汉语分词的歧义。,全自动词典切词这种方法完全使用切词规则切分词语，其规则中的参数由词典提供。该方法可以部分解决歧义问题，但因是匹配切词，效率不高。规则描述语言切词法规则描述语言是用以描述汉语分词、分析和生成规则的一种工具。其中，整个规则语言将由若干个不同性质的规则块构成，而每一个规则块又包括多条规则，这些规则块的结构一般采用多层次的树型结构（当然，也可以采用其它结构，例如链式结构）。该方法对正确描述汉语是一种有意义的尝试，值得深入研究,多遍扫描联想法这种方法是使用切分标志把文本切分成若干子串。它一般分成两步进行：第一步，使用自然切分标志对文本进行预处理；第二步，利用非自然切分标志结合联想库对文本进行有效的分割。这两布完成以后，再利用实词的词库和联想库将所有词群细分为词。在这种方法的操作中，分词时将要充分利用各种语法知识、联想和回溯机制同时作用分割和细分阶段，其目的在于更有效的解决歧义组合结构的切分问题，并且兼有自动纠错和检错这样的特殊功能。这种方法属于组合方法，方法的基点立足于可靠性、实用性和通用性。神经网络分词法这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的方法。它将分词知识所分散隐蔽式的方法存入神经网络内部，然后再通过各种自学习和训练修改内部的权值，以达到正确的分词效果，最后给出神经网络自动分词结果。由于神经网络这一学科的研究有许多问题尚未解决，所以此方法还处于探索之中。,专家系统分词法这种方法从专家系统角度把分词的知识（包括常识性分词知识与消除歧义切分的启发性知识，即歧义切分规则）从实现分词过程的推理机中独立出来，从而使知识库的维护与推理机的实现互不干扰，以达到使知识库易于维护和管理。这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。虽然专家系统研究相对成熟，但真正要把这一方法作为完善的机器翻译自动分词方法，还有很长的路要走。综上所述，由于汉语的复杂性。我们很难以某种方法正确地、彻底地自动分词。这些不同的方法，它们各有不同的优点和缺点，适合不同的环境。但是如何比较正确的评价、度量一个方法，则显得尤为重要，这一点将在后面论述。,5 . 2 . 3 自动分词的歧义问题自动分词的难点是歧义切分，而歧义切分字段从构成形式上可分为两类: 一类是交集型歧义切分字段, 一类是多义组合型歧义切分字段。,5 . 2 . 3 . 1 交集型歧义切分字段与解决方法一般情况下，在多义组合型歧义切分字段中，歧义字段就是一个歧义词，而非歧义词被包含在歧义词当中。例如，歧义字段“语言学”同时也就是一个歧义词，而非歧义词“语言”和“学”包含在歧义词“语言学”中。在这种情况下, 机器很难根据多义组合型歧义切分字段本身来获得非歧义词的特征信息, 程序只有跳出多义组合型歧义切分字段自身的框架, 参考歧义字段与其前趋字串或后继字串之间的关系, 才有可能发现正确的切分。这就说明, 为了对多义组合型歧义切分字段本身作出唯一正确的切分,不能只考察歧义字段内部的情况, 还必须考察歧义字段与其前后字串之间的关系。而在交集型歧义切分字段中, 歧义字段本身就可以给我们提供非歧义切分的特征信息, 因此, 多义组合型歧义切分字段的自动切分比交集型歧义切分字段的自动切分要难得多。,有些歧义切分字段具有二重性。例如, 在例句“乒乓球拍卖完了”中, 由名词“乒乓球”和动词“拍”串联组合而产生出多义组合型歧义切分字段“乒乓球拍”,而“乒乓球拍”又与动词“拍卖”交叉组合而产生交集型歧义切分字段“乒乓球拍卖”, 这样一来, 在“乒乓球拍卖”这个字段中, 既有多义组合型歧义切分字段, 又有交集型歧义切分字段。对于这样的具有二重性的歧义切分字段, 切分时也不能只考虑字段本身提供的信息, 还应该考虑该字段与其前趋字串和后继字串的关系。为了正确地切分多义组合型歧义切分字段, 可以利用前趋字串和后继字串的句法、语义、语用3个方面信息。我们来讨论如何利用句法信息: 有些多义组合型歧义切分字段与其前趋字串和后继字串之间,存在着密切的搭配关系,这时就可以利用有关的句法信息得到正确的切分。,(1) 名词+名词例如, 在句子“用树形图形式加以描述”中, 歧义字段“图形式”是由名词“图”与名词“形式”之间的交叉组合产生的“图形”十“形式”。事实上，“图形”是歧义词，它是歧义字段“图形式”在给定句子中错误地切分出来的片段，“形式”是非歧义词，它是歧义字段“图形式”在给定句子中，按正确的切分方式切分出来的片段。 (2) 动词十名词例如，在句子“研究生命的本质”中，歧义字段“研究生命”是由动词“研究”与名词“生命”之间的交叉组合产生的-“研究生”(歧义词）十“生命”(非歧义词）。,(3) 形容词十名词例如，在句子“白天鹅游过来了”中，歧义字段“白天鹅”是由形容词“白”与名词“天鹅”之间的交叉组合产生的“白天”（歧义词）十“天鹅”（非歧义词）。 (4) 介词十名词例如，在句子“让位移等于50厘米”中，歧义字段“让位移”是由介词“让”与名词“位移”之间的交叉组合产生的“让位”（歧义词）十“位移”（非歧义词）。 (5) 连词十名词例如，在短语“独立自主和平等互利的原则”中，歧义字段“和平等”是由连词“和”与名词“平等”的交叉组合产生的“和平”（歧义词）十“平等”（非歧义词）。,(6) 副词十形容词例如，在句子“这本小说的情节太平淡了”中，歧义字段“太平淡”是由副词“太”与形容词“平淡”的交叉组合产生的-“太平”（歧义词）十“平谈”（非歧义词）。 (7) 助词十形容词例如，在短语“对这种现象的确切描述”中，歧义字段，“的确切”是由助词“的”与形容词“确切”的交叉组合产生的-“的确”（歧义词）+“确切”（非歧义同）。 (8) 名词十连词例如，在句子“社会需求和生产水平有矛盾”中，歧义字段“需求和”是由名词“需求”与连词“和”的交叉组合产生的-“需求”（非歧义词）十“求和”（歧义词）。,(9) 动词十介词例如，在句子“他们看中和日本人做生意的机会”中，歧义字段“看中和”是由动词“看中”与介词“和”的交叉组合产生的-“看中”（非歧义词）十“中和”（歧义词）。由以上例子可以看出，交集型歧义切分字段a1aiblbj，clck的交段b1bj与其后继字串clck所组成的非歧义词的词类，可以从歧义切分字段本身提供出来，例如，在歧义切分字段“白天鹅”中，交段为“天”，它与后继字串“鹅”组成的非歧义词“天鹅”，其词类为名词。歧义切分字段本身为我们提供了非歧义词，天鹅”的词类信息。交集型歧义切分字段，alaib1bj，clck的交段b1bj与其前趋字串alai所组成的非歧义词的词类，也可以从歧义切分字段本身提供出来。例如，在歧义切分字段“需求和”中，交段为“求”，它与前趋字串“需”组成非歧义词“需求”，其词类为名词，歧义切分字段本身也为我们提供了非歧义词“需求”的词类信息。,交集型歧义切分字段可以为我们提供非歧义切分的特征信息，这是交集型歧义切分字段非常宝贵而重要的特点。根据这个特点，我们可以事先为汉语词汇中的每个词建立词法知识库，并在该知识库中为可能产生歧义切分的词条加上歧义标志和歧义类型编号，这样，在实际切分歧义字段时，只要利用该字段中的交段blbj与后继字串clck（或其前趋字串a1ai ）所组成的非歧义词的已知词类信息，再通过适当的逻辑推理，就可以对这类歧义切分字段作出唯一正确的切分。例如，在上述第(3)种类型的歧义切分字段“白天鹅”中，因交叉组合产生的歧义词是“白天”，交段是“天”，该交段的后继字串为“鹅”，二者组成非歧义词“天鹅”，并已知其词类信息为名词。如果在词法知识库中，对歧义词“白天”加上歧义标志和相应的歧义类型编号，并建立如下的规则：如果交段与其后继字串组成名词，则将该歧义词的首字单切，否则，确认该歧义词为词。,于是，根据歧义词“白天”的歧义类型编号调用上述规则，并利用词法知识库中有关该歧义切分字段的交段“天”与其后继子串“鹅”组成词的知识，检查这个词是否为名词，并进行逻辑推理，就可以确定，在切分歧义字段“白天鹅”时，应将歧义词“白天”的首字“白”单切，“白天鹅”应切分为“白天鹅”。这是对歧义切分字段“白天鹅”作出的唯一正确的切分。又如，在上述第(8)种类型的歧义切分字段“需求和”中，因交叉组合产生的歧义词是“求和”，交段是“求”，该文段的前趋字串为“需”，二者组成非歧义词“需求”，并已知其词类信息为名词。如果在词法知识库中，对歧义词“求和”加上歧义标志和相应伯歧义类型编号，井建立如下的规则：如果交段与其前趋字串组成名词，则将该歧义词的尾字单切，否则，确认该歧义词为词。于是，根据歧义词“求和”的歧义类型编号，调用上述规则，在词法知识库中查询，得知该歧义切分字段的交段“求”与其前趋字串“需”所组成的词为名词，进行逻辑推理，就可以确定，在切分歧义字段“需求和”时，应将歧义词“求和”的尾字单切，“需求和”应切分为“需求和”。这是对歧义切分字段“需求和”作出的正确的切分。,对于其它类型的交集型歧义切分字段，不难建立相应的规则，并为其中的歧义词设置相应的歧义类型编号，然后利用词法知识库中有关词类信息的知识，进行类似的逻辑推理，就可以作出唯一正确的切分。由于对交集型歧义切分字段的正确切分，仅只需要关于词类的信息，所以，可以把这类歧义切分字段。从性质上划为“与词类有关的歧义切分字段”，简称为“词法歧义字段”。,多义组合型歧义切分字段比较复杂，这种歧义切分字段是由词与词之间的串联组合产生的。在字段Sa1aiblbj中，由于a1i，b1bj和S三者都能分别成词，字串a1ai与字串blbj形成了串联组合，才产生歧义切分。从产生的根源上看，有下列几种不同的类型： (1) 量词十名词例如，在句子“一阵风吹过来了”中，歧义切分字段“阵风”是由量词“阵”和名词“风”的串联组合产生的。 (2) 介词十名词例如，在句子“请把手抬高一点儿”中，歧义切分字段“把手”是由介词“把”和名词“手”的串联组合产生的。 (3) 动词十名词例如，在句子“他喜欢吃烤白薯，中，歧义切分字段“烤白薯，是由动词“烤”和名词“白薯”的串联组合产生的。,5 . 2 .3 . 2 多义组合型歧义切分字段与解决方法,(4) 名词十方位词例如，在句子“他骑在马上”中，歧义切分字段“马上”是由名词“马”和方位词“上”的串联组合产生的。 (5) 名词十动词例1，在句子“语言学起来并不十分容易”中，歧义切分字段“语言学”是由名词“语言”和动词“学”的串联组合产生的。例2，在句子“学生会兴奋得手舞足蹈”中，歧义切分字段“学生会”是由名词“学生”和动词“会”的串联组合产生的。例3, 在句子“乒乓球拍卖完了”中，歧义切分字段“乒乓球拍”是由名词“乒乓球”和动词“拍”的串联组合产生的。例4，在句子“美国会采取措施提高工业竞争力”中，歧义切分字段“美国会”是由名词“美国”和动词“会”的串联组合产生的。,(6) 方位词十动词例如，在句子“他在庄稼地里间麦苗”中，歧义切分字段“里间”是由方位词“里”和动词“间”的串联组合产生的。 (7) 副词十动词例如，在句子“他将来北京探亲”中，歧义切分字段“将来”是由副词“将”和动词“来”的串联组合产生的。 (8) 助词十动词例1，在句子“他学会了解数学难题”中，歧义切分字段“了解”是由助词“了”和动词“解”的串联组合产生的。例2，在句子“只要努力地学就可以学会”中，歧义切分字段“地学”是由助词“地”和动词“学”的串联组合产生的。,(9) 连词十副词例如，在句子“日本保留和尚使用的古代庙宇已经不多了”中，歧义切分字段“和尚”是由连词“和”与副词“尚”的串联组合因此, 可以先在词法知识库中对歧义词“阵风加上歧义标志与相应的歧义类型编号, 并建立如下的规则：如果歧义字段的直接前趋字串是数词, 则歧义字段的首段单切, 否则, 该歧义字段成词。然后根据“阵风”的歧义类型编号调用这条规则, 并利用词法知识库中的有关该字段前趋字串的信息,进行逻辑推理, 就可以作出唯一正确的切分。上面例中的歧义切分字段“把手”是由介词“把”和名词“手”的串联组合而产生的, 按非歧义切分时的词间搭配关系, 该歧义字段的后继字串中必须有及物动词, 根据这样的句法知识建立相应的规则, 再使用与上述类似的推理方法,就可以作出唯一正确的切分。,上面例中的歧义切分字段“白薯”是由动词“烤”和名词“白薯”的串联组合而产生的, 按非歧义切分时的词间搭配关系, 该歧义字段的前趋字串中应该有动词,根据这样的句法知识建立相应规则, 再使用与上述类似的推理方法, 就可以得到唯一正确的切分。上面例中的歧义切分字段“马上”是由名词“马”和方位词“上”串联组合而产生的,按非歧义切分时的词间搭配关系, 该歧义字段的前趋字串中应该有介词,根据这样的句法知识建立相应的规则,再使用类似的推理方法, 就可以得到唯一正确的切分。类似地, 切分上面例中的歧义字段“语言学”时, 要使用“该字段的后继字串中应有趋向动词或助词”这样的句法知识; 切分上面例中的歧义字段“里间”时, 要使用“该字段的前趋字串中应有介词”这样的句法知识; 切分生命例中的歧义字段“将来”时, 要使用“该字段的前趋字串中应有人名或人称代词”这样的句法知识; 切分上面例中的歧义字段“地学”时, 要使用“该字段的直接前趋字串应该是形容词或副词”这样的句法知识。根据句法知识建立相应的切分规则, 通过一定的逻辑推理,就可以实现对这些歧义字段的正确切分。,现在讨论如何利用语义信息: 例中歧义切分字段“学生会”是由名词“学生”与动词“会”串联组会产生的, 可以有两种切分结果: 学生/会/兴奋/得/手舞足蹈学生会/兴奋/得/手舞足蹈这两种切分结果在词类与句法结构上都十分相似, 因此, 仅仅利用词法和句法的知识, 难以对这两种切分结果作出正确的判别, 也就难以作出正确的切分。这时, 也就需要利用语义方面的知识了。从语义上来看, 动词“兴奋”的义项中, 要求动作的发出者应具有“人”这个义素 ,在名词“学生会”的义项中不具有这个义素, 而在名词“学生”的义项中则具有这个义素, 利用这样的语义知识, 可建立如下的语义规则: 如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素, 则歧义字段的尾字单切, 否则, 该歧义字段成词。,在自动切分时,根据歧义切分字段“学生会”的歧义类型编号, 调用这条语义规则 ,进行逻辑推理,就可以得到如下正确的切分: 学生/会/兴奋/得/手舞足蹈例中歧义切分字段“了解”是由助词“了”和动词“解”的串联组合而产生的, 它们可以有两种切分结果: 他/学会/了/解/数学/难题他/学会/了解/数学/难题这两种切分结果的词类和句法结构都是十分相似的, 如果仅仅只根据词法和句法知识, 是难以得到正确的切分的, 但是只要根据语义分析就可以知道, 在动词“解”的义项中, 它要求宾语应该具有“数学公式”或者“扣子”这样的义素, 然而动词“了解”则对宾语则就没有这样的要求, 由于作宾语的“数学难题”符合动词“解”的义项这样的要求, 因此机器可以判定前一种切分是正确的, 从而也就排除了第2种切分。,我们最后来讨论任何使用语用信息: 所谓语用信息，就是必须结合上下文不同的情况的信息才能确定语句含义。歧义切分字段“乒乓球拍”仅只根据词法、句法和语义知识, 都不足以判断卖完的东西究竟是“乒乓球”还是“乒乓球拍”, 这时, 就得根据语言交际的具体环境的语用方面的知识, 才能决定究竟什么才是正确的切分。例中的歧义切分字段“美国会” , 仅只根据词法、句法和语义知识, 也不足以判断采取措施提高工业竞争力的是“美国”还是“美国会”, 这时,就得根据语言交际的具体环境的语用方面的知识, 才能作出正确的切分。在上面的例中的歧义切分字段“和尚”, 如果仅只根据词法、句法和语义知识, 也不足以判断古代庙宇是“和尚”使用还是“尚”使用的, 这也只好根据语言交际的具体环境的语用方面的知识, 才能作出正确的切分。,根据上面所述的歧义切分字段的性质, 可以把它们分为4种不同的类型: (l)利用词法知识就能判断的歧义切分字段,叫做词法歧义字段。 (2)利用句法知识才能判断的歧义切分字段,叫做句法歧义字段。 (3)利用语义知识才能判断的歧义切分字段,叫做语义歧义字段. (4)利用语用知识才能判断的歧义切分字段,叫做语用歧义字段。在这其中, 词法歧义字段与交集型歧义切分字段完全对应, 其余三类则与多义组合型歧义切分字段相对应。,5 . 3 词语的排序, 检索, 词库 5 . 3 . 1 词语的排序, 检索简叙汉语的词语由汉字组成, 词语的数量大, 仅常用词条将达到4万左右。要使自动翻译快速、有效, 必须对大量的词条使用好的排序和检索算法进行处理. 按汉字笔画权值对词语进行排序是根据笔画查字表中的汉字排列来定义汉字的类, 再给每一类汉字赋一个数值, 这个数值就称为该汉字的笔画权值。由于汉字笔画权值不超过787个, 采用映射式排序算法是好的方法。而检索方法采用直接映射式字符检索算法。,5 . 3 . 2 词库设计原则 (1) 略缩词词典例如英语文句中经常出现的a . m ; 当自动切分句子遇到带 . 的词时, 通过查找略缩词词典时, 找出相对应词组。 (2) 省略词词典如英文的it s; they ve等。当自动切分句子遇到带的词时, 通过查找省略词词典时, 找出相对应词组。 (3) 特殊词典如英语的介词, 副词, 连词等, 用法非常灵活, 在不同语言条件下, 由于其前后搭配成份不同, 其中文译文和中文生成的词序都很不一样, 极易产生歧义, 而且这类词的频率极高.对这些结构词进行特殊处理, 对提高译文处理质量是十分重要的。 (4) 专业词典为使翻译能根据不同专业有更准确的译文, 应建立专业词典。,5 . 4 词语的分类与兼类问题 5 . 4 .1 词语的分类在目前情况下，自然语言信息处理的技术水平要求对每个词语给出它的词类(范畴)乃至次范畴分类，语言学理论与信息处理技术之间有着明显的差距。为满足机器翻译的实用需求, 也为了更深入研究, 机器词典将所收的词语及符号划分为26类, 它们名称及代码如下: 名词n, 时间词t, 处所词s. 方位词f, 数词m, 量词q, 区别词b, 代词r, 动词v, 形容词a, 状态词z, 副词d, 介词p, 连词c, 助词u, 语气词y, 象声词o, 叹词e, 前缀h, 后缀k, 成语i, 简称略语j, 习用语l, 语素g, 字x, 标点符号w。当然，由于没有一个统一的标准，可能这一种划分与其它文献中的划分可能有不同之处。这并不影响实际使用，但是我们应用时要注意这个问题。显然，仅仅规定出这些词类还远远不够, 更重要的是要决定词典中的每一个具体的词属于哪一类。这的确是一件颇费斟酌的事, 特别是一些名词、动词、形容词、状态词、区别词、副词的辨别可以说是相当困难的。,尽管词典中的词语数目是有限的, 尽管有判别准则, 尽管研究者亲自确定词语的归类, 但是仍有少数词一时仍难以决定下来。机器只有用语法方法对这些问题作必要的处理。当然, 这也为进一步研究准备了条件。随着人们多年研究的深入, 还可以考虑对某些词类进一步划分子类。这个问题看上去更困难, 主要是我们不容易把握按哪一种标准进行子类划分更好、更为妥当。其中人们提出的一种方法是按照名词与量词的关系将名词划分为可数名词, 不可数名词、集合名词、抽象名词及专有名词。这一种方法还比较科学。沿着这个方向进一步研究, 发现这些子类不在同一个层次上, 且有些名词不能受数量词修饰。现在的划分准则如下:111,凡是个体名词都应该有自己特有的个体量词, 而且该量词前的数词可以是“一”, 如“一本书”,“一头牛”, “一位教授”; 物质名词不可以用个体量词计数, 但是可以使用度量词或容器量词等来计量, 如“两碗水”, “三公尺布”,“一身泥土”等等。集合量词可以细划分为两个子类, 一类是可以分的, 即可以进行个体化的, 例如“四十位师生”, “三个兄弟”等等, 但是其个体量词的数词不能是“一”。而另一类是不可分的, 即在它们前面只能使用非个体量词之外的其它量词, 例如“两车军火”,“一队车辆”。抽象名词前一般只可以使用“种类量词”与“不定量词”, 例如“一些勇气”,“一种精神”, 而且有一部分抽象名词作动词“有”的宾语构成述宾词组后还可以受“很”一类副词修饰, 例如“很有勇气”, “非常有精神”。无量名词不能接在任何数词或数量词组之后。专有名词的特点就是在于它的专有性, 专有名词在用汉语拼音字母表示时或这被译成英语时, 其中首字母必须大写, 我们认为将专有名词单分一个子类还是有意义的。专有名词一般不受数量词修饰, 但是在某些语境之中, 它们也可以接在数量词之后。,综上所述，名词与量词之间的搭配关系为划分名词子类提供了相当明确的准则。但是，有些语言现象人们处理起来仍会感到棘手。首先我们来讨论个体量词, “个”这个量词用得非常广泛, 可以这样说“一个理论”, “两个学说”, 非常显然，在这里的“个”与“一个苹果”,“两个梨”，“五个同学”中的“个”很难区分。但是又不适宜据此我们就将“理论”,“学说”也划分到个体名词中去, 还是划分到抽象名这一类词较为合适。又如不可分的集合名词，“人口”, “大军”, 不能接在数量词之后, 却可以说“十亿人口”, “十万大军”。,5 . 4 . 2 词语的属性描述语法的属性描述将反映名词的特殊性质。分类法刻划事物虽然简洁、清晰、信息密度大, 但是属于同一类的事物仍然可能各自具有不同的特点, 例如，“鱼”和“牛”同属个体名词, 但是“鱼”却具有专用个体量词“尾”, 而牛具有专用个体量词“头”, 然而, “鱼”通常还可以与度量词“斤, 克”搭配, “牛”就不行。因此，这就要依靠语法属性描述来刻划每一词语的语法信息。对于名词, 除了确定每个词的子类外, 还应该详细描述每个名词可以搭配的各类量词。此外，我们注意和应用某些个体名词的特殊性质也是非常必要的。,属性描述可以对每一类词的语法属性进行相当充分的发掘。例如, 对于作为研究重点的动词人们共确定了近40项属性。这些属性大致可归纳为7类：第一类是关于动词本身特性的, 例如该动词是不是系动词、助动词, 趋向动词。第二类是关于动词变化形态的。第三类描述该动词有无名词特性, 例如能不能直接修饰名词, 能不能直接受名词修饰、能不能后接趋向动词, 能带什么样的宾语- 谓词, 双宾等等。第四类反映该动词同一些虚词的关系, 例如它前面能不能受“不, 没，很”修饰, 后面能不能带“着, 了, 过”。第五类描述动词在句子中的各种功能, 即该动词在句子中能否具有单独的属性。第六类刻划动词与后继成分的关系, 即该动词能否后接作动词“有”的宾语等等。第七类包含其它特性。当然，这样确定的属性是不是科学、完整还值得研究。,下面列出词典中量词库中的各个属性字段及其简单的解释。个体量词: 个体量词填个 , 如,个,本。集合量词: 集合量词填集, 如;套,系列。度量词: 度量词(单位量词)填度如, 尺, 公斤, 度, 分, 秒。最近高位: 如尺的最近高位是丈, 填丈。最近低位: 如尺的最近低位是寸,填寸.。容器量词: 容器量词填容如;瓶,杯。种类量词: 种类量词填种,如;种,类。成形量词: 成形量词填形, 如;摊,堆。不定量词: 不定量词填不,如,些, 点儿。任一: 只能受数词一修饰的,填一, 如: 系列。后接名词: 择要填写该量词后可接的名词.例如, 对艘可填轮船, 军舰。,动量词: 动量词填动,如;次,下。时量词: 时量词填时,如年,月, 时，分。表示顺序: 该量词前接数词可表示顺序的填序, 如, 月, 年。表示数量: 该量词前接数词可表示数量的填数, 如, 斤, 天, 年。 5 . 4 . 3 词语的兼类兼类系指同一个词具有不同的词类语法功能, 即这个词兼属不同的词类. (l) 兼类词只占词汇的很小一部分。 (2) 常用词兼类现象严重。往往越是常用的词,不同的用法就越多, 兼类现象也就越多。所以,尽管兼类现象只占了词汇的很小一部分,但兼类词使用的频繁程度并不很低。 (3) 兼类现象纷繁,覆盖面很广,涉及了大部分词类。 (4) 兼类现象的分布很不一致。,上面情况说明, 不同的词类在兼类问题中的地位不是等同的。有些词类, 兼类现象很严重, 解决其兼类问题比较困难, 而这些困难的兼类问题, 恰恰是兼类现象中最基本的问题, 可以把这些词类叫做“基本兼类词类”。它们是: 名词、方位词、代词、动词、能愿动词、形容词、副词、介词、连词等9类词。另一些词类，或者其兼类问题的解决比较容易, 或者其兼类现象极少, 例如时间词中, 仅仅“过去”一词兼属“时间(词)一趋向(动词)一动(词)”3类, 我们可以把这些词类, 叫做非基本兼类词类。它们是:时间词、数词、量词、区别词、趋向动词、助词等6类词。显然，对于兼类问题的研究也是很重要的，而且有较大的用途。,兼类词所包含兼类词类的个数各有不同, 有的兼类词可能只含两个兼类词类，有的兼类词可能就含有三个兼类词类。某一类兼类现象所包含兼类词类的个数叫做兼类长度。兼类长度等于2, 而且所含兼类词类均属基本兼类词类的兼类类型, 叫做“兼类基本型”。如果我们解决了兼类基本型的兼类问题, 实际上就等于解决了大部分的兼类问题。而且其它的兼类问题, 也可以设法将它们转化为兼类基本型, 这样,我们就可以抓住兼类现象中的核心问题, 通过少量的规则来处理尽可能多的兼类现象。否则，需要的规则就多得多。,兼类基本型有以下几种: (l) 动一名兼类这种兼类基本型我们最为常见。兼类词多由动词转化而来。例如“报告, 编辑, 装备, 爱好, 刺激, 工作,”等等。 (2) 动一形兼类这种兼类基本型我们也是常见的。兼类词主要由形容词转化而来,形容词后若带宾语,则认为其兼有动词的类。例如, 多,苦.严肃,繁荣,普及,巩固等。 (3) 名一形兼类这种兼类基本型我们还是比较常见的。兼类词多由形容词转化而来, 例如秘密,规矩,痛苦,困难,烦恼,科学等。下面几种兼类基本型也是比较常见的。 (4) 形一副兼类. 有的形容词在修饰谓词性成分时,意义有所改变,句法功能与副词相同,形成形一副兼类。例如,直、怪、老、全、白、光、快、偏、死、真、干等。试比较: 路很直(直为形容词). 他直哭(直为副词).,(5) 动一介兼类很多介词是由动词发展而成的,因此,介词常常与动词兼类。例如在、朝、向、往、顺、对、为、跟、随着等: 试比较; 我在家(在为动词). 我在办公室开会(在为介词) (6) 介一副兼类这种兼类基本型数目有限。例如,连、就、至、从等。试比较 :他从日本来(从为介词). 他从不抽烟(从为副词). (7) 名一副兼类这种兼类词不多见。例如,极端。试比较: 你不要走另一个极端(极端为名词) .他对顾客极端热忱(极端为副词),(8) 动一副兼类. 这种兼类基本型数目有限。例如,断、还、越、比较等。试比较; 老人断了气(“断”为动词); 断无此事(断为副词). (9) 代一副兼类在代词中，有些我们常见的指别词, 亦可修饰谓词性成分。例如“每、各、本、另、另外”等等, 属于此类。试比较: 本编辑部概不负责(本为代词). 我本姓冯(本为副词). (10) 能愿(动词)一动兼类有的能愿动词可以带体词性宾语。例如要、会、得、想、该、配等,属于此类。试比较他要去美国(要为能愿动词) 他要这本书(要为动词).,(ll) 介一连兼类这一类兼类仅有跟、和、同、与几个词,它们使用频率很高,区别起来相当困难。试比较:我和小张都会德语(和为连词). 我和小张说了这件事(和为介词). (12) 副一连兼类这一类兼类有不过、或、或者、并、尽管、只是等,区别起来比较困难。试比较; 这个建议对他们或有好处(或为副词), 你或他都可以出国(或为连词). (13) 方位(词)一动兼类这一类兼类只包含上,下两句词, 但由于在上、在下这一类搭配很常见,有时可能产生混乱,所以将其列为兼类基本型。,试比较:我上学(上为动词). 我在昆明上学(上为动词). 我在床上(上为方位词). 我在床上看书(上为方位词). 非基本兼类词类的兼类问题我们比较容易解决, 因为它们的前一个或者后一个句法单元(通常是一个单词)有十分强的黏附性, 可以根据这些句法单元来区别兼类现象。例如,“本”兼属代词、副词、量词3类, 我们只要看它的直接前趋词是否为数词, 就可以判断它是否为量词。又如，“微”兼属区别词、副词两类，如果它的直接后继词为名词, 就马上可以判断它为区别词。因此, 在处理兼类问题时, 我们可以根据先易后难的原则,它先解决这一部分的问题, 就可以大大简化处理的过程。这种方法,我们把叫做兼类词过滤。一词多类, 形成了词的兼类现象,词类标注, 要解决词的兼类问题。一词多义, 形成了词的多义现象, 语义标注, 主要是解决词的多义问题.,5 . 5 词语处理的其它问题 5. 5 . 1 生词处理在机器翻译过程中, 肯定免不了输入的原文中有机器词典不存在的生词, 这就要求机器翻译系统有较好的生词处理功能, 当然这必须有好的方法、好的程序能够对该词进行自动处理, 包括生成句法分折需要的各种信息。目前的系统对查找不到的词都按照名词处理,语法、语义信息与普通的名词同,中文译文为英文原文。生词处理进一步完善方法是, 处理过程由构词分析,句法、语义信息假定,用户确肯定定,词典添加等几个子过程构成。,构词分析应该按照构词法分析各种不同的构词形式, 建立基本的词根、词缀字典, 归纳出适合于机器分析的基本构词规则。由规则驱动构词分析, 经过构词分析就可以推导出可能的基本的语法语义信息和译文译义。词处理模块可以据此生成词表, 用于句法分析, 处理结束后, 机器可以按照用户的要求修改、确认系统对生词的处理结果, 并决定是否可以将该词条增加到主词典中。另外, 在生词处理中，还应该包括建立生词词典, 对主词典中不存在的词条进行登记, 然后成批增加到主词典中, 以提高效率。当然，为了尽可能减少机器翻译中出现的生词，我们还应该有一些特殊词类的处理方法，这是下一节所要介绍的。,5 . 5 . 2 中国人名的处理实际上，汉语自动分词有两个基本困难，一个是歧义切分问题，另一个就是生词的处理问题。汉语词汇变化太多，无论建立多么庞大的词典，都不可能穷举所有的词语。而且，随着时间的推移，还会源源不断地出现大量的新词。对于应该收入机器词典而没有被收入进去的词，实际上这是指一些被遗漏的词，或者是一些未被收入的新词等等，这基本上是不可避免的，应纳入生词处理的范围。这里主要讨论中国人名的处理。给人初步的感觉，中国人名太多太多，处理可能也非常难。的确，中文的名字选取随心所欲，没有任何可以遵循的规则，完全根据个人的喜好，可以使用任何汉字或者汉字串作为名字。由此可见，除了少数著名人物以外，要把所有的中文名字都收入某一词典模块基本上是不可能的，这只能让机器翻译系统具有这方面处理的功能。,中文姓名的处理的确是一个非常复杂的问题，不仅仅数量太多，而且随时间的变化而不断变化。中文姓名的结构也复杂，表现形式多样，姓名用字不仅可以自身成词，而且也可以与相邻的字构成词。例如“马”，可以当作名词来指一种家畜，也可以作姓。所有的这些问题都增加了姓名的处理难度，也成为一个研究难题。目前大多数姓名处理的方法都是利用姓名的分布规则、姓名的用字规律、姓氏用字、名字用字的出现频率和概率估值，以及姓名的前后约束用词等等信息综合进行推断，也提出了一种基于变换的方法（还不十分成熟）。,下面，我们介绍基于语料库和规则库的中文人名处理方法：（1）建立中文人名语料库，对人名语料库进行统计，列出可以用作双名的字极其在双名中的位置，列出单名用字；（2）采用最大匹配法进行自动分词；（3）如果句子中出现在词典中标为姓氏的词，则可以找出其待定的中文人名，检测条件为：姓氏字或词（复姓）后跟一个可以用作双名的词，或者后跟一个双名首字，再跟一个双名末字；或者后跟一个单名字；（4）利用可以依的规则对待定的中文人名进行调整，这里的规则其实就是一些用于人名处理的启发信息，包括：称谓词，如“女士、先生、老师”；地名和单位，人名前用单位名称和地名表示所在地和单位；人名前加“的”的定语，如“年过四十的李力”；,(5）分词规范里对于“小李”、“老王”、“刘总”、“张大爷”、“何大妈”、“钟哥”、“林姐”等等简称和尊称都划为分词单位，这些表示的人名分词单位可以采用如下一些简单的规则进行处理和分析：设X为当前词，F为当前词的前一个词，B为当前词的后一个词，SN为姓氏集，则可以有这样的处理规则：设 K1=小、老、大，若XSN, 并且 FK1 则 FX是姓名设 K2=总、工、头、，若XSN，并且BK2 则 XB是姓名。,5 . 5 . 3 中国地名的处理机器翻译中如果存在没有被检索到的中国地名，将会出现严重的分词错误。例如以下句子：这是篷莱县小门家乡政府所在地。如果没有地名专门处理，容易被切分成：这/是/篷/莱/县/小/门/家乡/政府/所在地。地名不像人名那样又多又复杂，无法枚举，目前有的机器翻译系统的汉语自动分词是通过机器词典中穷举地名来实现这一处理的。这对于面向真实文本的自动分词是不可取的。因为地名，或者都市洲府，或者市井乡村，或者名川大泽，或者穷乡僻壤，理论上虽然可以穷举，但是实际上是不可能穷举完全的。而且即使可以穷举完全，地名的数量必然极其庞大，如果都收入分词自字典中，一方面它会使分词词典的规模急剧增加，增加系统的开销，降低了机器翻译的效率；另一方面也会增加各种歧义现象出现的概率，对切分精度也有影响。,例如“于山”如果是一个地名，那么加入词典中，则对“由于山区”的切分变成链长为 2 的交集歧义问题。因此，有必要研究中国地名特点、用字规律、用词规律、构词规律和地名的上下文规律，实现真实文本中中国地名的自动处理。中国地名的特点，有一些对处理构成一定的难度。例如，中国地名的长度没有一定的限制，从一个到多个不等，像“京、津”这样的简称，长度为 1；而“北京”长度为 2，“内蒙古”长度为 3 等等。另外，汉语的常用字经常出现在地名之中，例如“大直街”、“马家沟”中的汉字都是常用字。此外，地名中含有的多字词也不利于地名的处理，例如“黄果树瀑布”中的“果树”本身就是一个词，这肯定增加了难度。但是，中国地名的处理过程中也有可以利用的信息，例如一些后缀有利于地名的处理，像“乡、村、市、县”等。,对于地名的处理，虽然已经有不少的方法，但是一般可以采用统计与规则相结合的方法，现在举例说明如下：（1）先建立一个包括省、自治区、直辖市、市、县、区、镇、乡、村，以及山脉、河流、湖泊、峡谷、岛屿等等的中国地名库，收集尽可能多的地名。越多、越详细越好，这将为以后的高质量机器翻译打下好的基础。（2）可以先统计出地名库中地名用字以及地名的首、中、尾用字规律及频率，然后再建立地名用字库，最后统计出地名用字库中各个字用做地名的首字、地名的中间字、地名的尾字的概率。这里面主要采用统计的方法。（3）采用某一分词方法进行分词。（4）对于那些单字词，如果它确实属于地名用字库，则可以激活地名处理过程。先去寻找占据中文地名首字的词或者字，然后再寻找中间的和末尾的字或者词。利用字频和中文地名用字的统计规律确定中文地名的边界。,（5）在地名初步处理结束以后，可以进一步调整其正确率。比如对于连续的地名“黑龙江省哈尔滨市”，应该将它们分开。对于连续地名的分开可以采用如下的两种方法： 1 我们可以使用规则进行处理。中文名的末尾字“省、市、县、乡、村”等等都有很强的显性特征可以方便地用于地名的右边界，所以我们可以以它们为关键字，然后采用规则的方法加以处理。当然，还有其他的规律可以采用规则表示出来，并且也可以用于地名处理的过程之中。这一类方法采用得非常之多。 2 我们可以利用概论的和方法。对于初步处理的连续地名 P=C1 C2 Cn，可以通过以下公式计算其权值：权值 F（C1 C2 Cn）= 地名首字（C1）的概率+中间各字作为地名中间字概率的和 + 地名尾字（Cn）的概率对于任意的 i， i（1 n），如果 F（C1 C2 Ci）+ F（Ci+1 Ci+2 Cn） F(C1 C2 Cn),则 i为连续地名串C1 C2 Cn的分割点。 5 . 5 . 4 外国译名的处理在汉语分词的过程中，如果文本中存在不能被检索的外国译名，则要么造成句子被割裂，要么就会出现错误。见下面的例子：埃及/总理/穆/巴/拉/克/访问/叙利亚。国际/田联/取/消费/尔/南/多/参赛/的/资格。由此可见，外国译名的处理也是自动分词中不可缺少的一部分。,我们对于外国译名的处理类似于中国地名的处理，但是要注意外国译名的处理也有它自己的特点。首先，外国译名的用字就比中国地名用字比较有规律，而且用字比中文地名少；其次，译文中含有多字词，如“威廉明娜”等。人们对于外国译名的处理，大多数都采取统计的方法，但是在处理过程中也可以利用上下文的信息。以下是外国译名处理的一种方法：首先建立外国译名库，然后对库中的外国译名进行统计，得到外国译名用字表以及各个外国译名用字用于首、中、尾的概率，然后采取某种分词方法进行分词，在这一分词过程中激活外国译名的处理次序进行处理。对于连续的汉字串，先进行译名粗界定，即对于一个连续汉字串，如果它的每个字都属于外国译名用字，机器程序则可以认为该串汉字为外国译名。然后，再采用上下文进行处理，使之得到翻译较为满意的结果。,例如，有这样的句子：英国首相撒切尔夫人来访。借助于称谓机器程序很容易处理为“撒切尔”为外国译名，这里就要求有一张称谓表或者词典中有关于称谓的标志。又如，有这样的句子：约翰史密斯将来中国。对于这样连续的汉字串，如果在其之间有一个“”，机器程序则可以毫无疑义的将它处理成一个外国译名。当然，还有一些上下文信息是可以用于外国译名的处理的，例如外国译名前后采用的动词等等。这里不再多述。,对于上下文不明确的连续汉字串的外国译名的处理，我们可以利用将单字词词频和译名用字表中的频率进行合理的评级，然后再对级别进行比较，分析出译名的用字。我们也可以采用不统计译名用字用于首、中、尾的频率方式，而是直接给出四张统计表：（1）只出现在译名开头的字表；（2）不能出现在译名开头的字表；（3）只出现在译名结尾的字表；（4）不能出现在译名结尾的字表。最后，在译名被粗界定的基础上，对其候选译名采用首尾逼进法，分析得出首尾边界，即可以得到外国译名。,5 . 5 . 5 控制符控制符是指控制词处理流程的标记符号。机器在进行词处理的过程中, 肯定会有许多词需作特珠处理, 例如变形词需要还原, 有些单词可构成静态词组或动态词组的首词要专门标出, 有的词是结构词要转入特珠词库进行歧义处理, 有的词是习语, 可作直进直出处理, 有些词必须先进行词组匹配, 然后再作变形词恢复。,5 . 5 . 6 黏着型语言和屈折型语言的词处理,传统语言学根据词的形态结构把语言分为三大类: (1) 分析型语言: 其特点是词基本上没有专门表示语法意义的附加成分, 形态变化很少, 语法关系靠词序和虚词来表示。如汉语, 藏语等。 (2) .黏着型语言; 它的特点是在词内有专门表示语法意义的附加成分, 一个附加成分表达一种语法意义, 一种语法意义也基本上由一个附加成分来表达, 词根或词干跟附加成分的结合不紧密。如芬兰语、日语等。 (3) .屈折型语言:其特点是用词的形态变化表示语法关系,一个形态成分可以表示若干种不同的语法意义,词根或词干跟附加成分结合得很紧密,往往不易截然分开。,分析型语言的形态变化很少。例如,在书面汉语中, 勉强称得上屈折词尾的只有一个们字, 它

展开阅读全文

《词与词组分析》PPT课件.ppt

最新文档