现代汉语语法信息词典的收词原则

上传人:时间****91 文档编号:204832222 上传时间:2023-04-27 格式:DOC 页数:18 大小:61.50KB
返回 下载 相关 举报
现代汉语语法信息词典的收词原则_第1页
第1页 / 共18页
现代汉语语法信息词典的收词原则_第2页
第2页 / 共18页
现代汉语语法信息词典的收词原则_第3页
第3页 / 共18页
点击查看更多>>
资源描述
现代汉语语法信息词典的收词原则 王惠 核心词:现代汉语、语法词典、收词原则一. 前言 现代汉语语法信息词典是一部供计算机分析与生成汉语句子而使用的机器词典。词典筹划收词万左右,所收条目涉及:名词n,时间词t,处所词s,方位词f,数词m,量词q,区别词,代词r,动词,形容词a,状态词,副词d,介词,连词c,助词u,语调词y,象声词o,叹词e,前接成分,后接成分k,成语i,简称略语j,习用语,语素g,非语素字x,标点符号w等26类。其中前18类是语言学界普遍承认的词,后8类只是借助这些术语对词典中所收的非词成分进行归类1。为行文以便,本报告中将对词典中收录的这26类成分都统称为“词语”。 北京大学计算语言学研究所从98年起就开始研制现代汉语语法信息词典。该项研究先后纳入国家“七五”攻关项目和“八五”科技攻关项目中文信息解决技术应用开发平台3的总规划, 并与国家自然科学基金项目“自然语言的计算理论”相配合。通过七年的持续开发,目前, 该研究已获得重要的阶段性成果, 词典已初步完毕了五万词的收录、归类及属性描述。 本报告就是在这些实际工作经验的基本上, 具体简介这部电子词典的收词原则。二. 收词原则 词典的收词原则依赖于其应用目的。现代汉语语法信息词典( 如下简称“电子词典”)是供计算机使用的, 与供人使用的词典相比较, 收词原则应有所区别;本词典又是一部面向中文信息解决各个领域的通用性词典, 它不依赖于任何特定的语言解决模型及算法, 因而, 与一般依赖于某个具体解决系统的电子词典相比较,收词原则也有很大的区别。 下面从个方面对这部电子词典的收词原则进行简介:. 规范原则(1).符合国标信息解决用现代汉语分词规范的词语,都属于电子词典的收词范畴。 根据该信息解决用现代汉语分词规范中对“分词单位”的定义:“汉语信息解决使用的、具有拟定的语义或语法功能的基本单位。它涉及本规范的规则限定的词和词组”。语言学中所定义的词:“最小的能自由运用的语言单位,一方面是电子词典的收录对象。在目前已收录的五万余条词语中, 词占95%以上, 涉及了所有的18个基本类。对于其中的个封闭类:方位词、量词、代词、副词、介词、连词、助词、 语调词、叹词等, 电子词典尽量所有收录。而此外9个开放类,名词、时间词、处所词、动词、形容词、状态词、区别词、数词、象声词等, 由于其数目众多, 电子词典不也许都收录, 而是还要进一步参照下面将要简介的其他几种收词原则(如高频原则、稳定原则、 词部件原则等)进行取舍。 除了8类基本词以外, 符合信息解决用现代汉语分词规范的成语、习用语、缩略语3类比词大的语言成分也属于电子词典的收录范畴。这些固定短语大多数是由语素和词组合而成,其构成成分和格式都是在汉语的长期发展中形成的, 不可随意切割, 并且其意义也带有整体性。在句子中所起的作用与词相称, 是汉语词汇体系的重要成员。如: 成语:胸有成竹、走马观花、子虚乌有 固定短语 习用语: 跑龙套、卖关子、综上所述 简称略语: 三好、人大由于这3类固定短语数量也非常可观, 电子词典对其解决方略与解决开放类的方略相似,只选收其中一部分使用频率高、稳定性强的。(2)不符合分词规范的词语, 原则上将不予收录。 这重要涉及如下几种状况: 1). 不是分词单位的词 实际文本中的数词千变万化,如:“一、十一、一亿八千万、第六、五分之二、一千多、三十几、数万”等等。但根据分词规范,可以作分词单位的只有: .系数词“一、十、两、几”等 b. 位数词“十、百、千、万、亿、兆”等 助数词“第、初、零、分之、多、数、约”等 d. 数量词“若干、许多、不少、大量、少量”等那么, 除了这4组,其他数词都不是分词单位,因而也不属于电子词典的收录范畴之内。 2) 不是分词单位的短语成分, 如: (一)般说 (出其)不意 热胀(冷缩) 超低(空) (三)年来 之首 最关 并以 应按 在发言中 写论文 学不好 科技发展 时间就是生命 据说读写 早来 桌子上 .联合国教科文组织 国标局 北京大学 中国少年先锋队其中a组也许在词频记录时这些字的组合浮现频度较高, 但它们不在合理的层次上, 既不成词也不成短语, b组是自由短语,组是组织、机构、单位的名称。. 高频原则 现代汉语词语非常丰富,虽然是严格符合信息解决用现代汉语分词规范的分词单位, 也数不胜数。因而, 电子词典不也许见词就收。为了做到收词量一定而词的覆盖面最大或词的覆盖面足够大而收词量至少,电子词典应在规范原则的基本上, 遵守高频原则,尽量多地选收那些使用频率高、合用面广的词语, 尽量少收低频词。 词语频度重要是通过对大规模语料的记录、分析获得。我们词语的频度, 重要是参照电子工业部提供的“频度词表”(约4万词语)以及我们七五时选的五万词、北京语言学院编写的现代汉语频率词典等既有的种词表、词典(详见附录)。按照词频的从高到低, 依次收录;频率过低的, 原则上暂不收录。3. 稳定原则 语言是处在不断发展变化中的, 有些词语在一定期期内使用频率很高,但过了一段时间之后, 就不大使用了, 甚至被裁减; 然而,也有相称一部分词语是很稳定的, 具有长期的生命力。 因此,电子词典在选收词语时,不仅要遵守规范原则、高频原则,并且要遵守稳定原则。尽量多收录稳定性强的词语,如:“我、你、人、山、水、跑、吃、好、坏、日、常、不、在、的、吗、吧、啊”等; 对那些只通行于过去某一段时期, 而目前已较少使用的词语,虽然记录频率较高, 也一般不予收录, 如:“黑帮、士大夫、 黑五类、臭老九、三线”等。此外,对于目前较为流行的某些新词, 如:“大腕儿、款爷、打的、面的”等, 由于尚未稳定下来, 电子词典也不收录。 为了保证所收词语具有较强的稳定性, 电子词典在收词时, 不是一方面从多种语料中进行切词, 而是直接运用既有的9种有代表性的词表和词典作为词条来源(见附录。具体工作时,若一种词语在多种词表或词典中浮现的次数越多,则觉得其稳定性越高,因而也就优先收录到电子词典中。.词部件原则 无论是词典开发者或使用者都但愿收词完备,如何提高完备性?有两种措施可供选择。一是增长收词数目, 如国内已有一部收词达30余万条的电子词典, 但相对于汉语的词语来说, 0万并不完备, 却大大增长了词典存贮空间, 使得一般微机难以承受, 并且收词过多,也有副作用,增长分析的难度;二是收录尽量多的“词部件”。汉语中词语数目无限多, 可是构成这些词语的基本部件却是有限的。任何自由短语都可以拆为若干词和固定短语,词和固定短语都可以拆成若干个语素和更小的词。因而,词典中若把这些基本的词部件(可以是语素、词或固定短语)收录进来, 并辅之以对这些词部件的构词能力及其组合规则的描写, 就可以让计算机运用这些知识去解决未定义词。这样, 电子词典的规模不仅不会过于庞大, 并且还可以大大增长词典的容量。 语法信息词典正是采用第二种措施,着重收录可以作为“词部件”的基本构词成分、词和固定短语。对于由这些词部件构成的上级语言单位, 如派生词、复合词、重叠形式、自由短语等,尽量少收, 甚至不收。具体做法如下: (1). 把构词能力强的比词小的“词部件”列入电子词典的收录范畴。 信息解决用现代汉语分词规范中规定的“分词单位”只涉及词和词组。但实际文本中还时常会浮现比词更小的单位, 如: a. 买了一种磁化杯 . 新华社日讯 我姓刘 . “枇杷”的“枇”字不常用。其中的“杯、讯、刘、枇”都不是词, 但它们不仅在一定场合下单独浮现,并且可以作为词部件, 与其他成分结合,构成诸多的词语, 如:“茶杯、酒杯、塑料杯、玻璃杯、杯子、杯底、杯盖、通讯、电讯、审讯、音讯、老刘、小刘、刘胡兰、刘先生、刘经理、枇杷、”等等。 类似地,汉语尚有某些可作切分标记的前接成分和后接成分,如“阿、老、子、头、们”等, 也可以与其他成分结合构成众多的合成词。如: 阿:阿爸、阿妈、阿妹、阿哥、阿婆、阿五、阿春 老: 老虎、老鼠、老王 子: 杯子、盖子、刀子、尺子、小辫子、胖子 头:老头、苦头、甜头 们: 哥们、姐们、爷们 因此, 一部实用的电子词典,除了收录符合信息解决用现代汉语分词规范的词和短语以外, 还应把这些基本的词部件收录进来, 尽管它们不是分词单位。电子词典把如下4种比词小的单位也列入了收录范畴: 1). 前接成分: 阿、老、超、非、单、反、小、伪、过、无 ) 后接成分: 子、儿、头、们、性、员、者、化、界、学、观、率(4)、家、器、长(zhang3) 3) 语素: 齿、贝、芳、函、讯、澡、杯、冬、遥、失、驰、耽、丽、秀、忿、罕、恭、釜、赴、冠、丹、邢、刘 )非语素字: 枇、杷、鸳、鸯、垃、圾、蝴、蝶、葡、萄并对它们一一作了标注,设立专门的语法属性字段描述其构词规则。目前,限于规模, 电子词典只把国标GB312-80中所浮现的这4种单位收录了进来; 超过此范畴的,不也许收录。 (2) 自由短语原则上不列入电子词典的收录范畴。 在.1规范原则一节中,本文已从自由短语(涉及机关、组织名称)不是分词单位角度,讲述了它们不属于电子词典的收词范畴之内。本节将着重从自由短语不是基本的“词部件”角度, 再次明确这一点。 自由短语是词与词(或短语)在句子中构成的临时构造,不具有稳定性和整体性, 因而不是词汇体系中的成员。如名词“科技、国家、机关”和动词“发展、工作、睡觉”可以与不同的名词或动词构成诸多的定中式偏正构造的自由短语。如:“科技进步、科技发展、科技成果、科技人员、科技鉴定、国家机关、国标、国家栋梁、机关人员、工作机关、发展中心、发展限度、工作人员、工作时间、睡觉时间、”等等。如果把这些自由短语都收录到电子词典中, 不仅不符合国家分词规范, 并且有也许把“名词+ 名词”、“名词+动词”、“动词+名词”等形式的自由短语都收录进来。这样的话, 电子词典虽然使用海存, 也难以包容。因此, 电子词典对这些自由短语原则上均不予收录, 而只收录构成自由短语的基本词, 并另立语法属性字段描述其组合规则。如电子词典中的实例:字段名: 词语 词类 前名 后名 前动记录号 1 科技 n 可 可 否 2 国家 可 可 否 3 机关 可 可 可 4 发展 v 可 可 否 工作 v(兼n) 可 可 可 6 睡觉 v 否 可 否其中“前名”字段填“可”, 表达该词语可以直接受其他名词修饰构成定中构造,如“亚洲国家、国家机关、科技发展”等; 填“否”则表达不能受名词直接修饰,如“睡觉”。“后名”字段填“可”, 表达该词语可以直接修饰其他名词构成定中构造,如“科技人员、国家机关、发展中心、睡觉时间”等; 填“否”则表达不能直接修饰名词。“前动”字段填“可”表达该词语可以直接受动词修饰构成定中构造, 如“研究工作、保密机关”等;填“否”则表达不能受动词直接修饰构成定中构造。 由此可见,有了这些基本词汇及其组合规则,计算机就可以解决千变万化的自由短语,而没有必要再将这些自由短语收录到电子词典中。 () 重叠式词语的收录原则 汉语词语具有“AA、AB、ABB、ABB、ABAB、一A、了、A了一”等多种重叠形式,如“看看、看了看、看一看、看了一看、看看书、亮晶晶、高快乐兴、 快乐快乐”等。信息解决用现代汉语分词规范中规定“AA、BB、ABB”式是分词单位, 而“AA 、ABAB、一、A了A、A了一A”不是分词单位。电子词典不以形式决定与否收录, 而是从构词角度看该重叠式词语是不是基本的词部件(即不可还原为更小的词), 然后再作取舍。具体做法如下: 1). 一方面把重叠式词语分为如下类: a. 形式上像重叠式,没有基本式词语。如: 悄悄、明明、亮晶晶、毛茸茸、蒙蒙亮、满满当当、慢慢悠悠 b.基本式和重叠式都能单用, 但两者词性不同; 如: 往(介词) 往往(副词) 暗(形容词) 暗暗(副词) 大方(形容词)大大方方(状态词) 孤单(形容词) 孤单单(状态词) 热闹(形容词) 热闹热闹(动词) c. 基本式和重叠式都能单用, 并且两者词性相似。如: 看(动词)看看(看一看/看了看/看了一看)(动词) 研究(动词) 研究研究(动词) 理发(动词) 理理发(动词) 方面(名词) 方方面面(名词) 许多(数词) 许许多多(数词) 2) 不同类的重叠式词语采用不同的收录原则 类可看作是用重叠语素的措施构成的新词,属于电子词典的收录范畴。固然, 至于具体某个词收与不收, 又取决于它的使用频度、稳定性等因素。b类和c类重叠式均有相应的基本式,都是基本式按一定规则构成的派生形式。但b类重叠式与基本式词性不同,尚属于构词法范畴,因而电子词典酌收了少量频率很高的此类重叠式词语,如:“往往、暗暗、大大方方”等; 而大量的非高频词则未收。c类重叠式与基本式的词性及基本语义都相似,完全属于构形法的范畴,重叠的成果并没有产生新词, 只是浮现了同一种词的不同语法变体, 因而电子词典原则上不予收录。在此补充阐明一点,b与c重叠式中尽管有的词没收,但是它的信息不会丢失。如:“安静”收了,它的重叠属性描述中填了“AA”,即阐明它有“安安静静”的用法。5. 语法义项原则 汉语中一种词语往往具有几种不同的意义。意义之间没有联系的, 称为同形词, 如:“一朵花”的“花”与“花钱”的“花”。意义之间有联系的,称为多义词, 如“一朵花”的“花”与“花纹”的“花”。 现代汉语词典把同形词作为不同的词语分别收录,而把多义词作为一种词语收录,然后再分义项逐条解释。如“花”在现代汉语词典中分列为两个词语: 花: .一朵花 .花纹:白地蓝儿 花: 耗费、花销 电子词典重要是描写汉语词语的语法属性,而不是解释词义的, 因而, 在对同形词、多义词的收录原则上与一般释义词典也有所不同。具体原则是: (1) 同形词作为不同词语收录; 如:“花”在电子词典有两个, 一种是动词, 一种是名词。 () 多义词义项所属词类不同,作为不同词语收录; 如: 编辑 .对资料或现成的作品进行整顿加工 .做编辑工作的人 电子词典中收了2个“编辑”,一种是动词, 一种是名词。 (3). 多义词各义项所属词类相似, 但语法功能区别较大, 作为不同词语收录。 如: 保管 .保藏和管理: 她图书 完全有把握;担保: 你能学会 电子词典中收了2个“保管”,都是动词, 但一种只能带体词性宾语, 一种只能带谓词性宾语。 (4). 多义词各义项所属词类及其他语法属性都相似或相近, 只作为一种词语收录。 如:前边所说的“一朵花”的“花”与“白地蓝花儿”的“花”,两者都是名词,都能受数量构造修饰,都具有名词的多种语法功能。因而,电子词典中只把她们作为一种词语收录,即“花”(名词)。 (5). 同一种义项,如果所属词类和语法功能存在较大的差别,则分开作为不同词语收录。如“自动”在现代汉语词典中只有一种义项,但它既可以作副词(“自动控制水流量”),也可以作区别词(“自动步枪”),因而,电子词典中就收录了两个“自动”,一种是副词,一种是区别词。 通过前面所列举的5条具体原则,可以清晰地看到,电子词典把具有同一词形的同形词语, 以及兼类词语、语法功能有较大差别的多义词,都看作不同的词语而列入收录范畴。这种作法的根据就是语法义项原则, 即根据词语的词类及其他语法功能的异同,来建立相应的语法义项。同一种词形具有几种语法义项,就作为几种词语收录。 根据这条原则,电子词典中所收录的词语都是与语法义项一一相应的, 不同的词语相应着不同的语法义项。从这个意义上说,电子词典中收录的词语数目, 事实上是以语法义项为计数单位,而不是以词形为计数单位的。 下面,作为一种完整的实例,让我们来对比一下电子词典和现代汉语词典对“该”的收录状况:A.现代汉语词典: 该 应当: 该走了。 . 应当是: 这一回该我了吧。 . 理应如此:活该! 表达根据情理或经验推测必然或也许的成果:天一凉, 就该加衣服了。 该 欠: 该帐| 该她两块钱。 该 批示词, 指上文说过的人或事物(多用于公文): 该地交通便利 该4同“赅”。 . 电子词典: 词语 词类 备注 该 v 相应于组的“该” 该 v 相应于A组的“该” 该 v 相应于A组的“该2” 该 r 相应于组的“该”现代汉语词典的“该4”, 由于频次太低而未收入电子词典。6. 实用原则 电子词典是为计算机解决现代汉语服务的, 因而, 具体收词时, 还要充足考虑实际工作的需要。具体原则是: (1) 以规范的现代汉语一般话词语为主, 尽量少收古汉语词语、方言词语。 a. 古汉语词语与现代汉语词语 电子词典重要收录现代汉语词语, 如“朋友、发展、中青年、但愿、温柔、大型”等。对目前已不使用的历史词语、文言词语, 如:“御史、钦定、北邙、九宾、言之不预”等,不收。但少数现代汉语(特别是书面语)中仍常使用的文言词语, 如“之、其、谓、勿、诸位、获悉”等, 酌收。 方言词语与一般话词语 电子词典重要收录原则语(即一般话)词汇, 对方言词汇一般不收录。如:收“玉米”,而不收“老玉米、苞米、棒子、包米、包谷”等; 收“火柴”, 而不收“洋火、亮子、自来火、取灯儿”等;收“小偷”, 而不收“小偷儿、偷儿、贼娃子、毛贼、贼骨头、鼠摸、鼠贼仔”等。 但对于少数已进入一般话的方言词汇,如:“瘪三(吴语)、蹩脚(吴语)、雪糕(粤语)、龙眼(闽语)、晓得(西南话)”等, 电子词典仍酌情收录。c 口语词语与书面词语 语言规律的研究应当注重口语语料。但是, 本电子词典重要是应用于书面文本的解决的, 因此, 虽然只用于书面语的词语,为“秀丽、辉煌、灿烂、思考”仍属收录的范畴。相反的, 口语中常用的词语, 如“压根儿、瓷实、瞎忙乎”等, 电子词典一般不收录, 这些词语很也许是北京话而不是一般话。 (2). 增补了少量使用频率特别高的自由短语 为了提高计算机的解决效率, 对那些使用得很频繁的自由短语, 电子词典也酌收了一部分, 如“一种、一下子、一会儿、多种、百分之、全国、这种”等。 ().5字以上词语暂不收录 前面说过, 汉语中5字以上词语绝大部分是由词部件(一般是14个字)组合而来的, 因而不属于本词典的收录范畴。但汉语中的确尚有一小部分5 字以上的词语不能拆为更小的词部件, 这重要涉及译词、外国地名、人名、国家名、熟语、格言、成语等。如: “阿尔巴尼亚、布宜诺斯艾利斯、戈尔巴乔夫、八九不离十、冰冻三尺非一日之寒”等。但这些词语在大规模的语料中浮现的几率非常低。据语言学院编的现代汉语频率词典中的记录,词频最高的前9000词中,5字以上词语只有个。这也就是说, 真正常用的 字以上的词语很少。 固然,对于一种实际的自然语言解决系统来说, 补收某些五个字以上的词也是可以的。 (4). 增补了中文标点符号 汉语文本中, 除了多种语言成分及中文以外, 尚有必不可少的标点符号。它们是句子分析时可运用的重要标记,并且每种标点符号也有各自独特的语法意义。因此, 电子词典把中文标点符号也所有收录了,并一一进行有关的属性描写。三.各类词语的具体收词原则 电子词典中所收录的26类词语中,问题较多的重要是名词、时间词、处所词、数词、区别词、动词、形容词、状态词、成语、习用语、简称略语等11个开放类。下面依次对这类词语的具体解决原则进行简介:(一) 名词1 单纯词(由一种语素构成的词) ).单音节名词都是单纯词, 数量有限, 并且构词能力较强, 应尽量收录。 如:电子词典中现已收录的拼音首字母为“y”的单音节名词有:“牙、芽、烟、盐、眼、羊、腰、药、印、鹰、营、油、铀、釉、鱼、雨、云、韵”等。 2). 双音节以上的单纯词, 收录高频的。 如: 玻璃、蝴蝶、葡萄、鸳鸯、蜈蚣、傀儡、垃圾、沙发、逻辑、奥林匹克. 附加式合成词(由“h+|g”或“w|g”形式构成的词。其中表达前接成分,w表达词(r),表达语素, k表达后接成分,“|”表达“或”的关系), 只收录少数搭配固定的高频词。如: h+w: 阿爸 阿姨 老鹰 老天 故事 小鬼 h+: 阿婆 教师 老鼠 小孩 小子 伪军 w+: 省长 科学家 弹性 学员 统治者 苦头 物理学 轰炸机 加法器 生产率 g+: 厂长 作家 码头 石头 文学 磁性 叶子 对于“wg+子|儿”的名词, 有时后接成分“子|儿”可有可无,这时, 就只收录没有“子|儿”的形式。如“花儿、刀子”不收,但“花刀”收录。有些必须带“子 |儿”的,就作为附加式合成词收录, 如“蚊子、嗓子、盖子、傻子、个儿、死心眼儿、小不点儿”等。. 由“+g /w+ gw”构成的复合名词, 从宽收录。如: 1)g+g 1:状况 堡垒 波涛 方略 财政 措施 2). +g +: 专家 白色 措施 用品 错误 2+1: 电视台 办公室 美术片目的地 发展史 保温杯 编者按 3). g+w +1: 道路 待遇 壁虎 物力 2: 绵白糖 国内外. 由“w+”构成的复合名词, 只收录少数搭配固定、词义具有整体性的词语。如: 1+1: 大小 纸张 刺刀 出口 大局 牛肉 火车 红灯 红茶 仇恨 军团 花朵 12:大自然轻音乐 逆命题 涮羊肉 21: 出租车 卫生球 玻璃钢 旅游鞋 +: 浪漫主义 独生子女 人造卫星 新生事物组织关系 三角函数 1+3: 正多边形 总工程师正三角形 3+1: 共产党人. 专有名词 1) 收录常用的国家名、都市名、省名、洲名, 以及少数自然地理名称。如: 国家: 中国、英国、美国、德国、日本、越南 都市: 北京、北京市、香港、上海、巴黎、纽约 省: 安徽、浙江省、浙江、台湾省、台湾 洲: 亚洲、拉丁美洲、非洲、欧洲 自然地理: 黄山、泰山、北冰洋、太平洋、黄河 ). 人名从严收录。目前只收录了“毛泽东、雷锋”等很少数几种。(二). 时间词1 时间词绝大部分都是双音节的, 因而, 对双音节的从宽收录。 如: “白天、傍晚、春季、冬天、此后、此刻、从前、现代、过去、将来、年终、课间、事前”等。2. 一年中的十二个月、一种星期的七天所有收录。 如:“正月、一月、二月、十一月、十二月、星期一、星期二、星期六、星期天、星期日”等。 朝代名、节日名, 只收录高频的。 如:“宋朝、唐朝、春节、元旦、国庆节、劳动节、端午节、复活节、圣诞节”等。(三). 处所词1由“+”构成的双音节处所词, 从宽收录。 如:“低空、高空、附近、外国、远方、周边、沿线、沿途、上游、下游”等。2. 由“nNg+f”构成的双音节处所词, 常用的予以收录。 如:“地下、国内、国外、身边、面前、田间、心头、户外、空中、途中、华北”等。(四).数词 数词虽然是开放类, 但电子词典收录的却只是封闭集。它涉及如下几种成分:1. 基数词“一、二、三九、十、两、几”等12个; 位数词“十、百、千、万、亿、兆”等;3 助数词“第、初、点、分之、百分之、数、来、多、半、零、左右、好几”等;4. 序数词, 只收“第一、第二”, 其他不收; 5. 少数常用数量词,如:“一种、某些、一下、一点、多种、半天、半截、诸多、许多、若干、不少、少量、多数、无数、上万、亿万”等; 缩略数词“俩、仨、廿、卅”等4个。(五). 区别词. 单纯词很少, 尽量收全。 如: 金、银、男、女、阴、阳、正、副、公、母2 附加式 由后接成分“型、式、性”等参与构成的合成词, 常用的从宽收录。 如: 巨型 大型 中型 小型 微型 良性 恶性 雌性 雄性 男式 女式 中式 西式 流线型 喷气式3. 复合词 凡可以对举的, 从宽收录。 如: 黑白 彩色 长途 短途 特等头等 次等 下等 一等(六)动词1 单纯词 尽量多收录 如: 电子词典中现已收录的拼音首字母为“y”的有: 压(碎)、压(逼近)、 压(下赌注)、押、咽、淹、沿、演、验、养、摇、咬(咬了一口苹果)、咬(夹住)、咬(狗叫)、舀、要(索取)、要(应当、需要)、噎、依、议、引、印、应. 附加式合成词,常用的收录。 如: 革命化 工业化 机械化 社会化 电气化 腐化 美化 绿化 合伙化3. 复合词 绝大部分都是双音节的, 三、四音节以上的很少。 1). 由“g+g / g /gw”构成的动词从宽收录。如: +g:飞翔 懊悔 驳斥 鄙视崩溃狐媚 撰著 窒息 婉惜 w+g: 爱惜 安慰 安顿 办公 办理 协助 涉及 保持 保佑 保证 奔赴 奔腾 避免 不惜 : 厮杀 候选 诓骗 嬉闹 拯救 贮藏 善于 赈灾 镌刻 置换 2) 由“w+w”构成的动词,只收录搭配固定、有专门词义的常用词语。如: 状中式: 对话 瓜分 胡说 胡闹 不满 不如 瞎抓 后退 南下 并列式: 抄写 收买赠送述补式:划清 冲破 加快 加强 打断赶走 坏死 来自加上 赶上 放下 分开 拿下 等到 述宾式: 审美 着火 开花 开学 带头 开枪 停车 上马上山 下手. 离合词: 理发 洗澡上课 签名 开窍 报恩(七). 形容词. 单纯词, 尽量收全。 如: 高 矮 大 小 红 黄 冷热 快慢 富 浅 深 美 丑 圆 新 少 亮 对 破2.复合词 几乎都是双音节的, 三音节以上的很少。 1) 由“g+g / g+w”构成的形容词, 从宽收录。如: gg: 整洁 报歉 霸道 秀丽 优雅 温馨 w+: 白净 不当 活泼 清醇 没谱 g+: 优美 耐心 安静 肮脏 昂贵 傲慢 ) 由“ww”构成的形容词, 只选收那些搭配固定、有专门词义的常用高频词。 如:抢手 吃香 吃紧 清纯 凑巧 大方 好听 和好 好笑 过硬 拨尖儿 不错 好学偏心 到家(八). 状态词 状态词没有单音节的, 只有双音节、三音节或四音节的。1. 双音节的数量较少,从宽收录。 如: 笔挺 笔直 冰冷 洁白 粉白 金黄 蜡黄 焦黄 雪亮 通红 乌黑 油亮 漆黑 滔滔 隆隆2. 三音节 ). 是“AB”式构成且无相应“B”式的, 从宽收录 如: 笑盈盈 羞答答 文绉绉 假惺惺 喜洋洋 美滋滋 白皑皑 白茫茫 光溜溜 毛茸茸 亮晶晶 绿茵茵 红扑扑 2) 是“AB”式构词且有“AB”基本式者, 只选收少量使用频度高的。 如: 孤单单 干巴巴 但“亮堂、昏沉、滑溜”的重叠式“亮堂堂、昏沉沉、滑溜溜”等则未收录。.四音节 1). “AAB”重叠式 (1) 没有相应的“B”基本式的,从宽收录。 如: 鼓鼓囊囊 满满当当 密密层层 轰轰烈烈 慢慢吞吞 形形色色慢慢悠悠郁郁葱葱 (). 有相应的“AB”基本式的, 只收录少数的常用高频词。 如: 大大方方恭恭敬敬 马马虎虎 平平淡淡 勤勤恳恳 明明白白 忙忙碌碌慌慌张张 扭扭捏捏 而“安静、安稳、白净、沉着、孤单”等词的“ABB”重叠式则未收入。 ). “A里A”及其他形式的词, 只选收常用的。 如:慌里慌张 妖里妖气 花里胡梢 胡里胡涂 灰不溜秋4 电子词典只收录不带“的”的状态词。如:“通红、绿油油、拖拖拉拉”等。 而对于带“的”的词,如:“甜甜的、尖尖的、通红的、绿油油的、拖拖拉拉的、挺贵的”等, 则一律不收录。(九). 成语、习用语和简称略语单音节 某些常用的国家简称收入。 如: 德(国) 英(国)美(国) 以(色列)2. 双音节 常用的机构简称及习用语收入。 如: 政协 人大 总参 总政总后 三音节 重要是习用语及简称略语。选收其中搭配固定、有专门语义的常用词语。 如:开玩笑 一刀切 二百五 中顾委 工农业 烈军属 中小学常委会4. 四音节 重要收录某些常用成语,以及少数结合紧密的习用语、简称略语。 如: 画龙点晴 风土人情 妙趣横生 莫名其妙 一见钟情 入乡随俗 忘年之交 辞旧迎新 综上所述 没完没了 揣摩不透 教职工工 中小学生四. 结语 本文简介了现代汉语语法信息词典的收词原则, 如规范原则、高频原则、稳定原则、词部件原则、语法义项原则、实用原则等。而收录前接成分、后接成分、语素、非语素字等比词小的单位, 则是为了适应计算机解决、分析汉语的需要。按照语法功能的原则建立语法义项,保证一种语法义项相应一种词语,这也反映了语法信息词典的特性。 这些原则是在大量实践的基本上整顿出来的, 反过来它又将指引语法信息词典的开发工作, 从而保证词典的一致性与高质量,有关的研究工作尚有诸多尚未开展, 已经进行的也有待进一步, 我们面前的路还很长。参照文献 俞士汶等,现代汉语语法电子词典的概要与设计, 第三届中文信息解决国际会议论文集(ICCIP92), P1861912 陈力为,建立应用开发平台是中文信息解决技术的当务之急,计算机世界, 192年 1月日, 第2期 第5版。附 录:现代汉语语法信息词典词条来源1 电子工业部提供的“频度词表”和“905工程语料词表”(共约4万词语);. 现代汉语频率词典(北京语言学院语言教学研究所主编,外语教学与研究出版社,195);3 汉语词汇的记录分析(同上);4 信息解决用通用词表(北京大学计算语言所“七五”攻关项目成果);5. 现代汉语词典(中国社科院语言所词典编辑室,商务印书馆,1982);. 现代汉语八百词(吕叔湘主编,商务印书馆,19);7. 现代汉语虚词例释(北京大学中文系9551957级语言班编,商务印书馆,1986);8 中国国标中文互换码字符集 基本字符集(GB212-8); 常用构词字典(傅兴岭、陈章焕主编,中国人民大学出版社,18).本文压缩整顿刊登在中国计算机报1994年第21期7983版
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!