汉语分词具体规范下课件

上传人:痛*** 文档编号:241572571 上传时间:2024-07-05 格式:PPT 页数:31 大小:666KB
返回 下载 相关 举报
汉语分词具体规范下课件_第1页
第1页 / 共31页
汉语分词具体规范下课件_第2页
第2页 / 共31页
汉语分词具体规范下课件_第3页
第3页 / 共31页
点击查看更多>>
资源描述
回回顾顾u汉语分词的基本标准u结构标准u语义标准u语音标准u频度标准u人名、地名、专有名词 的具体切分规范思考题在自动分词的过程中,如何确定某个字串是语素、词还是短语?练习 判断下列切分是否正确,如果不正确,请加以改正。大/a哥/n 李/nr 教授/n 老/a 张/nr 景德镇/ns市/ns 华盛顿/ns 特区/n 南大街/ns 亚马逊/ns河/n南京大学/nt 山东大学/nt 威海/ns 分校/n 教学目标数词与数量词组的切分规范时间词的切分规范述补结构的切分规范语素与非语素字的处理汉语分词错误及人工校对一、数词与数量词组的切分规范 基数、序数、小数、分数、百分数一律不予切分,基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为为一个切分单位,标注为 m。例如:。例如:“几几”和和“零零”属于基本的系数词(或位数词),属于基本的系数词(或位数词),因此包含因此包含“几几”和和“零零”的基数、序数、小数、分数、的基数、序数、小数、分数、百分数也不切分。例如:百分数也不切分。例如:一百二十三/m,第一/m,123.54/m,三分之二/m,20%/m,千分之三十/m 几十/m 人/n,几十万/m 元/q,第一百零一/m 个/q 约数,前加副词或后加约数,前加副词或后加“来、多、左右来、多、左右”等诸数词等诸数词的应予切分。的应予切分。约/d 一百/m 多/m 万/m,仅/d 一百/m 个/q,四十/m 来/m 个/q,二十/m 余/m 只/q,十几/m 个/q,三十/m 左右/m 几十/m 人/n,几十万/m 元/q两个数词相连的及两个数词相连的及“成百成百”、“上千上千”等则不予切分。等则不予切分。五六/m 年/q,七八/m 天/q,十七八/m 岁/q,成百/m 学生/n,上千/m 人/n,成千上万/i 的/u 群众/n一、数词与数量词组的切分规范(续)数量词组应切分为数词和量词。数量词组应切分为数词和量词。三/m 个/q,10/m 公斤/q,一/m 盒/q 花/n但少数数量词已是词典的登录单位,则不再切分。一个/m,一些/m(“分词规范”中也将“一些”作为一个切分单位)表序关系的表序关系的“数名数名”结构,应予切分。例如:结构,应予切分。例如:二/m 连/n,三/m 部/n一、数词与数量词组的切分规范(续)二、时间词的切分规范 年月日时分秒,按年、月、日、时、分、秒切年月日时分秒,按年、月、日、时、分、秒切分,标注为分,标注为t。例如:。例如:1997年/t 3月/t 19日/t下午/t 2时/t 18分/t若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词m。例如:1998/m 中文/n 信息/n 处理/vn 国际/n 会议/n 这里应注意时间词与数量词的区分,例如:“78年”指“1978年”时应标注为“78年/t”,当指数量“78年”时应切分标注为“78/m 年/q”。再如 两/m 个/q 月/n,三/m 天/q 时间/n。同样当“8日”指一个月当中的第八天时为时间词,不予切分,标注为“8日/t”。若表示8天时,则要分开,标注为“8/m 日/q”。西周/t,秦朝/t,东汉/t,南北朝/t,清代/t“牛年、虎年”等一律不予切分,标注为:牛年/t、虎年/t。“甲午年、庚子、戊戌”等也不予切分,标注为:甲午年/t,甲午/t 战争/n,庚子/t 赔款/n,戊戌/t 变法/n 历史朝代的名称虽然有专有名词的性质,仍标注历史朝代的名称虽然有专有名词的性质,仍标注为为t。二、时间词的切分规范(续)三、特殊代词名词的切分规范本报/r,每人/r,本社/r,本/r 地区/n,各/r 部门/n 单音节代词单音节代词“本本”、“每每”、“各各”、“诸诸”后接单音节名词时,和后接的单音节名词合为后接单音节名词时,和后接的单音节名词合为代词;当后接双音节名词时,应予切分。代词;当后接双音节名词时,应予切分。四、区别词的切分规范一般为切分单位,并标以词性一般为切分单位,并标以词性b女/b 司机/n,金/b 手镯/n,慢性/b 胃炎/n,古/b 钱币/n 副/b 主任/n,总/b 公司/n,单音节区别词和单音节名词或名语素组合,单音节区别词和单音节名词或名语素组合,作为一个切分单位,并标以名词词性作为一个切分单位,并标以名词词性n。雄鸡/n,雌象/n,女魔/n,古币/n少数少数“单音节区别词单音节区别词+双音节词双音节词”的结构作的结构作为一个词收入了词典,则不再切分。为一个词收入了词典,则不再切分。总书记/n 五、述补结构的切分规范p未收入词典的双音节述补结构,若拆开各是一个词,通常作为两个切分单位。如:走/v 到/v,撞/v 上/v,抓/v 住/v,调/v 好/a,坐/v 稳/ap若拆开了,其中至少有一个是语素,通常就不切分,作为一个切分单位。如:形成/v,鼓动/v,揭露/v,震动/vp双音节的述补结构中间插入“得”或“不”一般应予切分。如:走/v 得/u 到/v,走/v 不/d 到/v,安/v 得/u 上/v,安/v 不/d 上/vp但是如果去掉“得”或“不”后,前后两个字不构成一个词的,则作为一个分词单位。如:来得及/v,来不及/v,对得起/v,对不起/v 说得过去/v,说不过去/vp有的去掉“得”或“不”后虽然是一个合成词,但其中至少有一个是语素,拆开了是难以理解的,仍作为一个切分单位。如:如:形得成/v,形不成/v六、四字以上语法单位的切分规范四个字以上的短语,通常应切分。贯彻/v 执行/v,调查/v 研究/v 但像“生产资料/n”、“国民经济/n”、“生产关系/n”等若作为一个词已收入词典的就不再切分。四个字的成语或习惯用语为一个切分单位,并标以词性i或l。胸有成竹/i,众所周知/l 超过四个字的习惯用语或成语,一般不予切分,标注为 l或i。近水楼台先得月/i,一年之计在于春/l表达一个完整概念或集合的缩略语为一个切分单位,并标以j 三好/j,教科文/j,农工牧副渔业/j,德意日/j,港澳台/j 同胞/n 在有顿号分开的情况下,则切分:德/j、/w 意/j、/w 日/j,港/j、/w 澳/j、/w 台/j,港/j、/w 澳/j 同胞/n 最后一个简称如与后面一个字(语素)可合成一个词的,则不单独切分出来。农/j、/w 林/j、/w 牧/j、/w 副/j、/w 渔业/n六、四字以上语法单位的切分规范(续)七、语素和非语素字的处理 除下列特殊情况外,语素和非语素字一般不作为切分单位。某些双音节离合词分开使用,其中一个是语素,可将它标注为语素。出/v 过/u 两/m 天/q 差/Ng,理/v 了/u 一/m 次/q 发/Ng,洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Ng.单字名词或名词性语素后接单纯方位词,通常应合成为一个处所词或时间词,但为了同“分词规范”保持一致,也为了汉外机器翻译处理的方便,这里采用以下的处理方法:a.“单字名词+单字方位词”的组合,切分为两个单位:饭/n 前/f,树/n 上/f,包/n 里/f,床/n 下/fb.“单字名词性语素字+单字的方位词”的结构,合为一个处所词或时间词。桌/Ng 上/f-桌上/s,午/Ng 后/f-午后/t,身/Ng 上/f-身上/s,胸/Ng 前/f-胸前/sc.“省、市、县、乡、村、部、局、处、团、营、连、院、系、班”等名词后“里、上”等方位词,仍有组织、机构的意义,作为一个切分单位,标为名词。部里/n,县里/n,村里/n,系里/n,班上/n 七、语素和非语素字的处理(续)非语素字单独在文本中时,为一个切分单位,标注为x “/w 鹌鹑/n”/w 的/u “/w 鹌/x”/w 字/n 怎么/r 读/v?/w从以上的规范中我们至少可以看出两点:(1)汉语界定词的问题确实非常复杂,尽管制定了如此详细的规范,但在实际工作中仍然有一些问题解决不了,还要不断地补充规范。要解决什么是汉语的“词”的问题实在不是一件容易的事情,需要下大工夫。(2)正因为汉语的“词”如此复杂,因此在进行一项大的语言工程时首先必须制定好详细的规范,否则很难保证切分的一致性。七、语素和非语素字的处理(续)课堂练习切分并标注下列字串 三十余人 五十万元 60年时间 78年出生 走不到 来得及 饭后 乡里 八、汉语分词错误及人工校对 计算机的切分错误包括歧义切分、未登录词切分。歧义切分分为两种类型,一种为交集型,一种为组合型。所谓交集型歧义切分就是指如果字段ABC,既可以切分为AB/C,又可以切分为A/BC,所谓组合型(也叫包孕型)歧义切分就是指如果字段ABC,既可以切分为ABC/,又可以切分为A/BC或AB/C,如“烤白薯”,既可以切分为“烤白薯”(名词),也可以切分为“烤/白薯”(动宾结构),这种字段就是组合(包孕)型歧义切分字段。1、交集型歧义字段的类型例如,在句子“用树形图形式加以描述”中,歧义字段“图形式”是由名词“图”与名词“形式”之间的交叉组合产生的“图形”+“形式”。事实上,“图形”是歧义词,它是歧义字段“图形式”在给定句子中错误地切分出来的片段,“形式”是非歧义词,它是歧义字段“图形式”在给定句子中,按正确的切分方式切分出来的片段。名词+名词例如,在句子“研究生命的本质”中,歧义字段“研究生命”是由动词“研究”与名词“生命”之间的交叉组合产生的“研究生”(歧义词)+“生命”(非歧义词)。例如,在句子“白天鹅游过来了”中,歧义字段“白天鹅”是由形容词“白”与名词“天鹅”之间的交叉组合产生的“白天”(歧义词)+“天鹅”(非歧义词)。1、交集型歧义字段的类型(续)动词+名词形容词+名词例如,在句子“让位移等于50厘米”中,歧义字段“让位移”是由介词“让”与名词“位移”之间的交叉组合产生的“让位”(歧义词)+“位移”(非歧义词)。例如,在短语“独立自主和平等互利的原则”中,歧义字段“和平等”是由连词“和”与名词“平等”的交叉组合产生的“和平”(歧义词)+“平等”(非歧义词)1、交集型歧义字段的类型(续)介词+名词连词+名词例如,在短语“对这种现象的确切描述”中,歧义字段“的确切”是由助词“的”与形容词“确切”的交叉组合产生的“的确”(歧义词)+“确切”(非歧义词)。例如,在句子“这本小说的情节太平淡了”中,歧义字段“太平淡”是由副词“太”与形容词“平淡”的交叉组合产生的“太平”(歧义词)+“平淡”(非歧义词)。1、交集型歧义字段的类型(续)副词+形容词助词+形容词例如,在句子“社会需求和生产水平有矛盾”中,歧义字段“需求和”是由名词“需求”与连词“和”的交叉组合产生的“需求”(非歧义词)+“求和”(歧义词)。例如,在句子“他们看中的和日本人做生意的机会”中,歧义字段“看中和”是由动词“看中”与介词“和”的交叉组合产生的“看中”(非歧义词)+“中和”(歧义词)。1、交集型歧义字段的类型(续)名词+连词动词+介词2、组合型歧义字段的类型量词+名词介词+名词例如,在“一阵风吹过来了”中,歧义切分字段“阵风”是由量词“阵”和名词“风”的串联组合产生的。例如,在“请把手抬高一点儿”中,歧义切分字段“把手”是由介词“把”和名词“手”的串联组合产生的。动词+名词名词+方位词例如,在“他喜欢吃烤白薯”中,歧义切分字段“烤白薯”是由动词“烤”和名词“白薯”的串联组合产生的。例如,在“他骑在马上”中,歧义切分字段“马上”是由名词“马”和方位词“上”的串联组合产生的。2、组合型歧义字段的类型(续)方位词+动词副词+动词例如,在“他在庄稼地里间麦苗”中,歧义切分字段“里间”是由方位词“里”和动词“间”的串联组合产生的。例如,在“他将来北京探亲”中,歧义切分字段“将来”是由副词“将”和动词“来”的串联组合产生的。2、组合型歧义字段的类型(续)3、汉语切分错误的类型及人工校对(1)可见/v,/w“/w财贵善/l用/v”/w,/w古/t今/t一/m理/n。/w校正为:财贵善用/l,“财贵善”不能成立。(2)踏/v上/v北/f上/v的/u征途/n,校正为:北上/v(3)吸/v纳/v劳动力/n多/a的/u产品/n和/c产业/n。校正为:吸纳/v(4)要/v实现/v体制/n转/v轨/n,校正为:转轨/v(5)在/p谈/v及/c处理/v土地/n问题/n时/Ng,校正为:谈及/v 该合的未合(1)把/p工作/vn重心/n转/v到/v经济/n建设/vn上来/v。/w校正为:上/f来/v。/w“上来”是一个词。“上”、“来”分别也是词,且有多个词性。但这儿“上”方位词和前边的“经济建设”结合成方位结构,而不是动词和“来”组合成一个合成趋向动词。(2)多孩率/n降低/vn幅度/n较大/a。/w校正为:较/d大/a.“较大”显然是个状中结构的短语。因为若看作形容词,则“较大”不能受“很”、“不”修饰,而且又能作宾语。3、汉语切分错误的类型及人工校对该切分的未切分思考题u语素与非语素在自动分词过程中如何处理u新词的切分错误有哪些类型?
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!