自然语言理解大作业指南中文的分词-词性标注系统

上传人:zhu****ng 文档编号:246474825 上传时间:2024-10-14 格式:PPT 页数:15 大小:317.97KB
返回 下载 相关 举报
自然语言理解大作业指南中文的分词-词性标注系统_第1页
第1页 / 共15页
自然语言理解大作业指南中文的分词-词性标注系统_第2页
第2页 / 共15页
自然语言理解大作业指南中文的分词-词性标注系统_第3页
第3页 / 共15页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,自然语言理解大作业指南,中文的分词-词性标注系统,赵海,上海交通大学 计算机科学与工程系,1,目标,根据提供的训练语料,训练一个或两个模型,在此获得的模型下,依据某个解码算法能对于输入的中文文本进行词切分和词性标注,2,格式,输入的训练文件格式举例,由以下类似格式的各行构成的文本文件:,中国/NR 进出口/NN 银行/NN 与/CC 中国/NR 银行/NN 加强/VV 合作/NN,输入的测试文件格式,中国进出口银行与中国银行加强合作,要求训练出的模型能够在适当的算法支撑下对以上的测试输入进行切分并且标注词性,输出的各式和训练文件相同,所有提交的系统只接受,命令行格式,的输入和输入,推荐命令行格式:,Training:,Your_program_train output.model,Test,Your_program_test output.model input.test output.test,3,评估度量,使用比较标准答案和测试输出的f-score判定你的输出成绩,F=2RP/(R+P),R=测试输出中正确的词次数/正确答案中的词次数,P=测试输出中正确的词次数/测试输出中的词次数,只有切分和词性都对才能算完全正确一次,如果切分对,但是词性错,算正确0.5次,只要切分错,则完全干不能得分,4,评估度量,假设我们拥有一个标准答案的句子,中国/NR 进出口/NN 银行/NN 与/CC 中国/NR 银行/NN 加强/VV 合作/NN,你的程序对应输出,中国/NR 进出/NN 口/NN 银行/NN 与/CC 中国/NN 银行/NN 加强/VV 合作/NN,则,测试输出中正确的词个数=6.5(第二个,中国,切分正确,但是词性错误),测试输出中的词个数=9,正确答案中的词个数=8,所以,R=6.5/8,P=6.5/9,F=2RP/(R+P)=76.47%,5,日程表,本指南发布的同时,训练集提供下载,在本指南发布1个月内,各组完成模型的训练和解码器的编写调试,在提交截止时间前3天内提供测试文件,6,提交,至少需要提交如下4部分内容(请压缩打包上传,并命名为提交组编号):,你的系统的完整源代码,和至少一个平台的可执行文件,文档1:说明你的代码结构、编译选项、环境设置以及运行设置,文档2:说明的系统的工作原理,包括分类器或者其他机器学习工具的选择、特征选取,解码算法等等,处理好的测试文件,遵循和训练集同样的格式,7,分组和评分,自由分组,每组限1-6人,1-2人将获得110%的得分,2-5人将获得100%的得分,6人将获得90%的得分,不能在规定时间前提供分组信息的同学将由助教分配,每组的贡献分配由组员协商决定,出现争议的时候由助教裁判。,不提供贡献比例的分组视同该组每位成员贡献相同。,8,分组和评分,给出最高f-score得分的组将获得本项作业满分100,最低分的组将获得60分。其它组按照一个线性插值得到相应的分数。,可以使用其它的开源工具(但是要在文档中注明!),不影响你的评分,编译错误或者不能通过、文档不完整不清晰和格式错误将导致额外的分数损失,9,注意,所提供的输出的测试文件和所提供的程序输出不匹配的小组成绩为0分,10,提示,将训练集拆开少数部分出来作为开发集,评估你自己系统的性能,自己写一个打分程序用于当前的开发,11,技术指南,回忆课堂上提到的关于这两个处理任务的解决策略。重新看看相关的课件。,你可以采取两个策略完成这个系统,层次模型:训练两个模型,第一个模型用来分词,第二个模型用来在第一个模型的输出基础上进行词性标记,联合学习模型:在一个模型中一次性完成分词和词性标注,考虑这篇论文:,http:/ Kudo的CRF+,问题形式化方法和特征集均可参考上述论文,14,技术指南:词性标注,建议的学习模型,HMM 或者,最大熵Markov模型,解码算法,Viterbi 算法,参考论文,该论文为了最佳性能,提到使用两遍解码,为了效率,你可以只考虑一遍解码,提示:互联网上有很多可训练的词性标注工具,你可以找到并通过格式修改来使用。,15,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!