资源描述
文本操作技术提纲n引言n英文词法分析n中文词法分析n相关资源n英文拼写检查引言n文本预处理操作n后续工作的基础n琐碎但重要l看似简单,技术含量低l各种意想不到的问题,费时费力l工程性强l必不可少举例n他说的确实在理l正向最大匹配l逆向最大匹配4英文词法分析n断词(tokenization)TheexperimentsledbyDr.Alanachievedaprecisionof90.7%.n处理符号歧义:.n其他歧义符号l撇号(apostrophe)l连字符(hyphen)n解决方法l总结歧义符号出现的语境l用规则方法处理n大小写问题lChina,china词干提取n去除英文词的前缀、后缀,获得词干lstemming,stemmed,stemmerstem有何作用?n用于提高检索的召回率n减少索引文件大小(减小存储空间)词干提取的方法n最简单的方法l查表法n优:省略了对词缀的处理n缺:会使用很大的存储空间,对于专业领域词语获取数据资源难度较大n最经典的方法lPorter算法l基于规则方法Porter算法输出词干输入单词规则3规则4规则1规则2NY匹配第1步规则依次匹配第2、3、4、5步规则具体规则详见教材p74-75Porter算法nGeneralizationsl轻度提取:generalizationl深度度提取:genern召回率与准确率的讨论l词干提取能够显著提高召回率l轻度提取对准确率的影响不大l深度提取会显著降低准确率中文词法分析中文词法分析n中文句子的基本语义单元是词l白菜白+菜n分词l李明是一名优秀的学生。l李明/是/一/名/优秀/的/学生/n词的定义l自然语言处理l自然/语言/处理l自然语言/处理n实际应用中,通常根据需求确定词的粒度分词中的问题-词表n词表的作用l解决了词的定义问题l减小专有名词识别的难度l能够解决无歧义的分词问题n词表的获取l通用词表已经基本完备l专用词表不足分词中的问题-歧义两种歧义结构n交集型歧义字段l研究生命的起源l研究/生命/的/起源l研究生/命/的/起源/n组合型歧义字段l他从马上下来l他/从/马/上/下来/l他/从/马上/下来/分词中的问题-未登录词n未登录词-未在词表中出现的词l人名、地名、机构名、时间、新词n对分词准确率的影响:未登录词歧义词n识别难度更大n不同的需求对未登录词的识别要求不一致n不同的需求对不同类型的未登录词识别要求也不一样未登录词识别基于规则方法n标注数据n发现规律l内部规律l外部规律l重复出现规律n不同的未登录词,规律不一致l人名有较强的内部规律l译名用字较为封闭n不同的未登录词,使用相应的识别模块切分方法n最大匹配法l实现简单、算法复杂度低n全切分l列出句子所有可能的切分结果l结果数随着句子长度的增加呈指数增长l需要采用动态规划算法寻找最优路径,减小复杂度分词系统实例他叫李小明。分词语料n语料标注l需要制定详细的标注规范l费时、费力n人民日报l规范、正确l过于书面化n缺少其他领域的标注语料停用词表n停用词l标点、虚词、符号l无实际含义l频率高l无影响或影响很小n过滤停用词l提高检索速度l减小索引空间词典资源n叙词表l传统的文献资料检索nWordNetnHowNetn同义词词林l现代检索技术l主要用于查询扩展英文的拼写错误n词语错误lMicrosoft-Mircosoftn语法错误lpiece-peacen检索系统处理词语级拼写错误l为用户提供查询建议拼写检查流程形态还原在词典中?NY正确Word在词典中?NY正确相似度计算修改建议形态还原n形态还原lworking,works,worked-workl去除词尾形态变化,还原为词的原形l原形词干n总结单词的形态变化规律,分别处理l动词的过去式、进行时、第三人称单数l名词的复数和所有格l形容词和副词比较级、最高级以及形容词转换为副词。提供候选建议n从词表中找出最相近的单词,作为候选建议WPSMSWord相似度计算n从词表中找出最相近的单词n距离越短,字符串越相近n计算字符串之间的相似程度l编辑距离:允许插入、删除和替代操作,每个操作的代价为1;l海明距离:只允许替代操作,每个操作的代价为1lEpisode距离:只允许插入操作,每个操作的代价为1小结n文本操作技术至关重要n能够改善信息检索的效果n改善用户体验n是其他文本处理的基础技术
展开阅读全文