统计自然语言处理导论课件

上传人:文**** 文档编号:242190398 上传时间:2024-08-15 格式:PPT 页数:34 大小:1.70MB
返回 下载 相关 举报
统计自然语言处理导论课件_第1页
第1页 / 共34页
统计自然语言处理导论课件_第2页
第2页 / 共34页
统计自然语言处理导论课件_第3页
第3页 / 共34页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,信息安全工程学院,基于2-POS模型的主观句判别,与,基于CRF,s,和句法分析的中文微博情感分析,许歆艺,,陈豪,黄晨,楼博文,李子钰,王康,指导老师:,刘功申,,,苏波,上海交通大学信息内容分析技术国家工程实验室,基于2-POS模型的主观句判别与基于CRFs和句法分析的,目录,基于2-POS模型的主观句判别,基于,CRFs,(Conditional Random Fields, 条件随机场),的,文本情感倾向性分析,基于,句法分析算法,的,文本情感倾向性分析,目录基于2-POS模型的主观句判别,基于2-POS模型的主观句判别,基于2-POS模型的主观句判别,2-POS模型,N-POS模型是一种基于语料库的统计语言模型。在N-POS模型中,将词,按,词性(Part-Of-Speech,简称为POS),分类,,再将语句中连续N个词性的顺序组合作为一个项,用这些项作为文本分类中的一个特征。,当N取2时,即将连续两个词语的词性组合成一个模式,就是2-POS模型,。,例:天气 很 好,n ad a,2-POS:n-ad ad-a,2-POS模型N-POS模型是一种基于语料库的统计语言模型。,基于2-POS模型的主观句判别,总体流程图,基于2-POS模型的主观句判别总体流程图,式中,,表示某一2-POS,,表示某一类别,这里有两类:主观,客观,N表示训练集中主客观句的综述,A表示属于类,并且包含,的句子数,B表示不属于类,但是包含,的句子数,C表示属于类,但是不包含,的句子数,D表示不属于类,并且不包含,的句子数。,计算2-POS的卡方值,式中, 表示某一2-POS, 表示某一类别,这里,设置2-POS主观权重,计算得,所有,2-POS的卡方值并取其中前15个作为主观模式,。,使用,每个选取为主观模式的2-POS的查准率作为这个2-POS的主观权重。,设置2-POS主观权重计算得所有2-POS的卡方值并取其中前,选取15个2-POS作为主观模式,选取15个2-POS作为主观模式,选择主观评分阈值,将文本中所有2-POS所得的主观评分加和,除以文本中2-POS的总数,获得文本最终主观性评分。,选择主观评分阈值将文本中所有2-POS所得的主观评分加和,除,最终结果,在选择阈值为0.0001的时候,查准率达到0.74126,查全率达到0.77196,均比较理想,。,CCF 自然语言处理与中文计算会议中文微博主观句识别评测结果,最终结果在选择阈值为0.0001的时候,查准率达到0.741,CRFs(Conditional Random Fields, 条件随机场),CRFs(Conditional Random Fields,CRFs简介,CRFs是基于HMMs(隐式马尔可夫模型)与MEMs(最大熵模型)的基础上的改进。,CRFs使用条件特征,可以对特征进行全局归一化。它在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率,。,在现实的序列标注任务中,CRFs性能往往都优于HMMs和MEMs。,CRFs简介CRFs是基于HMMs(隐式马尔可夫模型)与ME,基于CRFs的微博情感分析流程图,基于CRFs的微博情感分析流程图,序列标注工作,将,训练集的,短文本的每个词作为第一列,将短文本的情感倾向性作为标注作为第二列。每个词都标注为这个文本的类别,这样短文本就转化为一个标注后的序列,可以用于训练。,测试,集,的短文本只需给出每个词作为第一列,第二列文本类别为空,留待预测。,真的,正面,是,正面,非常,正面,好,正面,的,正面,想法,正面,值得,正面,进一步 正面,探讨,正面,序列标注示例,序列标注工作将训练集的短文本的每个词作为第一列,将短文本的,特征模版,的选取,# Unigram,U00:%x-2,0,U01:%x-1,0,U02:%x0,0,U03:%x1,0,U04:%x2,0,U05:%x-1,0/%x0,0,U06:%x0,0/%x1,0,.,真的 正面,是 正面,非常 正面current token,好 正面,的 正面,只选择U05作为特征模版与选择所有作为特征模版准确率相差很小,为避免特征空间膨胀,仅选择U05作为特征模版。,特征模版的选取# Unigram.只选择U05作为特征模,最终结果,结论:,链式CRFs的序列标注不仅保存了短文本的特征词,还保存了词之间的顺序关系,,可以提高短文本情感倾向性分析的准确度。,CCF 自然语言处理与中文计算会议中文微博,倾向性分析,评测结果,最终结果结论:链式CRFs的序列标注不仅保存了短文本的特征词,句法分析算法,句法分析算法,基,于句法分析算法的文本,情感倾向性分析总体流程图,基于句法分析算法的文本情感倾向性分析总体流程图,获取评价对象候选集,获取评价对象候选集,获取评价对象候选集,1.采用句法分析获得评价对象,然后通过词频排序的方式,构建评价对象候选集合,然后添加同义词,并且对评价对象赋予权值。,获取评价对象候选集1.采用句法分析获得评价对象,然后通过词,获取评价对象候选集,2. 找到这个修饰对象所在的关系对,是否存在nn的依赖关系,如果存在,那么nn依赖对中的两个词语一次合并成完整的修饰对象,nn,(,复合名词,),例如:,服务 中心nn(中心,服务),获取评价对象候选集2. 找到这个修饰对象所在的关系对,是否存,获取评价对象候选集,3. 检索是否存在dobj依赖对,如果存在,那么我们认为右边的词语是动宾结构的宾语,基于查找该宾语的依赖对中是否含有nn的结构,如果存在,那么nn依赖对中的词语将合并成为评价的对象,用于之后的匹配。,dob,j(,直接对象,),例如:,浦东 颁布 了 七十一 件 文件dobj(颁布,文件),获取评价对象候选集3. 检索是否存在dobj依赖对,如果存在,获取评价对象候选集,4. 检索是否存在比字结构,如果情感词出现在prep依赖对的左边,并且伴随着pobj依赖对的出现,我们认为这个情感词语修饰的是一个比较结构,pobj依赖对的右边的词虽然不是直接形容评价对象的词语,但是,对于比较结构,一定是一个同类的评价对象,属于隐式的评价对象之一。,prep,(,介词短语修饰,),例如:,在 实践 中 逐步 完善prep(完善,在),pobj,(,介词宾语,),例如:根据 有关 规定pobj(根据,规定),获取评价对象候选集4. 检索是否存在比字结构,如果情感词出现,根据词频对评价对象排序并对同义词增补为不同评价对象分配权值,根据词频对评价对象排序并对同义词增补为不同评价对象分配权,处理情感词汇,处理情感词汇,处理情感词汇,1.,查找该情感词语的其他依赖关系对,如果存在advmod结构,并且是情感词语出现在关系对的左边,那么右边的词语就是修饰这个情感词语的副词,我们找到这个副词,并且做副词程度匹配。,advmod,(,状语修饰,),例如:,部门 先 送上 文件advmod(送上,先),处理情感词汇1. 查找该情感词语的其他依赖关系对,如果存在a,处理情感词汇,2. 继续寻找advmod依赖对,有时候往往会存在很多副词连续修饰一个情感词的情况,我们找到所有的修饰副词。,处理情感词汇2. 继续寻找advmod依赖对,有时候往往会,处理情感词汇,3. 继续查找情感词语的依赖对,如果存在neg依赖关系,那么情感发生变化,生面的情感词语认为前面加了否定的副词修饰。,neg,(,负面修饰,),例如:,以前 不 曾 遇到 过neg(遇到,不),处理情感词汇3. 继续查找情感词语的依赖对,如果存在neg,通过上述方法得到情感词最终情感值综合其修饰的评价对象的权值加入文章总的倾向性分数,通过上述方法得到情感词最终情感值综合其修饰的评价对象的权值,Now problem is:短文本很难,从以上依赖关系对中找到评价对象,Now problem is:短文本很难从以上依赖关系对,对于短文本的处理方法,1. 对于短句中存在匹配到情感词语,但是无法用上面规则找到评价对象,我们向前寻找最近的标点符号,并且找到该标点的punct依赖对,并且有连接词出现在依赖对的左边,那么我们认为该情感词形容的评价对象是离它最近的一个之前的评价对象。,对于短文本的处理方法1. 对于短句中存在匹配到情感词语,但,对于短文本的处理方法,2. 对于短句中没有匹配到情感词汇,但是存在punct依赖对,并且连接词可以在递进,转折等连接词列表中匹配到,那么如果是转折关系,我们将之前最近的一个评价对象的倾向性做相反方向的处理,如果是递进关系则更加强调之前的结果。,对于短文本的处理方法2. 对于短句中没有匹配到情感词汇,但,最终结果并不如使用CRFs方法理想,因为对于短文本以及不规范的网络文本,句法分析器的表现力不从心。在实验中证明,这种方法在比较书面的中长句子中表现较好。,最终结果,CCF 自然语言处理与中文计算会议中文微博,倾向性分析,评测结果,对某一,书籍,评价的平衡语料库,的,倾向性分析,评测结果,最终结果并不如使用CRFs方法理想,因为对于短文本以及不规范,Thank you :),Thank you :),
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!