中文网页褒贬态度的机器评价

上传人:wuy****ng 文档编号:245555728 上传时间:2024-10-09 格式:PPT 页数:45 大小:302.50KB
返回 下载 相关 举报
中文网页褒贬态度的机器评价_第1页
第1页 / 共45页
中文网页褒贬态度的机器评价_第2页
第2页 / 共45页
中文网页褒贬态度的机器评价_第3页
第3页 / 共45页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,中文网页褒贬态度的机器评价,导师:俞士汶教授,孙斌副教授,硕士毕业生:苏玉梅,2004,年,5,月硕士学位论文答辩,中文网页褒贬态度的机器评价,引言,相关工作与工作基础,网页褒贬态度评价模块,实验结果及展望,引言,天网知名度系统,网页观察机器评价视角下看中文网页类型,项目延伸网页褒贬态度的机器评价,本实验的研究内容及意义,天网知名度系统,基础:天网搜索引擎,计算语言学技术,定位:用户定制查询,个性化网络检索服务,数据:,75,万中文网页,近,300,个名人实体,注册实体信息库,所在的领域,政府,科教,文学,业界,媒体,歌星,音乐,影视,体育,艺术(共,10,类),名字,包括别名、笔名、艺名等潜在可能代表实体的名字,所在工作单位,例如,北京大学,职业描述,例如,主席、书记、教授、记者、演员,兼职单位,可以有多个,社会形象,例如,国学大师,环保大使,特征词,用户关心的特征描述,代表作,著作名、作品名、产品名等,引言,天网知名度系统,网页观察机器评价视角下看中文网页类型,项目延伸网页褒贬态度的机器评价,本实验的研究内容及意义,网页观察机器评价视角下看中文网页类型,强文字相关的信息类网页例如:个人简历型网页,弱文字相关的事件或事物展开型网页,例如:事件报道,节目单,引言,天网知名度系统,网页观察机器评价视角下看中文网页类型,项目延伸网页褒贬态度的机器评价,本实验的研究内容及意义,项目延伸网页褒贬态度的机器评价,网页是传递信息的。从效果上看,人们通过构建网页来传递信息,也可以进而表达态度和传递情感,即,网页所包涵的褒贬态度信息。,网页褒贬评价关系分析图,网页,机器,读者,语言,实体,语言,实体,语言,实体,构造,认知,评价,解析,评价,认知,认知,评价,解读,网页内容作者,引言,天网知名度系统,网页观察机器评价视角下看中文网页类型,项目延伸网页褒贬态度的机器评价,本实验的研究内容及意义,本实验的研究内容及意义,项目延续,符合天网知名度系统个性化网络服务的立意,可以利用已有的数据基础和实验平台,此项实验具有研究和实验展开的可延续性,本实验的研究内容及意义,语言基础,网络是重要的信息传播媒介。,现实网页中的褒贬态度表达往往含有明确的目标、动机和效果期望,因此构造者会很重视语言知识这个交流手段。,网页中的褒贬态度表达也就是一个典型的修辞行为,所以实验可以充分利用修辞学的理论成果,具有理论指导基础。,本实验的研究内容及意义,创新价值,从语言学角度看,修辞涉及语言的附加意义,这区别于概念意义。因而此项实验具有丰富创新性研究价值。,中文网页褒贬态度的机器评价,引言,相关工作与工作基础,网页褒贬态度评价模块,实验结果及展望,相关工作与工作基础,语言手段,评价规范及标准,资源准备,系统基础,实验考察,实验考察,语言手段,词语手段,句式手段,修辞手段,评价规范及标准,实验考察与实验资源的对应分布,实验考察,实验相关,词,褒义词,基础褒贬义词典,贬义词,短语,固定短语,不固定短语,褒贬评价结构模板,句式,陈述句,感叹句,辞格,比喻等意义辞格,词典部分覆盖评价,排比等形式辞格,形式累计,修辞标准和规范,主观标准,褒贬评价原则,领域标准,领域补充褒贬义词集,相关工作与工作基础,语言手段,评价规范及标准,资源准备,系统基础,资源准备,基础褒贬义词典,典型网页文本搜集,领域补充褒贬义词集,褒贬评价模板搜集,基础褒贬义词典,常用褒贬义词语详解词典,静态褒义、贬义词语,包括双音词,成语,惯用语,以及少数谦辞、敬辞。每个词条包括三部分内容:褒贬色彩,词性,释义,例句等;提示,重叠形式,同义解析等;近义,反义等。,仅选取了每个条目中的两项信息,例如(诚挚)和(草率),生成了褒贬评价系统使用的褒贬义电子词典。,典型网页文本搜集,季老先生一生勤勉,一生谦和,著作等身,桃李满门。,她不像倪萍身材高挑、浓眉大眼,也不像周涛那样一副典型的中央台“国标”播音员的风韵。,李保田修养全面,热爱艺术,在表演上精益求精,是影视界优秀的表演艺术家之一。,李晓华把握商机和适当冒险的精神的确有其过人之处。,因此,孙楠的反抗不仅是肤浅的,而且是狭隘的。,曹颖从外表上看更显单薄、弱小。她不像倪萍身材高挑、浓眉大眼,也不像周涛那样一副典型的中央台“国标”播音员的风韵。,周涛虽然很红,可她太四平八稳,真诚,质朴有余,而灵动,幽默不够。,我喜欢施翌,她清新自然,毫不做作,宛如一位邻家学姐在带着露珠的清晨为你讲述一切美好的东西,让你一整天都感受到温暖和喜悦。,第二声感叹便是杨晨了,他带伤上场并奋勇顶进反超的关键一球,职业球员的风采夺目照人。,米色职业装,极富亲和力的熟悉的微笑,标志性的招手,王小丫来了。,而似乎侧重防守的马儿在防守时也未尽心。,典型网页文本示例,赵宝刚点评当红明星,2001,年,05,月,10,日,09:48:15,北京晨报,邱俪华,王志文:,过把瘾,之后沉寂了一段时间。从他这两年出的两部戏可以看出,这段时间他没浪费,磨出了更深的功力。他是一定能成艺术家的那类人。江珊:,过把瘾,之后有五年都没接到好角色,她是个很适合演普通百姓的演员,不能太“贵族”了,那样看着不像她,观众也接受不了。陆毅:千万别“吃”形象,形象早晚会“吃完”,到时就得靠功力了。如果他能不断演些富有挑战性的角色而不是重复过去,将来走到哪里都不怕。周迅:形象也好,气质也好,她是我非常欣赏的那类演员。她在,像雾像雨又像风,里演的杜心雨,这个人物在文学上很不成功,对演员来说简直没法演,可周迅就能让她“站”起来。徐静蕾:她的文化修养在同龄的女演员里特别突出,这给她的表演打了很好的底子。可有文化的不一定成得了好演员,而好演员可以没文化。出于性格的原因,她表演起来很冷静,不会太投入。再磨一段时间,相信到了火候她就能提高。陈宝国:他是“老来瘦”,虽说添了“褶子”,可身梁还在,他是能演一辈子戏的人,看看,大宅门,就知道。葛优:在我的,编辑部的故事,之后也沉寂了一段时间,后来演了,活着,,又演了冯小刚的几部贺岁剧,又火了。他是个可塑性很强的演员,虽说外形让人觉得是“演配角的命”,可别让他逮着机会,逮着了就能火。,领域补充褒贬义词集样例,词语,褒贬含义,出现领域,修饰内容,著作等身,桃李满门,创新,科教,科教专家,悠远、磁性、高亢,音乐,嗓音,尽心、团结,运动,足球运动员,出口成章、机敏、灵,媒体,主持人风格,四平八稳,媒体,主持人风格,入木三分、活生生,影视,演员演技,俊秀、俊逸、活力,影视,演员外形,感染力、理智、沉稳,媒体,主持人风格,最佳、绝佳、一流、不俗,影视,演员演技,楚楚动人、温婉,媒体,主持人外形,褒贬评价模板搜集样例,a,的,entity,楚楚动人的小丫,Entity,n,a,这姑娘脑袋灵,n,的丧失,诚信的丧失,不,a,不心浮气燥,不乏,n,不乏可圈可点之处,未,a,而似乎侧重防守的马儿在防守时也未尽心,n,不够,灵活性不够,极富,n,极富亲和力的熟悉的微笑,勇于,v,勇于开拓前进,N,entity,美女曹颖,相关工作与工作基础,语言手段,评价规范及标准,资源准备,系统基础,天网知名度系统,天网知名度系统模块,浏览,用户界面模块,用户注册,用户检索,指定文本内容的评价,主动推送服务,网页分析与索引模块,用户信息维护模块,网页相关度评价模块,中文网页褒贬态度的机器评价,引言,相关工作与工作基础,网页褒贬态度评价模块,实验结果及展望,网页褒贬态度评价模块,数据需求,设计思想,模块设计,数据需求,网页,URL,地址,网页长度,(,按词计,),网页词串,词的词性标注串,词的,HTML,标记串,网页中人名列表,网页中职务列表,网页中企业或机构名列表,网页中人名,单位关系列表,网页中人名,职务关系列表,网页表示库,数据需求,所在的领域,共计,10,类,政府,科教,文学,业界,媒体,歌星,音乐,影视,体育,艺术,名字,包括别名、笔名、艺名等潜在可能代表实体的名字,所在工作单位,例如,北京大学,职业描述,例如,主席、书记、教授、记者、演员,兼职单位,可以有多个,社会形象,例如,国学大师,环保大使,特征词,用户关心的特征描述,代表作,著作名、作品名、产品名等,实体信息库,设计思想,语言手段是基础,话题的实体有关性,针对领域标准的褒贬评价,获得当前网页的全部,人名、词串、词性标注串,取下一个人名,成功,取下一个候选实体,跳至该实体出现的第一句的句首,针对当前实体所属领域处理,扫描后面的褒贬评价,跳过任何其他实体的相关评价,得分输出至得分向量,各具体评价单位也加入到系统中该实体的评价记录中,成功,输出当前网页的全部实体的褒贬评价得分,出现新实体名,跳至该实体出现的下一个位置,获得此人名相关的全部注册实体,加入该网页的实体向量,并生成对应实体的得分向量,不成功,成功,是,否,注:网页褒贬评价流程图,褒贬结构要素,模板,褒,中,0,贬,指标*,未登录,A,(不)(不 是)(少 了)(没 了),(未能)(未)(没 能)(没有)(决不),1,0,0,1,0,B,(丧失)(缺乏),1,0,1,1,C,(富有)(善于)(富于)(富)(极富),2,1,2,1,1,D,(不乏)(具备)(具有)(有),1,0,1,1,0,E,(的 缺失)(的 丧失)(不够),1,1,1,1,AA,F,(不 是 不)(没有 不),0,0,0,0,0,AC,G,(不 善于)(不 富于),1,1,1,1,0,AD,H,(不 具备)(不 具有),1,0,0,1,0,褒贬结构识别模板表达式,U,A,P,U,B,P,U,C,P,U,D,P,U,A,A,P,F,P,U,A,C,P,G,P,U,A,D,P,H,P,U,P,U,P,E,C,“和”,|“,与”,|“,,”,|“,、”,|“,且”,P=W,C,W2,关键结构,P,p,结构是褒贬结构的基本组成部分,识别策略是:使得由链接词语链接在一起的词序列中不允许出现褒贬互逆,同时需要满足,仅当词语本身具有褒贬含义,或者,W,本身不在褒贬词典中但该序列中其他词语有褒贬含义,此时才形成合法的,P,,同时把未在褒贬词典中出现但出现在结构中的这个词语抽取出来,并依照此序列中的已有褒贬含义按照一致性原则猜测,把这个未登录词语纪录为未证褒贬词语。,注:考虑到褒贬评价的领域性,这里的未证褒贬词语也是根据领域来分别记录的。,中文网页褒贬态度的机器评价,引言,相关工作与工作基础,网页褒贬态度评价模块,实验结果及展望,实验结果及展望,成批网页褒贬评价结果浏览,http:/162.105.80.47,指定内容褒贬评价浏览,结果浏览示例实体,实体编号,实体姓名,实体领域,所属用户,21,吴仪,政府,hi10,72,王玮,业界,hi35,73,俞士汶,科教,hi36,85,白春礼,科教,hi42,117,吴伯萧,文学,hi58,118,王安忆,文学,hi58,123,曹颖,媒体,hi61,结果浏览示例实体,实体编号,实体姓名,实体领域,所属用户,158,周涛,媒体,hi78,162,施翌,业界,hi80,173,韩乔生,媒体,hi86,177,孙楠,音乐,hi88,221,李保田,影视,hi110,224,徐静蕾,影视,hi112,243,马明宇,体育,hi121,改进方向,更精细的褒贬评价模板(内容、层次),转折结构及褒贬权重,更精确的褒贬冲突控制,褒贬评价的程度考虑,更精细的褒贬义词典构造,实验评价,修辞是有意识的行为,褒贬是有指向目标的态度,网络是当代生活的重要传媒手段。,天网知名度系统立足发展个性化网络服务,因此其系统基础和系统数据资源恰好为褒贬态度的机器评价提供了合适的实验和检验平台。,为合适的应用选择合适的处理方法,为合适的技术发现合适的应用领域,这种研究策略,在交叉领域是有效,更是饶有趣味的。,参考文献与资料,文献,1【,英,】,杰弗里,N,利奇,语义学,上海外语教育出版社,2,史有为主编,从语义信息到类型比较,北京语言文化大学出版社,3,陈汝东,对外
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!