Web新闻人物追踪系统的设计与实现课件

上传人:文**** 文档编号:240936350 上传时间:2024-05-19 格式:PPT 页数:28 大小:595.41KB
返回 下载 相关 举报
Web新闻人物追踪系统的设计与实现课件_第1页
第1页 / 共28页
Web新闻人物追踪系统的设计与实现课件_第2页
第2页 / 共28页
Web新闻人物追踪系统的设计与实现课件_第3页
第3页 / 共28页
点击查看更多>>
资源描述
Web新闻人物追踪系统的设计与实现新闻人物追踪系统的设计与实现 姓 名:学 号:00448160 院 系:信息科学技术学院 专 业:计算机科学与技术 指导教师:1谢谢观赏2019-9-11Web新闻人物追踪系统的设计与实现 姓 名:谢谢观赏提纲提纲o引言n动机n难点o相关研究n指代消解n实体关系抽取o具体工作n文本中关键词的提取n人物指代消解n时间指代消解n简历型网页/段落的判定 n人物踪迹追踪系统的实现o总结22019-9-11谢谢观赏提纲引言22019-9-11谢谢观赏引言引言32019-9-11谢谢观赏引言32019-9-11谢谢观赏引言引言-动机动机o广泛的需求o还没有搜索引擎正式提供关于人物的搜索服务o展示Webdigest小组长期工作成果的展示平台o作为天网的一部分42019-9-11谢谢观赏引言-动机广泛的需求42019-9-11谢谢观赏引言引言-难点难点o胡锦涛主席将于5月6日至10日对日本进行5天的国事访问。除东京外,他还将访问横滨和奈良,并从大阪启程回国时间指代消解,人物指代消解o吴仪中共中央政治局委员,国务院副总理。女,汉族,1938年11月生,湖北武汉人,1962年4月加入中国共产党,1962年8月参加工作,北京石油学院石油炼制系炼油工程专业毕业,大学学历,高级工程师。1956年至1962年西北工学院国防系、北京石油学院石油炼制系炼油工程专业学习。1962年至1965年兰州炼油厂车间技术员、政治部办公室干事。1965年至1967年石油工业部生产技术司生产处技术员。简历型网页的判断52019-9-11谢谢观赏引言-难点胡锦涛主席将于5月6日至10日对日本进行5谢谢观赏相关研究相关研究62019-9-11谢谢观赏相关研究62019-9-11谢谢观赏相关研究相关研究-指代消解指代消解-人物指代消解人物指代消解oBorrow 的STUDENT系统:利用有限的启发式规则oWinograd的SHRDLU系统:基于语法位置oWilks的Preference semantics系统:利用简单的语义知识的四级指代消解系统oHobbs算法:基于句法分析,通过搜索句法树,寻找先行词oIdo Dagan和Alon Itai:利用共现模式从大规模语料库中自动获取约束oMitkov:有限知识方法,应用一系列规则oSoon:利用机器学习,构造一个分类器判断是否是指代关系72019-9-11谢谢观赏相关研究-指代消解-人物指代消解Borrow 的ST谢谢观赏相关研究相关研究-指代消解指代消解-时间指代消解时间指代消解oInderjeet Mani,George:一个时间消解的框架。处理中文需要解决更多问题借鉴:判断一些不需要消解的情况使用分类器解决,选择基准时间时的思想82019-9-11谢谢观赏相关研究-指代消解-时间指代消解Inderjeet 谢谢观赏相关研究相关研究-实体关系抽取实体关系抽取oBrin 1998,Agichtein 2000:先确定关系类别,然后基于关系对与描述模式在自然语言文本中的出现规律,自动学习语义化关系模式来找到关系对。oEtzioni 2004:根据关系的种子实例对自动生成关系抓取模板,并且能给每个新发现关系对一个属于该类型的置信度。oTakaaki Hasegawa 2004:基于实体对在文本中的共现定义关系,并利用共现文本对关系进行聚类、标注。oYutaka Matsuo 2006:以一组科技论文网站和论文作者的主页等半结构化数据为研究对象,以此来发现作者之间的关系 92019-9-11谢谢观赏相关研究-实体关系抽取Brin 1998,Agich谢谢观赏具体工作具体工作102019-9-11谢谢观赏具体工作102019-9-11谢谢观赏具体工作具体工作-文本中关键词的提取文本中关键词的提取oJianguo Xiao 2007:一个词W的重要程度由两部分因素组成,一个是其他词Ai(Ai!=W)的重要程度以及W和Ai的关系紧密程度,另外一个是W所在句子的重要程度以及W和这个句子的关系紧密程度。同样,一句话S的重要程度也有两部分组成,一个是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一个是S所包含的词的重要程度以及他们同这句话的关系。112019-9-11谢谢观赏具体工作-文本中关键词的提取Jianguo Xiao谢谢观赏具体工作具体工作-文本中关键词的提取文本中关键词的提取o词语与词语之间的关系互信息(472978篇网页,1308327个词语,64312933对无序词对)o句子与句子之间的关系cosin值o词语与句子之间的关系o一个迭代的过程计算每个句子和每个词语的关键程度122019-9-11谢谢观赏具体工作-文本中关键词的提取词语与词语之间的关系互谢谢观赏具体工作具体工作-人名指代消解人名指代消解-人名性别判定人名性别判定o人名性别判定获得一个人名性别列表,总共包含5901个不同的姓名,通过统计每个名字对应的所有人的性别,简单地对这些名字的人的性别作出判断,得到了一个判断拥有名字N的人的性别的一个表。问题:所获得的名字的数量远远不能涵盖新闻网页中出现的人名,以至于在指代消解的时候,无法确定人物的性别,使得消解出错。这一块有待在今后工作中的改进。132019-9-11谢谢观赏具体工作-人名指代消解-人名性别判定人名性别判定13谢谢观赏具体工作具体工作-人名指代消解人名指代消解-姓名缩写消解姓名缩写消解o3月22日凌晨,巴勒斯坦哈马斯(伊斯兰抵抗运动)精神领袖艾哈迈德亚辛的汽车遭以色列直升机导弹袭击,亚辛及其两名保镖身亡。o解决方法:简单的替换142019-9-11谢谢观赏具体工作-人名指代消解-姓名缩写消解3月22日凌晨,谢谢观赏具体工作具体工作-人名指代消解人名指代消解-流程流程152019-9-11谢谢观赏具体工作-人名指代消解-流程152019-9-谢谢观赏具体工作具体工作-人名指代消解人名指代消解-评测评测o随机选取了20篇网页,其中包含“他”和“她”共36 个,是共消解36个,正确消解29 个,精度是81%,召回度是100%。o错误分析n3个,人名识别接识别问题,如果接口能够正确识别,精度应该是89%n2个,寻找先行人名错误n2个,先行词并没有以人物姓名的形式出现在网页中,而是以一些名词或者“姓+名词”的形式出现,比如“司机”,“张医生”,162019-9-11谢谢观赏具体工作-人名指代消解-评测随机选取了20篇网页,其谢谢观赏具体工作具体工作-时间指代消解时间指代消解-难点难点o哪些需要消解?对海量网页中词频排名前1000的词进行了统计和分析,得到了一些模式,并且整理了里面的能够明确消解的时间词语“今天今天”,“今日今日”,“当天当天”,“当日当日”,“当晚当晚”,“今天上午今天上午”,“今晚今晚”,“今天下午今天下午”,“当天下午当天下午”,“当天晚上当天晚上”,“同一同一天天”,“今夜今夜”,“今年今年”,“下半年下半年”,“上半年上半年”,“今年上半今年上半年年”,“今年下半年今年下半年”,“今夏今夏”,“今秋今秋”,“今冬今冬”,“今年夏天今年夏天”,“同年同年”,“今年秋季今年秋季”,“上周上周”,“本周本周”,“本月本月”,“下下周周”,“月底月底”,“周末周末”,“上周末上周末”,“当月当月”,“本月底本月底”,“去年去年”,“上一年上一年”,“上年上年”,“昨日昨日”,“昨天昨天”,“昨晚昨晚”,“昨天下午昨天下午”,“昨天上午昨天上午”,“昨日下午昨日下午”,“昨日上午昨日上午”,“前一前一天天”,“昨天晚上昨天晚上”,“昨夜昨夜”,“明日明日”,“次日次日”,“明天明天”,“前天前天”,“明年明年”,“次年次年”,“前年前年”,“下月下月”,“上月上月”,“上个月上个月”,“年底年底”,“今年年底今年年底”,“年终年终”,“年末年末”,“今年底今年底”,“年初年初”,“今年年初今年年初”,“今年初今年初”,“去年底去年底”,“去年年底去年年底”,xxxx-xx-xx,xxxx.xx.xx,xx年,年,xx月,月,xx日,日,(x代表一个阿拉伯数字)代表一个阿拉伯数字)172019-9-11谢谢观赏具体工作-时间指代消解-难点哪些需要消解?17201谢谢观赏具体工作具体工作-时间指代消解时间指代消解-难点难点o“九八年”,“年”中文数字以及全角阿拉伯数字转换成半角阿拉伯数字o“1946年1月到8月”,“4月1日、7日、8日”时间段、并列时间的处理o引用中的时间不处理o基准时间的确定一套规则o是否是未来时间考虑时间间隔o“今天的中国”是否需要消解182019-9-11谢谢观赏具体工作-时间指代消解-难点“九八年”,“年谢谢观赏具体工作具体工作-时间指代消解时间指代消解-流程流程192019-9-11谢谢观赏具体工作-时间指代消解-流程192019-9-1谢谢观赏具体工作具体工作-时间指代消解时间指代消解-评测评测o随机选取了50篇网页,包含在消解范围内的时间词 248个,消解了242个,正确消解了223个,精度是92%,漏掉了6个,召回度是97%。o错误的原因n消解了不应该消解的时间,有4个n基准时间判断错误,有6个n其余错误包括时间间隔处理的问题、接口识别的问题等n还有一些词不在本模块规定的可消解范围内,由于它的一部分属于可消解词,以至于被消解,如“农历三月等”。o漏掉的原因n4个因为接口没有将这个时间识别出来,n2个被简单的认为不应该消解。202019-9-11谢谢观赏具体工作-时间指代消解-评测随机选取了50篇网页,包谢谢观赏具体工作具体工作-简历型网页简历型网页/段落的判定段落的判定o判断简历型网页o判断简历型段落均根据调研情况制定一些规则,按照对人名、时间以及其他的统计数据作出判断212019-9-11谢谢观赏具体工作-简历型网页/段落的判定判断简历型网页212谢谢观赏具体工作具体工作-简历型网页简历型网页/段落的判定段落的判定-评测评测o使用了409篇网页,共有67个简历网页o判断简历型网页n精度:得到58篇简历的网页,正确56篇,精度为97%。n错误分析:一篇是讲的宪法的历史,期间提到了很多时间,而且除了开始出现了一个人名外,之后都没有提到人,这些都符合了判断简历型网页的条件。另外一篇中本没有提到人,但人名识别接口错误的识别出了一个人名,同时符合判定的其他标准n召回度:83%n错误分析:2篇,人名识别接口没有识别出人名;2篇,简历中人名出现过多;5篇是在处理特殊网页(每句一段),没有正确找打句子开始的时间;1篇是将非特殊网页判断成了特殊网页;1篇是因为简历过长,没有考虑。222019-9-11谢谢观赏具体工作-简历型网页/段落的判定-评测使用了409篇谢谢观赏具体工作具体工作-简历型网页简历型网页/段落的判定段落的判定-评测评测o判断简历型段落,数据集同上n精度:识别出26个简历型段落,20个正确,精度是77%n错误分析:有些段落比较短,一些阈值不适合导致的,同时召回度也不理想,最后在构建系统的时候,暂时没有用到简历型段落232019-9-11谢谢观赏具体工作-简历型网页/段落的判定-评测判断简历型段落谢谢观赏具体工作具体工作-人物踪迹系统的实现人物踪迹系统的实现-数据集数据集o网页来源:2007年Webdigest小组所抓取的网页。选取http:/上排名前100的新闻网页作为种子,并且按4层抓取。从10月1日开始持续了30天,总计20,000,000篇网页。o处理过程:n使用Parasize项目的工具进行消重、去噪n使用本文的模块对网页处理。n句子为单位,进行提取踪迹o现在得到的数据:总共得到403456条人物踪迹,23415条同时包含地点信息,作为现在系统可以查询的数据。242019-9-11谢谢观赏具体工作-人物踪迹系统的实现-数据集网页来源:200谢谢观赏具体工作具体工作-人物踪迹系统的实现人物踪迹系统的实现-模块和功能模块和功能o模块:查询模块,和地图展示模块 o功能:n输入:一个人名n输出:他/她的所有踪迹,包含人物、时间、地点和时间,踪迹,并且按照日期排序。n地图展示:屏幕右侧,地点被标识,线条连接相邻踪迹的地点,动态展示 252019-9-11谢谢观赏具体工作-人物踪迹系统的实现-模块和功能模块:查询模谢谢观赏具体工作具体工作-人物踪迹系统人物踪迹系统262019-9-11谢谢观赏具体工作-人物踪迹系统262019-9-11谢谢观赏总结总结o意义n研究价值n创新o收获n新的知识n科研经验o今后工作n各模块的改进n奥运会信息处理系统272019-9-11谢谢观赏总结意义272019-9-11谢谢观赏282019-9-11谢谢观赏282019-9-11
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!