中文文本中企业并购信息的自动抽取

上传人:t****d 文档编号:242907012 上传时间:2024-09-11 格式:PPT 页数:21 大小:58KB
返回 下载 相关 举报
中文文本中企业并购信息的自动抽取_第1页
第1页 / 共21页
中文文本中企业并购信息的自动抽取_第2页
第2页 / 共21页
中文文本中企业并购信息的自动抽取_第3页
第3页 / 共21页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二层,第三层,第四层,第五层,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二层,第三层,第四层,第五层,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二层,第三层,第四层,第五层,*,中文文本中企业并购信息的自动抽取,韩伟峰(),2009.11.06,1,提纲,本文研究意义及任务,语料库的建设,企业并购典型表达模式分析,知识库的建设,本文研究的难点,2,一 本文的研究意义及任务,3,1.1,本文研究意义,信息抽取是自然语言处理的一个重要应用领域。,本文中所指的“并购”包括:收购、兼并和合并。,中文文本企业并购信息自动抽取的研究是信息抽取在经济和金融领域的探索实践和应用,具有重要的研究意义。,4,1.2,本文研究的任务,本文的研究目标是在研究分析大量相关语料基础上,人工加机器总结股权收购事件在句子或句群中的表述模式,并且基于,HNC,理论进行语义分析,建立实现抽取的模式知识库。,在模式的获取和表示方法上,我们侧重于语义知识的利用,借鉴,HNC,理论的概念和句类思想,并通过对语言形式和内容的细致考察来定义抽取模式。,5,1.2,本文研究的任务,抽取的信息拟包括:并购类型、主动方、被动方、并购金额、并购结果、并购性质等等。,抽取的信息也会因为并购类型不同增加,比如:合并,合并后的新企业名称,收购,收购内容(股权、资产),兼并,产权转移,6,二 语料库的建设,7,2.1,语料库的收集整理,语料的选取与抽取任务结合,这里选择报道企业并购事件的新闻语料,排除一些评论性和分析性的语料。,充分利用语料研究企业并购信息表达,语料中总结提取出规则使用的模式是很重要的一步。,8,2.2,语料的收集与标注,语料的收集整理是本文研究很重要的前期准备。,语料来源: 中国并购网 关于并购的新闻报道。,制订语料标注规则,原则:程序自动提取信息所需要的知识,(因为识别不是本文研究范围,所以一些公司企业名、人名等需要先行标注),9,标注范例,北京时间,10,月,27,日,早间消息,据国外媒体报道,,北电,周一宣布,已经与,日立,达成合作协议,由日立出资,1000,万美元,购买,北电,下一代分组核心网络部件业务。,10,三 企业并购的信息模式分析,11,3.1,企业并购信息的分析,分析方法是以相关句子或者句群的动词为中心。,分析内容:动词主语搭配、动词宾语搭配、适用的并购类型等等,例如:“转让” 主语:主动方,宾语:内容(资产、股权、债务),类型:收购,12,3.2,企业并购信息的表达模式,按照并购的类型分类总结表达模式,HNC,理论的句类理论为我们提供了很好的理论基础。,转移句,T0 = TA+T0+TB+TC,关系句,Rm4 = RB + R,等等,13,3.3,表达模式范例,以收购类为例,总结表达模式,:,TA + Verb + TB,TA + Verb + TB + TC,收购 收购,认购 认购,买进 买进,拥有 拥有, ,苏宁电器成功收购,Laox,公司。,苏宁电器成功收购,Laox,公司,27.36%,的股权。,14,四 知识库的建设,核心动词知识库,并购结果知识库,并购类型知识库,排除知识库,15,4.1,核心动词知识库,核心动词库的建立依据动词自身的特点来进行。,构想(以“收购”为例):,Verb Object,(主语),Type,(类型),收购,a/p .F.,并购,a .T.,认购,a .T.,受让,p .T.,转让,p .F.,16,4.2,并购结果知识库,并购信息中,并购结果是抽取的重要任务之一,表示结果的词语和表达很多,也可以尽可能穷尽。,一般位于核心动词的前面,或者后面,或者是另一句子隐含信息。,V,前:成功、圆满、顺利,/,没有、中断等,V,后:了、完、成功、结束,/,失败、终止、失效等,隐含:不欢而散、功亏一篑、皆大欢喜等,另外还会有一些固定表达模式。,17,4.3,并购类型知识库,抽取要区分并购类型:收购、兼并、合并,某些核心动词可以明显判断:,收购、合并、兼并、吞并、吃掉,有些需要,V+N,来判断,收购,15%,股权,收购全部产权,更复杂的需要考察上下文推断,这需要更高的理解层次。,18,4.4,排除知识库,有些信息是与我们的所抽取的任务无关,但是其存在干扰了我们抽取的准确性。,比如,,时间类:,上次、去年、以前、将等,否定类:,没有、不 等,意愿类:,有意、打算、想、欲等,中心名词定语:,去年成功收购骑士队的黄建华有意收购吉林东北虎。,19,五 研究中的一些难点,抽取信息的分离或缺失,需要通过上下文或者语义推理,增加抽取难度。,文本信息中的指代消歧问题。,句子辅语义块和句蜕、块扩中信息的抽取(细节和隐含信息的抽取)问题。,20,谢谢观看,希望大家多批评指正,21,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!