《文本挖掘入门》PPT课件.ppt

上传人:za****8 文档编号:12674398 上传时间:2020-05-13 格式:PPT 页数:31 大小:684.51KB
返回 下载 相关 举报
《文本挖掘入门》PPT课件.ppt_第1页
第1页 / 共31页
《文本挖掘入门》PPT课件.ppt_第2页
第2页 / 共31页
《文本挖掘入门》PPT课件.ppt_第3页
第3页 / 共31页
点击查看更多>>
资源描述
文本挖掘入门,吴磊,文本挖掘,文本挖掘是利用自动化方法对生物医学文献中的大量可用知识进行开发文本挖掘工作的动机很多,参与者,模式生物数据库管理者(Modelorganismdatabasecurators)需要处理大量的出版物,用以不断完善(填充)每一个他们感兴趣的物种基因的字段实验室研究人员(Benchscientists)开发出生物医学文本挖掘应用程序,用于协助解释高通量检测分析的输出和改善序列数据库搜索的工具的开发各学科的生物学家开展了各种应用研究,用以应对过去数年间的科学文献双指数增长的问题和在PubMed/MEDLINE中搜寻基因组相关文献的问题,一个奇怪的现象,那些使用率高的,并且对生物学家的工作作出丰富贡献的系统的创建者不是文本挖掘专家,而是生物学家。,生物医学领域的三种基本方法,基于共现的方法寻找出现在同一个文本单位(通常是一个句子,但有时也会拓展到一个摘要)中的概念,并设定它们之间的关系例如,系统发现BRCA1与乳腺癌在同一个句子中出现,会推测乳腺癌与BRCA1基因间存在某种关系早期的生物医学文本挖掘系统都是基于共现的,但这种系统也是非常容易出错的,因此目前已不多见。,生物医学领域的三种基本方法,基于共现的方法概念共现被用作评估更复杂的系统时的一个简单基准关键在于,概念因表达方式的不同而产生的变化性。例如,BRCA1基因有很多别名包括IRIS,PSCP,BRCAI,BRCC1,或RNF53(或他们拼写变体,包括BRCA1,BRCA-1,与BRCA1)或任何其全称的变体,如breastcancer1,earlyonset,breastcancersusceptibilitygene1,或后者的变种breastcancersusceptibilitygene-1。breastcancer还可以被称为breastcancer,carcinomaofthebreast,或mammaryneoplasm。这些变异问题的解决依赖于更为复杂的系统。,生物医学领域的三种基本方法,两个更常见(也更复杂)的文本挖掘方法:基于规则或知识的方法基于规则的系统利用了某种知识,其可能采取的形式:如何构造语言的一般知识如何在生物医学文献中陈述生物学相关事实生物学概念彼此之间可能存在的关系,及它们可能出现在文献中的变异形式前述这些形式中的任何一个子集或组合实际系统构建中综合使用两方面的技术:固定编码方式:如:或与相关联来发现研究者感兴趣的对象类别的显式描述。复杂的语法和语义分析。以识别一个广泛范围内的相关概念的变异形式基于统计或机器学习的方法借助于建立可在各个层级上运算的分类器,标注词性-选择句法分析树-对完整的句子或文档分类。,生物医学领域的三种基本方法,各自优缺点基于规则的系统开发周期较长(不总是)。基于统计的系统通常需要大量不易获得的已标注训练数据。实践中,二者可卓有成效的结合起来许多系统采用了一个预统计处理步骤,其后是基于规则的后续处理。,歧义问题,定义:语言和语义或词类的多重关系的存在。是任何类型的系统都必须要面对的一个主要问题。例如:有关基因的名称和符号fat:形容词or名词?-查询PubMed-返回112K的命中结果(即使通过逻辑表达式(geneORgeneticORgenetics)来限制其范围,结果仍会超过13K)fat也可以是许多不同物种的基因名或符号人类,小鼠,大鼠,果蝇,斑马鱼,鸡,猕猴及两个乳杆菌中,至少有一个基因的名字、官方符号或别名是(fat)。,歧义问题,定义:语言和语义或词类的多重关系的存在。是任何类型的系统都必须要面对的一个主要问题。即使所指物种能够确定,歧义问题仍可能存在:人类基因组中:fat既是2195号Entrez基因记录的官方符号,也是948号Entrez基因记录的官方别名2195是一个cadhedrin(ca2+-dependentcelladhesionmoleculefamily):钙离子依赖的细胞粘附素家族的粘附分子,与肿瘤抑制和双相性精神障碍有关,948是凝血酶受体,与动脉粥样硬化、血小板糖蛋白缺乏症、高脂血症及胰岛素耐受性有关。,构建系统的第一步:定义目标并检查数据,良好的软件工程实践将是构建成功的关键见下图:表明了可构建在一个表示系统中的语言分析层级,语言分析的层级,LocusLinkID,MeSHconcepts,Partofspeech词性NN:单数名词IN:介词VBZ:第三人称单数一般现在时动词JJ:形容词CC:并列连词,构建系统的第一步:定义目标并检查数据,良好的软件工程实践将是构建成功的关键首要关键步骤是定义该系统所需的行为考虑这样一个系统,目的是从文本中提取基因/疾病的关系,那么预期输出是供人使用,或是要令它成为一些后续自动处理步骤的输入?预期输入是拟从一个数据库提取字,还是摘要或期刊文章全文?预期输出是基因和疾病的列表么?Ifso-该系统能够实现通过点击进入从中提取了一个特定基因/疾病对的全文么?能否否实现简单输出在文本中找到的字符串,或必须实现输出的是数据库标识符形式(EntrezGeneIDs和OMIMIDs)?早些明确这些需求有助于在开发过程中少走弯路。,构建系统的第一步:定义目标并检查数据,良好的软件工程实践将是构建成功的关键另一个早期关键步骤:手工检查大批量可能的输入。可能会较为耗时,但非常重要未受过语言训练的科学家会惊讶-即使是最明显简单的生物概念也会有超出想象的表达方式。拿上一支荧光笔,花4小时在论文堆上会预防许多可能出现的不愉快的意外情况。,构建系统的另一个重要考虑:如何评价你的系统(评估方法),一个首要问题:发表论文为目标?OR确定其是否适合外部应用?-三种方法语料库:适用于论文目的近期的类CASP共享计划已构造出许多用于评估更多复杂任务性能的数据集,如基因本体编码到蛋白质的任务,或蛋白质相互作用的检测和分类。测试套件:适用于内部应用适宜性的评价。最好的范例是一个构建于软件工程和结构化软件测试的原则之上的测试套件系统输出的【事后评判】:通常够得上发表论文,但往往不大切合系统开发的实际,因为它不能快速和频繁的重复。,一个有某些任务的正确答案标注的文本数据的实体,结论,why?大部分已构建的生物医学文本挖掘系统的创建者都不是文本挖掘专家,而是计算生物学家。推测:两个群体之间的文化差异.文本挖掘专家更倾向于能让他们开发的系统在计算语言学会议上发表。So,系统一般限于某个专业领域,通常是各种各样的任务都可用的,并且,它更多的依靠统计方法。计算生物学家会毫不犹豫的去构建专业领域专用的系统,甚至只是某个高度相关的任务(例如,RLIMS-P系统,其目标仅为关于磷酸化的论点),这种系统也不会教条的去避免使用基于知识的方法。他们更擅长于前述第一个关键步骤:定义该系统的目标,采用从实用性出发的原则,而非计算语言学文献的可发表性。,展望,文本挖掘专家将继续在构建系统组件和设计评价数据集方面施展才华。计算生物学家目前看来更擅长于任务的定制。或许,最富有成效的方法的是两方的联合努力,充分利用每类科学家的能力特点。,社会网络分析,3.计算,社会网络分析,特征向量中心度(Eigenvectorcentrality)1.定义节点的中心化测试值由周围所有连接的节点决定,即一个节点的中心化指标应该等于其相邻节点的中心化指标之线性叠加。2.意义分析这种通过与具有高度值的相邻节点所获得的间接影响力,社会网络分析,3.计算在Ucinet中,执行NetworkCentralityEigenvetor。,社会网络分析,子图(subgraphcentrality)1.定义是对节点度中心性的改进,基于节点对所在网络局部子图的参与程度来确定节点的重要性。2.计算,复杂网络,复杂网络是近几年科学研究发现的一种介于规则网络和随机网络之间的一种更接近于真实网络的一种网络模型。复杂网络最典型的特征是小世界现象和无标度特征。小世界现象说明了规模很大的网络的任意两个节点之间存在最短路径;无标度特征则揭示了真实网络的结构符合幂率分布的事实。,复杂网络,引文网络是复杂网络复杂网络中许多发现重要节点的方法可以用到引文网络中发现重要文献,复杂网络,随机行走中心性(RandomWalkCentrality)1.定义随机行走模型的提出基于一个多数网络的事实,网络节点对网络的整体特性是未知的,这样就使得对整体网络选择最优不可能,复杂网络,2.计算(a)构建关系矩阵L=D-A其中,A为目标网络的邻接矩阵,D为节点度组成的对角矩阵(b)变换矩阵,把L矩阵去掉最后一行和最后一列,变成可逆矩阵(c)求L矩阵的逆矩阵L-1。,在L基础上添加元素全为0的一行一列,构成新矩阵T,复杂网络,复杂网络,节点删除法:利用网络的连通性来反映系统某种功能的完整性。通过度量节点(集)被删除后对网络连通的破坏程度来定义其重要性的。即“破坏性等价于重要性”。对网络连通的破坏程度越大,被删除的节点(集)越重要。,复杂网络,系统中节点(集)的删除还会影响到系统的一些其他指标,也可以通过计算这些指标的性能变化来度量节点的重要性。如Chen等人提出了一种基于最小生成树的指标,即节点的重要性决定于该节点被删除后系统中最小生成树数量的变化情况。去掉节点以及相关联的边后,所得到的图对应的生成树数量越少,则表明该节点越重要。,复杂网络,节点融合法(节点收缩法)将节点的平均路径和节点个数乘积的倒数定义为网络凝聚度,用每个节点融合后的网络凝聚度来评价节点重要性。网络凝聚度越大,重要性越高。,复杂网络,节点孤立法当某个节点在被破坏或是失效时,该节点无法与其他节点连通,但是不能像其他节点融合法或是节点删除法那样,忽略它对网络的影响。因为其他节点仍然尝试与该节点连通,会增加一定的网络负担,使得网络通信的总路径增加。,复杂网络,信息搜索领域、互联网PageRank算法HITS算法,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!