生物医学文本挖掘前沿

上传人:无*** 文档编号:244035442 上传时间:2024-10-02 格式:PPT 页数:44 大小:1.23MB
返回 下载 相关 举报
生物医学文本挖掘前沿_第1页
第1页 / 共44页
生物医学文本挖掘前沿_第2页
第2页 / 共44页
生物医学文本挖掘前沿_第3页
第3页 / 共44页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Company name,*,单击此处编辑母版标题样式,生物医学文本挖掘前沿,-,新发现,WL,Frontiers of biomedical text mining:,current progress,发表期刊,&,作者简介,Brief,Bioinform,.2007 September;8(5):358375.,Pierre,Zweigenbaum,法国,LIMSI/CNRS,的高级研究员,(,机械和工程科学的语言,信息和代理集团计算机科学实验室,/,法国国家科学研究中心,),他致力于自然语言处理和其在生物医学领域的应用。,Dina,Demner-Fushman,NLM,国家生物医学通讯中心 通信工程部常任科学家,她利用信息检索的,NLP,和生物医学领域信息检索研究临床决策支持、临床问答系统。,Hong Yu,威斯康星密尔沃基大学计算机科学和卫生科学系助理教授,她的研究多关注于多媒体信息检索,话语分析和问答系统。,Kevin B.Cohen,科罗拉多大学医学中心校区,领导计算药理学方面生物医学文本挖掘团队。,2,文本挖掘的主要技术和应用,IR,NER,IE,问答系统,非文本数据处理,知识发现,3,文本,挖掘(,TM,),在不同程度上,大部分生物医学,TM,研究依赖自然语言处理方法和工具。“,BioNLP,”,TM,有广义和狭义之分,:,狭义,:,TM,系统必须返回文章中没有明确表明的知识。,广义,:任何从文章中抽取信息的系统,或者具有抽取信息所必需先决条件功能的系统。,包括一系列的应用类型,从命名实体识别到基于文献的知识发现,以及介于两者之间的许多过程。,4,结构框架,文本抽取事实,IE,初始工序,有注释文本集,&,大规模评价,关系抽取,识别生物实体的模块或文章中的概念,检测出生物实体之间的关系,超信息抽取,摘要技术,处理非文本材料,问答系统,知识发现,简明确定和表明文献最重要方面,节省阅读时间,含有丰富信息的非文本信息如表格和图片,为形成的问题提供精确的答案,真正的,TM,不仅给出文章中存在的直接事实,还有助于揭示生物学实体间的间接关系,狭义,TM,评价,&,面向用户系统,理解用户需求,NER,(,TM,的最重要的必要条件),对系统和结果质量的评价有助于评估产生数据的可信度,对用户需求的实际掌握可引领技术发展,5,超信息抽取,BIE,该技术,超出,I,E,领域,满足最严格的文本挖掘定义,本质上,是,处理,文本以,外数据类型的系统。,I,E,系统,的,输入,单一句型,BIE,系统,的输,入,全文本,:,至少是摘要,有时是全,文,期刊,论,文,很少情况是文献集(如后面讨论的多文档摘要)。,B,IE,系统,的,输出,不限制实体间关系的简单的语句。,6,超信息抽取,1,摘要技术,2,处理非文本材料,3,问答系统,4,知识发现,7,摘要技术,传统的一般摘要对摘要的预期用途不作任何假设,自动文本摘要技术的目的:,确定一个或多个文献,最重要的方面,和简洁连贯地展现这些方面。,自动文本摘要技术区分,指示摘要,(帮助读者决定他们是否应阅读感兴趣的摘要文档),和,详细摘要,(从摘要文档中为读者实际提供资料),定向,/,聚焦的摘要旨在满足独特信息需求,往往以查询方式表现,“黄金信息”,8,摘要技术,4,3,2,1,刻画基因六个方面,结合标记,抽取信息,评价,Ling,等人:,生物学文献的特征结构性摘要,1,:六个方面:,(i),基因产物,,(ii),表达的位置,,(iii),序列信息,,(iv),野生型功能和表型信息,(,v,)突变表型和(,vi,)遗传相互作用。,2,:检索相关,MEDLINE,摘要和抽取包含与靶基因某一特定方面有关信息的句子,3,:为了结合治疗结果有关,最能提供信息的句子中的证据,评分句型将种类相关性,文献相关性和摘要中句子的位置结合标记。,4,:,这一抽取方法使确定,10,个随机选择基因的测试集的上述六个方面查准率达到,50%-70%,。,填充摘要结构,9,摘要技术,Lu,等人,:,摘要技术与,GO,注释结合,2003,年文本信息检索会议,(TREC,Text,REtrieval,Conference),基因组领域包括,GeneRIFs,基因导入功能参考(,GeneRIF,用于,Entre,数据库中描述的基因),预测的任务。,Lu,等人提出完成这项任务采用摘要技术与,GO,(基因本体,,gene ontology,)注释结合,,GO,注释与现有的,Entrez,基因条目有关。,作者将这一方法进一步发展到现实任务摘要技术的创新应用:测定低质量和过时的,GeneRIFs,摘要修订方法,这一任务准确率达到,89%,,召回率达到,79%,,并且在质量上比其他方法产生有效的,GeneRIFs,。,10,摘要技术,Baumgartner,等人,:,句型选择子任务,将摘要方法应用于蛋白,-,蛋白间相互作用的,BioCreative2006,句型选择子任务。,该查找描述蛋白,-,蛋白相互作用最好的句型的抽取摘要方法达到了,19%,的准确率,是这一挑战中表现最好的;位于第二的系统的分数为,6%,。,11,摘要技术,Nvol,等人,:,自动生成的建议性主题词,与摘要相关的任务:描述采用,Mesh,主题词的文本的主要主题,通过人工索引,medline,数据库完成的。,Nvol,等人通过改进自动生成的建议性主题词来推动这一手工处理过程;,NLM,索引者在索引过程中采用此方法。,这一工作的重点是将,Mesh,叙词(,descriptors,)和限定词(,qualifiers,)的组合分配给一篇引文,而不只是分配单一的,Mesh,主标目。,12,摘要技术,文献摘要的分类,摘要技术的另一个应用:将文献分类到一系列预先确定的分类(例如,GO,编码)中。,Stoica,和,Hearst,成功为基因分配,GO,编码,他们通过从生物医学文本中查找分配给靶基因的同源类似物的,GO,编码来分配,GO,术语。,Fyshe,和,Szafron,针对蛋白质的亚细胞定位对文献摘要进行分类,利用,GO,作为一个附加的信息资源。,文献摘要的分类也是,Hglund,等人的预测亚细胞位置方法一个组成部分。,13,摘要技术,展望,生物学文本摘要技术的研究是稳定的持续进行的,应用于,现实,需要更多的,任务驱动性摘要,的研究,更多的,一致性多文档生成的摘要技术,研究,14,超信息抽取,1,摘要技术,2,处理非文本材料,3,问答系统,4,知识发现,15,处理非文本材料(,Processing non-textual material,),目前现状:,大多数关于,BM,语言处理系统仅应用在文本信息方面,而不提供其他重要数据,如图像(例如,图表)。,新兴研究:,应用图像处理以及,NLP,的方法来分析,图形图像,及与其关联的文本,或考虑特殊形式的文本,如化学,化合物,。,16,处理非文本材料,第一个面向,BM,文献中图像的系统:,亚细胞定位图像搜索(,SLIF,)系统,SLIF,提取并分析特定类型的图像,即来自,BM,全文文章的,荧光显微镜图像,。,利用,几何力矩,,,文字的处理,和,形态学图像处理,提取,BM,全文期刊文章的所有图形图像,识别这些描绘荧光显微镜图像,然后确定捕捉亚细胞位置数字特征,(即,计算,SLF6,特征和将输出结果转换为单一的分数),。,17,处理非文本材料,各个方法的评价,图像,标题提取法,的准确率,/,召回率是,98/77%,。,通过寻找水平和垂直的空白部分来进行递归细分,从而把图像分解成网格。,分解法,的准确率为,83%,,召回率为,60%,。,利用以灰度柱状图的为特点的,k-,近邻分类算法,来识别荧光显微镜图,这一方法查准率达到,97%,,查全率为,92%,。,多细胞图像,分割,成单细胞图像。由此产生的二进制图像包含的对象为相对应的细胞。此算法查准率,/,查全率达到了,62/32%,。,所有的方法都证明了它们在实验的准备,细胞类型和显微镜方法中产生差异以及出版时图像交替的稳健性。,18,处理非文本材料,Rafkind,等人:,自动分类图形图像入,5,类,定义了在,BM,全文文章出现的,5,个类别的图像,并采用监督的机器学习算法的支持向量机(,SVMs,)自动分类图形图像进入这些类别。,对于给定的,554,张附注释的图形图像:,当只应用图像特征(亮度和基于边缘特征)时,分类器的,F-,值达到,50.74%,,,当应用文本特征(标题中的词袋和多元语法)时,,F-,值达到,68.54%,。,当,融合图像特征和文字特征,时,结合分类算法的,F-,值达到,73.66%,。,19,处理非文本材料,Shatkay,等人,:,层次图像分类方案,共有,1600,有注释的图形图像,利用,SVM,分类器来区分,图形型和实验型,图像,准确率达到,95,;,而能够区分,三种类型的实验型,图像的准确性为,93,。,46,个图像特征(如柱状图和边缘方向柱状图)用于分类任务。他们发现,在文本分类任务可以受益于将这些图像的特征的综合。,图形图像,图形型:条形图,线形图和其他图表,实验型:凝胶电泳,荧光显微镜和其他显微镜,其他类型,20,处理非文本材料,Yu,:,摘要句子概括图像内容,图像提供重要证据,,但不参照相关文本常无法理解。,为此,,Yu,审查了,三种相关文字,:图片标题,摘要中出现的相关句子和全文主体中出现的相关的句子,得出结论认为,摘要中的句子可以用来概括图像内容,其他相关的文本描述通常只描述实验程序而不包括实验的指征和结论。,21,处理非文本材料,Yu,和,Lee,:,面向用户的,BioEx,该系统将图像和摘要句子的关系,可视化,。,BioEx,可以通过相关的摘要句子来获得图像。,他们邀请那些对文章进行图像注释的,119,为科学家来评价,BioEx,界面,与其他两个无法通过摘要句子来获得图像基础界面进行比较。,87.8,的科学家更倾向于,BioEx,用户界面。,图像和摘要句子的关系通过,基于摘要句子和图像标题单词等级相似性的层次聚类算法,实现的。准确率达到,72,,相应的召回率为,33,。,22,处理非文本材料,Rhodes,等人,:,分子相似性搜索引擎,化合物与图像相关的描述是非线性性质的。,Rhodes,等人开发了分子相似性搜索引擎,以区分专利语料库中类似的化合物。,该系统首先在文本中,识别,化学名称,将这些名称,转换,为相应的复合结构,然后为每个结构,分配,一个,IUPAC,(国际理论和应用化学联合会)的国际化学标识符(,InChI,)代码。从,InChI,代码和基于文本的向量空间模型中,抽取,特征,然后,应用,到索引和检索相关的化合物。,评价发现,相似性搜索,优于,基于文本的搜索。,23,处理非文本材料,生物学领域以外,的图像处理系统,主要开发从数据库中检索医学图像的系统。,ImageCLEFmed,:医学图像检索,IPAL,(,Image Processing and Application Laboratory,,图像应用和处理实验室,,Image&Pervasive Access Lab,):,自动医学检索达到了最高平均准确率(,MAP,:,0.3095,)。,IPAL,融合了,UMLS,作为知识基础,并发现它增强了以文本为基础和可视化检索。,24,超信息抽取,1,摘要技术,2,处理非文本材料,3,问答系统,4,知识发现,25,问答系统(,Question answering,,,QA,),问答系统:,高精度,的信息检索,而不是从庞大的全文资料库中得到一个文献列表,,QA,试图对问题提供一个,简短的,具体的答案,,并且通过提供支持信息和链接原始资料文献把他们放入到上下文中。,QA,近来主要应用在一些限定的领域中。临床领域中较早出现并相对活跃,而基因组学只是最近才解决的。,问答系统一般包含问题分析,查询制定,信息检索,答案提取,摘要和显示。,26,问答系统,相关研究,Demner-Fush
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!