本体在生物信息学课件

资源描述

本体在生物信息学本体在生物信息学36、如果我们国家的法律中只有某种神灵，而不是殚精竭虑将神灵揉进宪法，总体上来说，法律就会更好。马克吐温37、纲纪废弃之日，便是暴政兴起之时。威皮物特38、若是没有公众舆论的支持，法律是丝毫没有力量的。菲力普斯39、一个判例造出另一个判例，它们迅速累聚，进而变成法律。朱尼厄斯40、人类法律，事物有规律，这是不容忽视的。爱献生传统的个人预测能力无法传统的个人预测能力无法应对应对越来越越来越多的知识基础多的知识基础利用计算机工具辅助生物学家利用计算机工具辅助生物学家构建生物分子学术语本体构建生物分子学术语本体本体是描述概念和概念之间关系的系统.在知识表示领域的研究中，一个本体必须有反映数据所必要的“明确”视角，例如蛋白质的概念。蛋白质的概念显然是与蛋白质有关联的一个“访问号码”对应，而这个访问号码是从序列数据库中检索信息的关键字。但是这个访问号码或许与真实蛋白质的属性是没有任何意义的。在本论文中，我们已经研究了一个特定形式的知识表达系统，描述逻辑（DLs），并认为（i）描述逻辑是灵活的强大的，能够以一致的和原则的方式捕捉和分类生物概念。（ii）DLs 可以用于构建本体，可以从生物数据中进行推论.关于描述逻辑关于描述逻辑DL和本体和本体传统上，本体一直是利用静态模型表示，这些可能有助于在纯粹的术语或句法学层次上交换知识，并且可以依赖不同的解释-在模型中建模人独有视角的关系。如果我们要共享知识，那么就需要有清楚的语义。“框架表示”提供了获取概念和它们之间关系的准确定义的框架。这个框架形式已经在模拟EcoCyc的生物数据中利用。并且已经定义了由框架系统提供服务的专门接口的描述。然而这个表示是静态的，并且是要声明所有的包容，“声明”是层次类表示，这是由建模者做的，而不是系统从描述逻辑中推导出的。描述逻辑描述逻辑DL(Description Logic)DL(Description Logic)是一个关于知识表是一个关于知识表示语言的例子，它除了提供关于领域陈述性知识示语言的例子，它除了提供关于领域陈述性知识的语言之外，还提供了一个允许对这些知识推理的语言之外，还提供了一个允许对这些知识推理的分类器。利用的分类器。利用DLDL获得的信息可以被分类成为丰获得的信息可以被分类成为丰富层次的概念和它们的关系。富层次的概念和它们的关系。DLDL是合成的和动态是合成的和动态的，相当多地依赖于分类、包容的，相当多地依赖于分类、包容（subsumptionsubsumption）、一致性检索和查询服务器的）、一致性检索和查询服务器的理念。这意味着可能从现有的概念中构建新概念，理念。这意味着可能从现有的概念中构建新概念，并且自动准确地放到格子中（并且自动准确地放到格子中（latticelattice）。）。DL至今还没有用于生物领域，但是已经用在知识库的从文献中自动检索信息，和已经大量用于非生物领域包括医学应用例如GALEN项目。GALEN项目选择了Dl作为表示语言。其合成的特性和动态的推理服务分类也是适合生物学领域建模的理想工具。GRAIL（描述逻辑指导模型）（描述逻辑指导模型）语言语言GRAILGRAIL语言是语言是“KL-ONE”“KL-ONE”系列中的系列中的DLDL，开发它的最，开发它的最初动机是为了模拟医学术语系统，为了支持临床初动机是为了模拟医学术语系统，为了支持临床用户界面。现在在构建生物学术语也有用到它的用户界面。现在在构建生物学术语也有用到它的,例如例如TAMBISTAMBIS本体。本体。DLDL以概念（类），角色（关系），和个体（对象）以概念（类），角色（关系），和个体（对象）为领域术语建模。领域是个体的集合，概念是共为领域术语建模。领域是个体的集合，概念是共享共同特征的个体组的描述。角色模仿在个体或享共同特征的个体组的描述。角色模仿在个体或属性之间的关系。那么利用递归的术语构造器属性之间的关系。那么利用递归的术语构造器（constructorconstructor）可以构建合成的概念描述。个体）可以构建合成的概念描述。个体是明确概念的一个实例，一对个体是明确角色的是明确概念的一个实例，一对个体是明确角色的实例。在实例。在GRAILGRAIL中所有角色都是双向的。中所有角色都是双向的。例如蛋白质是一个个体类（所有蛋白质），并以此模仿一个概念。蛋白质可能有合成物，例如有“基序（Motif）”这个合成物，那么我们可以通过二元角色“hasComponent（有成分）”表示这个蛋白质。于是我们形成了一个新的概念，可以说“hasComponent Motif”（蛋白质有基序成分），或说“ishasComponentOf Protein”（是有“modif”成分的蛋白质）。一个GRAIL模型是由三部分组成：它们是“声明（assertions）”，“概念-形成”的运算和推理服务，和“批准（sanction）”声明声明一个模型包含有“要素”概念定义的收集物以及相随角色的收集物。“要素”概念定义是简单的、原子概念（例如基序Motif或蛋白质）它们不能被进一步分解。概念概念概念概念-形成的运算和推理服务形成的运算和推理服务形成的运算和推理服务形成的运算和推理服务 GRAIL GRAIL提供了能够允许构建概念和角色合成提供了能够允许构建概念和角色合成物的运算收集物。和允许我们做结论的推理服务物的运算收集物。和允许我们做结论的推理服务收集物。收集物。推理的中心是分类理念，由它推导出推理的中心是分类理念，由它推导出“合成物合成物”的准确层次位置。恰好当概念的准确层次位置。恰好当概念B B的所有实例也都是的所有实例也都是概念概念A A的实例的时候，才可以说概念的实例的时候，才可以说概念A A包容概念包容概念B B。也可以基于这种包容或关系类型按照层次进行概也可以基于这种包容或关系类型按照层次进行概念分类。念分类。要素概念在概念层次中有它们的指定位置，这要素概念在概念层次中有它们的指定位置，这些位置是由建模者明白地陈述而声明的。然而些位置是由建模者明白地陈述而声明的。然而“合合成概念成概念”是基于这些概念自动分类成的。是基于这些概念自动分类成的。例如利用角色“ishasComponentOf”的要素概念是“基序Motif”和“蛋白质Protein”，那么可以合并产生一个复杂的概念“Motif which”（是蛋白质成分的基序）。GRAIL分类器把这个合成物放到层次中“Motif”的下面。如果这个概念被再进一步做概念合成的话，GRAIL分类器或许会自动地再分类它。GRAIL支持多重继承,在DL中的有多父辈继承的分类概念的性质，这是完全不同于传统的术语分类学；在传统分类中概念以类似于树的结构组织并且每个概念只有一个父辈。因此DL是比传统的术语分类学更加灵活并且自然地支持对相同概念的多重视角。利用合并现有的概念创建新概念的能力是“合成力compositionality”。这意味大量的概念可以从相对稀疏的流行概念中产生。利用这样的模型就逃不掉与服务器理念和推理绑定在一起：GRAIL模型不是静态树应该被认为是可以由应用来查询的一个资源。批准批准批准批准为了约束（为了约束（restrictrestrict）复杂概念的构成，）复杂概念的构成，GRAILGRAIL只是对那些有语义意义的概念提供了只是对那些有语义意义的概念提供了“规则规则”和和“批准批准”，它们指出对那些概念那些规则是可能，它们指出对那些概念那些规则是可能合法采用的。合法采用的。“批准批准”是是GRAILGRAIL独特的机制。独特的机制。然而然而“批准批准”是可继承的。为了提供更大的灵活是可继承的。为了提供更大的灵活性和控制，性和控制，提供了两层的批准提供了两层的批准提供了两层的批准提供了两层的批准：语法的和有：语法的和有“意义意义”。语法的。语法的“批准批准”是表示事情的类之间的一般的或是表示事情的类之间的一般的或抽象的关系；有意义的抽象的关系；有意义的“批准批准”简要地说明可能被构简要地说明可能被构建的可实例化的合成物。语法的建的可实例化的合成物。语法的“批准批准”必须在做意必须在做意义的义的“批准批准”之前。之前。批准是代表合成物的可能性，而不是必要性。批准是代表合成物的可能性，而不是必要性。动态模型动态模型动态模型动态模型 “合成合成”操作和操作和“批准批准”操作一起提供了一个强大的机操作一起提供了一个强大的机制允许我们基于现有的定义产生或推论概念而无需对制允许我们基于现有的定义产生或推论概念而无需对每件事情都要定义。例如每件事情都要定义。例如“Motif“Motif（基序）（基序）”有一个孩子有一个孩子“Site“Site（场所）（场所）”，它有许多儿女，包括，它有许多儿女，包括“Phosphorylation“Phosphorylation（磷酸化）（磷酸化）”Site”Site。“Site”“Site”是被有意义是被有意义地地“批准批准”成为成为“Protein”“Protein”的合成物，那么它的所有子孙的合成物，那么它的所有子孙也都被允许成为也都被允许成为“Protein”“Protein”的合成物。的合成物。在这种方法中，所做的在这种方法中，所做的“Site“Site（场所）（场所）”和和“Protein“Protein“的所有合并都是可利用的，并且并不需要做成模型的的所有合并都是可利用的，并且并不需要做成模型的一个部分。与静态层次途径对照，在静态层次中必须一个部分。与静态层次途径对照，在静态层次中必须明白地介绍所有的明白地介绍所有的“合并合并”。由由“术语服务器术语服务器”交付交付GRAIL模型模型 GRAIL模型是通过软件成分（被称为“术语服务TeS”成分）而引渡（deliver）的。这个成分提供了对本体的编程接口。例如如果一个分类恰当的概念提供给TeS，那么TeS可能返回关于父辈、孩子或兄弟姐妹的概念信息并可能附加在这些概念上的属性信息。TAMBIS生物信息学本体论生物信息学本体论TAMBIS（Transparent Access to Multiple Bioinformatics Information Sources)研究项目（1998年）意图是为用户提供访问多样化生物信息数据资源的最大透明度。TAMBIS项目目的是提供对世界上生物信息资源的单一的访问点，以便辅助生物科学的研究。通过使用中介本体来达到这个目标。该项目的焦点是演示利用基于本体的途径来开发智能查询综合系统的可能性。可以由TAMBIS检索的数据源包括有Swiss-Prot等数据库。至于TAMBIS 的本体自身,它感兴趣的是实现本体执行的这个TAMBIS系统，因为未来研究的想法是可能利用通过本体的方法来整合数据库。TAMBIS的顶层本体的顶层本体TaO TAMBISTAMBIS系统的基本目的是允许生物学家描述它们希系统的基本目的是允许生物学家描述它们希望从生物信息资源中获取的数据。因此所设计的模型望从生物信息资源中获取的数据。因此所设计的模型要能覆盖生物学家希望问的问题和可能要询问的资源。要能覆盖生物学家希望问的问题和可能要询问的资源。有关生物学家要问的问题实际上是用于辅助有关生物学家要问的问题实际上是用于辅助TaOTaO的构的构建。建。我们术语服务的底层基础提供了一致的访问术语，容我们术语服务的底层基础提供了一致的访问术语，容易的互操作技术。然而在语义层，确认术语之间关系易的互操作技术。然而在语义层，确认术语之间关系依然是件需要人进行大量干预的事情。由依然是件需要人进行大量干预的事情。由DLDL推理支推理支持的一致分类应该是会有利于这个过程。但实际上持的一致分类应该是会有利于这个过程。但实际上DLDL和和GRAILGRAIL都有局限性。都有局限性。TaO是基于DL的。因为在DL中，新概念可以从现有的概念来构建，所以TaO 是一个动态的本体。这意味着它可以生长，无需概念化或编码新知识。TaO 对假定的概念使用本体公理，这样通过关系可以把它连接到另一个概念来形成一个新的概念。在TaO中的基本关系包含“is a component of（是X的成分）”,“has name（有名字）”,“has function（有功能）”,“is homologous to（是同源于X）”。TaO模型模型本体的基本角色是描述生物学概念和它们在生物学信息学中的应用。TaO可能分为两部分：高层部分是来自GALEN项目开发的模型；普通的基础部分是在TAMBIS中扩延的表达生物学领域的用户描述所必需的概念。高层划分高层划分：图2 生物学概念等级的高层区分。在这个模型的较低层是生物学概念（事情thing）和角色（关系）。图2 顶层本体TaO模型概念层次概念层次顶层区分的现象,修改,值类型是根据盖伦高层次的本体。表1根据顶层区分的现象,修改,值类型的主要类别进行了归纳和解释，和具有较低层次的概念来自生物领域的。结构和物质过程和功能在方面类别的概念允许我们描述其他概念的特征，例如一个蛋白质分子的重量和一个在方面类别的概念允许我们描述其他概念的特征，例如一个蛋白质分子的重量和一个DNADNA序列的长度。序列的长度。在收集类别中的概念允许我们描述概念的共同状态。如对比一个核苷酸序列和复杂的蛋白在收集类别中的概念允许我们描述概念的共同状态。如对比一个核苷酸序列和复杂的蛋白质质。属性等级属性等级对专业知识属性的顶层水平分为：对专业知识属性的顶层水平分为：对专业知识属性的顶层水平分为：对专业知识属性的顶层水平分为：ConstructiveAttributes 建设属性 ModifierAttributes 修饰属性在以上所列类别的高层关系表2总结了从生物领域下级关系，更多的例子。生物信息学本体现状该TAMBIS本体的目的是为了支持的描述检索和分析任务。为了达到这个目标，本体被建的很广泛但是非常的浅显。大多数生物信息学的中心任务是关于蛋白质和核酸的（和他们各种的子类：DNA,RNA基因，酶，等等）这些事物被认为是生物信息学中的核心概念。但是在模型深度方面存在一些问题。目前所建立的模型是比较浅的。组织蛋白酶有一个详细分类的蛋白质结构，但是一些有标签的下层类源自一些代表性的类的例子。因此，映射一个抽象类的名字是困难的。表3显示随着他们的包容层次结构下的叶子的例子中的一些主要概念模型。生物信息学本体的应用这个工作的主要目的是提供一个本体来帮助系统发展，至少执行一个领域专家的一些功能。一般的，这些功能知道（1）在领域中有什么（2）在什么时候这些事物有联系并如何联系。一个本体本身并不是非常有用的，所以必须与其他软件结合在一起，允许本体进行查询、探索和使用作为其他方案的一个组成部分。第一是运用在图形用户界面，允许用户探索和构件特别的本体。第二是术语服务器，该服务器可以访问本地的服务器也可以访问分布式服务器，也可能对第三方的使用进行开放。这里所描述的本体已经建成作为TAMBIS的一部分，并为TAMBIS的用户提供必要的概念来构造复杂的查询。本体用来减轻整合多种数据源的困难，充当他们和用户之间的经纪人。本体在引导用户创建合理的问题时扮演了重要的角色。GRAIL并不支持一个A-Box；在TAMBIS的应用中，检索是一个通过改写过程而不是通过A-Box推理的过程。该TAMBIS系统已经在网络上发布为用户选择作为自1999年3月的评价工作的一部分。本体的另外的应用是，一个简单的测试来检查包含在SWISS-PROT数据库中的分类信息。本体是用来产生完整的物种分类宗谱在SWISS-PROT条目中，这种结构是对数据库中批注文件的分类结构报告。任何不符合定义的正式SWISS-PROT分类和数据库条目都将被报道。展望展望在本文中，我们已经表明，使用的DL可以生产出丰富的生物信息学领域本体。然而，在本体中还有其他方法可以使生物信息学资源能更有效。另外一个例子是，序列数据库中提供的注释文本或关键字。虽然此信息是方便人类阅读，但它本身不适合被解释计算。本体语义框架能提供一个序列注解，它将允许更有效的数据提交。这样的注释将是明智的、一致的和,可利用的,会被机器识别的。因此本体将会允许更有效的信息检索和分析。最后，本体提供了一个强大的机制，这种机制使概念信息能和当前的生物数据联系在一起，并将这些数据转变成有用的生物知识。谢谢!66、节制使快乐增加并使享受加强。德谟克利特67、今天应做的事没有做，明天再早也是耽误了。裴斯泰洛齐68、决定一个人的一生，以及整个命运的，只是一瞬之间。歌德69、懒人无法享受休息之乐。拉布克70、浪费时间是一桩大罪过。卢梭

展开阅读全文

本体在生物信息学课件

最新文档