go基因注释与功能分类汇总课件

上传人:n85ho7****4h85bh 文档编号:240923070 上传时间:2024-05-18 格式:PPT 页数:41 大小:2.18MB
返回 下载 相关 举报
go基因注释与功能分类汇总课件_第1页
第1页 / 共41页
go基因注释与功能分类汇总课件_第2页
第2页 / 共41页
go基因注释与功能分类汇总课件_第3页
第3页 / 共41页
点击查看更多>>
资源描述
第八章第八章 基因注释与功能分类基因注释与功能分类Gene Annotation And Functional Classification哈尔滨医科大学 李霞第八章 基因注释与功能分类Gene Annotation 第一节 引 言背景 随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functional genomics)。任务 功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。意义 快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。第一节 引 言背景第二节 基因注释数据库 Gene Annotation DatabaseGene Annotation Database一、研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。基因注释数据库产生的原因基因注释数据库产生的原因 二、在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。第二节 基因注释数据库 Gene Annotation Da一、一、基因本体(基因本体(gene ontology,GO)数据库)数据库 基因本体数据库是GO组织(Gene Ontology Consortium)在2000年构建的一个结构化的的标标准准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细细胞胞组组分分(cellular component)、分分子子功功能能(molecular function)、生物学过程(生物学过程(biological process)。一、基因本体(gene ontology,GO)数据库 n nGOGO数数据据库库最最初初收收录录的的基基因因信信息息来来源源于于3 3个个模模式式生生物物数数据据库库:果果果果蝇蝇蝇蝇、酵酵酵酵母母母母和和和和小小小小鼠鼠鼠鼠,随随后后相相继继收收录录了了更更多多数数据据,其其中中包包括括国国际际上上主主要要的的植植物物,动动物物和和微生物基因组数据库。微生物基因组数据库。n nGOGO术术语语在在多多个个合合作作数数据据库库中中的的统统一一使使用用,促促进进了了各类数据库对基因描述的一致性。各类数据库对基因描述的一致性。GO数据库收录的基因组数据列表数据库收录的基因组数据列表 GO数据库最初收录的基因信息来源于3个模式生物数据库:果蝇、go基因注释与功能分类汇总课件GOGO注释体系特点注释体系特点注释体系特点注释体系特点n nGOGO通通过过控控制制注注释释词词汇汇的的层层次次结结构构使使得得研研究究人人员员能能够够从从不不同同层层面面查查询询和使用基因注释信息。和使用基因注释信息。n n从从 整整 体体 上上 来来 看看 GOGO注注 释释 系系 统统 是是 一一 个个 有有 向向 无无 环环 图图(Directed(Directed Acyclic Acyclic Graphs),Graphs),包包含含三三个个分分支支,即即:生生生生物物物物学学学学过过过过程程程程(biological(biological process)process),分分分分子子子子功功功功能能能能(molecular function)(molecular function)和和细胞组分细胞组分细胞组分细胞组分(cellular component)(cellular component)。n n注注释释系系统统中中每每一一个个结结点点(node)(node)都都是是基基因因或或蛋蛋白白的的一一种种描描述述,结结点点之之间间保保持严格的关系持严格的关系,即即“is a”is a”或或“part of”part of”。GO注释体系特点GO通过控制注释词汇的层次结构使得研究人员能1.1.用关键词检索用关键词检索GOGO数据库数据库n n检检索索GOGO数数据据库库通通常常先先进进入入AmiGOAmiGO的的首首页页。在在GOGO数数据据库库中中,每每条条记记录录都都有有一一个个数数数数据据据据标标标标识识识识号号号号GO:XXXXXXGO:XXXXXX和和对对应应的的术术语语。因因此此检检索索时时需需要要知知道道待待查查基基因因的的数数字字标标识识号号或或术术语语,将将它它们们直直接接输输入入框框中中检检索索即即可可。如如果果检检索索的的基基因因或或蛋蛋白白质质存存在在别别名名,可可在在检检索索框框下下勾勾选选“gene gene or or proteinsproteins”,”,并并在在检检索索框框中中输输入入别别名名检检索索;“exact exact matchmatch”表表示示是是否否完完全全匹配,可供选择。匹配,可供选择。一、使用一、使用GO数据库数据库 1.用关键词检索GO数据库一、使用GO数据库 n n这里以检索这里以检索神经源性分化因子神经源性分化因子神经源性分化因子神经源性分化因子6 6(NEUROD6NEUROD6)为例。在检索框为例。在检索框中输入中输入“NEUROD6NEUROD6”并勾选并勾选“gene and proteinsgene and proteins”和和“exact exact matchmatch”,”,运行后所得基因产物检索结果如图所示。运行后所得基因产物检索结果如图所示。举例举例 这里以检索神经源性分化因子6(NEUROD6)为例。在检索框人民卫生出版社8年制及7年制临床医学等专业用生物信息学此图显示了该基因产物的基本信息,包括类型、物种、此图显示了该基因产物的基本信息,包括类型、物种、别名来源和序列别名来源和序列 人民卫生出版社8年制及7年制临床医学等专业用生物信息学此此图显示了该基因产物此图显示了该基因产物的术语关联(的术语关联(term associations)图,图中)图,图中记录名称记录名称“Term”是是GO记录的名字,记录的名字,“Ontology”是该基因是该基因产物的特性,如要查看产物的特性,如要查看其分子功能,可点击其其分子功能,可点击其中的一条记录中的一条记录“nervous system development”。此图显示了该基因产物的术语关联(term associati 此图上部先对神经源此图上部先对神经源性分化因子性分化因子6的相关的相关信息做简单描述,中信息做简单描述,中间间术语系谱(术语系谱(term lineage)成阶梯状分成阶梯状分布,记录了布,记录了GO数据数据库中全部分子功能所库中全部分子功能所处的位置和关系。下处的位置和关系。下方方“External Reference”提供了与提供了与外部相关数据的链接。外部相关数据的链接。此图上部先对神经源性分化因子6的相关信息做简单描述,中间术点击上图右上方的可视化视图(graphical view)就更清晰地显示了分子功能记录之间构成的复杂网状结构,既有上下隶属关系,也存在平行关系。点击上图右上方的可视化视图(graphical view)就2.2.用序列检索用序列检索GOGO数据库数据库n n 对对于于未未知知基基因因名名的的序序列列,可可以以用用序序列列直直接接检检索索GO GO 数数据据库库。点点 击击 AmiGOAmiGO首首 页页 上上 方方 的的“BLAST”BLAST”。n n界界面面风风格格类类似似于于其其他他数数据据库库BLASTBLAST搜搜索索的的网网页页,在在检检索索框框中中铁铁如如氨氨基基酸酸或或核核酸酸序序列列,网网页页能能自自动动识识别别并并相相应应地地做做BLASTPBLASTP或或BLASTXBLASTX和和数数据据库库中的序列比对。中的序列比对。n n这这里里以以检检索索RPIARPIA基基因因的的序序列列为例,如图所示。为例,如图所示。2.用序列检索GO数据库1.1.简介简介 n n京京都都基基因因与与基基因因组组百百科科全全书书(Kyoto(Kyoto encyclopedia encyclopedia of of genes genes and and genomes,genomes,KEGG)KEGG)是是系系统统分分析析基基因因功功能能、基基因因组组信信息息的的数数据据库库,它它整整合合了了基基因因组组学学、生生物物化化学学以以及及系系统统功功能能组组学学的的信信息息,有有助助于于研研究究者者把把基基因因及及表表达达信信息息作作为为一一个个整整体体网网络进行研究。络进行研究。n nKEGGKEGG提提供供的的整整合合代代谢谢途途径径查查询询十十分分出出色色,包包括括碳碳水水化化合合物物、核核苷苷酸酸、氨氨基基酸酸等等代代谢谢及及有有机机物物的的生生物物降降解解,不不仅仅提提供供了了所所有有可可能能的的代代谢谢途途径径,还还对对催催化化各各步步反反应应的的酶酶进进行行了了全全面面的的注注解解,包包含含其其氨氨基基酸酸序序列列、到到PDBPDB数数据据库库的的链链接接等等。此此外外,KEGGKEGG还还提提供供基基于于JavaJava的的图图形形工工具具访访问问基基因因组组图图谱谱、比比较较基基因因组组图图谱谱和和操操作作表表达达图图谱谱,以以及及其其他他序序列列比比较较、图图形形比比较较和和通通路路计计算算的的工工具具。因因此此,KEGGKEGG数数据据库库是是进进行行生生物体内代谢分析、代谢网络分析等研究的强有力工具之一。物体内代谢分析、代谢网络分析等研究的强有力工具之一。二、二、京都基因与基因组百科全书京都基因与基因组百科全书1.简介 二、京都基因与基因组百科全书n nKEGGKEGG目前共包含了目前共包含了1919个子数据库,它们被分类成系统信息、个子数据库,它们被分类成系统信息、基因组信息和化学信息三个类别基因组信息和化学信息三个类别 。KEGG存储内容存储内容 基基因因组组信信息息存存储储在在GENESGENES数数据据库库里里,包包括括全全部部完完整整的的基基因因组组序序列列和和部部分测序的基因组序列,并伴有实时更新的基因相关功能的注释。分测序的基因组序列,并伴有实时更新的基因相关功能的注释。KEGGKEGG中中化化学学信信息息的的6 6个个数数据据库库被被称称为为KEGG KEGG LIGANDLIGAND数数据据库库,包包含含化化学学物物质质、酶酶分分子子、酶酶化化反反应应等等信信息息。KEGG KEGG BRITEBRITE数数据据库库是是一一个个包包含含多多个个生生物物学学对对象象的的基基于于功功能能进进行行等等级级划划分分的的本本体体论论数数据据库库,它它包包括括分子、细胞、物种、疾病、药物、以及它们之间的关系。分子、细胞、物种、疾病、药物、以及它们之间的关系。一一些些小小的的通通路路模模块块被被存存储储在在MODULEMODULE数数据据库库中中,该该数数据据库库还还存存储储了了其其他的一些相关功能的模块以及化合物信息。他的一些相关功能的模块以及化合物信息。KEGG KEGG DRUGDRUG数数据据库库存存储储了了目目前前在在日日本本所所有有非非处处方方药药和和美美国国的的大大部部分分处方药品。处方药品。KEGG KEGG DISEASEDISEASE是是一一个个存存储储疾疾病病基基因因、通通路路、药药物物、以以及及疾疾病病诊诊断断标标记等信息的新型数据库。记等信息的新型数据库。KEGG目前共包含了19个子数据库,它们被分类成系统信息、基 KEGGKEGG通通 常常 被被 看看作作是是生生物物系系统统的的计计算算机机表表示示,它它囊囊括括了了生生物物系系统统中中的的各各个个对对象象与与对对象象之之间间的的关关系系。在在分分子子层层面面、细细胞胞层层面面、组组织织层层面面都都可可以以对对数数据据库库进进行行检检索索。每每个个数数据据库库中中的的检检索索条条目目按按照照一一定定规规律律被被赋赋予予一一个个检检索索号号,也也就就是是IDID。表表中中列列出出了了KEGGKEGG的的1313个个核核心心数数据据库的检索号。库的检索号。KEGG数据库的注释与检索数据库的注释与检索 KEGG通常被看作是生物系统的计n n另另外外一一种种化化学学注注释释的的方方法法是是以以小小分分子子化化学学结结构构的的生生物物学学意义为特征来实现的。意义为特征来实现的。n n在在KEGGKEGG数数据据库库中中,酶酶与与酶酶之之间间的的反反应应信信息息以以及及相相关关的的化化学学结结构构信信息息分分别别存存储储在在KEGG KEGG REACTIONREACTION数数据据库库和和KEGG REPAIRKEGG REPAIR数据库中。数据库中。n n每每个个化化合合物物的的化化学学结结构构都都被被转转 化化 为为 RDM RDM(atom(atom type type changes changes at at R:reaction R:reaction center center D:diffevent D:diffevent atom atom M:matched M:matched atom)atom)模式。模式。另外一种化学注释的方法是以小分子化学结构的生物学意义为特征来n n下下面面以以人人类类编编码码葡葡萄萄糖糖磷磷酸酸变变位位酶酶的的基基因因“PGM1”PGM1”为为例例:首首先先进进入入KEGGKEGG首首页页,在在首首页页顶顶端端的的输输入入框框中中输输入入类类葡葡萄萄糖磷酸变位酶基因名称糖磷酸变位酶基因名称“PGM1”PGM1”KEGG数据库的注释与检索数据库的注释与检索 下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为例:首先进n n点点击击搜搜索索按按钮钮“GO”GO”进进入入查查询询结结果果页页面面,该该页页面面会会列列出出针针对对基基因因“PGM1”PGM1”在在KEGGKEGG数数据据库库中中的的搜搜索索结结果果,除除人人类类外外,包含包含“PGM1”PGM1”基因的物种条目也会被列出。基因的物种条目也会被列出。点击搜索按钮“GO”进入查询结果页面,该页面会列出针对基因“n n其中排在第一位的是人类其中排在第一位的是人类基因基因“PGM1”PGM1”的相关信息,的相关信息,点击该条目进入到详细信点击该条目进入到详细信息页面。息页面。n n该页面以表格的形式列出该页面以表格的形式列出了该基因有关的详细信息,了该基因有关的详细信息,包括基因编号,基因的详包括基因编号,基因的详细定义,所编码的酶的编细定义,所编码的酶的编号,基因所在通路,以及号,基因所在通路,以及序列的编码信息。同时,序列的编码信息。同时,在页面的右侧还提供了该在页面的右侧还提供了该基因在其他分子生物学数基因在其他分子生物学数据库的链接,如据库的链接,如OMIMOMIM、NCBINCBI、GenBankGenBank等。等。其中排在第一位的是人类基因“PGM1”的相关信息,点击该条目n n通通过过点点击击相相应应的的链链接接,我我们们可可以以进进入入该该基基因因相相应应信信息息的的页页面面。在在pathwaypathway这这一一栏栏中中列列出出了了该该基基因因所所在在的的生生物物学学通通路路,点点击击编编号号为为hsa00010hsa00010(糖糖酵酵解解/糖糖异异生生通通路路)的的通通路路,进进入入到到该该通通路路的的相相应应页页面面。该该编编号号为为hsa00010hsa00010的的通通路路页页面面以以简简单单的的几几何何图图形形显显示示出出了了糖糖酵酵解解/糖糖异异生生相相关关生生物物过过程程。图图中中红红色色的的方方框框即即为为基基因因“PGM1”PGM1”所所编编码码的的酶酶,以以此此就就可可以以通通过过该该酶酶所所在在位位置置以以及及通通路路的的拓拓扑扑结结构构来来综合分析基因。综合分析基因。n n此此外外,可可以以通通过过页页面面顶顶部部的的下下拉拉列列表表框框来来选选择择该该通通路路在在其其他他物物种种中中的的信信息息,也也可可以以通通过过该该列列表表框框的的选选择择来来查查看看相相关关的的基基因因、酶酶、反应、化合物等相关通路信息。反应、化合物等相关通路信息。通过点击相应的链接,我们可以进入该基因相应信息的页面。在pan n KEGG KEGG PATHWAYPATHWAY还还存存储储了了一一些些人人类类疾疾病病通通路路数数据据,这这些些疾疾病病通通路路被被分分为为六六个个子子类类:癌癌症症、免免疫疫系系统统疾疾病病、神神经经退退行行性性疾病、循环系统疾病、代谢障碍、传染病循环系统疾病。疾病、循环系统疾病、代谢障碍、传染病循环系统疾病。n nKEGG KEGG DRUGDRUG数数据据库库也也在在不不断断地地完完善善,其其中中的的药药物物数数据据几几乎乎涵涵盖盖了了日日本本的的所所有有非非处处方方药药和和美美国国的的大大部部分分处处方方药药品品。DRUG DRUG 是是一一个个以以存存储储结结构构为为基基础础的的数数据据库库,每每条条记记录录都都包包含含唯唯一一的的化化学学结结构构以以及及该该药药物物的的标标准准名名称称,以以及及药药物物的的药药效效、靶靶点点信信息息、类类别别信信息息等等。药药物物的的靶靶点点通通过过KEGG KEGG PATHWAYPATHWAY查查询询,药药物物的的分分类类信信息息是是KEGG KEGG BRITEBRITE数数据据库库的的一一部部分分,通通过过药药物物的的标标准准名名称称可可以以找找到到该该药药物物的的商商品品名名,还还可可以以找找到到药药物物销销售售的的标标签签信信息息。此此外外,DRUGDRUG还还包包括括一一些些天天然然的的药药物物和和中药的信息,有些药物被日本药典所收录。中药的信息,有些药物被日本药典所收录。KEGG数据库的改进与更新数据库的改进与更新 KEGG PATHWAY 还存储了一些人类疾病通路数据,这些n n为为了了满满足足日日益益增增长长的的科科学学研研究究需需求求,KEGGKEGG数数据据库库在在最最近近几几 年年 里里 不不 断断 扩扩 充充,新新 增增 加加 的的 5050多多 个个 通通 路路 使使 KEGG KEGG PATHWAYPATHWAY数数据据库库更更加加完完善善。这这5050多多个个新新增增加加的的通通路路包包括括信号传导通路、细胞生物过程通路和人类疾病通路等。信号传导通路、细胞生物过程通路和人类疾病通路等。n nKEGGKEGG对对通通路路数数据据新新增增了了两两个个补补充充内内容容:第第一一个个补补充充是是一一张张全全局局通通路路图图,这这张张全全局局通通路路图图是是通通过过手手工工拼拼接接KEGGKEGG的的120120多多个个现现存存通通路路图图生生成成的的,存存储储为为SVGSVG文文件件。另另一一个个补补充充内内容容是是KEGG KEGG MODULEMODULE数数据据库库,这这是是一一个个收收集集了了通通路路模模块块以以及及其其他他一一些些功功能能单单元元的的新新型型数数据据库库,功功能能模模块块是是在在KEGGKEGG子子通通路路中中被被定定义义为为一一些些小小的的片片段段,通通常常包包括括几几个个连连续续的的反反应应步步骤骤、操操纵纵子子、调调控控单单元元,以以及及通通过过基基因因组组比比对对得到的系统发生单元和分子的复合物等。得到的系统发生单元和分子的复合物等。KEGG数据库的改进与更新数据库的改进与更新 为了满足日益增长的科学研究需求,KEGG数据库在最近几年里不第三节 基因集功能富集分析 Gene Set Enrichment Analysis Gene Set Enrichment Analysis 一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,导致分析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功能信息。进行基因集功能富集分析的原因进行基因集功能富集分析的原因第三节 基因集功能富集分析 Gene Set Enrichmn n富集分析方法通常是分析一组基因在某个功能结点上是否富集分析方法通常是分析一组基因在某个功能结点上是否过出现过出现(over-presentation)(over-presentation)。这个原理可以由单个基因的注。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。释分析发展到大基因集合的成组分析。n n由于分析的结论是基于一组相关的基因,而不是根据单个由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。够识别出与生物现象最相关的生物过程。一、富集分析算法一、富集分析算法 富集分析方法通常是分析一组基因在某个功能结点上是否过出现(on n富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等。n n累计超几何分布:累计超几何分布:n nFisherFisher精确检验:精确检验:富集分析中常用的统计方法有累计超几何分布、Fisher精确检n n基基于于不不同同的的算算法法原原理理,可可以以将将目目前前的的常常用用富富集集分分析析工工具具分分为为三三类类:单单一一富富集集分分析析(singular singular enrichment enrichment analysisanalysis),基基因因集集富富集集分分析析(gene gene set set enrichment enrichment analysisanalysis),模模块块富富集分析(集分析(modular enrichment analysismodular enrichment analysis)。)。二、常用富集分析软件二、常用富集分析软件 基于不同的算法原理,可以将目前的常用富集分析工具分为三类:单n n这这里里以以目目前前应应用用较较为为广广泛泛的的DAVIDDAVID为为例例对对基基因因集集进进行行具具体体分分析析。DAVIDDAVID是是一一个个综综合合工工具具,不不但但提提供供基基因因富富集集分分析析,还还提提供供基基因因间间IDID的的转换、基因功能的分类等。转换、基因功能的分类等。二、富集分析应用实例二、富集分析应用实例 这里以目前应用较为广泛的DAVID为例对基因集进行具体分析。n n点点击击“Start Start Analysis”Analysis”后后,第第一一步步为为提提交交基基因因集集,选选择择基基因因标标识识名名和和基基因因集集类类型型;第第二二步步得得到到注注释释结结果果摘摘要要,包包括括多多种种注注释释数数据据;然然后后选选择择感感兴兴趣趣的的注注释释内内容容得得到到富富集集分分析析结果。结果。点击“Start Analysis”后,第一步为提交基因集,人民卫生出版社8年制及7年制临床医学等专业用生物信息学n n这这里里以以KEGGKEGG通通路路的的富富集集分分析析为为例例。提提交交之之后后的的结结果果如如图图,可可以以看看到到,对对提提交交的的基基因因集集做做富富集集分分析析,找找到到5 5个个具具有有显显著著性性的的通通路路。这这里里的的“P-Value”P-Value”是是通通过过FisherFisher精精确确检检验验得得到到的的P P值值,“Benjamini”Benjamini”指指的的是是本杰明假阳性率校正方法。本杰明假阳性率校正方法。人民卫生出版社8年制及7年制临床医学等专业用生物信息学这第四节 基因功能预测 Gene Function PredictionGene Function Prediction近来已经发展了很多基于GO数据库或KEGG数据库的方法,利用高通量的基因表达和蛋白质互作数据进行功能预测,其中一些新开发的方法试图整合多种数据类型,通过构建功能相关网络的方式预测基因功能。基因功能预测算法基因功能预测算法 第四节 基因功能预测 Gene Function Predn n首首先先,从从总总体体上上宏宏观观地地概概括括抽抽取取信信息息,如如不不同同样样本本间间、不不同同时时间间点点间间全部差异基因;全部差异基因;n n其其次次,通通过过GOGO或或KEGGKEGG分分析析,即即从从GOGO分分类类结结果果找找到到实实验验涉涉及及的的显显著著功功能能类类别别或或将将差差异异基基因因映映射射到到通通路路中中,根根据据基基因因在在通通路路中中的的位位置置及及表表达水平的变化算出受影响显著的通路,从而预测未知的基因功能等。达水平的变化算出受影响显著的通路,从而预测未知的基因功能等。当前基于当前基于GO或或KEGG的基因功能预测策略的基因功能预测策略首先,从总体上宏观地概括抽取信息,如不同样本间、不同时间点间1.1.对差异表达基因进行功能预测对差异表达基因进行功能预测n n在在基基因因芯芯片片的的数数据据分分析析中中,研研究究者者可可以以找找出出哪哪些些差差异异表表达达基基因因属属于于一一个个共共同同的的GOGO功功能能分分支支,并并用用统统计计学学方方法法检检验验结结果果是是否否具具有有统统计计学学意意义义,从从而而得得出出差差异异表表达达基基因因主主要要参参与了哪些生物功能。与了哪些生物功能。2.2.蛋白质互作网络用于基因功能预测蛋白质互作网络用于基因功能预测n n目目前前,利利用用相相互互作作用用网网络络进进行行功功能能注注释释主主要要有有两两种种方方法法,即即直直接接注注释释方方法法(direct direct annotation annotation schemesschemes)和和基基于于模模块块的方法(的方法(module assisted schemesmodule assisted schemes)。)。3.3.利用利用GOGO体系结构比较基因功能体系结构比较基因功能n n通通常常认认为为如如果果两两个个基基因因产产物物的的功功能能相相似似,那那么么它它们们的的表表达达也也就就相相近近,同同时时它它们们在在GOGO中中注注解解的的结结点点就就相相似似,所所以以只只要要能能找找出出GOGO中中结结点点对对的的相相似似度度,就就可可以以近近似似估估计计两两基基因因表达的相似度,从而判断两基因产物的功能的相似度。表达的相似度,从而判断两基因产物的功能的相似度。一、基于一、基于GO的基因功能预测的基因功能预测 1.对差异表达基因进行功能预测一、基于GO的基因功能预测 二、基于二、基于KEGG的基因功能预测的基因功能预测 通路分析是现在经常被使用的芯片数据基因功能分析法。与GO分类法(应用单个基因的GO分类信息)不同,通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用,即生物学通路。研究者可以把表达发生变化的基因集导入通路分析软件中,进而得到变化的基因都存在于哪些已知通路中,并通过统计学方法计算哪些通路与基因表达的变化最为相关。二、基于KEGG的基因功能预测 通路分析是现三、常用基因功能预测软件三、常用基因功能预测软件三、常用基因功能预测软件go基因注释与功能分类汇总课件利用利用Onto-ExpressOnto-Express预测基因功能预测基因功能n nOnto-ExpressOnto-Express是是Wayne Wayne State State UniversityUniversity开开发发的的Onto-Onto-ToolsTools软软件件包包中中的的一一个个表表达达谱谱数数据据分分析析工工具具,利利用用Gene Gene OntologyOntology中中的的数数据据信信息息对对基基因因的的功功能能进进行行分分析,可以免费下载该软件。析,可以免费下载该软件。举例举例利用Onto-Express预测基因功能举例1.1.数据输入数据输入 n n下面通过提供的测试数据阐述下面通过提供的测试数据阐述Onto-ExpressOnto-Express的使用方法,该芯片的测试数据可的使用方法,该芯片的测试数据可在在http:/www.ebi.ac.uk/jane/TestData/http:/www.ebi.ac.uk/jane/TestData/下载,输入数据为下载,输入数据为totaltotal和和under.overunder.over,输,输入数据为文本格式,包含入数据为文本格式,包含accession numbers,cluster identifiers accession numbers,cluster identifiers 或或 probe probe identifiersidentifiers。进入。进入Onto-ExpressOnto-Express的输入窗口,如图所示:的输入窗口,如图所示:1.数据输入 2.2.结果页面结果页面 n n选选择择“Tree Tree View”View”,将将显显示示GOGO的的树树状状图图,可可以以单单击击收收缩缩或或展展开开显显著著termterm的的信信息息。GO GO termterm上上的的黑黑体体字字是是输输入入的的上上调调或或下下调调基基因因集集合合注注释释到到该该termterm上上的的数数目目。P P值值是是该该结结点点含含有有上上调调或或下下调调基基因因的的数数目目大大于于随随机期望的概率。机期望的概率。2.结果页面 小小 结结n n基基因因注注释释与与功功能能分分类类是是功功能能基基因因组组学学和和计计算算系系统统生生物物学学的的重重要要基基础础。本本章章重重点点介介绍绍了了Gene Gene OntologyOntology(GOGO)数数据据库库 和和 Kyoto Kyoto Encyclopedia Encyclopedia of of Genes Genes and and GenomesGenomes(KEGGKEGG)数数据据库库。分分别别从从基基因因功功能能注注释释和和通通路路注注释释两两个个层层面面阐阐述述功功能能注释与分类。注释与分类。n n随随着着功功能能基基因因组组学学在在人人类类复复杂杂疾疾病病研研究究中中应应用用的的逐逐步步深深入入,基基因因功功能能注注释释的的尺尺度度也也逐逐步步从从单单基基因因注注释释发发展展到到多多基基因因注注释释和和通通路路(或或特特定定功功能能的的基基因因集集合合)注注释释。基基于于GOGO和和KEGGKEGG发发 展展 起起 来来 的的 DavidDavid、GOEASTGOEAST、GOSimGOSim、KEGGSpiderKEGGSpider、KEGGArrayKEGGArray、PathwaryMinerPathwaryMiner等等软软件件从从不不同同角角度度实实现现注注释释、富富集集分分析析和和功功能能预预测测,方方便便临临床床医医学学工工作作人员对感兴趣的基因或基因组进行研究。人员对感兴趣的基因或基因组进行研究。小 结基因注释与功能分类是功能基因组学和计算系统生物学的重
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!