基因芯片数据功能分析

上传人:xgs****56 文档编号:9779013 上传时间:2020-04-07 格式:DOC 页数:4 大小:21.31KB
返回 下载 相关 举报
基因芯片数据功能分析_第1页
第1页 / 共4页
基因芯片数据功能分析_第2页
第2页 / 共4页
基因芯片数据功能分析_第3页
第3页 / 共4页
点击查看更多>>
资源描述
生物信息学在基因芯片数据功能分析中的应用 2009 4 29 随着人类基因组计划 Human Genome Project 即全部核苷酸测序的即将完成 人类基因 组研究的重心逐渐进入后基因组时代 Postgenome Era 向基因的功能及基因的多样性倾斜 通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析 研究相应基 因在生物体内的功能 阐明 不同层次多基因协同作用的机理 进而在人类重大疾病如癌症 心血管疾病的发病机理 诊断治疗 药物开发等方面的研究发挥巨大的作用 它将大大推 动人类结构 基因组及功能基因组的各项基因组研究计划 生物信息学在基因组学中发挥着 重大的作用 而另一项崭新的技术 基因芯片已经成为大规模探索和提取生物分子信息 的强有力手段 将在后基因组研究中发挥突出的作用 基因芯片与生物信息学是相辅相成 的 基因芯片技术本身是为了解决如何快速获得庞大遗传信息而发展起来的 可以为生物 信息学研究提供必需的数据库 同时基因芯片的数据分析也极大地依赖于生 物信息学 因 此两者的结合给分子生物学研究提供了一条快捷通道 本文介绍了几种常用的基因功能分析方法和工具 一 GO 基因本体论分类法 最先出现的芯片数据基因功能分析法是 GO 分类法 Gene Ontology GO 即基因本体论 数据库是一个较大的公开的生物分类学网络资源的一部分 它包含 38675 个 Entrez Gene 注释基因中的 17348 个 并把它们的功能分为三类 分子功能 生物学过程和细胞组分 在每一个分类中 都提供一个描述功能信息的分级结构 这 样 GO 中每一个分类术语都 以一种被称为定向非循环图表 DAGs 的结构组织起来 研究者可以通过 GO 分类号和各 种 GO 数据库相关分析工具将分类与具体 基因联系起来 从而对这个基因的功能进行描述 在芯片的数据分析中 研究者可以找出哪些变化基因属于一个共同的 GO 功能分支 并用 统计学方法检定结果是否 具有统计学意义 从而得出变化基因主要参与了哪些生物功能 EASE Expressing Analysis Systematic Explorer 是比较早的用于芯片功能分析的网络平 台 由美国国立卫生研究院 NIH 的研究人员开发 研究者可以用多种不同的格式将芯片 中得到的基 因导入 EASE 进行分析 EASE 会找出这一系列的基因都存在于哪些 GO 分类中 其最主要特点是提供了一些统计学选项以判断得到的 GO 分类是否符合统计学标准 EASE 能进行的统计学检验主要包括 Fisher 精确概率检验 或是对 Fisher 精确概率检验进行了修 饰的 EASE 得分 EASE score 由于进行统计学检验的 GO 分类的数量很多 所以 EASE 采取了一系列方法对 多重检验 的结果进行校正 这些方法包括弗朗尼校正法 Bonferroni 本杰明假阳性率法 Benjamini falsediscovery rate 和靴带法 bootstraping 同年出现的基于 GO 分类的芯 片基因功能分析平台还有底特律韦恩大学开发的 Onto Express 2002 年 挪威大学和乌普 萨拉大学联合推出的 Rosetta 系统将 GO 分类与基因表达数据相联系 引入了 最小决定法 则 minimal decision rules 的概念 它的基本思想是在对多张芯片结果进行聚类分析之后 与表达模式不相近的基因相比 相近的基因更有可能参与相同的生物学功能的实现 比 较 著名的基于 GO 分类法的芯片数据分析网络平台还有七十多个 表 1 列举了其中的一部分 Name Internet Site Onto Tools http vortex cs wayne edu projects htm ROSETTA http rosetta lcb uu se general GOToolBo x http burgundy cmmt ubc ca GOToolBox GOstat http gostat wehi edu au GFINDer http www medinfopoli polimi it GFINDer FatiGO http www fatigo org EASE http david abcc ncifcrf gov ease ease jsp 表 1 用 GO 分类法进行芯片功能分析的网络平台 二 Pathway 通路分析法 通路分析是现在经常被使用的芯片数据基因功能分析法 与 GO 分类法 应用单个基因 的 GO 分类信息 不同 通路分析法利用的资源是许 多已经研究清楚的基因之间的相互作 用 即生物学通路 研究者可以把表达发生变化的基因列表导入通路分析软件中 进而得 到变化的基因都存在于哪些已知通路 中 并通过统计学方法计算哪些通路与基因表达的变 化最为相关 现在已经有丰富的数据库资源帮助研究人员了解及检索生物学通路 对芯片 的结果进行分析 主要 的生物学通路数据库有以下两个 KEGG 数据库 迄今为止 KEGG 数据库 Kyoto encyclopedia of genes and genomes 是 向公众开放的最为著名的生物学通路方面的资源网站 在这个网站中 每一种生物学 通路都有专门的图示说明 BioCarta 数据库 BioCarta 是一家生物技术公司 它在其公共网站上提供了用于绘制 生物学通路的模板 研究者可以把符合标准的生物学通路提供给 BioCarta 数据库 BioCarta 数据库不会检验这些生物学通路的质量 因此其中的资源质量参差不齐 并且 有许多相互重复 然而 BioCarta 数据库数据量巨大 且不同 于 KEGG 数据库 包含了 大量代谢通路之外的生物学通路 所以也得到广泛的应用 最先出现的通路分析软件之一是 GenMAPP gene microarray pathway profiler 它可 以免费使用 其最新版本为 Gen MAPP2 在这个软件中 使用者可以用几种灵活的文件格 式输入自己的表达谱数 据 GenMAPP 的基因数据库包含许多从常用的资源中得到的物种 特异性的基因注释和识别符 ID 这些 ID 可以将使用者输入的基因与不同的生物学通路 的基因联系起来 这些生物学通路存在于 GenMAPP 的 MAPP 文件中 MAPP 文件需要时 常下载更新 它包含有许多 KEGG 生物学通路 一些 GenMAPP 自己的生物学通路和许多 GO 分类的 MAPP 文件 全部操作简单明了 而且依靠其自带的 MAPPBuilder 和 MAPPFinder 两个软件 使用者可以自己绘制生物学通路和对 MAPP 文件进行检索 由于 使用者可以自己绘制生物学通路保存为 MAPP 格式 这个文件很小易于在网络上传播 所 以 GenMAPP 数据库更有利于研究者之间的及时交流 由于上述特点 GenMAPP 数据库及 软件仍是现今免费平台里应用比较广泛的 2004 年推出的 Pathway Miner 也是应用较为广泛的免费通路分析网络平台 由美国亚 利桑那大学癌症中心建立维护 其最突出的特点就是信息全面 操作简便 使用者可以在 这个网站 中获得单个基因的序列 功能注释 以及有关它们编码的蛋白结构功能 组织分 布 OMIM 等信息 对于通路分析部分 使用者给出基因列表及他们的表达变化 值 网站 可以根据三大公用的通路数据库 KEGG GenMAPP 和 BioCarta 生成变化基因参与的通 路 并用 fisher 精确概率检验 PathwayMiner 自动把得到的通路分成两大类 代谢通路和 细胞调节通路 方便使用者根据不同的研究目的选择需要查看的结果 在 2006 年国内也开发了用于通路分析的网络平台 即 KOBAS KO Based Annotation System 其基于 KEGG 数据库建立 由北京大学生命科学院开发和维护 其特点是可直 接采用基因或蛋白质的序列录入基因 并对录入的基因列表进行 KO 注释 对于结果的可 靠性检验提供了四种统计方法 使用者可以在网站进行注册 网站会为使用者保存输入的 数据 方便日后直接调用 最近推出的软件 Eu Gene 整合了来自 KEGG Gen MAPP 以及 Reactome 的通路数据 并采用 fisher 精确概率检验及基因集富集分析 Gene Set Enrichment Analysis GSEA 来检验结果是否具有统计学意义 表 2 列举了部分通路分析的 网络平台及它们的网址 Name Internet Site GenMAPP http www genmapp org PathwayMiner http www biorag org pathway html KOBAS GEPAT http gepat bioapps biozentrum uni wuerzburg de GEPAT index faces VitaPad http bioinformatics med yale edu group KEGGanim http biit cs ut ee kegganim WholePathwayScopehttp www abcc ncifcrf gov wps wps index php VisANT 3 0 http visant bu edu Eu Gene http www ducciocavalieri org bio Eugene htm 表二 通路分析网络平台 三 基因调控网络分析 通路分析法是芯片功能分析的有力工具之一 其与 GO 分类法的主要区别也正是它的弱 点 在生物反应的过程中 发生表达变化的基因通常不只局限在一个通路中 而是存在于 由许多调控因子和通路参与的复杂调控网络中 生物调控网络十分复杂 并没有现成的文 献和数据库供参考 而且 把芯片中发生表达变化的基因放在生 物调控网络的水平来看 它们通常在多个通路中都有分布 而每个通路只包含几个发生表达变化的基因 这就解释 了为什么有些通路只有部分基因表达发生变化 而 且表达变化的趋势在整个通路水平上不 一定是一致的 进行生物调控网络的研究需要更多的数据库及分析工具的支持 比如需要关于基因组调 控序列 启动子和增强子 的信息 现在已经有许多 关于转录因子结合位点 transcription factor binding site TFBS 的数据库可以满足这个要求 如 TRANSFAC 及 JASPAR 而且芯片检测的基因变化应该深入到转录本水平 因为不同的转录本的转录可能 是由 不同的启动子启动的 外显子连接芯片 exon junction microarray 将基因组中外显 子与外显子之间的连接序列做成 36nt 的探针点到芯片上 与样本 mRNA 进行杂交后可检 测出样本中多外显子基因 pre mRNA 的剪接状况 转录调节控制基因表达 调控不同组织中的细胞在各种生理条件及外界刺激下的反应 不同于原核细胞 真核细胞的转录调节涉及大量转录因子的相互作用 而且基 因组调控序 列不只位于启动子 还包括内含子及许多基因下游序列 所以真正了解真核细胞的基因调 控网络是一项非常艰巨的工作 用基因调控网络来分析基因芯片 数据还需要更多信息及技 术的支持
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!