医学专业生物信息学DNARNA和蛋白质序列信息资源ppt课件

上传人:202****8-1 文档编号:241379625 上传时间:2024-06-22 格式:PPT 页数:66 大小:3.70MB
返回 下载 相关 举报
医学专业生物信息学DNARNA和蛋白质序列信息资源ppt课件_第1页
第1页 / 共66页
医学专业生物信息学DNARNA和蛋白质序列信息资源ppt课件_第2页
第2页 / 共66页
医学专业生物信息学DNARNA和蛋白质序列信息资源ppt课件_第3页
第3页 / 共66页
点击查看更多>>
资源描述
人民卫生出版社8年制及7年制临床医学等专业用生物信息学第一章第一章 DNADNA、RNARNA和和蛋白质序列信息资源蛋白质序列信息资源DNA、RNA And Protein Sequence Information Resources第一章第一章 DNA、RNA和和蛋白质序列信息资源蛋白质序列信息资源DNA、RNA生物信息学(bioinformatics)在生命科学研究中发展起来的一门由分子在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合,以生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取、计算机为研究工具对生物信息进行获取、处理、储存、传播、分析、模拟和解释的处理、储存、传播、分析、模拟和解释的交叉学科。交叉学科。生物信息学(生物信息学(bioinformatics)在生命科学研究中在生命科学研究中生物信息学研究内容它利用数据库技术和软件技术对大量积累它利用数据库技术和软件技术对大量积累的生物大分子序列数据进行比较和分析,的生物大分子序列数据进行比较和分析,揭示出生物大分子的分子结构、功能和进揭示出生物大分子的分子结构、功能和进化关系以及基因组构成与基因表达等生物化关系以及基因组构成与基因表达等生物学事件对生命活动的影响。学事件对生命活动的影响。生物信息学研究内容它利用数据库技术和软件技术对大量积累的生物生物信息学研究内容它利用数据库技术和软件技术对大量积累的生物生物信息学研究重点主要体现在基因组学(主要体现在基因组学(genomics)和蛋白)和蛋白质组学(质组学(proteomics)两方面。它从核酸)两方面。它从核酸和蛋白质序列出发,分析序列中与结构、和蛋白质序列出发,分析序列中与结构、功能相关的生物信息的表达。功能相关的生物信息的表达。生物信息学研究重点主要体现在基因组学(生物信息学研究重点主要体现在基因组学(genomics)和蛋)和蛋生物信息学数据库生物信息学中的各类数据库几乎覆盖了生生物信息学中的各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,命科学的各个领域,如核酸序列数据库,蛋白质序列数据库蛋白质序列数据库,蛋白质、核酸、多糖,蛋白质、核酸、多糖的的三维结构数据库三维结构数据库,基因组数据库基因组数据库,文献,文献数据库和其他种类数据库。数据库和其他种类数据库。生物信息学数据库生物信息学中的各类数据库几乎覆盖了生命科学的生物信息学数据库生物信息学中的各类数据库几乎覆盖了生命科学的生物信息学数据库分类 生物信息数据库种类繁多,就目前来看,生物信息数据库种类繁多,就目前来看,大体可大体可以分为四个大类:以分为四个大类:1.1.基因组数据库;基因组数据库;2.2.核酸和蛋白质一级结构序列数据库;核酸和蛋白质一级结构序列数据库;3.3.生物大分子(主要是蛋白质)三维空间生物大分子(主要是蛋白质)三维空间 结构数据库;结构数据库;4.4.根据以上三类数据库和文献资料为基础构根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、建的二次数据库。也称专门数据库、专业数据库或专用数据库专业数据库或专用数据库。一次数据库一次数据库生物信息学数据库分类生物信息学数据库分类 生物信息数据库种类繁多,就目前来看生物信息数据库种类繁多,就目前来看第二节 核酸序列数据库Section 2 Nucleic Acid sequence Databases自自自自2020世纪世纪世纪世纪8080年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核酸数据库迅速发展。在互联网上不仅有核酸序列酸数据库迅速发展。在互联网上不仅有核酸序列酸数据库迅速发展。在互联网上不仅有核酸序列酸数据库迅速发展。在互联网上不仅有核酸序列数据库,还出现了数据库,还出现了数据库,还出现了数据库,还出现了基因组相关数据库基因组相关数据库基因组相关数据库基因组相关数据库、核酸三维核酸三维核酸三维核酸三维结构数据库结构数据库结构数据库结构数据库、基因表达数据库基因表达数据库基因表达数据库基因表达数据库、人类基因突变及人类基因突变及人类基因突变及人类基因突变及疾病相关数据库疾病相关数据库疾病相关数据库疾病相关数据库、进化相关数据库及其他与核酸、进化相关数据库及其他与核酸、进化相关数据库及其他与核酸、进化相关数据库及其他与核酸有关的数据库。有关的数据库。有关的数据库。有关的数据库。第二节第二节 核酸序列数据库核酸序列数据库Section 2 Nucleic 三大核酸序列数据库 GenBankEMBLDDBJ 三大核酸序列数据库三大核酸序列数据库 GenBank特殊类型核酸序列数据库:非编码RNA数据库(ncRNA);表达序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase;tRNAdb等。特殊类型核酸序列数据库:非编码特殊类型核酸序列数据库:非编码RNA数据库(数据库(ncRNA););基因组相关数据库:人类基因组数据库(HGD):Human Genome Diversity Project.基因组序列数据库(GSDB);基因组在线数据库(GOLD):Genomes Online Database:a monitor of genome projects world-wide.基因组相关数据库:人类基因组数据库(基因组相关数据库:人类基因组数据库(HGD):Human G核酸三维结构数据库:核苷酸三维结构数据库(NDB);普纳大学核酸结构数据库(BNASDB)等。核酸三维结构数据库:核苷酸三维结构数据库(核酸三维结构数据库:核苷酸三维结构数据库(NDB););基因表达数据库:基因表达库(GEO);斯坦福微阵列数据库(SMD);ArrayExpress;CGED;GXD;BodyMap 等。基因表达数据库:基因表达库(基因表达数据库:基因表达库(GEO););人类基因突变及疾病相关数据库:人类基因变异数据库(人类基因变异数据库(人类基因变异数据库(人类基因变异数据库(HMGDHMGD)、人类遗传双等位基因序、人类遗传双等位基因序、人类遗传双等位基因序、人类遗传双等位基因序列数据库(列数据库(列数据库(列数据库(HGBASEHGBASE)、)、)、)、人类孟德尔遗传在线(人类孟德尔遗传在线(人类孟德尔遗传在线(人类孟德尔遗传在线(OMIMOMIM)、国际单体型计划(国际单体型计划(国际单体型计划(国际单体型计划(HapMapHapMap)、人类单核苷酸多态性数据人类单核苷酸多态性数据人类单核苷酸多态性数据人类单核苷酸多态性数据库(库(库(库(dbSNPdbSNP)、肿瘤基因数据库(、肿瘤基因数据库(、肿瘤基因数据库(、肿瘤基因数据库(TGDBTGDB)、疾病关联数)、疾病关联数)、疾病关联数)、疾病关联数据库(据库(据库(据库(GADGAD)、)、)、)、癌症基因数据库(癌症基因数据库(癌症基因数据库(癌症基因数据库(CGAPCGAP、CGCICGCI)、人、人、人、人类表观遗传数据库(类表观遗传数据库(类表观遗传数据库(类表观遗传数据库(HEPHEP)、人类)、人类)、人类)、人类DNADNA甲基化与癌症数据甲基化与癌症数据甲基化与癌症数据甲基化与癌症数据库(库(库(库(MethylCancerMethylCancer)等。)等。)等。)等。人类基因突变及疾病相关数据库:人类基因变异数据库(人类基因突变及疾病相关数据库:人类基因变异数据库(HMGD)一、GenBank数据库 GenBank()是一个综合数据库,该数据()是一个综合数据库,该数据库中包含了已经公开的库中包含了已经公开的30万余种不同物种万余种不同物种生物的核酸序列,这些数据主要来源于全生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。世界不同实验室和大规模测序计划项目。一、一、GenBank数据库数据库 GenBank()是一个综合数据库()是一个综合数据库GenBankGenBank是具有目录和生物学注释的核酸序列综是具有目录和生物学注释的核酸序列综是具有目录和生物学注释的核酸序列综是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(兰国家健康研究所(兰国家健康研究所(兰国家健康研究所(NIHNIH)。)。)。)。GenBankGenBank数据库的数据库的数据库的数据库的序列数据来源于序列发现者提交的序列、批量提交序列数据来源于序列发现者提交的序列、批量提交序列数据来源于序列发现者提交的序列、批量提交序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(的表达序列标签(的表达序列标签(的表达序列标签(expressed sequence tag,expressed sequence tag,ESTEST)、基因组测序序列()、基因组测序序列()、基因组测序序列()、基因组测序序列(genome survey genome survey sequence,GSSsequence,GSS)和其他测序中心提供的高通量)和其他测序中心提供的高通量)和其他测序中心提供的高通量)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的数据,还包括美国专利商标局提供的已发表专利的数据,还包括美国专利商标局提供的已发表专利的数据,还包括美国专利商标局提供的已发表专利的序列数据。序列数据。序列数据。序列数据。GenBank是具有目录和生物学注释的核酸序列综合数据库,由是具有目录和生物学注释的核酸序列综合数据库,由GenBank数据库每天与欧洲分子生物学实数据库每天与欧洲分子生物学实验室的核酸序列数据库(验室的核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL)和日本的)和日本的DNA数据库(数据库(DNA Data Bank of Japan DDBJ)进行数据交换,)进行数据交换,以保证数据库内容在全世界范围的同步性。以保证数据库内容在全世界范围的同步性。GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据数据库每天与欧洲分子生物学实验室的核酸序列数据在在在在NCBINCBI()的主页上提供了进入()的主页上提供了进入()的主页上提供了进入()的主页上提供了进入GenBankGenBank的路的路的路的路径、相关检索和分析服务。径、相关检索和分析服务。径、相关检索和分析服务。径、相关检索和分析服务。通过通过通过通过NCBINCBI的检索系统(的检索系统(的检索系统(的检索系统(EntrezEntrez)可以进入)可以进入)可以进入)可以进入GenBankGenBank。EntrezEntrez检索程序整合了主要的检索程序整合了主要的检索程序整合了主要的检索程序整合了主要的DNADNA和蛋白序列数据的分类学、基因组、图谱、蛋白和蛋白序列数据的分类学、基因组、图谱、蛋白和蛋白序列数据的分类学、基因组、图谱、蛋白和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的结构和结构(功能)域信息,还包括相关的结构和结构(功能)域信息,还包括相关的结构和结构(功能)域信息,还包括相关的PubMedPubMed的生物医学文献信息。的生物医学文献信息。的生物医学文献信息。的生物医学文献信息。BLASTBLAST程序提供程序提供程序提供程序提供GenBankGenBank和其他序列数据库中序和其他序列数据库中序和其他序列数据库中序和其他序列数据库中序列相似性搜索服务。列相似性搜索服务。列相似性搜索服务。列相似性搜索服务。在在NCBI()的主页上提供了进入()的主页上提供了进入GenBank的路径、相关检的路径、相关检(一)GenBank数据库结构 1.依据序列的物种来源分类依据序列的物种来源分类 2.Genbank记录和分类记录和分类 2.1 2.1 表达序列标签表达序列标签表达序列标签表达序列标签(EST)(EST)2.2 2.2 序列标签位点序列标签位点序列标签位点序列标签位点(STS)(STS)、基因组勘测序列、基因组勘测序列、基因组勘测序列、基因组勘测序列(GSS)(GSS)和和和和环境样品序列环境样品序列环境样品序列环境样品序列(ENV)(ENV)2.3 2.3 高通量基因组高通量基因组高通量基因组高通量基因组(HTG)(HTG)和高通量和高通量和高通量和高通量cDNA(HTC)cDNA(HTC)序列序列序列序列 2.4 2.4 全基因组鸟枪测序序列全基因组鸟枪测序序列全基因组鸟枪测序序列全基因组鸟枪测序序列(WGS)(WGS)2.5 2.5 转录组鸟枪组合序列转录组鸟枪组合序列转录组鸟枪组合序列转录组鸟枪组合序列 (一)(一)GenBank数据库结构数据库结构 1.依据序列的物种来源分类依据序列的物种来源分类(一)GenBank数据库结构3.特殊记录类型特殊记录类型3.1 3.1 第三方注释(第三方注释(第三方注释(第三方注释(TPATPA)3.2 GenBank CON3.2 GenBank CON记录记录记录记录 较小记录组合记录较小记录组合记录较小记录组合记录较小记录组合记录 (一)(一)GenBank数据库结构数据库结构3.特殊记录类型特殊记录类型(二)构建数据库1直接电子提交 1.1 1.1 使用使用BankItBankIt提交提交 1.2 1.2 使用使用SequinSequin和和tbl2asntbl2asn提交提交 1.3 1.3 条形码序列提交条形码序列提交 2.序列标识符和记录号(二)构建数据库(二)构建数据库1直接电子提交直接电子提交(三)检索GenBank数据1.Entrez1.Entrez系统系统系统系统 ()()()()2.2.与测序计划检索相关的序列记录与测序计划检索相关的序列记录与测序计划检索相关的序列记录与测序计划检索相关的序列记录 ()()()()3.BLAST 3.BLAST 序列相似性搜索序列相似性搜索序列相似性搜索序列相似性搜索 ()()()()4.4.用用用用FTPFTP获取获取获取获取GenBank GenBank()()()()(三)检索(三)检索GenBank数据数据1.Entrez系统系统()()二、EMBL数据库EMBL建立于1980年,EMBL核苷序列数据库(http:/)是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ(Japan)和GenBank(USA)交换的数据。二、二、EMBL数据库数据库EMBL建立于建立于1980年,年,EMBL核苷序列核苷序列三、DDBJ数据库 日本日本日本日本DNADNA数据库(数据库(数据库(数据库(DDBJDDBJ)是在亚洲唯一的核酸)是在亚洲唯一的核酸)是在亚洲唯一的核酸)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列序列数据库,是搜集研究者公认的测定核酸序列序列数据库,是搜集研究者公认的测定核酸序列序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核的数据库,并且发放给数据提交者国际认证的核的数据库,并且发放给数据提交者国际认证的核的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于酸序列编号。由于酸序列编号。由于酸序列编号。由于DDBJDDBJ每天将搜集的数据与每天将搜集的数据与每天将搜集的数据与每天将搜集的数据与EMBL-Bank/EBIEMBL-Bank/EBI和和和和GenBank/NCBIGenBank/NCBI进行交换,进行交换,进行交换,进行交换,使得三个核酸数据库几乎在任何时候都享有相同使得三个核酸数据库几乎在任何时候都享有相同使得三个核酸数据库几乎在任何时候都享有相同使得三个核酸数据库几乎在任何时候都享有相同数据。数据。数据。数据。DDBJDDBJ主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国列数据,但也收集数据和发放编号给任何其他国列数据,但也收集数据和发放编号给任何其他国列数据,但也收集数据和发放编号给任何其他国家的研究者。家的研究者。家的研究者。家的研究者。三、三、DDBJ数据库数据库 日本日本DNA数据库(数据库(DDBJ)是在亚洲唯一)是在亚洲唯一四、其他重要的核酸序列数据库dbESTdbEST:dbESTdbEST是是是是GenBankGenBank中的一个子数据库,中的一个子数据库,中的一个子数据库,中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列包含来源于不同物种的表达序列数据和表达序列包含来源于不同物种的表达序列数据和表达序列包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。标签序列的其他信息。标签序列的其他信息。标签序列的其他信息。ncRNAdbncRNAdb:非编码:非编码:非编码:非编码RNARNA(non-coding RNA non-coding RNA ncRNAncRNA)数据库旨在提供非编码)数据库旨在提供非编码)数据库旨在提供非编码)数据库旨在提供非编码RNARNA的序列和功的序列和功的序列和功的序列和功能信息。能信息。能信息。能信息。miRBasemiRBase:miRBasemiRBase序列数据库主要存放已发序列数据库主要存放已发序列数据库主要存放已发序列数据库主要存放已发表的微小表的微小表的微小表的微小RNARNA(microRNA miRNA)microRNA miRNA)序列和注释序列和注释序列和注释序列和注释的数据库。的数据库。的数据库。的数据库。四、其他重要的核酸序列数据库四、其他重要的核酸序列数据库dbEST:dbEST是是GenB第三节 蛋白质序列数据库Section 3 Protein Sequence Database 随着分子生物学的发展,人们获得了越来越多关随着分子生物学的发展,人们获得了越来越多关随着分子生物学的发展,人们获得了越来越多关随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的于蛋白质序列、结构和功能的信息。世界各国的于蛋白质序列、结构和功能的信息。世界各国的于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建生物学家和计算机科学家合作利用这些信息构建生物学家和计算机科学家合作利用这些信息构建生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、了蛋白质序列数据库、蛋白质三维结构数据库、了蛋白质序列数据库、蛋白质三维结构数据库、了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号蛋白质组数据库(二维凝胶电泳数据库)、信号蛋白质组数据库(二维凝胶电泳数据库)、信号蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质传导及蛋白质传导及蛋白质传导及蛋白质-蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、DNADNA和蛋白质相互作用数据库等蛋白质相关数据库。和蛋白质相互作用数据库等蛋白质相关数据库。和蛋白质相互作用数据库等蛋白质相关数据库。和蛋白质相互作用数据库等蛋白质相关数据库。第三节第三节 蛋白质序列数据库蛋白质序列数据库Section 3 Protei常用的蛋白质序列数据库:PIRMIPSSwiss-Prot 常用的蛋白质序列数据库:常用的蛋白质序列数据库:PIR蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITEInterProPfamProDomSMART 等 蛋白质功能、结构域和蛋白质家族有关的数据库:蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITE蛋白质三维结构相关数据库:PDBPDBBioMagResBankBioMagResBankSWISS-MODEL RepositorySWISS-MODEL RepositoryModBaseModBaseCATHCATHSCOPSCOPReLiBaseReLiBaseTOPSTOPSSWISS-3DIMAGESWISS-3DIMAGEBioImageBioImage等等 蛋白质三维结构相关数据库:蛋白质三维结构相关数据库:PDB蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretix links 蛋白质二维凝胶电泳数据库:蛋白质二维凝胶电泳数据库:WORLD-2DPAGE信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等信号传导及蛋白质信号传导及蛋白质-蛋白质相互作用相关数据库:蛋白质相互作用相关数据库:DIPDNA和蛋白质相互作用数据库:DPInteract蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质DNA和蛋白质相互作用数据库:和蛋白质相互作用数据库:DPInteract一、PIR数据库蛋白质信息库(蛋白质信息库(PIRPIR)()是一个支持基因组学、)()是一个支持基因组学、蛋白质组学和系统生物学检索和科学研究的综合蛋白质组学和系统生物学检索和科学研究的综合公共生物信息学资源。公共生物信息学资源。PIRPIR是由美国国家生物医学基金会(是由美国国家生物医学基金会(NBRFNBRF)于)于19841984年建立,帮助研究者确认和解释蛋白序列信年建立,帮助研究者确认和解释蛋白序列信息的数据库。息的数据库。PIRPIR免费为科学界提供包括蛋白序列数据库免费为科学界提供包括蛋白序列数据库(PSDPSD)在内的蛋白数据库和分析工具。)在内的蛋白数据库和分析工具。一、一、PIR数据库蛋白质信息库(数据库蛋白质信息库(PIR)()是一个支持基因组学)()是一个支持基因组学PIR信息库资源 PIR信息库资源信息库资源 PIR主要数据库:1.UniProt-通用蛋白质资源库2.iProClass-蛋白质知识整合数据库 3.PIRSF-蛋白质家族分类系统 4.iProLINK-蛋白质文献、信息和知识整合数据库 PIR主要数据库:主要数据库:1.UniProt-通用蛋白质资源库通用蛋白质资源库1.UniProt-1.UniProt-通用蛋白质资源库通用蛋白质资源库通用蛋白质资源库通用蛋白质资源库 UniProtUniProt()是存()是存()是存()是存储和链接其他蛋白质数据库的资源库,并且是蛋储和链接其他蛋白质数据库的资源库,并且是蛋储和链接其他蛋白质数据库的资源库,并且是蛋储和链接其他蛋白质数据库的资源库,并且是蛋白质序列和具有综合功能注释目录的中心资源库。白质序列和具有综合功能注释目录的中心资源库。白质序列和具有综合功能注释目录的中心资源库。白质序列和具有综合功能注释目录的中心资源库。使用使用使用使用UniprotKBUniprotKB可以检索准确、可靠的蛋白综合可以检索准确、可靠的蛋白综合可以检索准确、可靠的蛋白综合可以检索准确、可靠的蛋白综合信息。使用信息。使用信息。使用信息。使用UniRefUniRef可以减少冗余,加速序列相似可以减少冗余,加速序列相似可以减少冗余,加速序列相似可以减少冗余,加速序列相似性搜索。使用性搜索。使用性搜索。使用性搜索。使用UniParcUniParc可以检索存档序列和它们可以检索存档序列和它们可以检索存档序列和它们可以检索存档序列和它们来源的数据库。来源的数据库。来源的数据库。来源的数据库。1.UniProt-通用蛋白质资源库通用蛋白质资源库 UniProt()是()是2.iProClass-2.iProClass-蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库 iProClassiProClass()()()()提供来自提供来自提供来自提供来自9090多个生物学数据库的大量整合数据,包多个生物学数据库的大量整合数据,包多个生物学数据库的大量整合数据,包多个生物学数据库的大量整合数据,包括蛋白括蛋白括蛋白括蛋白IDID图谱服务、图谱服务、图谱服务、图谱服务、UniProtKBUniProtKB编注蛋白质摘要描编注蛋白质摘要描编注蛋白质摘要描编注蛋白质摘要描述和筛选述和筛选述和筛选述和筛选UnParcUnParc数据库的蛋白质序列。使用数据库的蛋白质序列。使用数据库的蛋白质序列。使用数据库的蛋白质序列。使用iProClassiProClass可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(因组、功能注释标准体系(因组、功能注释标准体系(因组、功能注释标准体系(ontologyontology)、文献和分)、文献和分)、文献和分)、文献和分类学信息。使用类学信息。使用类学信息。使用类学信息。使用iProClassiProClass还可以检索还可以检索还可以检索还可以检索IDID图谱、蛋图谱、蛋图谱、蛋图谱、蛋白质词典和相关序列。白质词典和相关序列。白质词典和相关序列。白质词典和相关序列。2.iProClass-蛋白质知识整合数据库蛋白质知识整合数据库 iProC3.PIRSF-蛋白质家族分类系统蛋白质家族分类系统 PIRSF()()分类系统概要论述家族的特征,如家族名分类系统概要论述家族的特征,如家族名称、分类分布、分级和功能域结构,以及称、分类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通路、家族成员,包括功能、结构、传导通路、功能注释标准体系(功能注释标准体系(ontology)和家族分)和家族分类。利用这些信息可以获得蛋白质的准确类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族成功能或预测的功能和该蛋白质所属家族成员共有的其他特征。员共有的其他特征。3.PIRSF-蛋白质家族分类系统蛋白质家族分类系统 PIRSF()分类系()分类系4.iProLINK-4.iProLINK-蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库 iProLINKiProLINK()提供有关注释内容的文献、蛋白质名称词典和其他有()提供有关注释内容的文献、蛋白质名称词典和其他有()提供有关注释内容的文献、蛋白质名称词典和其他有()提供有关注释内容的文献、蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校助于文献挖掘的人文语言处理技术开发的信息、数据库校助于文献挖掘的人文语言处理技术开发的信息、数据库校助于文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(正、蛋白质名称标记和功能注释标准体系(正、蛋白质名称标记和功能注释标准体系(正、蛋白质名称标记和功能注释标准体系(ontologyontology)。)。)。)。使用使用使用使用iProLINKiProLINK可以获得描述蛋白质记录的文本文献资源,可以获得描述蛋白质记录的文本文献资源,可以获得描述蛋白质记录的文本文献资源,可以获得描述蛋白质记录的文本文献资源,在在在在UniProtKBUniProtKB记录(生物词典)中加入蛋白质或基因命名记录(生物词典)中加入蛋白质或基因命名记录(生物词典)中加入蛋白质或基因命名记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(蛋白质磷酸化(蛋白质磷酸化(蛋白质磷酸化(RLIMS-PRLIMS-P)文献和获得蛋白质功能注释)文献和获得蛋白质功能注释)文献和获得蛋白质功能注释)文献和获得蛋白质功能注释标准体系(标准体系(标准体系(标准体系(ontologyontology)()()()(PROPRO)信息。)信息。)信息。)信息。4.iProLINK-蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库 二、MIPS数据库慕尼黑蛋白质序列信息中心(慕尼黑蛋白质序列信息中心(慕尼黑蛋白质序列信息中心(慕尼黑蛋白质序列信息中心(MIPSMIPS)(),它的重点工作是)(),它的重点工作是)(),它的重点工作是)(),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应基因组生物信息学,特别注重基因组信息系统分析,包括应基因组生物信息学,特别注重基因组信息系统分析,包括应基因组生物信息学,特别注重基因组信息系统分析,包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面用生物信息学方法注释基因组、表达分析和蛋白质组学方面用生物信息学方法注释基因组、表达分析和蛋白质组学方面用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。研究。研究。研究。MIPSMIPS支持和维护一系列基因组数据库以及系统,可以支持和维护一系列基因组数据库以及系统,可以支持和维护一系列基因组数据库以及系统,可以支持和维护一系列基因组数据库以及系统,可以提供细菌、真菌和植物基因组比较分析服务。在该站点提供提供细菌、真菌和植物基因组比较分析服务。在该站点提供提供细菌、真菌和植物基因组比较分析服务。在该站点提供提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作基因组分析工具、数据库检索系统、表达分析、蛋白相互作基因组分析工具、数据库检索系统、表达分析、蛋白相互作基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。用等网络服务。用等网络服务。用等网络服务。二、二、MIPS数据库慕尼黑蛋白质序列信息中心(数据库慕尼黑蛋白质序列信息中心(MIPS)(),)(),三、其他重要的蛋白质序列数据库:PRINTSPfam三、其他重要的蛋白质序列数据库:三、其他重要的蛋白质序列数据库:PRINTS(一)PRINTSPRINTSPRINTS()是蛋白基序指纹图综合数据库,每个指纹图()是蛋白基序指纹图综合数据库,每个指纹图()是蛋白基序指纹图综合数据库,每个指纹图()是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序都是使用数据扫描程序都是使用数据扫描程序都是使用数据扫描程序ADSPADSP或或或或VISTASVISTAS序列分析软件包序列分析软件包序列分析软件包序列分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指反复优化后定义的。数据库中有两种类型指纹图,根据指反复优化后定义的。数据库中有两种类型指纹图,根据指反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分为简单和复合指纹图:简单指纹图基本上纹图的复杂性分为简单和复合指纹图:简单指纹图基本上纹图的复杂性分为简单和复合指纹图:简单指纹图基本上纹图的复杂性分为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。是单一的基序,而复合指纹图包含多个基序。是单一的基序,而复合指纹图包含多个基序。是单一的基序,而复合指纹图包含多个基序。(一)(一)PRINTS(二)Pfam蛋白质一般是由一个或多个功能区域组成,这些蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作域(功能区域通常称作域(domaindomain)。在不同的蛋白)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界质中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。白质中的域可以了解蛋白质的功能。PfamPfam数据库()是一个大的蛋白质域家族集合,数据库()是一个大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(每个家族是用多序列比对和隐马模型(HMMsHMMs)分)分析结果的代表。析结果的代表。(二)(二)Pfam第四节 NCBI与EBISection 4 NCBI and EBI一、NCBI的简介二、EBI简介第四节第四节 NCBI与与EBISection 4 NCBI a一、NCBI的简介作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,NCBINCBI的使命的使命的使命的使命是开发新的信息技术,帮助理解控制健康和疾病是开发新的信息技术,帮助理解控制健康和疾病是开发新的信息技术,帮助理解控制健康和疾病是开发新的信息技术,帮助理解控制健康和疾病的基本分子和遗传过程。特别是,的基本分子和遗传过程。特别是,的基本分子和遗传过程。特别是,的基本分子和遗传过程。特别是,NCBINCBI肩负建立肩负建立肩负建立肩负建立存储和分析分子生物学、生物化学和遗传学知识存储和分析分子生物学、生物化学和遗传学知识存储和分析分子生物学、生物化学和遗传学知识存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供研究和医学界使用方便的数据的自动系统;提供研究和医学界使用方便的数据的自动系统;提供研究和医学界使用方便的数据的自动系统;提供研究和医学界使用方便的数据库和软件;努力协调搜集国内外生物技术信息;库和软件;努力协调搜集国内外生物技术信息;库和软件;努力协调搜集国内外生物技术信息;库和软件;努力协调搜集国内外生物技术信息;执行分析生物学重要分子结构和功能的先进研究执行分析生物学重要分子结构和功能的先进研究执行分析生物学重要分子结构和功能的先进研究执行分析生物学重要分子结构和功能的先进研究方法。方法。方法。方法。一、一、NCBI的简介作为一个国家分子生物学信息资源,的简介作为一个国家分子生物学信息资源,NCBI的的二、EBI简介欧洲生物信息学研究所(欧洲生物信息学研究所(欧洲生物信息学研究所(欧洲生物信息学研究所(EMBL-EBIEMBL-EBI),是欧洲分子生物学),是欧洲分子生物学),是欧洲分子生物学),是欧洲分子生物学实验室(实验室(实验室(实验室(EMBLEMBL)的一部分,)的一部分,)的一部分,)的一部分,EMBL-EBIEMBL-EBI维护世界上最广泛维护世界上最广泛维护世界上最广泛维护世界上最广泛的分子数据库。的分子数据库。的分子数据库。的分子数据库。EMBL-EBIEMBL-EBI是在全球范围内,努力协调搜集是在全球范围内,努力协调搜集是在全球范围内,努力协调搜集是在全球范围内,努力协调搜集和传播生物学数据的欧洲节点,和传播生物学数据的欧洲节点,和传播生物学数据的欧洲节点,和传播生物学数据的欧洲节点,EMBL-EBIEMBL-EBI的许多数据库是的许多数据库是的许多数据库是的许多数据库是生物学家们熟知的,包括:生物学家们熟知的,包括:生物学家们熟知的,包括:生物学家们熟知的,包括:EMBL-BankEMBL-Bank(DNADNA和和和和RNARNA序列)序列)序列)序列)、EnsembleEnsemble(基因组)、(基因组)、(基因组)、(基因组)、ArrayExpressArrayExpress(基于微阵列的基(基于微阵列的基(基于微阵列的基(基于微阵列的基因表达数据)、因表达数据)、因表达数据)、因表达数据)、UniProtUniProt(蛋白质序列)、(蛋白质序列)、(蛋白质序列)、(蛋白质序列)、InterProInterPro(蛋白(蛋白(蛋白(蛋白家族、域和基序)、家族、域和基序)、家族、域和基序)、家族、域和基序)、ReactomeReactome(传导通路)和(传导通路)和(传导通路)和(传导通路)和ChEBIChEBI(小(小(小(小分子),新的资源帮助研究者不仅了解构成生物体的分子部分子),新的资源帮助研究者不仅了解构成生物体的分子部分子),新的资源帮助研究者不仅了解构成生物体的分子部分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。件,还了解这些部件是如何组合构成系统的。件,还了解这些部件是如何组合构成系统的。件,还了解这些部件是如何组合构成系统的。二、二、EBI简介欧洲生物信息学研究所(简介欧洲生物信息学研究所(EMBL-EBI),是欧),是欧三、通过Entrez Gene从NCBI获取序列信息EntrezEntrez主要是用于主要是用于主要是用于主要是用于NCBINCBI数据库综合的、基于文数据库综合的、基于文数据库综合的、基于文数据库综合的、基于文本的搜索和检索系统。本的搜索和检索系统。本的搜索和检索系统。本的搜索和检索系统。EntrezEntrez综合了科学文献、综合了科学文献、综合了科学文献、综合了科学文献、DNADNA和蛋白序列数据、和蛋白序列数据、和蛋白序列数据、和蛋白序列数据、3D3D蛋白质结构和蛋白质域蛋白质结构和蛋白质域蛋白质结构和蛋白质域蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完整基因组数据、种群研究数据集、表达数据、完整基因组数据、种群研究数据集、表达数据、完整基因组数据、种群研究数据集、表达数据、完整基因组组装和分类学信息,形成一个紧密链接的系统。组装和分类学信息,形成一个紧密链接的系统。组装和分类学信息,形成一个紧密链接的系统。组装和分类学信息,形成一个紧密链接的系统。它用于搜索它用于搜索它用于搜索它用于搜索NCBINCBI链接数据库的检索系统。链接数据库的检索系统。链接数据库的检索系统。链接数据库的检索系统。三、通过三、通过Entrez Gene从从NCBI获取序列信息获取序列信息EntrEntrez检索系统子数据库 Entrez检索系统子数据库检索系统子数据库(一)Entrez Gene 检索 Entrez GeneEntrez Gene检索到的记录提供关键链接,将图检索到的记录提供关键链接,将图检索到的记录提供关键链接,将图检索到的记录提供关键链接,将图谱、序列、表达、结构、功能、索引文献和同源谱、序列、表达、结构、功能、索引文献和同源谱、序列、表达、结构、功能、索引文献和同源谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接。用定义序列、已数据链接在一起构成关键链接。用定义序列、已数据链接在一起构成关键链接。用定义序列、已数据链接在一起构成关键链接。用定义序列、已知的图谱定位和从表型信息推测的基因,为基因知的图谱定位和从表型信息推测的基因,为基因知的图谱定位和从表型信息推测的基因,为基因知的图谱定位和从表型信息推测的基因,为基因分配特有标识符。这些标识符在分配特有标识符。这些标识符在分配特有标识符。这些标识符在分配特有标识符。这些标识符在NCBINCBI的数据库中的数据库中的数据库中的数据库中通用,可以用于注释更新跟踪和相关信息跟踪。通用,可以用于注释更新跟踪和相关信息跟踪。通用,可以用于注释更新跟踪和相关信息跟踪。通用,可以用于注释更新跟踪和相关信息跟踪。Entrez GeneEntrez Gene用用用用NCBINCBI参考序列(参考序列(参考序列(参考序列(RefSeqsRefSeqs)覆)覆)覆)覆盖了基因组,还被整合到盖了基因组,还被整合到盖了基因组,还被整合到盖了基因组,还被整合到NCBINCBI的的的的EntrezEntrez和和和和E-E-UtilitiesUtilities系统的索引、查询和检索中。系统的索引、查询和检索中。系统的索引、查询和检索中。系统的索引、查询和检索中。(一)(一)Entrez Gene 检索检索 Entrez Gene检检NCBI检索首页检索窗口的数据库选项下拉菜单 NCBI检索首页检索窗口的数据库检索首页检索窗口的数据库选项下拉菜单选项下拉菜单 检索栏(for)输入“IL-2 human”检索栏(检索栏(for)输入)输入“IL-2 human”(二)Entrez Gene记录显示格式 当进行检索时,检索结果以摘要(当进行检索时,检索结果以摘要(当进行检索时,检索结果以摘要(当进行检索时,检索结果以摘要(summarysummary)格式显示,)格式显示,)格式显示,)格式显示,每页可显示多条记录,摘要显示的每条记录前有一个选择每页可显示多条记录,摘要显示的每条记录前有一个选择每页可显示多条记录,摘要显示的每条记录前有一个选择每页可显示多条记录,摘要显示的每条记录前有一个选择框,可以选择哪些记录需要显示。显示内容还包括首选名框,可以选择哪些记录需要显示。显示内容还包括首选名框,可以选择哪些记录需要显示。显示内容还包括首选名框,可以选择哪些记录需要显示。显示内容还包括首选名称标志、完整全名、双单词的物种名称(在方括号中)、称标志、完整全名、双单词的物种名称(在方括号中)、称标志、完整全名、双单词的物种名称(在方括号中)、称标志、完整全名、双单词的物种名称(在方括号中)、基因组定位和基因编号。如果基因在已命名的质粒上,那基因组定位和基因编号。如果基因在已命名的质粒上,那基因组定位和基因编号。如果基因在已命名的质粒上,那基因组定位和基因编号。如果基因在已命名的质粒上,那么作为基因定位将给出质粒名称。右侧的么作为基因定位将给出质粒名称。右侧的么作为基因定位将给出质粒名称。右侧的么作为基因定位将给出质粒名称。右侧的LinksLinks可以关联可以关联可以关联可以关联到显示相关的到显示相关的到显示相关的到显示相关的EntrezEntrez记录,核对希望显示的记录,选择灰记录,核对希望显示的记录,选择灰记录,核对希望显示的记录,选择灰记录,核对希望显示的记录,选择灰色查询条目中的显示选项,可以显示希望显示的相关记录。色查询条目中的显示选项,可以显示希望显示的相关记录。色查询条目中的显示选项,可以显示希望显示的相关记录。色查询条目中的显示选项,可以显示希望显示的相关记录。(二)(二)Entrez Gene记录显示格式记录显示格式 当进行检索时,检索当进行检索时,检索Entrez Gene检索结果摘要格式显示页面 Entrez Gene检索结果摘要格式显示页面检索结果摘要格式显示页面 Entrez Gene全文报告页面(前部分)Entrez Gene全文报告页面全文报告页面(前部分)(前部分)Entrez GeneEntrez Gene全文报告页面全文报告页面 (后部分)(后部分)Entrez Gene全文报告页面全文报告页面(后部分)(后部分)IL2 mRNA IL2 mRNA 的的的的NucleotideNucleotide数据库记录检索结果显示界面数据库记录检索结果显示界面数据库记录检索结果显示界面数据库记录检索结果显示界面 IL2 mRNA 的的Nucleotide数据库记录检索结果数据库记录检索结果(三)Nucleotide数据库记录显示格式 NucleotideNucleotide数据库记录的显示结果,可以数据库记录的显示结果,可以GenBankGenBank、FASTAFASTA、GraphicsGraphics和和ASN.1ASN.1格式显示,序列信息通格式显示,序列信息通常用常用FASTAFASTA和和GenBankGenBank两种格式显示,两种格式显示,FASTAFASTA格式格式仅包括该序列的简要特征,并以仅包括该序列的简要特征,并以G G、A A、T T、C C四种四种碱基列出核苷酸序列,简单明了。而碱基列出核苷酸序列,简单明了。而GenBankGenBank格格式可显示较完整的基因序列记录,反映核苷酸序式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。列的详细信息。(三)(三)Nucleotide数据库记录显示格式数据库记录显示格式 Nucleot四、通过SRS从EBI中获取蛋白质序列信息 SRSSRS()是世界上主要的生物信息学、基因组和相关数据()是世界上主要的生物信息学、基因组和相关数据()是世界上主要的生物信息学、基因组和相关数据()是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。整合、分析和显示工具。整合、分析和显示工具。整合、分析和显示工具。SRSSRS检索系统是个开放的系统,检索系统是个开放的系统,检索系统是个开放的系统,检索系统是个开放的系统,可以根据不同的需要安装不同的数据库,现在,安装在可以根据不同的需要安装不同的数据库,现在,安装在可以根据不同的需要安装不同的数据库,现在,安装在可以根据不同的需要安装不同的数据库,现在,安装在EBIEBI的数据库有的数据库有的数据库有的数据库有300300多个。多个。多个。多个。SRSSRS有三种检索方式:快速检索、标准检索和批量检索。有三种检索方式:快速检索、标准检索和批量检索。有三种检索方式:快速检索、标准检索和批量检索。有三种检索方式:快速检索、标准检索和批量检索。四、通过四、通过SRS从从EBI中获取蛋白质序列信息中获取蛋白质序列信息 SRS()是世界()是世界SRS开始页面 SRS开始页面开始页面 SRS快速文本检索窗口 SRS快速文本检索窗口快速文本检索窗口 SRS检索结果页面显示的检索结果 SRS检索结果页面显示的检索结果检索结果页面显示的检索结果 SRS蛋白质记录详细内容页面 SRS蛋白质记录详细内容页面蛋白质记录详细内容页面 SRS蛋白质序列显示窗口 SRS蛋白质序列显示窗口蛋白质序列显示窗口 SRS标准检索页面 SRS标准检索页面标准检索页面 SRSSRS标准检索页面检索基因名为标准检索页面检索基因名为标准检索页面检索基因名为标准检索页面检索基因名为“KRASKRAS”蛋白序列输入示意图蛋白序列输入示意图蛋白序列输入示意图蛋白序列输入示意图 SRS标准检索页面检索基因名为标准检索页面检索基因名为“KRAS”蛋白序列输入示意图蛋白序列输入示意图SRS标准检索结果输出页面 SRS标准检索结果输出页面标准检索结果输出页面 小 结 本章介绍了生物信息学常用的数据库和重要网站,重点介绍了本章介绍了生物信息学常用的数据库和重要网站,重点介绍了本章介绍了生物信息学常用的数据库和重要网站,重点介绍了本章介绍了生物信息学常用的数据库和重要网站,重点介绍了三大核酸数据库:三大核酸数据库:三大核酸数据库:三大核酸数据库:GenBankGenBank数据库、数据库、数据库、数据库、EMBLEMBL数据库和数据库和数据库和数据库和DDBJDDBJ数数数数据库。据库。据库。据库。NCBI NCBI 的的的的Entrez GeneEntrez Gene将分类、基因组、图谱、序列、表达、将分类、基因组、图谱、序列、表达、将分类、基因组、图谱、序列、表达、将分类、基因组、图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起,为用户提供了结构、功能、索引文献和同源数据链接在一起,为用户提供了结构、功能、索引文献和同源数据链接在一起,为用户提供了结构、功能、索引文献和同源数据链接在一起,为用户提供了便捷的检索方式。便捷的检索方式。便捷的检索方式。便捷的检索方式。EBIEBI的的的的SRSSRS检索系统是世界上主要的生物信息学、基因组和相检索系统是世界上主要的生物信息学、基因组和相检索系统是世界上主要的生物信息学、基因组和相检索系统是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。关数据整合、分析和显示工具。关数据
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!