资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章,分子生物学数据库,第一节 引言,生物分子数据,高速增长,分子生物学,及相关领域研究人员,迅速获得最新实验数据,建立生物分子数据库,生物分子数据库应满足,5,个方面的主要需求,时间性,注释,支撑数据,数据质量,集成性,生物分子数据库几个明显的特征:,(,1,)数据库的更新速度不断加快,数据量呈指数增长趋势,(,2,)数据库使用频率增长更快,(,3,)数据库的复杂程度不断增加,(,4,)数据库网络化,(,5,)面向应用,(,6,)先进的软硬件配置,核酸序列数据的增长趋势,(纵轴代表总的核酸序列长度,单位:百万,bp,),生物分子数据库,一级数据库,数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释,二级数据库,对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的,。,第二节 核酸序列数据库,国际上权威的核酸序列数据库,(,1,)欧洲分子生物学实验室的,EMBL,http:/www.embl-heidelberg.de,(,2,),美国生物技术信息中心的,GenBank,http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html,(,3,),日本遗传研究所的,DDBJ,http:/www.ddbj.nig.ac.jp/,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。,这三个数据库是综合性的,DNA,和,RNA,序列数据库,每条记录代表一个单独、连续、附有注释的,DNA,或,RNA,片段。,以下着重介绍,EBML,EMBL,的数据来源,用户提交,从生物医学杂志收录已发表的序列资料,EMBL,中的数据分类情况(单位:,Gigabases,),(,EST-Expressed sequence tags; STS-sequence tagged sites,),(取自,http:/www3.ebi.ac.uk/Services/DBStats/,),21 Mar 2003,37,943,364,438,bases in,24,353,128,records.,“,ID,”,为序列的标识符行,包括登录号、类型,分子的长度,“,AC,”,为登录号行;,“,XX,”,为分隔符号行;,“,DT,”,为创建和更新日期行,“,DE,”,为序列描述行;,“,KW,”,为关键字行;,“,OG,”,行描述细胞组织;,“,OS,”,行描述生物体种属;,“,OC,”,行描述生物体分类信息;,“,RN,”,描述参考文献的编号,;,“,RP,”,描述,参考文献的页码;,“,RA,”,描述参考文献的作者;,“,RT,”,描述参考文献的题目;,“,RL,”,描述参考文献的出处,;,“,RC,”,描述参考文献的注解;,“,RX,”,、,“,DR,”,行描述交叉引用信息;,“,FH,”,为特征开始符号;,“,FT,”,为特征表行,(,1,),Feature Key,,它是描述域生物功能的关键字;,(,2,),Location,,指明特征在序列中的特定位置;,(,3,),Qualifiers,,描述关于一个特征的辅助信息;,文件体,由序列本身所组成,由,“,SQ,”,标志的行开始。,序列结束的标记是,“,/,”,。,EMBL,核酸数据库中的每一个序列数据被赋予一个,登录号,它是一个永久性的唯一标识,EMBL,的序列数据用外在的,ASCII,文本文件来表示,而每一个文件分为文件头和文件体两大部分,文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(,annotation,),登录号,日期,序列描述,关键词,物种,分类信息,编号,页码,作者,题目,出处,特征开始符号,特征表行,文件体,提交数据,编辑电子表格,利用,Authorin,程序,利用基于,WWW,网络环境的序列提交系统,使用,EMBL,(,1,),CD-ROM,形式,(,2,),ftp,服务器,(,3,),Gopher,服务器,(,4,),WWW,服务器,这是目前最常用的一种形式,EMBL,提供一些与序列相关的检索操作(基于,3W,服务器),(,1,)序列查询,最简单的查询就是通过序列的,登录号,(如,X58929,),或,序列名称,(如,SCARGC,)直接查询。,如果找到所查询的序列,则服务器将查询结果以,HTML,文件返回给用户,如果数据库中该序列有到,MEDLINE,的交叉索引,则系统同时返回与包含参考文献摘要等信息的,MEDLINE,链接,如果该序列有到其它数据库的交叉索引,也返回相应的链接,例如,:,登录号为,J00231,的核酸序列具有这样一个交叉索引行:,DR,SWISS-PROT,:,P01860,;,GC3_HUMAN,(,2,)核酸同源性搜索,3W,服务器支持用户使用,FastA,或,BLAST,程序进行核酸同源搜索。,FastA,和,BLAST,根据给定的目标序列在数据库中搜索其同源序列。,其他:,SRS,序列查询服务,GenBank,GenBank,是国际上最著名的核酸数据库。,GenBank,数据库,140.0,版(,2004,年,2,月)含有,3000,多万条序列,总长度接近,400,亿对碱基。其序列数据组织方式采用,ASCII,文本文件,主要存放核酸序列数据,同时还有一些辅助文件,存放于序列相关的辅助信息,如作者名、基因名、关键字、参考文献、其他数据库链接等。,2,、基因组数据库(,GDB,),目前,GDB,包含对下述三种对象的描述:,人类基因组区域,包括基因、克隆、,PCR,标记物、断点、细胞遗传学标记、易碎位点、,EST,、综合区域、,contigs,、重复等;,人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、,contig,图谱、集成图谱,所有这些图谱都可以被直观地显示出来;,人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。,-,人类基因组计划所得到的图谱数据,与染色体相关的信息,其它模式生物基因组数据库,如:鼠基因组数据库,MGD,http:/www.informatics.jax.org/,酵母基因组数据库,SGD,http:/genome-www.stanford.edu/Saccharomyces/,3,、人类基因组数据库,Ensembl,Ensembl,(,http:/www.ensembl.org/,),Ensembl,包括所有公开的人类基因组,DNA,序列,通过注释形成的关于序列的特征。 现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。,例如:基,因,通过实验发现的,或者是通过,GenScan,程序预测的,其他的特征:,单核苷酸多态性(,SNP,)、重复序列等,Ensembl,数据库结构图,Ensembl,提供多种查询方式,通过关键字查询,用,BLAST,进行相似序列的搜索,另一种更直观的方式是显示各染色体,用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组,人的第,9,号染色体及大鼠对应的染色体片段,4,、表达序列标记数据库,dbEST,EST,(,Expressed Sequence Tags,)方法已被证明是,识别转录序列,的最有效方法 ,,EST,序列大约覆盖了人类基因的,90%,。,DbEST,(,http:/www.ncbi.nlm.nih.gov/dbEST/,),是,GenBank,的一个部分,该数据库包括不同生物的,EST,序列,数据及其它相关信息,主要是从大量不同组织和器官得到的短,mRNA,片段。,WEB,页面或,email,FTP,有关,EST,的数据,dbEST,数据库,5,、序列标记位点数据库,dbSTS,STS,(,Sequence Tagged Sites,)是序列标记位点,dbSTS,(,http:/www.ncbi.nlm.nih.gov/dbSTS/,),是,NCBI,的一个数据源,包含基因组短标记序列(,STS,),的组成和定位信息。,可以通过,BLAST,搜索,STS,序列。,6,、面向基因聚类数据库,UniGene,UniGene,(,http:/www.ncbi.nlm.nih.gov/UniGene/),数据库将,GenBank,中的序列进行自动分类,形成,面向基因群的非冗余集合。,每个,UniGene,群包含,:,代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱,除了基因的序列之外,还包括大量的,EST,序列。,目前,,UniGene,中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的,EST,数据。,第三节 蛋白质序列数据库,目的:,帮助研究者鉴别和解释蛋白质序列信息,,研究分子进化、功能基因组。,它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。,所有序列数据都经过整理,超过,99%,的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,1,、,PIR,(,Protein Information Resource,),除了蛋白质序列数据之外,,PIR,还包含以下信息:,(1),蛋白质名称、蛋白质的分类、蛋白质的来源;,(2),关于原始数据的参考文献;,(3),蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;,(4),序列中相关的位点、功能区域。,PIR,提供三种类型的检索服务,:,一是基于文本的交互式查询,,用户通过关键字进行数据查询。,二是标准的序列相似性搜索,,包括,BLAST,、,FastA,等。,三是结合序列相似性、注释信息,和蛋白质家族信息的高级搜索,,包括按注释分类的相似性搜索、,结构域搜索等。,三个子数据库,2,、,SWISS-PROT,SWISS-PROT,(,http:/www.expasy.ch/sprot/sprot-top.html,),是目前国际上比较权威的蛋白质序列数据库,其中的蛋白,质序列是经过注释的,SWISS-PROT,中的数据来源于不同源地:,(,1,)从核酸数据库经过翻译推导而来;,(,2,)从蛋白质数据库,PIR,挑选出合适的数据;,(,3,)从科学文献中摘录;,(,4,)研究人员直接提交的蛋白质序列数据,SWISS-PROT,有三个明显的特点,注释,最小冗余,与其它数据库的连接,(,1,)注释,在,SWISS-PROT,中,数据分为核心数据和注释两大类。,核心数据包括:,序列数据、参考文献、分类信息(蛋白质生物来源的描述),注释包括:,蛋白质的功能描述;,翻译后修饰;,域和功能位点,如钙结合区域、,ATP,结合位点等;,蛋白质的二级结构;,蛋白质的四级结构,如同构二聚体、异构三聚体等;,与其它蛋白质的相似性;,由于缺乏该蛋白质而引起的疾病;,序列的矛盾、变化等。,(,2,)最小冗余,尽量将相关的数据归并,降低数据库的冗余程度。,如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(,3,)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。,现有的交叉索引有:,到,EMBL,核酸序列数据库的索引,,到,PROSITE,模式数据库的索引,,到生物大分子结构数据库,PDB,的索引等 。,提交序列数据,(,a,)编辑电子表格,(,b),利用,Authorin,程序,(,c,),WWW,服务器,使用,SWISS-PROT,(,a,),CD-ROM,形式,(,b,),ftp,服务器,(,c,),Gopher,服务器,(,d,),WWW,服务器(,SRS,),与序列相关的操作,(,a,)序列查询,(,b,)搜索同源蛋白质序列,3,、,TrEMBL,TrEMBL,(,http:/www.ebi.ac.uk/trembl/index.html,),是与,SWISS-PROT,相关的一个数据库。,包含从,EMBL,核酸数据库中根据编码序列,(CDS),翻译而得到的蛋白质序列,并且这些序列尚未集成到,SWISS-PROT,数据库中。,TrEMBL,有两个部分:,SP-TrEMBL(SWISS-PROT TrEMBL),包含最终将要集成到,SWISS-PROT,的数据,所有的,SP-TrEMBL,序列都已被赋予,SWISS-PROT,的登录号。,REM-TrEMBL(REMaining TrEMBL),包括所有不准备放入,SWISS-PROT,的数据,因此这部分数据都没有登录号。,包括:,Swiss-Prot,TrEMBL,PIR,用户可以通过文本查询数据库,可以利用,BLAST,程序搜索数据库,也可以直接通过,FTP,下载数据。,4,、蛋白质数据仓库,UniProt,UniProt,包含,3,个部分:,UniProt Knowledgebase,(,UniProt,),蛋白质序列、功能、分类、交叉引用等信息存取中心,UniProt Non-redundant Reference,(,UniRef,)数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度;,UniProt Archive,(,UniParc,)资源库,记录所有蛋白质序列的历史。,第四节 生物大分子结构数据库,1,、,PDB,(,Protein Data Bank,),http:/www.rcsb.org/pdb/,PDB,中含有通过实验(,X,射线晶体衍射,核磁共振,NMR,),测定的生物大分子的三维结构,蛋白质,核酸,糖类,其它复合物,一种是显式序列信息(,explicit sequence,),在,PDB,文件中,以关键字,SEQRES,作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。,一种是隐式序列信息,(implicit sequence),PDB,的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,HEADER HYDROLASE 19-FEB-97 1ADZ,TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF,TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES,COMPND MOL_ID: 1;,COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR;,。,COMPND 8 BIOLOGICAL_UNIT: MONOMER,SOURCE MOL_ID: 1;,。,SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG,KEYWDS HYDROLASE, INHIBITOR, COAGULATION,EXPDTA NMR, 30 STRUCTURES,AUTHOR M.J.M.BURGERING,L.P.M.ORBONS,REVDAT 1 25-FEB-98 1ADZ 0,JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN,。,REMARK 1 REFERENCE 1,REMARK 1 AUTH M.T.STUBBS II,REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION,。,REMARK 999 SEQUENCE,REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST,REMARK 999 1ADZ SWS P10646 183 - 304 NOT IN ATOMS LIST,REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II,REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR.,DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182,SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED,SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED,SEQRES 1 71 ASP TYR LYS ASP,ASP,ASP,ASP,LYS LEU LYS PRO ASP PHE,SEQRES 2 71 CYS PHE LEU GLU,GLU,ASP PRO GLY ILE CYS ARG GLY TYR,SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN,ASN,GLN THR LYS GLN CYS,SEQRES 4 71 GLU ARG PHE LYS TYR GLY,GLY,CYS LEU GLY ASN MET ASN,SEQRES 5 71 ASN PHE GLU THR LEU GLU,GLU,CYS LYS ASN ILE CYS GLU,SEQRES 6 71 ASP GLY PRO ASN GLY PHE,HELIX 1 1 ASP 12 PHE 15 5 4,HELIX 2 2 ASN 34 THR 36 5 3,HELIX 3 3 LEU 57 ILE 63 1 7,SHEET 1 A 2 ARG 29 ASN 33 0,SHEET 2 A 2 GLN 38 PHE 42 -1 N PHE 42 O ARG 29,CRYST1 1.000,1.000,1.000,90.00,90.00,90.00,P 1 1,ORIGX1 1.000000 0.000000,0.000000,0.00000,ORIGX2 0.000000 1.000000 0.000000 0.00000,ORIGX3 0.000000,0.000000,1.000000 0.00000,SCALE1 1.000000 0.000000,0.000000,0.00000,SCALE2 0.000000 1.000000 0.000000 0.00000,SCALE3 0.000000,0.000000,1.000000 0.00000,PDB,文件 示意,显示分子结构(,RasMol,,,ChemView,),2、MMDB(Molecular Modeling Database),分子模型,MMDB,是(,NCBI,),所开发的生物信息数据库集成系统,Entrez,的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。,与,PDB,相比,对于数据库中的每一个生物大分子结构,,MMDB,具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 。,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。,MMDB,实用工,具,第五节 其它生物分子数据库,核酸序列变化,单碱基多态性,SNPs,(,Single nucleotide polymorphisms,),SNPs,对人类遗传学研究和医学应用具有重要的意义,无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究,SNPs,。,1,、单碱基多态性数据库,dbSNP,(,http:/www3.ncbi.nlm.nih.gov/SNP/),,,实例:,GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA,Aggccgggca,tggtgcctca,tgcctgtaat,cctagcactt,tgggaggctg,aggtgggtgg,atcacctgag,ctcaggagtt,ccagatcatc,ctggacaata,tggtgaaacc,ctgtctacgc,ttaaaatacg,R,aaattagccg,ggcgtggtgg,ggcatgcctg,tggtctcagc,tactttggag,actaaggtag,aaggatcact,tgaatcctgg,aggtggaggt,tgcagagtga,gccaatatcg,tgccactgca,ctccagccta,ggtgacagag,gaagactctg,tctcaaaaaa,aagaaaaTAA,GGCCAGACAC GGGGGCTCAT GCTTGTAATC,R=A/G,单倍型数据,2,、蛋白质结构分类数据库,SCOP,SCOP,数据库,(,http:/scop.mrc-lmb.cam.ac.uk/scop/,),的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库,PDB,中的所有条目。,SCOP,数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到,PDB,的连接,序列,参考文献,结构的图像等。,可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠,:,(1),家族:具有明显的进化关系,(2),超家族:具有远源进化关系,具有共同的进化源,(3),折叠类:主要结构相似,3,、蛋白质二级结构数据库,DSSP,DSSP,(,http:/www.sander.embl-heidelberg.de/dssp/,)是一个二级结构推导数据库。,对生物大分子数据库,PDB,中的任何一个蛋白质,根据其三维结构推导出对应的二级结构。,对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用,除了二级结构以外,,DSSP,还包括蛋白质的几何特征及溶剂可及表面。,The DSSP code,H = alpha helix,B = residue in isolated beta-bridge,E = extended strand, participates in beta ladder,G = 3-helix (3/10 helix),I = 5 helix (pi helix),T = hydrogen bonded turn,S = bend,例:,4,、蛋白质同源序列比对数据库,HSSP,HSSP(,http:/www.sander.embl-heidelberg.de/hssp/,)二级数据库。,数据来源于,PDB,,,或来源于,SWISS-PROT,对于,PDB,中的每一个蛋白质,,HSSP,将与其同源的所有蛋白质序列对比排列起来,从而将相似序列的蛋白质聚集成结构同源的家族。,HSSP,有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。,From PDB,From Swiss-,prot,多重序列比对,已知结构,未知结构,5,、,PROSITE,PROSITE,(,http:/www.expasy.ch/prosite/,),是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。,PROSITE,中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。,PROSITE,还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。,6,PRINTS,蛋白质指纹数据库,http:/www.bioinf.man.ac.uk/dbbrower/PRINTS,一个蛋白质指纹就是一组保守的序列模式,用于刻画蛋白质家族特征。,这些序列模式在一维多肽链上是不相邻的,但在三维空间中,它们可能紧密地结合在一起。,与,prosite,的单个序列模式相比,利用蛋白质指纹可以更加灵活和合理地研究蛋白质结构和功能。,7,、,OMIM,OMIM (Online,Mendelian,Inheritance in Man),是关于人类基因和遗传疾病的分类数据库,。,该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。,OMIM,的使用非常方便,查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其,OMIM,记录的全文,http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM,浏览染色体,8,、,EPD,EPD,(,http:/www.epd.isb-sib.ch/,),是真核基因启动子数据库,提供从,EMBL,中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。,9,、,TRRD,TRRD,是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。,每一个,TRRD,的条目对应于一个基因,包含特定基因各种结构功能特性,TRRD6.0,包括七个相关的数据表:,(,1,)基因描述表,TRRDGENES,(,2,),控制区域表,TRRDLCR,(,3,),调控区域表,TRRDUNITS,(,4,),转录因子结合位点表,TRRDSITES,(,5,),转录因子表,TRRDFACTORS,(,6,),表达模式表,TRRDEXP,(,7,),实验来源表,TRRDBIB,10,、,TRANSFAC,TRANSFAC,(,http:/transfac.gbf.de/,),是真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类,TRANSFAC,包括,6,类数据 :,(,1,),SITE,类数据,(,2,),GENE,类数据,(,3,),FACTOR,类数据,(,4,),CELL,类数据,(,5,),CLASS,类数据,(,6,),MATRIX,数据,11,GO,基因本体数据库,(gene ontology),http:/www.geneontology.org/,目标:建立关于基因和蛋白质描述及知识的标准词汇,为今后实现各种与基因相关数据的统一、进行数据转换、开展数据挖掘提供一个标准。,三个结构网络:,生物过程,细胞成分,分子功能,12,、,BODYMAP,BODYMAP,(,http:/bodymap.ims.u-tokyo.ac.jp/,),是关于人和老鼠基因表达信息的数据库,基因表达数据来自于不同组织、不同细胞以及不同时刻。这里的基因表达数据实际上是,3,端的,EST,。,通过分析这些数据,用户可以初步掌握基因活性,了解组织中,mRNA,的组成,研究基因表达规律,发现新的基因 。,13,、,PubMed,PubMed,(,http:/www.ncbi.nlm.nih.gov/,),是,NCBI,维护的生物学、医学文献引用数据库,提供对,MEDLINE,、,Pre-MEDLINE,等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用,Entrez,系统可以对,PubMed,进行方便的查询检索。,14,、,DBCat,DBCat,是生物信息数据库的目录数据库,它收集了,500,多个生物信息学数据库的信息,并根据它们的应用领域进行了分类,DNA,RNA,蛋白质,基因组,图谱,蛋白质结构,文献著作等基本类型,,(,http:/www.infobiogen.fr/services/dbcat/,),DBCat,中分类数据库个数,数据对象,数据库个数,DNA,87,RNA,29,Protein,94,Genomic,58,Mapping,29,Protein structure,18,Literature,43,Miscellaneous,153,第六节 数据库搜索,数据库使用,关键字查询,目标搜索,序列搜索问题,搜索效率,标准算法, O(n,2,),最流行的序列数据库快速搜索程序,FastA,BLAST,1,、,FASTA,算法,打分矩阵,局部比对,使用已知字符串检索出可能的匹配,FASTP,搜索蛋白质数据库,寻找相似序列,FASTP,的基本算法是顺序将数据库中的每一个序列与查询序列比较,返回与查询序列非常相似的数据库序列,首先确定两个序列的共同,k,元组(即连续的,k,个字符,,k-tup,),,对于蛋白质序列,,k=1,或,2,。,k,决定了字串的大小。增大,k,参数就会减少字串命中的数目,也就会减少所需要的最佳搜索的数目,提高搜索速度。,相对位移,序列,s:,序列,t:,位移,= 6,6 8 10,s: -A-A-T-,t: -A-A-T-,3 5 7,位移,= 3,位移决定一个序列相对于另一个发生字符替换的位置。,如果共同的,k,元组起始于,si,和,tj,,则位移等于,i-j,。,算法设置两个数据结构:,查找表,存放第一条序列各,k,元组的位置,位移向量,以位移为下标的向量,每个元素的初始值为,0,1 2 3 4 5 6 7 8 9 10 11,s = H A R F Y A A Q I V L,查找表,A 2,6,7,F 4,H 1,I 9,L 11,Q 8,R 3,V 10,Y 5,1 2 3 4 5 6 7 8,t = V D M A A Q I A,位移,+9 -2 -3 +2,+2,-6,+2 +1 -2,+3 +2 -1,位移向量,-7 -6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10,1 1 2 1 1 4 1 1,最大匹配位移,K,1,位移累计最大值意义:,(,1,)该位移下匹配最多,(,2,),计算相应动态规划矩阵对角线附近区域,实际处理,将在同一位移下距离较近的多个,k,元组联合起来,形成区域。一个区域可被看成是一个片段对,或无空白的局部对比排列,根据匹配或失配对区域进行打分。,对产生的,5,个最好区域按,PAM,矩阵进行重新打分,最高的得分就是序列,s,和序列,t,相似性的初始得分。,对于数据库中的每一个序列,按上述方法计算与查询序列比较的初始得分。根据初始得分将所有数据库序列按非递增顺序排序,对于排在前面的几个具有最高初始得分的序列,利用动态规划算法计算它们与查询序列最优对比排列的得分,但计算过程仅限于初始对比排列(对应于初始得分的对比排列)附近区域。,FastA,的最新版本是,FastA3,软件包,下表,2,列出,FastA3,家族所有成员:,FastA,家族,程,序,查询序列类型,数据库类型,FastA,DNA,DNA,蛋白质,蛋白质,FASTX,FASTY,DNA,蛋白质,TFastA,蛋白质,DNA,TFASTX,TFASTY,蛋白质,DNA,FASTS,TFASTS,一系列多肽片段,蛋白质,DNA,FASTF,TFASTF,有序多肽混合物,蛋白质,DNA,FastA,使用界面,2,、,BLAST,(,Basic Local Alignment Search Tool,),BLAST,是基本的局部对比排列搜索工具的简称。研制,BLAST,的最初目的是为了改善,FastA,的算法的性能,通过寻找更小、更好的热点,提高计算速度 。,为了进一步提高数据库的搜索速度,,BLAST,增加了限制,即在序列的局部比对中不包括空缺字符。,BLAST,的基本思想:,序列,S:,序列,t:,找出两个序列共同的短片段,经过扩展后形成更长的相似片断,扩展,扩展,给定一个查询序列,,BLAST,返回所有查询序列与数据库序列得分超过某个阈值,S,的片段对。,阈值,S,可以由用户设定,但程序有一个缺省的推荐值。选择,S,的基本原则是:,一条随机序列与查询序列比较的得分不会超过,S,在进行序列两两比较之前,,BLAST,首先寻找一颗“种子”,它是两个序列之间的一个非常短的片段对。,种子可以向两个方向扩展,直至达到扩展的最大可能的得分。,BLAST,的计算过程分为三个阶段:,(,1,)收集一系列高得分的串,形成高得分单词表,(,2,)搜索种子,(,3,)扩展种子,单词表,所有,w,个字符构成的单词,与查询序列单词比较得分超过,T,这里,,w,和,T,是两个参数,对于蛋白质序列搜索推荐的,w,值(即种子的长度)为,4,这一步所得到的高得分单词表实际上是一些候选的种子,例如:,YLPGACT, YLPG, LPGA, PGAC, GACT,对于蛋白序列的搜索,对于蛋白序列的搜索,扫描数据库,搜索那些处于单词表中的种子,Hash table,有限自动机,最后一步扩展过程比较直观。,当扩展时的得分低于该扩展前面的最佳得分的某个下限时,扩展停止。,单词表包含查询序列长度为,w,的所有单词,压缩数据,每个核酸仅用,2,位(,bit,),表示,,4,个核酸组成一个字节,搜索、扩展过程与对蛋白质序列的处理过程相似,对于,DNA,序列搜索,PSI-BLAST,(,Position Specific Iterated BLAST,),BLAST,算法的另一个改进版本,与,BLAST,和,FastA,相比,,PSI BLAST,可以发现更多的远程相关序列。,BLAST,是一个序列数据库搜索程序家族,其中有许多特定用途的程序,BLAST,使用界面,实际应用中倾向于蛋白质序列搜索,4,种字符,Vs. 20,种字符,DNA,序列数据库庞大、冗余,打分矩阵,蛋白质序列比,DNA,序列更加保守,3、VAST,VAST,是,NCBI,的相似结构搜索工具,它将一个新的蛋白质三维结构与,PDB,或,MMDB,数据库中的结构进行比较。,通过结构相似搜索,,VAST,列出若干与查询待查询结构相似的蛋白质,用户利用系统提供的交互显示软件,Cn3D,(,Wang et al., 2000,),观察重叠的分子模型图,详细分析这些蛋白质空间结构的关系,分析蛋白质因为进化而改变的结构区域 。,(,http:/www.ncbi.nlm.nih.gov/Structure/VAST/,),VAST,的比较有三个步骤:,首先,在坐标数据的基础上,标出所有构成蛋白质核心部分的,螺旋和,片层。,然后根据这些二级结构单位的位置计算向量。使用这些向量进行结构比对而不是整个一套坐标。然后,算法试图最佳地匹配这些向量,寻找类型和相对方位相同的成对结构单位,并且在这些单位之间还要有同样的连接方式。,最后,在每个残基位置上使用蒙特卡洛方法对结构的比对进行优化。,第七节 数据库集成,集成数据库的一种方法是构造一个“数据仓库”,使其包含各种数据库中数据集,通过自动或手工方式添加注释和连接,.,Entrez,和,SRS,就是这样的一类系统。,另一种实现数据库集成的方法是设计智能查询工具,进行数据库的虚拟集成。,1,、,Entrez,查询和搜索系统,集成,NCBI,各种数据库中的信息,核酸序列,蛋白质序列,生物大分子结构,基因组数据,生物分类数据库,孟德尔人类遗传学数据(,OMIM,),Pubmed,http:/www.ncbi.nlm.nih.gov/gorf/gorf.html,图,4.8,、,Entrez,数据库系统结构图,2. SRS,SRS,(,Sequence Retrieval System,)是,EMBL,研制的一个基于,WEB,的查询系统,SRS,采用全菜单驱动方式,包括,EMBL,、,EMBL_NEW,、,SwissProt,、,PIR,等一级数据库,还包括许多二级数据库,,如蛋白质家族和结构域数据库,Prosite,、,限制酶数据库,ReBase,、,PDB,序列子集数据库,NRL_3D,、,真核基因启动子数据库,EPD,、,E.coli,数据库,ECD,、,酶名称和反应数据库,ENZYME,、,生物计算文献数据库,SEQANALREF,等,还有与功能、疾病相关的数据库,总共有,80,个数据库。,SRS,在中国的镜像站点建立在北京大学生物信息中心。,3,、,ExPASy,ExPASy,(Expert Protein Analysis System,,,http:/www.expasy.org/,),是由瑞士生物信息学研究所建立的一个蛋白组学,WWW,服务器,着重于分析蛋白质序列和结构。,内容:,蛋白质序列数据库,SWISS-PROT,和,TrEMBL,蛋白质家族和结构域数据库,PROSITE,2,维和,3,维聚丙烯酰胺凝胶电泳数据库,SWISS-2DPAGE,、,SWISS-3DIMAGE,等,第八节 生物信息分析工具,GCG,GCG (Genetics Computer Group),软件包,是一个序列分析、数据库管理、数据挖掘和可视化工具的综合系统,由,140,多个独立的程序组成,每个程序进行一项单一的分析任务。,广泛应用,GCG,支持的两种核酸数据库,GenBank,数据库,简化版的,EMBL,核酸序列数据库,GCG,支持的三种蛋白质数据库,PIR,SWISS-PROT,SP-,TrEMBL,数据库。,1,、序列的两两比较,Gap:,BestFit,:,FrameAlign,:,Compare,:,DotPlot,:,GapShow,:,ProfileGap,:,2,、多个序列比较,PileUp,:,HmmerAlign,:,PlotSimilarity,:,Pretty,:,PrettyBox,:,MEME,:,HmmerBuild,:,HmmerCalibrate,:,ProfileMake,:,ProfileGap,:,Overlap,:,NoOverlap,:,OldDistances,:,3,、按字符方式搜索数据库,LookUp,:,StringSearch,:,Names,:,4,、按序列搜索数据库,BLAST,:,NetBLAST,:,FastA,:,Ssearch,:,TFastA/TfastX/FastX,:,FrameSearch,:,MotifSearch,:,HmmerSearch,:,ProfileSearch,:,ProfileSegments,:,FindPatterns,:,Motifs,:,WordSearch,:,HmmerPfam,:,Segments,:,5,、,DNA/RNA,二级结构,Mfold,利用能量最小化方法,预测,DNA,或者,RNA,的最优二级结构或局部最优二级结构。,PlotFold,显示由,Mfold,预测的二级结构,StemLoop,发现序列中反向重复,用户可以指定其长度、最大和最小环尺寸等参数,6,、进化分析,PAUPSearch,:,PAUPDisplay,:,Distances,:,Diverge,:,7,、片段拼接,GelStart,:,GelEnter,:,GelMerge,:,GelAssemble,:,GelView,:,GelDisassemble,:,8,、发现基因和模式识别,TestCode,:,CodonPreference,:,Frames,:,Repeat,:,Composition,:,CodonFrequency,:,Correspond,:,9,、作图,Map,:,MapPlot,:,MapSort,:,PeptideMap,:,PlasmidMap,:,PeptideSort,:,10,、引物设计,Prime,:,PrimePair,:,MeltTemp,:,11,、蛋白质分析,ProfileScan,:,CoilScan,:,HTHScan,:,SPScan,:,Isoelectric,:,PepPlot,:,PeptideStructure,PlotStructure,:,12,、其它实用程序,关于序列的实用程序:,Reverse,Shuffle,Corrupt,Sample,关于数据库的实用程序:,DataSet,GCGToBLAST,Thanks a lot!,
展开阅读全文