chapter3生物分子数据库

资源描述

生物分子数据生物分子数据高速增长高速增长分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据建立生物分子数据库建立生物分子数据库 v生物分子数据库应满足5个方面的主要需求v（1）时间性v（2）注释 v（3）支撑数据 v（4）数据质量 v（5）集成性 v生物分子数据库一级数据库v数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释二级数据库v对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。（1）数据库的更新速度不断加快数据量呈指数增长趋势（2）数据库使用频率增长更快（3）数据库的复杂程度不断增加（4）数据库网络化（5）面向应用（6）先进的软硬件配置w 国际上权威的核酸序列数据库国际上权威的核酸序列数据库（1）欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de （2）美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html （3）日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。以下着重介绍以下着重介绍EBMLEBMLMBL中的数据分类情况（单位：Gigabases）（EST-Expressed sequence tags;STS-sequence tagged sites）（取自http:/www3.ebi.ac.uk/Services/DBStats/）21 Mar 2003 37,943,364,438 bases in 24,353,128 records.“ID”为序列的标识符行，包括登录号、类型，分子的长度“AC”为登录号行；“XX”为分隔符号行；“DT”为创建和更新日期行“DE”为序列描述行；“KW”为关键字行；“OG”行描述细胞组织；“OS”行描述生物体种属；“OC”行描述生物体分类信息；“RN”描述参考文献的编号；“RP”描述参考文献的页码；“RA”描述参考文献的作者；“RT”描述参考文献的题目；“RL”描述参考文献的出处；“RC”描述参考文献的注解；“RX”、“DR”行描述交叉引用信息；“FH”为特征开始符号；“FT”为特征表行（1）Feature Key，它是描述域生物功能的关键字；（2）Location，指明特征在序列中的特定位置；（3）Qualifiers，描述关于一个特征的辅助信息；文件体由序列本身所组成，由“SQ”标志的行开始。序列结束的标记是“/”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号，它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示，而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成，文件头实际上对应于一个序列的注释（annotation）提交数据提交数据（1）编辑电子表格（2）利用Authorin程序（3）利用基于WWW网络环境的序列提交系统使用使用EMBLEMBL（1）CD-ROM形式（2）ftp服务器（3）Gopher服务器（4）WWW服务器这是目前最常用的一种形式 EMBLEMBL提供一些与序列相关的检索操作（基于提供一些与序列相关的检索操作（基于3W3W服务器）服务器）（1）序列查询最简单的查询就是通过序列的登录号（如X58929）或序列名称（如SCARGC）直接查询。如果找到所查询的序列，则服务器将查询结果以HTML文件返回给用户如果数据库中该序列有到MEDLINE的交叉索引，则系统同时返回与包含参考文献摘要等信息的MEDLINE链接如果该序列有到其它数据库的交叉索引，也返回相应的链接例如:登录号为J00231的核酸序列具有这样一个交叉索引行：DRSWISS-PROT：P01860；GC3_HUMAN（2）核酸同源性搜索 3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA根据给定的目标序列在数据库中搜索其同源序列。人类基因组计划所得到的图谱数据人类基因组计划所得到的图谱数据目前GDB包含对下述三种对象的描述：（1）人类基因组区域包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等；（2）人类基因组图谱，包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；（3）人类基因组中的变化，包括基因突变和基因多态性，加上等位基因频率数据。与染色体相关的信息其它模式生物基因组数据库如：如：鼠基因组数据库鼠基因组数据库 MGDMGD（http:/www.informatics.jax.org/http:/www.informatics.jax.org/）酵母基因组数据库酵母基因组数据库 SGDSGD（http:/genome-http:/genome-www.stanford.edu/Saccharomyceswww.stanford.edu/Saccharomyces/）EnsemblEnsembl(http:/www.ensembl.org/http:/www.ensembl.org/）EnsemblEnsembl包括所有公开的人类基因组包括所有公开的人类基因组DNADNA序列，通过注序列，通过注释形成的关于序列的特征。释形成的关于序列的特征。现在包括其他基因组，如现在包括其他基因组，如大鼠、小鼠、线虫、果蝇等。大鼠、小鼠、线虫、果蝇等。例如：基因例如：基因通过实验发现的通过实验发现的或者是通过或者是通过GenScan程序预测的程序预测的其他的特征：其他的特征：单核苷酸多态性（单核苷酸多态性（SNPSNP）、重复序列等）、重复序列等Ensembl 数据库结构图 Ensembl提供多种查询方式通过关键字查询用BLAST进行相似序列的搜索另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点，逐层放大浏览整个基因组人的第人的第9号号染色体及大染色体及大鼠对应的染鼠对应的染色体片段色体片段EST（Expressed Sequence Tags）方法已被证明是识别转录序列的最有效方法，EST序列大约覆盖了人类基因的90%。DbEST(http:/www.ncbi.nlm.nih.gov/dbEST/）是GenBank的一个部分，该数据库包括不同生物的EST序列数据及其它相关信息，主要是从大量不同组织和器官得到的短mRNA片段。WEB页面或emailFTP有关EST的数据dbEST数据库STS（Sequence Tagged Sites）是序列标记位点dbSTS（http:/www.ncbi.nlm.nih.gov/dbSTS/）是NCBI的一个数据源，包含基因组短标记序列（STS）的组成和定位信息。可以通过BLAST搜索STS序列。UniGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中的序列进行自动分类，形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列，附有该基因相关的信息，如基因表达的组织类型、定位图谱除了基因的序列之外，还包括大量的EST序列。目前，UniGene中包括人类、大鼠、小鼠、牛的相关数据，因为这些生物有大量的EST数据。w 目的：目的：帮助研究者鉴别和解释蛋白质序列信息，帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组。研究分子进化、功能基因组。w 它是一个全面的、经过注释的、非冗余的蛋白它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。质序列数据库。w 所有序列数据都经过整理，超过所有序列数据都经过整理，超过99%的序列已的序列已按蛋白质家族分类，一半以上还按蛋白质超家按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。族进行了分类。1 1、PIRPIR（Protein Information ResourceProtein Information Resource）除了蛋白质序列数据之外，除了蛋白质序列数据之外，PIR还包含以下还包含以下信息：信息：(1)蛋白质名称、蛋白质的分类、蛋白质的来源；蛋白质名称、蛋白质的分类、蛋白质的来源；(2)关于原始数据的参考文献；关于原始数据的参考文献；(3)蛋白质功能和蛋白质的一般特征，包括基因蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；表达、翻译后处理、活化等；(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。PIR提供三种类型的检索服务:一是基于文本的交互式查询，用户通过关键字进行数据查询。二是标准的序列相似性搜索，包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索等。三个子数据库 SWISS-PROT(http:/www.expasy.ch/sprot/sprot-top.html）是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据 SWISS-PROT有三个明显的特点：（1 1）在SWISS-PROT中，数据分为核心数据和注释两大类。核心数据包括：序列数据、参考文献、分类信息（蛋白质生物来源的描述）注释包括：（A)蛋白质的功能描述；(B)翻译后修饰；(C)域和功能位点，如钙结合区域、ATP结合位点等；(D)蛋白质的二级结构；(E)蛋白质的四级结构，如同构二聚体、异构三聚体等；(F)与其它蛋白质的相似性；(G)由于缺乏该蛋白质而引起的疾病；(H)序列的矛盾、变化等。尽量将相关的数据归并，降低数据库的冗余程度。如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。提交序列数据提交序列数据（a a）编辑电子表格）编辑电子表格（b)b)利用利用AuthorinAuthorin程序程序（c c）WWWWWW服务器服务器使用使用SWISS-PROTSWISS-PROT（a a）CD-ROMCD-ROM形式形式（b b）ftpftp服务器服务器（c c）GopherGopher服务器服务器（d d）WWWWWW服务器（服务器（SRSSRS）与序列相关的操作与序列相关的操作（a a）序列查询）序列查询（b b）搜索同源蛋白质序列）搜索同源蛋白质序列TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分：（1）SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的登录号。（2）REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。包括：Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP 下载数据。UniProt包含3个部分：（1）UniProt Knowledgebase（UniProt）蛋白质序列、功能、分类、交叉引用等信息存取中心蛋白质序列、功能、分类、交叉引用等信息存取中心（2）UniProt Non-redundant Reference（UniRef）数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度；（3）UniProt Archive（UniParc）资源库，记录所有蛋白质序列的历史。第第4节节生物大分子结构数据库生物大分子结构数据库1、PDB（Protein Data Bank）w PDB中含有通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构蛋白质核酸糖类其它复合物 w 一种是显式序列信息（explicit sequence）在PDB文件中，以关键字SEQRES作为显式序列标记，以该关键字打头的每一行都是关于序列的信息。w 一种是隐式序列信息(implicit sequence)PDB的隐式序列即为立体化学数据，包括每个原子的名称和原子的三维坐标。HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR,NMR,30 STRUCTURES COMPND MOL_ID:1;COMPND 2 MOLECULE:TISSUE FACTOR PATHWAY INHIBITOR;。COMPND 8 BIOLOGICAL_UNIT:MONOMER SOURCE MOL_ID:1;。SOURCE 7 EXPRESSION_SYSTEM_PLASMID:PFLAG KEYWDS HYDROLASE,INHIBITOR,COAGULATION EXPDTA NMR,30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN,。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1-111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183-304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR.DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42-1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 图4.5 PDB文件 PDB文件示意显示分子结构（显示分子结构（RasMolRasMol ，ChemViewChemView ）2、MMDB(Molecular Modeling Database)w 分子模型分子模型MMDB 是（是（NCBI）所开发的生物）所开发的生物信息数据库集成系统信息数据库集成系统Entrez的一个部分，数的一个部分，数据库的内容包括来自于实验的生物大分子结据库的内容包括来自于实验的生物大分子结构数据。构数据。w 与与PDB相比，对于数据库中的每一个生物大相比，对于数据库中的每一个生物大分子结构，分子结构，MMDB具有许多附加的信息，如具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子分子的生物学功能、产生功能的机制、分子的进化历史等的进化历史等。w 还提供生物大分子三维结构模型显示、结构还提供生物大分子三维结构模型显示、结构分析和结构比较工具。分析和结构比较工具。MMDB 实用工具第第5节节其它生物分子数据库其它生物分子数据库w 核酸序列变化单碱基多态性SNPs（Single nucleotide polymorphisms）w SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究，还是对疾病性状分析或个体化医疗，都需要深入地研究SNPs。1、单碱基多态性数据库dbSNP（http:/www3.ncbi.nlm.nih.gov/SNP/)，实例：GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tggtctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC R=A/G 单倍型数据2、蛋白质结构分类数据库、蛋白质结构分类数据库SCOPwSCOP数据库(http:/scop.mrc-lmb.cam.ac.uk/scop/）的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库PDB中的所有条目。wSCOP数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB的连接，序列，参考文献，结构的图像等。w可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次是家族、超家族和折叠:(1)家族：具有明显的进化关系 (2)超家族：具有远源进化关系，具有共同的进化源 (3)折叠类：主要结构相似3 3、蛋白质二级结构数据库、蛋白质二级结构数据库DSSPDSSPw DSSP（http:/www.sander.embl-heidelberg.de/dssp/）是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质，根据其三维结构推导出对应的二级结构。w 对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用w 除了二级结构以外，DSSP还包括蛋白质的几何特征及溶剂可及表面。The DSSP codeH=alpha helix B=residue in isolated beta-bridge E=extended strand,participates in beta ladder G=3-helix(3/10 helix)I=5 helix(pi helix)T=hydrogen bonded turn S=bend 例：4、蛋白质同源序列比对数据库、蛋白质同源序列比对数据库HSSPw HSSP(http:/www.sander.embl-heidelberg.de/hssp/）w 二级数据库。w 数据来源于PDB，或来源于SWISS-PROT w 对于PDB中的每一个蛋白质，HSSP将与其同源的所有蛋白质序列对比排列起来，从而将相似序列的蛋白质聚集成结构同源的家族。w HSSP有助于分析蛋白质的保守区域，研究蛋白质的进化关系，有助于蛋白质的分子设计。From PDBFrom Swiss-prot多重序列比对多重序列比对已知结构未知结构5、OMIMw OMIM(Online Mendelian Inheritance in Man),是关于人类基因和遗传疾病的分类数据库。该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。w OMIM的使用非常方便查询程序根据输入到检索窗口的一个或几个词执行简单的查询，返回含有该词的文档的列表，用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文 http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM 浏览染色体浏览染色体6、EPDw EPD(http:/www.epd.isb-sib.ch/)w 是真核基因启动子数据库提供从EMBL中得到的真核基因的启动子序列，目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。7、TRRDw TRRD是一个关于基因调控信息的集成数据库，该数据库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因，包含特定基因各种结构功能特性 w TRRD6.0包括七个相关的数据表：（1）基因描述表TRRDGENES（2）控制区域表TRRDLCR（3）调控区域表TRRDUNITS（4）转录因子结合位点表TRRDSITES（5）转录因子表TRRDFACTORS（6）表达模式表TRRDEXP（7）实验来源表TRRDBIB 8、TRANSFACw TRANSFAC（http:/transfac.gbf.de/）是真核基因顺式调控元件和反式作用因子数据库，数据搜集的对象从酵母到人类 w TRANSFAC包括6类数据：（1）SITE类数据（2）GENE类数据（3）FACTOR类数据（4）CELL类数据（5）CLASS类数据（6）MATRIX数据 9、BODYMAPw BODYMAP(http:/bodymap.ims.u-tokyo.ac.jp/）w 是关于人和老鼠基因表达信息的数据库，基因表达数据来自于不同组织、不同细胞以及不同时刻。这里的基因表达数据实际上是3端的EST。w 通过分析这些数据，用户可以初步掌握基因活性，了解组织中mRNA的组成，研究基因表达规律,发现新的基因。10、PROSITEw PROSITE(http:/www.expasy.ch/prosite/)是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。w PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。w PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。11、DBCatw DBCat是生物信息数据库的目录数据库，它收集了500多个生物信息学数据库的信息，并根据它们的应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文献著作等基本类型，（http:/www.infobiogen.fr/services/dbcat/）DBCat中分类数据库个数中分类数据库个数数据对象数据库个数DNA87RNA29Protein94Genomic58Mapping29Protein structure18Literature43Miscellaneous15312、PubMedw PubMed（http:/www.ncbi.nlm.nih.gov/）是NCBI维护的生物学、医学文献引用数据库，提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。第第6节节数据库搜索数据库搜索w 数据库使用数据库使用关键字查询关键字查询目标搜索目标搜索w 序列搜索问题序列搜索问题搜索效率搜索效率标准算法标准算法 O(n2)w 最流行的序列数据库快速搜索程序最流行的序列数据库快速搜索程序 FastABLASTFASTA的基本思想：的基本思想：序列s:序列 t:找出两个序列具有最大匹配的相对位移1、FASTA算法位移=6 6 8 10s：-A-A-T-t:-A-A-T-3 5 7位移=3w FASTP的基本算法是顺序将数据库中的每一个序列与查询序列比较，返回与查询序列非常相似的数据库序列w 首先确定两个序列的共同k元组（即连续的k个字符，k-tup），对于蛋白质序列，k=1或2。k决定了字串的大小。增大k参数就会减少字串命中的数目，也就会减少所需要的最佳搜索的数目，提高搜索速度。w 算法设置两个数据结构：（1）查找表存放第一条序列各k元组的位置（2）位移向量位移决定一个序列相对于另一个发生字符替换的位置。如果共同的k元组起始于si和tj，则位移等于i-j。1 2 3 4 5 6 7 8 9 10 11 s=H A R F Y A A Q I V L 查找表 A 2,6,7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 1 2 3 4 5 6 7 8 t=V D M A A Q I A 位移 +9 -2 -3 +2 +2 -6 +2 +1 -2 +3 +2 -1位移向量-7-6-5 -4-3-2-1 0 +1 +2+3+4 +5+6+7+8+9+10 1 1 2 1 1 4 1 1最大匹配位移位移累计最大值意义：（1）该位移下匹配最多（2）计算相应动态规划矩阵对角线附近区域实际处理：将在同一位移下距离较近的多个k元组联合起来，形成区域。一个区域可被看成是一个片段对，或无空白的局部对比排列，根据匹配或失配对区域进行打分。对产生的5个最好区域按PAM矩阵进行重新打分，最高的得分就是序列s和序列t相似性的初始得分。对于数据库中的每一个序列，按上述方法计算与查询序列比较的初始得分。根据初始得分将所有数据库序列按非递增顺序排序，对于排在前面的几个具有最高初始得分的序列，利用动态规划算法计算它们与查询序列最优对比排列的得分，但计算过程仅限于初始对比排列（对应于初始得分的对比排列）附近区域。FastA的最新版本是FastA3软件包，下表2列出FastA3家族所有成员：FastA家族程程序序查询序列类型查询序列类型数据库类型数据库类型FastADNADNA蛋白质蛋白质FASTXFASTYDNA蛋白质 TFastA蛋白质DNATFASTXTFASTY蛋白质DNAFASTSTFASTS一系列多肽片段蛋白质DNAFASTFTFASTF有序多肽混合物蛋白质DNAFastA使用界面2、BLASTw BLAST 是基本的局部对比排列搜索工具的简称。研制BLAST的最初目的是为了改善FastA的算法的性能，通过寻找更小、更好的热点，提高计算速度。w 为了进一步提高数据库的搜索速度，BLAST增加了限制，即在序列的局部比对中不包括空缺字符。BLAST的基本思想：的基本思想：序列S:序列t:找出两个序列共同的短片段经过扩展后形成更长的相似片断扩展扩展w 给定一个查询序列，BLAST返回所有查询序列与数据库序列得分超过某个阈值S的片段对。w 阈值S可以由用户设定，但程序有一个缺省的推荐值。选择S的基本原则是：一条随机序列与查询序列比较的得分不会超过S w 在进行序列两两比较之前，BLAST首先寻找一颗“种子”，它是两个序列之间的一个非常短的片段对。w 种子可以向两个方向扩展，直至达到扩展的最大可能的得分。w BLAST的计算过程分为三个阶段：（1）收集一系列高得分的串，形成高得分单词表（2）搜索种子（3）扩展种子对于蛋白序列的搜索：w 单词表所有w个字符构成的单词与查询序列单词比较得分超过T这里，w和T是两个参数对于蛋白质序列搜索推荐的w值（即种子的长度）为4这一步所得到的高得分单词表实际上是一些候选的种子w 扫描数据库，搜索那些处于单词表中的种子Hash table有限自动机 w 最后一步扩展过程比较直观。当扩展时的得分低于该扩展前面的最佳得分的某个下限时，扩展停止。对于DNA序列搜索，w 单词表包含查询序列长度为w的所有单词压缩数据，每个核酸仅用2位（bit）表示，4个核酸组成一个字节w 搜索、扩展过程与对蛋白质序列的处理过程相似 w BLAST是一个序列数据库搜索程序家族其中有许多特定用途的程序，BLAST 使用界面实际应用中倾向于蛋白质序列搜索实际应用中倾向于蛋白质序列搜索 4 4种字符种字符 Vs.20Vs.20种字符种字符 DNADNA序列数据库庞大、冗余序列数据库庞大、冗余打分矩阵打分矩阵蛋白质序列比蛋白质序列比DNADNA序列更加保守序列更加保守3、VASTw VAST是NCBI的相似结构搜索工具，它将一个新的蛋白质三维结构与PDB或MMDB数据库中的结构进行比较。w 通过结构相似搜索，VAST列出若干与查询待查询结构相似的蛋白质，用户利用系统提供的交互显示软件Cn3D（Wang et al.,2000）观察重叠的分子模型图，详细分析这些蛋白质空间结构的关系，分析蛋白质因为进化而改变的结构区域。http:/www.ncbi.nlm.nih.gov/Structure/VAST/）VAST的比较有三个步骤：w 首先，在坐标数据的基础上，标出所有构成蛋白质核心部分的螺旋和片层。w 然后根据这些二级结构单位的位置计算向量。使用这些向量进行结构比对而不是整个一套坐标。然后，算法试图最佳地匹配这些向量，寻找类型和相对方位相同的成对结构单位，并且在这些单位之间还要有同样的连接方式。w 最后，在每个残基位置上使用蒙特卡洛方法对结构的比对进行优化。第第7节节数据库集成数据库集成w 集成数据库的一种方法是构造一个“数据仓库”，使其包含各种数据库中数据集，通过自动或手工方式添加注释和连接.Entrez和SRS就是这样的一类系统。w 另一种实现数据库集成的方法是设计智能查询工具，进行数据库的虚拟集成。1、Entrezw 查询和搜索系统w 集成NCBI各种数据库中的信息核酸序列蛋白质序列生物大分子结构基因组数据生物分类数据库孟德尔人类遗传学数据（OMIM）Pubmedhttp:/www.ncbi.nlm.nih.gov/gorf/gorf.html Entrez集成系统结构如图4.8所示。图4.8、Entrez数据库系统结构图2.SRSw SRS（Sequence Retrieval System）是EMBL研制的一个基于WEB的查询系统w SRS采用全菜单驱动方式包括EMBL、EMBL_NEW、SwissProt、PIR等一级数据库还包括许多二级数据库，如蛋白质家族和结构域数据库Prosite、限制酶数据库ReBase、PDB序列子集数据库NRL_3D、真核基因启动子数据库EPD、E.coli 数据库ECD、酶名称和反应数据库ENZYME、生物计算文献数据库SEQANALREF等，还有与功能、疾病相关的数据库，总共有80个数据库。w SRS在中国的镜像站点建立在北京大学生物信息中心。3、ExPASyw ExPASy(Expert Protein Analysis System，http:/www.expasy.org/)是由瑞士生物信息学研究所建立的一个蛋白组学WWW服务器，着重于分析蛋白质序列和结构。w 内容：蛋白质序列数据库SWISS-PROT和TrEMBL蛋白质家族和结构域数据库PROSITE2维和3维聚丙烯酰胺凝胶电泳数据库SWISS-2DPAGE、SWISS-3DIMAGE等

展开阅读全文

chapter3生物分子数据库

最新文档