生物信息数据库

上传人:小**** 文档编号:242983173 上传时间:2024-09-13 格式:PPT 页数:71 大小:6.38MB
返回 下载 相关 举报
生物信息数据库_第1页
第1页 / 共71页
生物信息数据库_第2页
第2页 / 共71页
生物信息数据库_第3页
第3页 / 共71页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,计算机应用,生物信息数据库,与生物信息中心,授课大纲,生命信息学,生命科学与计算机技术的交叉。,生物信息学的研究内容: (,1,)生物信息中心(,2,)生物信息数据库及格式。,生物信息数据的检索工具,Entrez,文献的检索与管理软件,Reference manager,序列同源搜索分析工具,Blast,核酸、蛋白质序列比对分析软件,DS geneDNASIS,生物大分子空间三维结构显示与分析软件,Rasmol,生物图像对比分析软件,Scion Image (NIH image),生物科学数据处理软件,Origin,重要生物信息中心,重要生物信息数据库,数据库检索工具,生物分析相关软件,生物信息研究内容,一、重要生物信息中心,Bioinformatics,Centres,NCBI,National Center for Biotechnology Information,(US),www.ncbi.nlm.nih.gov,EBI,European Bioinformatics Institute,(EU),www.ebi.ac.uk,DDBJ DNA Data Bank of Japan,(JP),www.ddbj.nig.ac.jp,ExPASy,Expert of Protein Analysis System (,Switzerland,),www.expasy.ch,PDB Protein Data Bank (US),www.rcsb.org/pdb,/,CBIPKU,北京大学生物信息中心,(,CN,), ),www.biosino.org,NCBI,:,http:/,www.ncbi.nlm.nih.gov,http:/, #),唯一确定,同一文件间和不同文件间信息的联系均通过,accession #,实现,关系数据库,(relational DB),基于实体联系模型,(E-R,模型,),表中的记录,(record/,tuple,),键唯一确定,表之间通过外键建立联系,信息表示:关系数据库,semantic,mapping,Attributes,Relations,查询,语义映射,和处理过程,结果,语义匹配,生物信息学数据存在的问题,信息源分布在世界各地不同的站点上,涉及多个数据源的全局问题无法立刻得到答案,Painfully collecting unstructured information around the sites,Manually putting pieces together,Hopefully getting the right picture.,总之,信息源的特点是:,自治的,(autonomous),分布式的,(distributed),异构的,(heterogeneous),数据集成,Data,Integration,数据集成,XML,XML,Site A,Site B,Data Integration,生物信息学最重要的任务是从海量数据中提取新知识,生物数据库的种类,序列数据库,核酸序列数据库,(,EMBL,、,GenBank,、,DDBJ,),常用蛋白质序列数据库,(,Swissprot,PIR,),结构数据库,蛋白质结构数据库,(,PDB,),蛋白质分类数据库,(,SCOP,、,CATH,),其它,数据库,生物数据库的种类,序列数据库,主要核酸序列数据库,:,GenBank,、,EMBL,、,DDBJ,主要蛋白质序列数据库,:,Swissprot, PIR,美国的核酸数据库,GenBank,Banson,D.A,. et al. (1998) Nucleic Acids Res. 26, 1-7,从,1979,年开始建设,,1982,年正式运行;,欧洲分子生物学实验室的,EMBL,数据库也于,1982,年开始服务,日本于,1984,年开始建立国家级的核酸数据库,DDBJ,,,并于,1987,年正式服务。,从那个时候以来,,,DNA,序列的数据已经从,80,年代初期的百把条序列,几十万碱基上升至现在的,110,亿碱基!这就是说,在短短的约,18,年间,数据量增长了近十万倍。,核酸序列数据库,核酸序列,核酸序列是由,4,种核苷酸的单字母(,ATGC,)符号排成的序列。,蛋白质序列数据库,SWISS-PROT,和,PIR,是国际上二个主要的蛋白质序列数据库,目前这二个数据库在,EMBL,和,GenBank,数据库上均建立了镜像,(mirror),站点。,SWISS-PROT,数据库包括了从,EMBL,翻译而来的蛋白质序列,,这些序列经过检验和注释。,PIR,数据库的数据由美国家生物技术信息中心,(NCBI),翻译自,GenBank,的,DNA,序列,。,蛋白质序列,MNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATKSNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPIIFDVRAIGGTFIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTSMRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFFGTYFSFTHGTAQILELIKRNKKIMYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVVTATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVEQLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEARKQGQKTYHPKKGSVTLVYYNKYNHPNMYDQKEIQLQVMNQTYSFVFNGQKEGIQFNYHPSQINGLFFVMHDEDFDGIANKVPDSEKMIYRGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISILFFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLD,蛋白质序列是由,20,种氨基酸的单字母符号排成的序列。,蛋白质数据库种类和特点,名称,维护单位,注释,冗余度,数据量,更新,PIR,NCBI,、,JIPID,、,MIPS,部分完善,较大,较大,较慢,SwissProt,EBI,、,SIB,完善,小,不大,较慢,NRL3D,NCBI,完善,小,小,较慢,TrEMBL,EBI,、,SIB,不完善,大,大,快,GenPept,NCBI,不完善,大,大,快,NRDB,EBI,一般,小,大,较快,OWL,HGMP,一般,小,大,较慢,生物大分子三维结构数据库,蛋白质结构数据库,PDB,蛋白质分类数据库,SCOP,和,CATH,蛋白质结构库(,PDB,),实验获得的三维蛋白质结构均贮存在蛋白质数据库,PDB,(,http:/,www.rcsb.org/pdb,),中。,PDB,是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。,PDB,贮存有由,X,射线和核磁共振,(NMR),确定的结构数据。,蛋白质结构,蛋白质结构存放着构成蛋白质分子的所有原子的三维空间坐标值。,蛋白质结构分类数据库,SCOP,(,S,tructural,C,lassification,o,f,P,roteins),CATH,(,C,lass,A,rchitecture,T,opology,H,omology),蛋白质结构分类数据库,SCOP,描述了,结构和进化,关系。,SCOP,数据库,从不同层次,对蛋白质结构进行分类,以反映它们结构和进化的相关性。,第一个分类层次为家族,通常将,序列相似性程度在,30%,以上,的蛋白质归入同一家族,有比较明确的进化关系。,超家族:序列相似性较低,,结构和功能特性,表明它们有共同的进化起源,将其视作超家族。,折叠类型:无论有无共同的进化起源,只要,二级结构单元具有相同的排列和拓扑结构,,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。,蛋白质结构分类数据库,CATH,类型,C,lass,、构架,A,rchitecture,、拓扑结构,T,opology,和同源性,H,omology,。,分类基础是,蛋白质结构域,。与,SCOP,不同的是,,CATH,把蛋白质分为,4,类,即,a,主类、,b,主类,,a-b,类(,a/b,型和,a+b,型)和低二级结构类,。低二级结构类是指二级结构成分含量很低的蛋白质分子。,CATH,数据库的,第二个分类,依据为由,螺旋和,折叠形成的,超二级结构排列方式,,而不考虑它们之间的连接关系。,第三个层次为,拓扑结构,,即二级结构的形状和二级结构间的联系。,第四个层次为,结构的同源性,,它是先通过序列比较然后再用结构比较来确定的。,CATH,数据库的最后一个层次为,序列,(Sequence),层次,,在这一层次上,只要结构域中的序列同源性大于,35%,,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有,60%,与小的结构域相同。,蛋白质结构分类数据库,CATH,基因组数据库,GDB,人类基因组数据库,AceDB,线,虫,(,Caenorhabditis,elegans,),基因组数据库,四、数据库检索工具,Entrez,SRS,http:/,www.ncbi.nlm.nih.giv/Entrez,/,Entrez-GenBank,SRS,(,S,equence,R,etrieval,S,ystem,),SRS,是欧洲分子生物学网,EMBnet,的主要检索工具。,SRS,Sequence Retrieval System, is a powerful database management system developed specifically for biological databases. The goal of SRS is to provide an efficient access to databases with biological contents no matter in what format are they available and allowing for complex search criteria.,数据库记录的格式与检索路口,核酸,/,蛋白质数据库记录的组成,由于历史原因,各种生物数据库采用了,不同的信息格式,,许多生物计算机软件也要求,特定的核酸和蛋白质序列输入格式,。,一个数据库记录,(entry),一般由两部分组成:,原始序列数据,和描述这些数据,生物学信息的注释,(annotation),。,注释中包含的信息与相应的序列数据同样重要和有应用价值,值得注意。,序列部分和注释部分两者都有固定格式,以便计算机读取。各个数据库的具体格式又有所不同,大致分成,GenBank,和,EMBL,两种风格。,GenBank,格式,GenBank,格式,GenBank,格式:,每个条目都是一份,纯文本文件,。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。为了同,embl,对照,一并列在下表中。,GenBank,条目,使用一大批与,EMBL,和,DDBJ,数据库统一的关键字。,格式可以分成,3,个部分:,1,),头部包含关于整个序列的信息(描述字符),从,LOCUS,行到,ORIGIN,行,;,2,)注释这一序列的特性(,Feature Table,),,为注释的核心部分;,3,),序列本身,(Sequence),。,注:所有的核苷酸数据库记录(,EMBL/,GenBank,/DDBJ),都在最后一行以,/,结尾。,EMBL,格式,EMBL,格式,EMBL,格式:,欧洲分子生物学,EMBL,数据库的每个条目是一份,纯文本文件,,每一行最前面是由,两个大写字母组成,的识别标志,常见的识别标志列举在后面的表中。识别标志“特性表”,FT,包含一批关键字,它们的定义已经与,GenBank,和,DDBJ,统一。下欧洲国家的许多数据库如,SWISS-PROT,、,ENZYME,、,TRANSFAC,等,都采用与,EMBL,一致的格式。,数据库记录注释代码和内容说明,EMBL,识别标志,GenBank,识别字,意义,ID,LOCUS,序列名称,DE,DEFINITION,序列简单说明,AC,ACCESSION,唯一的提取号,OS,SOURCE,序列来源的物种名,OC,ORGANISM,序列来源的物种学名和分类学位置,DT,建立日期,KW,KEYWORDS,与序列相关的关键词,RN,REFERENCE,相关文献编号,或递交序列的注册信息,RA,AUTHORS,相关文献作者,或递交序列的作者,RT,TITLE,相关文献题目,RL,JOURNAL,引文出处,相关文献刊物杂志名,或递交序列的作者单位,RX,MEDLINE,相关文献,Medline,引文代码,RP,相关文献其它注释,数据库记录注释代码和内容说明(,cont.,),EMBL,识别标志,GenBank,识别字,意义,RC,REMARK,相关文献注释,DR,相关数据库交叉引用号,XX,为阅读清晰而加的空行,CC,COMMENT,评注,NI,VERSION,可更新的序列版本号,FH,FEATURES,序列特征表起始,FT,FEATURES,特性表,SQ,EMBL,序列开始标志,后随长度、字母数,BASE COUNT,GenBank,碱基数目,ORIGIN,GenBank,序列开始标志,该行空,/,/,序列结束标志,空行,一个,简单的,GenBank,记录,LOCUS AF062069 3808,bp,mRNA INV 02-MAR-2000,DEFINITION Limulus,polyphemus,myosin III mRNA, complete,cds,.,ACCESSION AF062069,VERSION AF062069.2 GI:7144484,KEYWORDS .,SOURCE Atlantic horseshoe crab.,ORGANISM Limulus,polyphemus,Eukaryota,;,Metazoa,;,Arthropoda,;,Chelicerata,;,Merostomata,;,Xiphosura,;,Limulidae,; Limulus.,REFERENCE 1 (bases 1 to 3808),AUTHORS,Battelle,B,.-A.,Andrews,A.W,.,Calman,B.G,.,Sellers,J.R,.,Greenberg,R.M,. and,Smith,W.C,.,TITLE A myosin III from Limulus eyes is a clock-regulated,phosphoprotein,JOURNAL J.,Neurosci,. (1998) In press,REFERENCE 2 (bases 1 to 3808),AUTHORS,Battelle,B,.-A.,Andrews,A.W,.,Calman,B.G,.,Sellers,J.R,.,Greenberg,R.M,. and,Smith,W.C,.,TITLE Direct Submission,JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida,9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA,REFERENCE 3 (bases 1 to 3808),AUTHORS,Battelle,B,.-A.,Andrews,A.W,.,Calman,B.G,.,Sellers,J.R,.,Greenberg,R.M,. and,Smith,W.C,.,TITLE Direct Submission,JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida,9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA,REMARK Sequence update by submitter,COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.,FEATURES Location/Qualifiers,source 1.3808,/organism=Limulus,polyphemus,/,db_xref,=taxon:6850,/,tissue_type,=lateral eye,CDS 258.3302,/note=N-terminal protein,kinase,domain; C-terminal myosin,heavy chain head; substrate for PKA,/,codon_start,=1,/product=myosin III,/,protein_id,=AAC16332.2,/,db_xref,=GI:7144485,/translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ,BASE COUNT 1201 a 689 c 782 g 1136 t,ORIGIN,1,tcgacatctg,tggtcgcttt,ttttagtaat,aaaaaattgt,attatgacgt,cctatctgtt,3781,aagatacagt,aactagggaa,aaaaaaaa,/,GenBank,记,录(,cont.,),LOCUS AF062069 3808,bp,mRNA INV 02-MAR-2000,序列,和,数据库标识,位置,提取号,版本,DEFINITION Limulus,polyphemus,myosin III mRNA, complete,cds,.,GB Division,Locus,名字,简单,描述,(,标题,),修改,日期,序列,类型,mRNA (=,cDNA,),rRNA,snRNA,DNA,序列,长度,VERSION AF062069.2 GI:7144484,ACCESSION AF062069,提,取号,Accession.version,gi,number,关,键字,生物体来源,KEYWORDS .,SOURCE Atlantic horseshoe crab.,ORGANISM Limulus,polyphemus,Eukaryota,;,Metazoa,;,Arthropoda,;,Chelicerata,;,Merostomata,;,Xiphosura,;,Limulidae,; Limulus.,序列来源的物种名,序列来源的物种学名和分类学位置,可更新的序列版本号,REFERENCE 1 (bases 1 to 3808),AUTHORS,Battelle,B,.-A.,Andrews,A.W,.,Calman,B.G,.,Sellers,J.R,.,Greenberg,R.M,. and,Smith,W.C,.,TITLE A myosin III from Limulus eyes is a clock-regulated,phosphoprotein,JOURNAL J.,Neurosci,. (1998) In press,REFERENCE 2 (bases 1 to 3808),AUTHORS,Battelle,B,.-A.,Andrews,A.W,.,Calman,B.G,.,Sellers,J.R,.,Greenberg,R.M,. and,Smith,W.C,.,TITLE Direct Submission,JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida,9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA,REFERENCE 3 (bases 1 to 3808),AUTHORS,Battelle,B,.-A.,Andrews,A.W,.,Calman,B.G,.,Sellers,J.R,.,Greenberg,R.M,. and,Smith,W.C,.,TITLE Direct Submission,JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida,9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA,REMARK Sequence update by submitter,COMMENT On Mar 2, 2000 this sequence version replaced gi:,3132700,.,引用,以,前版本号,相关文献编号,或递交序列的注册信息,相关文献作者,或递交序列的作者,相关文献题目,引文出处,相关文献刊物杂志名,或递交序列的作者单位,相关文献注释,评注,FEATURES Location/Qualifiers,source 1.3808,/organism=Limulus,polyphemus,/,db_xref,=taxon:6850,/,tissue_type,=lateral eye,CDS 258.3302,/note=N-terminal protein,kinase,domain;,C-terminal myosin heavy chain head; substrate for PKA,/,codon_start,=1,/product=myosin III,/,protein_id,=AAC16332.2,/,db_xref,=GI:7144485,/translation=MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDK,NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWL,特性表,编,码序列,Biosource,阅读,框,GenPept,Protein Identifiers,BASE COUNT 1201 a 689 c 782 g 1136 t,ORIGIN,1,tcgacatctg,tggtcgcttt,ttttagtaat,aaaaaattgt,attatgacgt,cctatctgtt,3721,accaatgtta,taatatgaaa,tgaaataaag,cagtcatggt,agcagtggct,gtttgaaata,3781,aagatacagt,aactagggaa,aaaaaaaa,/,Sequence,记,录结束标记,指,示序列数据的起始,GenBank,碱基数目,PDB,数据库文件格式,分子类别,-,水解酶类,(氧连接糖基化),该文件的公布日期,该物质的,pdb,代码,该化合物名称人类唾液淀粉酶,该化合物的来源,结构测定者名字,REMARK,是此,pdb,文件的参考书目、最大分辨率、注解等,REMARK,的,部分讲解,下图中,1,处指出蛋白质原子数为,3946,,,2,处指出核酸原子数为,0,,,3,处指出异型原子数为,2,,,4,处指出溶剂原子数为,169,指出蛋白质原子数,核酸原子数,异型原子数,溶剂原子数,SEQRES,部分,EQRES,部分表示了该分子包含,496,个氨基酸残基,并将每个残基符号依次列出:,HELIX,部分,下面的,HELIX,部分显示的是分子中,螺旋的组成和信息,如下图:,折叠,然后下面就是,折叠的组成和信息了,如下图:,分子的原子信息,下面就是该分子的原子信息了,我们先给出,Format,列的格式列表,然后进行一下详细的说明,如下图,:,列号,目录,fmt,1-6,ATOM或HETATM,All,7-11,原子序列号(可以有空格),All,13-16,按,IUPAC,标准格式的原子名称,All,17,构象标识符,用,A,B,C,表示,All,18-20,按,IUPAC,标准格式的残基名称,All,23-26,残基序列号,All,27,插入残基的编码(如:,66A&66B),All,31-38,X,坐标轴,All,39-46,Y,坐标轴,All,47-54,Z,坐标轴,All,55-60,位置,All,61-66,温度因子,All,68-70,脚注编号,92,73-76,片段指示符(左对齐),96,77-78,元素符号(右对齐),96,79-80,原子带的电荷,96,分子的原子信息详解,表示所指为原子,该原子序列号,IUPAC,标准格式的原子名称,残基名称,残基序列号,原子的,X,坐标轴,Y,坐标轴,Z,坐标轴,位置,温度因子,片段指示符,TER、HETATM、CONECT、END,TER,记录,它记录主链分子中的链末端,在,TER,后面的,HETATM,就是记录异型原子的信息。,在,HETATM,记录的后面还有一些,CONECT,记录。,CONECT,详细的描述了已给出坐标的原子间的连通性。而这种连通性是以该记录的原子序列号的形式表现的。,CONECT,记录是用来描述那些非标准残基(包括水)和那些在标准连通性表中没有被详细列出的键。,最后,在整个文件的结尾还有一个,END,记录表示文件的结束。,Knowledge Discovery in Databases,Data Warehouse,Prepared,data,Data,Cleaning,Integration,Selection,Transformation,Data,Mining,Patterns,Evaluation,Visualization,Knowledge,Knowledge,Base,生物信息学最重要的任务是从海量数据中提取新知识,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!