《生物信息学》课件第三章 Internet网上生物信息学资源

上传人:考试不挂****2941... 文档编号:243053540 上传时间:2024-09-14 格式:PPTX 页数:132 大小:15.04MB
返回 下载 相关 举报
《生物信息学》课件第三章 Internet网上生物信息学资源_第1页
第1页 / 共132页
《生物信息学》课件第三章 Internet网上生物信息学资源_第2页
第2页 / 共132页
《生物信息学》课件第三章 Internet网上生物信息学资源_第3页
第3页 / 共132页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,网上生物信息学资源,主讲教师:赵雨杰,网上生物信息学资源,Internet,不仅向其用户提供了全球范围的信息交流与快速通讯手段,其本身也具有极其丰富的信息资源,包括新闻、书刊杂志、数据库、计算机软件、多媒体资料等,也包括大量的生物信息学资源。,文献、专著数据库,核酸序列数据库,蛋白序列数据库,生物大分子三维结构数据库,化合物数据库,功能基因组数据库,疾病遗传变异数据库,生物信息学软件,信号转导数据库,蛋白相互作用数据库,实验数据及分析软件数据库等,生物信息学重要网站,美国生物技术信息中心(,National Center for Biotechnology Information, NCBI,),(http:/www.ncbi.nlm.nih.gov),创建于,1988,年,11,月,4,日,是美国国家分子生物学信息资源中心,,也是全球最有影响的生物学网站之一,。,NCBI,的使命是开发新的信息技术以协助更好地理解那些影响人类健康和疾病的分子与遗传过程。,NCBI,也从事,计算生物学,研究,开发用于分析基因组数据和传播生物医学信息的软件工具。除了,GenBank,以外,,NCBI,还支持与推广许多种医学及科技方面的数据库。,欧洲分子生物学实验室(,EMBL),与欧洲生物信息学研究所(,EBI),欧洲分子生物学实验室(,European Molecular Biology Laboratory, EMBL)(http:/www.embl.org/),是1974年由几乎全部西欧国家及以色列、阿根廷、澳大利亚等,21,个国家资助在德国海德堡建立的国际研究学院网络,致力于分子生物学研究,分别在德国、英国、法国、意大利设立5个分支机构。1980年建立了世界上第一个核酸序列数据库即,EMBL,核酸序列数据库。,欧洲生物信息学研究所(,European Bioinformatics Institute, EBI)(http:/www.ebi.ac.uk),是,EMBL,的一部分,是由欧盟资助于1992年在英国建立的一个非盈利性的学术机构,也是生物信息学研究与服务的欧洲中心。,EBI,建立在,EMBL,的核苷酸序列数据库的基础之上,同时该研究所也开发有多种生物学数据库,向研究人员提供来自于学术界的分子生物学、遗传学、医学及农业、生物技术、化学、药学工业等方面的资源信息。,网上生物信息学数据库,主讲教师:赵雨杰,数据库,核酸序列数据库:,EMBL(EMBL,核酸序列数据库)、,Ensembl(,真核细胞基因组自动注释)、,EMEST(EST,序列数据库)、,MitBase Server(,线粒体,DNA,数据库服务器)、,EDGP(,欧洲果蝇基因组项目服务器)、,Parasites(,寄生虫基因组数据库)等。,蛋白质序列数据库:,SWISS-PROT,(蛋白质序列注释性数据库)、,TrEMBL,(计算机注释的蛋白质序列数据库)及,InterPro,等。,全部基因组数据库:,Completed Genomics at the EBI,。从人类基因组项目一开始,国际人类基因组序列联盟即向国际核酸序列数据库(,DDBJ/EMBL/GenBank,)提供人类序列草图数据。通过,EBI,服务器及时地向研究者提供大量的人类基因组序列信息,这些数据最终合并到,EMBL,数据库中。,序列结构分类数据库:,DSSP,(二级结构分配数据库)、,HSSP,(同源二级结构分配数据库,),、,DALI,(蛋白质结构域词典)等。,大分子结构数据库:,EBI-MSD,(,EBI,大分子结构数据库)等。,人类蛋白质组数据库:,HPI,(,Human Proteomics Initiative,人类蛋白质组学起步,),。,1999,年,7,月,,EMBL,开始了一个主要项目即根据高质量的标准的,SWISS-PROT,蛋白质序列数据对已知的人类蛋白质序列进行注解,提供包括已知蛋白质的功能描述、域结构、亚细胞区域、翻译后修饰、变异及与其它蛋白质的相似性等大量信息。,序列图谱数据库:,RHdb Server,(放射杂交数据库服务器)、,GenomeMaps98,(人类基因图,98,)。,此外,该网站还提供,SRS,、,FASTA,、,WU-BLAST,、,CLUSTAL,等工具。,蛋白质,分析专家系统,(,ExPASy),蛋白质分析专家系统(,Expert Protein Analysis System, ExPASy)(http:/www.expasy.ch),是由瑞士生物信息学院(,Swiss Institute of Bioinformatics, SIB)(http:/www.isb-sib.ch/),于1994年初创建的世界上第一个分子生物学网站,专门分析蛋白质序列、结构、功能和蛋白质2,D-PAGE,图谱。,ExPASy,分子生物学服务器,http:/www.expasy.org,/,结构生物信息学研究联合,实验室,(,RCSB),结构生物信息学研究联合实验室(,The Research Collaboratory for Structural Bioinformatics, RCSB)(http:/www.rcsb.org/index.html),是一个非盈利性研究机构,主要致力于通过对生物大分子三维结构的研究进一步探索生物系统的功能,。,RCSB,可提供服务的数据库,PDB,生物大分子结构数据库(,Protein Data Bank,PDB)(http:/www.rcsb.org/index.html) PDB,数据库是包括蛋白质、核酸、蛋白质-核酸复合物及病毒等生物大分子的三维结构数据库。其,FTP,匿名服务器站点为:,ftp:/ftp.rcsb.org/,,,通过此站点可网上下载,PDB,的生物大分子三维结构数据。,NDB,核酸数据库 (,Nucleic Acid Database)(http:/ndbserver.rutgers.edu/NDB/ndb.html) NDB,数据库主要收集与发布核酸的结构信息。,此外,,RCSB,还在其网站上提供了其开发的结构分析工具、标准和教学服务信息等。,日本国立遗传学研究所,日本国立遗传学研究所(,National Institute of Genetics,NIG)(http:/www.nig.ac.jp/),创建于1949年,是日本遗传学各方面研究的中心研究机构及生命科学所有领域的研究基地。该研究所的著名数据库是日本,DNA,数据库(,DNA Data Bank of Japan,),即,DDBJ(http:/www.ddbj.nig.ac.jp/)。,DDBJ,是日本唯一的,DNA,数据库。通过该数据库的检索界面,(,http:/www.ddbj.nig.ac.jp/),可选择性检索,DDBJ、PDB、SWISSPROT、PIR、ENZYME、PROSITE,等20多个数据库,也可以同时检索多个数据库。,美国,Whitehead,生物医学,研究所,麻,省理工学院基因组研究中心,美国,Whitehead,生物医学研究所麻省理工学院基因组研究中心(,Whitehead Institute for Biomedical Research / MIT Center for Genome Research) (http:/genome-asia.ucsc.edu/index.html),的,Web,服务器提供基因组序列、基因组图谱、基因组中心软件、基因组中心信息等资源。,生物分子序列核心数据库,GenBank,核酸序列数据库,主讲教师:赵雨杰,当前,在,Internet,网上可以查询到大量的生物信息学数据库,但其中最重要,最核心的三个数据库为:,GenBank,核酸序列数据库、,UniProtKB,蛋白质序列数据库和,PDB,生物大分子结构数据库,,该三个数据库是分子生物学研究人员不可忽视的信息来源。,通过该三个数据库,可以较完整地获得生物大分子的序列、结构等信息。同时,研究者也可以将测定的序列或结构研究结果通过这些数据库予以认定、发表、交流。三大核心数据库各自有独立的网站提供检索服务,同时又可以相互链接,交叉检索。,1.,GenBank,核酸序列数据库,GenBank(http:/www.ncbi.nlm.nih.gov/Genbank/index.html),创立于1982年,是美国国立卫生研究院遗传学序列数据库。作为目前世界上最重要的核酸序列数据库,是生物分子的三大核心数据库之一,也是国际核酸序列数据库协作网(,International Nucleotide Sequence Database Collaboration )(http:/www.ncbi.nlm.nih.gov/collab/),的主要组成部分。,1992年11月起,,NCBI,开始承担,GenBank,的,DNA,序列数据库的维护与服务。,NCBI,受过分子生物学高级培训的工作人员将世界各地实验室提交的核酸序列以及与国际上其它核酸序列数据库如:,欧洲分子生物学实验室(,European Molecular Biology Laboratory, EMBL)、,日本,DNA,数据库(,DNA Data Bank of Japan,DDBJ,),等交换获得的核酸序列数据加入到数据库中。,三大核酸序列数据库,。,2,.,GenBank,的查询检索,检索查询,GenBank,的最简捷途径是在,NCBI,首页上的“,Search”,选项中选择,“,Nucleotide”,选项,在检索窗口内输入欲查询序列的检索词,再点击,“,Search”,按钮即可进入,检索。也可以点击主页下面的,GenBank,提示按钮进入,GenBank,数据库首页。,检索时,在,Entrez,首页上的菜单中选择“,Nucleotide”,即可进入“,Entrez Nucleotide Sequence Search(Entrez,核苷酸序列检索)”,界面。,基本检索方法是在检索窗口内直接输入检索词,其检索词输入方法及组配方式相似于,Entrez-PubMed,的,MEDLINE,检索。,对核苷酸序列库的相应字段进行限定性检索,需通过点击检索窗口下方的“,Advanced”,链接按钮,进入限定性检索界面。首先在检索框中输入检索词,然后在“,Search Field”,下拉菜单选项中选择相应的检索字段。,NCBI,核苷酸序列检索结果显示界面,基因检索,GenBank,数据呈报,许多期刊要求文献作者在投稿之前向,GenBank,数据库呈报序列信息,使得在发表的论文中可具有数据库登记号。向,GenBank,直接呈报序列数据的方便快捷方式是通过“,BankIt,”(,http:/www.ncbi.nlm.nih.gov/BankIt/,),软件。“,BankIt,”,是,NCBI,通过,WWW,向,GenBank,呈报序列数据的工具软件。,当要呈报,1,个或几个序列、喜欢利用,WWW,呈报方式、序列注释不复杂而且不需要序列分析工具呈报序列数据时,可应用“,BankIt,”,工具。,NCBI,的“,Sequin”(http:/www.ncbi.nlm.nih.gov/Sequin/index.html),是向,GenBank、EMBL,或,DDBJ,序列数据库呈报与更新序列数据的独立的工具软件。它可以处理包含单个短的,mRNA,序列信息的简单呈报以及长的序列、复杂的数据注释、,DNA,片段组、物种来源、种群研究的数据呈报。,该软件及联机帮助文件可通过匿名,FTP(ftp:/ncbi.nlm.nih.gov/sequin/),获得。适用于各类型计算机的,Sequin,软件的下载方法与步骤可参见其下载网页(,http:/www.ncbi.nlm.nih.gov/Sequin/download.html,)。,3)GenBank,数据记录的显示格式,在检索结果显示网页的检索结果列表中,可点击收录登记号浏览各记录的详细内容。和,PubMed,相同,通过选择显示格式和每页显示的记录数,然后点击下拉菜单按钮,即可同时显示多个记录的核酸序列详细信息。在可选择的显示格式中,经常选择的有,GenBank,和,FASTA,两种格式。,如要对基因序列作进一步分析,,FASTA,格式是很好的选择。,FASTA,格式仅包括该序列的简要特征,并以,G、A、T、C,四种碱基列出核苷酸序列,简单明了。而,GenBank,格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。,Nucleotide,数据库,GenBank,显示格式序列特征副标题含义,副标题,含 义,副标题,含 义,allele,等位基因,promoter,启动子,attenuator,弱化子,Protein_bind,蛋白结合区,CAAT-signal,真核启动子的,CAAT-,信号,provirus,原病毒序列,CDS,cDNA,RBS,核糖体结合位点,Cellular,胞质,DNA,rep_origion,双链,DNA,复制起始区,Conflict,不同测序的差异,repeat_region,包含重复子序列的区域,Enhancer,增强子,rRNA,核糖体,RNA,Exon,外显子,satellite,卫星重复序列,Gc_signal,真核启动子的,GC-,信号,sig_peptide,编码信号肽的序列,Intron,内含子,snRNA,小核,RNA,LTR,长末端重复序列,TATA_signal,真核启动子的,TATA-,信号,Mat-Peptide,编码成熟肽的顺序,terminator,转录终止序列,mRNA,信使,RNA,tRNA,转运,RNA,Mutation,突变位点,unsure,不能确定的区域,polyA_site,mRNA,的,polyA,位置,-10_,signal,原核启动子,Pribow-,信号,Precursor-RNA,前体,RNA,-35_,signal,原核启动子的-35-信号,Prim_transcript,初始转录物,3,UTR,3非翻译区,Primer,PCR,引物,5,UTR,5非翻译区,生物分子序列核心数据库,UniProt/SWISS-PROT/,蛋白质序列数据库,主讲教师:赵雨杰,UniProt/SWISS-PROT/,蛋白质序列数据库,SWISS-PROT(http:/www.expasy.ch/sprot/),是蛋白质序列注释性知识数据库,创建于1986年,由瑞士生物信息学研究所(,Swiss Institute for Bioinformatics,SIB),和欧洲生物信息学研究所(,European Bioinformatic Institute,EBI),共同协作维护。,Web,上有多个站点可进入并检索该数据库。其主要站点有,ExPASy,分子生物学网站(,http:/www.expasy.ch/sprot/),和欧洲生物信息学研究所(,EBI),网站(,http:/www.ebi.ac.uk/uniprot,)等。,ExPASy,网站上的,SWISS-PROT/TrEMBL,数据库访问界面 。,UniProtKB,数据库与其它蛋白质序列数据库的区别,提供蛋白质序列的详尽注释信息。序列注释包括蛋白质功能、蛋白质翻译后修饰、结构域和结合位点、二级结构、三级结构、与其它蛋白质的相似性、蛋白质缺陷相关疾病等信息。,避免过多的重复。许多序列数据库中,对于一种特定的蛋白质序列,对应不同的文献报告有不同的序列记录。而在,SWISS-PROT,中,尽量避免过多的重复。对同种蛋白质的多个记录进行仔细比较后归结到一个记录内,方便了用户检索利用。,与其它数据库相结合。,SWISS-PROT,数据库与其它30种不同的数据库进行交叉参考,可以同时获得蛋白质的各方面资料。此外,,SWISS-PROT,还提供蛋白质组(,PROTEin complement to a genOME,PROTEOME),信息和,TrEMBL,信息。,SWISS-PROT,记录显示格式很规范,字段名运用两位字母代码表示。,SWISS-PROT,记录字段及含义,UniProtKB,数据库的检索,进入,UniProtKB,首页(,http:/www.uniprot.org/,),可在检索窗口内输入检索词进行一般性检索(,Quick Search,)。这些检索词可以是:登记号,(AC),、标识号,(ID),、序列描述内容(,Description,)、基因名称(,Gene name,)、物种名称,(Organism),等字段中的词汇。,在该界面的检索窗口内,可以输入:,AC,、,ID,、,DE,、,GN,、,OS,、,OC,、,RX,、,RC,、,RA,、,RL,、,CC,、,DR,、,KW,、,FT,字段中的任意词。输入的检索词应区分大小写。如果选定检索窗口下方的“,Prefix and append wildcard,*,to words,”,(前缀及词上添加通配符,*,)复选框,还可以将输入的检索词作为前缀或词的一部分进行扩展检索。,例如:输入检索词,aldehyde,。,当不选用通配符时,则只检索完全符合“,aldehyde,”,一词的结果;当选择复选框时,则可检索出:,aldehyde,、,glyceraldehyde,、,lactaldehyde,、,aspartate-semialdehyde,等等包含“,aldehyde,”,的所有词汇。,当同时输入多个检索词时,则可利用逻辑运算符(,AND,OR,NOT,)及大括号“,”,、“,”,来限定检索。需注意,此处不可以用括号,因为括号可以作为检索词的一部分。检索举例:“,coli AND atpase OR atp synthetase,”,,该检索式可获得包含“,coli,”,,同时还包含“,atpase,”,或“,atp synthetase,”,的记录。,登记号或标识号(,AC,或,ID,)途径检索:进入登记号检索界面后,可在检索窗口内输入登记号或标识号进行检索。如:,P04406, G3P2_HUMAN,。但需注意,每次只能输入一个登记号或标识号。,序列描述或标识号(,description or identification,)检索:在此检索界面可在检索窗口内输入,SWISS-PROT,或,TrEMBL,数据库中,DE,、,OS,、,OG,、,GN,或,ID,字段中的任意词进行检索。,作者(,Author,)检索:可在检索窗口内输入作者姓名全称或姓名的一部分。例如:,Bairoch,、,BAIROCH,、,Hochstra,。检索时名字缩写后需加“,.”,。例如:,Hochstrasser D.F.,。在输入作者姓名时,也可以利用通配符“*”代表多个字母,利用“?”代表名字中的任意一个字母。例如:可利用“,Crawfor*”,或“,Craw?ord”,检索“,Crawford”,为作者的记录。,文献源(,Citation,)检索:此途径只可以检索,SWISS-PROT,数据库的内容而不能检索,TrEMBL,数据库。用户可以在相应的检索窗口内输入期刊全名或刊名缩写、期刊的出版年、卷号(后两者可选)等,从发表文献的期刊的角度检索。,SWISS-PROT,引用的具体期刊品种可参考其引用期刊表(,http:/www.expasy.ch/cgi-bin/journalist?jourlist.txt,)。,TrEMBL,数据的类似检索可通过,SRS,序列检索系统实现。,UniPROT,的显示界面,内容包括:一般信息(记录名、登记号、入库时间、修改时间等)、名称及来源(蛋白名称、同义词、基因名称、生物分类等)、文献(,PubMed,文献信息)、评论(从功能、组织特异性、相似性等)、交叉检索(与,EMBL,、,PIR,、,Genbank,、,DDBJ,、,CoDingSequence,、,InterPro,等数据库相关链接交叉检索)、关键词、特性、序列信息等。,此外,在该显示页面的上部还有五个按钮,分别是,可进入,SIB,的,BLAST,网络服务系统,对序列进行相似性比较, 同源性分析以及相关数据库登录号列表。,SWISS-PROT,序列数据上传,研究者可将被直接测序的肽链序列数据上传至,EBI,的,SWISS-PROT,数据库。该数据库将为这些序列提供登记号。上传序列数据表格可在,EBI,网站(,https:/www.ebi.ac.uk/swissprot/Submissions/spin/account/login;jsessionid=CD089F3A0F77EC76DE054EC0D01BBCE1,)获得。,表格填写后,将其发至,datasubsebi.ac.uk,。在,7,个工作日内将收到结果信息,告知作者所呈报的序列被赋予的登记号或所需要进一步提供的信息。呈报的蛋白质序列数据还与德国的,MIPS(Martinsried,蛋白质序列数据研究所,),及美国的,NBRF-PIR,(国家生物医学研究基金会)蛋白质鉴定资源等数据库共享。,生物分子序列核心数据库,PDB,生物大分子结构数据库,主讲教师:赵雨杰,PDB,简介,PDB,(,Protein Data Bank,)是结构生物信息学研究联合实验室(,The Research Collaboratory for Structural Bioinformatics, RCSB,)于,1971,年建立的全世界最完整的包括蛋白质、核酸、蛋白质,-,核酸复合物及病毒等生物大分子的三维结构数据库,网址为,“,http:/www.rcsb.org/pdb/home/home.do/”,。,PDB,分子结构信息检索方法,利用,PDB,标识符检索,:,PDB,标识符是结构数据提交时每个结构被分配的一个由字母和数字组成的四位标识符,如:“,4hhb”,、“,9ins”,分别是,PDB,数据库中“,hemoglobin(,血红蛋白,)”,和“,insulin,(胰岛素)”的标识符。,PDB,数据库首页,同时该数据库在世界上许多研究机构设立了镜像站点,如:英国的欧洲生物信息学研究所网站(,http:/www.ebi.ac.uk/services/structures,)等。结构数据信息也可以通过,PDB,网站(,http:/www.wwpdb.org/,)或其镜像网站进入检索或通过,RCSB,的,FTP,主站点(,ftp:/ftp.rcsb.org/,)获得。,PDB,生物大分子结构数据库的内容来自于全世界研究者提交的生物大分子的原子坐标、注释、一级结构、二级机构、晶体结构因子、,NMR,实验数据,由,RCSB,维护。该数据库已经收录了利用,X,线衍射、,NMR,实验或理论计算得出的蛋白质、肽、病毒、蛋白质,/,核酸复合物、核酸及醣类的结构数据。这些数据由,RCSB,组织专业人员注释并在提供者的说明基础上免费向全世界公布。,PDB,向用户提供与每种结构相关的各种信息,包括序列详细信息、原子坐标、结晶状况、利用不同方法计算的三维结构相邻元素、派生的几何数据、结构因子、三维图像以及其它资源链接。,PDB,建立的主要目的是:研究者可查询特定的生物大分子结构信息;对一个或多个结构进行简单分析;可作为,Internet,网上其它相关资源的入口;可以下载结构信息等。,利用,PDB,文本关键词检索:可通过在检索窗口内输入检索词进入检索。检索词可以是一个词或词的一部分,也可以是多词短语,大小写不限。如:“,protein kinase”,可检索出蛋白激酶的结构信息。但要注意,“,protein kinase”,与“,protein and kninase”,检索的结果不同。前者将作为一个短语检索,而后者是将两个词分开检索,凡是记录中两个词都出现的即为满足条件。,输入的检索词的字段类型可以是:,PDB,标识号、提交,/,公布日期、文献作者、文献(,PDB,数据库中涉及的题名词、期刊名称、出版年、卷、页码等)、化合物信息、酶编号、酶分类、包含的肽链类型、多肽链的数目、结构链的残基数目、,FASTA,、分子来源物种、,PDB,中的任意词等。,利用文本词检索时,也可以在检索词前加上相应的,PDB,字段特征对字段予以限制,如:“,jrnl:nature”,、“,source:human and compound:toxin”,点击在检索窗口下方,的,“,Advanced Search,”,链接按钮可,进入高级检索,界面。可以利用“,and”,、“,or”,、“,butnot”,、“,new”,进行逻辑组配检索,如:,author: brown and jrnl: science,表示检索作者字段中含有“,Brown”,以及期刊名称字段中含有“,Science”,的,PDB,数据记录。,PDB,数据库限定性检索界面,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!