生物信息学第4章蛋白质序列数据库课件

上传人:沈*** 文档编号:241530194 上传时间:2024-07-02 格式:PPT 页数:43 大小:3.20MB
返回 下载 相关 举报
生物信息学第4章蛋白质序列数据库课件_第1页
第1页 / 共43页
生物信息学第4章蛋白质序列数据库课件_第2页
第2页 / 共43页
生物信息学第4章蛋白质序列数据库课件_第3页
第3页 / 共43页
点击查看更多>>
资源描述
第4章 DNA、RNA和蛋白质序列数据库生物信息学数据库 生物信息数据库种类繁多,就目前来看,大体可以分为四个大类四个大类:1.基因组数据库;2.核酸和蛋白质一级结构序列数据库;3.生物大分子(主要是蛋白质)三维空间结构数据库;4.根据以上三类数据库和文献资料为基础构建的二次数据库二次数据库。也称专门数据库专门数据库、专业数据库或专用数据库专业数据库或专用数据库。一一次次数数据据库库核酸序列数据库-三大核酸序列数据库 nGenBank nEMBL(的核酸数据库)nDDBJnGenBank是具有目录和生物学注释的核酸序列综合数据库,n由美国国家医学图书馆(NLM)的国家生物技术信息中心(NCBI)构建、维护和管理。n该中心位于美国马里兰国家健康研究所(NIH)。GenBank数据库 GenBank数据库nNCBI的GenBank:www.ncbi.nlm.nih.gov/genbanknNCBI:National Center for Biotechnology InformationnNLM:National Library of MedicinenNIH:National Institute of HealthGenBank数据库页面GenBank数据库 nGenBank(www.ncbi.nlm.nih.gov/genbank/)n该核酸数据库中包含了已经公开的30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。nGenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL)和日本的DNA数据库(DNA Data Bank of Japan DDBJ)进行数据交数据交换换,以保证数据库内容在全世界范围的同步性。GenBank数据库 GenBank数据库记录格式 nNucleotide通常用FASTA和GenBank两种格式显示。nFASTA格式仅包括该序列的简要特征,并以G、A、T、C四种碱基列出核苷酸序列,简单明了(各个数据库通用的格式,属于最简各个数据库通用的格式,属于最简洁明了的格式洁明了的格式)。n而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息(GenBank 所独有的格式所独有的格式)。FASTA格式序列ngi|221078348|gb|EU755370.2|Solanum lycopersicum isolate WRKY1000.3 WRKY mRNA,complete cds ATTTTAAGCTTTTTGGATTTGTTGGAATTTTATTAAGAAGAAATTAAAGCAATGGAATTCACAAGTTTGGTTGATACTTCCTTGGATTTGAGTTTTAGACCTCTTCCAGTTCTTGATAAAGTGCTGAAACAAGAAGTTCAGAGTAATTTCACTGGATTGAGCAGAGACAATATGCTGGTGAAAGATGAGGCAGGTGATTTGTTGGAGGAACTGAACAGAGTGAGCAGTGAAAACAAGAAACTAACAGAGATGCTCACAGTGGTGTGTGAAAATTACAATGCATTAAGAAACCAACTAATGGAGTATATGAACAACCAGAATAATGGTGTAGTAGATGATAGTGCTGGATCAAGGAAAAGAAAAGCTGAAAATATCTCCAATCCCAACAACAACAACAACAACAAAAACAACAACTTGGATATTGTTTGTGGACGTTTATCAGAAAGCAGTTCAAGTGATGAAGAGTCTTGTTGCAAGAAACCTAGAGAAGAGCACATAAAAACTAAGGTTTCTGTCGTTTCTATGAGGACAGAAGCATCTGATACCTCTCTTATTGTAAA nhttp:/www.ncbi.nlm.nih.gov/nuccore/221078348?report=fastaGenbank格式Genbank格式Genbank格式Genbank格式电子提交序列到Genbankn n两种主要的电子提交途径n n1、互联网交互方式的提交n n2、软件提交,Sequin ftp:/ftp.ncbi.nih.gov/sequin/EMBL数据库nEMBL建立于1980年,EMBL核苷序列数据库(http:/www.ebi.ac.uk/embl/)是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库nEMBL:European Molecular Biology LaboratorynEBI:European Bioinformatics Instituten核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ(Japan)和GenBank(USA)交换的数据。EMBL数据库DDBJ数据库 n日本DNA数据库(DDBJ:www.ddbj.nig.ac.jp)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。n由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时候都享有相同数据。nDDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。DDBJ数据库INSDCn1998年,GenBank、EMBL和DDBJ共同成立了国际核酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC)n三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。nhttp:/www.insdc.org/INSDC-三大数据库之间的联系NCBI站点的其它数据库和工具n1.Entrez系统 http:/www.ncbi.nlm.nih.gov/sites/gquery n2.BLAST 序列相似性搜索 http:/blast.ncbi.nlm.nih.gov/Blast.cgi n3.用FTP获取GenBank http:/ftp.ncbi.nih.gov/genbankEntrez 检索-NCBI检索首页检索窗口的数据库选项下拉菜单 GenBank数据库-Entrez检索系统子数据库 通过Entrez从NCBI获取序列信息nEntrez主要是用于NCBI数据库综合的、基于文本的检索系统。nEntrez综合了科学文献、DNA和蛋白序列数据、3D蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完整基因组组装和分类学信息,形成一个紧密链接的系统。n它用于搜索NCBI链接数据库的检索系统。检索栏(for)输入“IL-2 human”Entrez Gene检索结果摘要格式显示页面 Entrez Gene全文报告页面(前部分)EntrezEntrez Gene Gene全文报告页面全文报告页面 (后部分)(后部分)1.7核酸序列数据库-特殊类型核酸序列数据库:n非编码RNA数据库(ncRNA)www.ncrna.org 非编码RNA(non-coding RNA ncRNA)数据库旨在提供非编码RNA的序列和功能信息。n表达序列标签数据库 dbEST www.ncbi.nlm.nih.gov/est dbEST是GenBank中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。nmiRBase www.mirbase.org miRBase序列数据库主要存放已发表的微小RNA(microRNA miRNA)序列和注释的数据库。非编码RNA数据库(ncRNA)表达序列标签数据库 dbEST1.8核酸序列数据库-基因表达数据库:n基因表达数据库(GEO)GEO:Gene Expression Omnibus www.ncbi.nlm.nih.gov/geo/基因表达数据库(GEO)miRBase核酸序列数据库-基因组相关数据库:n人类基因组数据库(HGD)www.ncbi.nlm.nih.gov/genome/guide/human/n拟南芥基因数据库(TAIR)www.arabidopsis.orgn茄科植物基因组数据库(SGN)人类基因组数据库(HGD)拟南芥基因数据库(TAIR)茄科植物基因组数据库(SGN)蛋白质序列数据库n随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。蛋白质数据库n n综合的蛋白质序列数据库综合的蛋白质序列数据库 Swiss-Prot Swiss-Protn n蛋白质功能、结构域和蛋白质家族有关的数据库蛋白质功能、结构域和蛋白质家族有关的数据库 PROSITE PROSITE、InterProInterPro、PfamPfamn n信号传导数据库信号传导数据库 KEGG KEGGn三维结构数据库数据库 PDB PDBPfamn蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作域(domain)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。nPfam数据库(http:/pfam.sanger.ac.uk/)是一个大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(HMMs)分析结果的代表。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!