资源描述
Uniprot蛋白数据库,Uniprot蛋白数据库,之前,世界上最广泛使用的蛋白数据库为瑞士的,SWISS-PROT,计划建立的数据库,,NHGRI,的项目主任,Peter Good,介绍说。但由于编辑详细蛋白结构数据库时间紧迫,再加上资金短缺,,SWISS-PROT,无法跟上基因组学飞速前进的步伐,,Good,说。这种形势导致了,TrEMBL,的产生,这是计算机注释的,SWISS-PROT,分支数据库,目的是暂时储存日益增多的蛋白质结构信息。另外,,美国的蛋白信息资源(,Protein Information Resource,,,PIR),也独立编辑其自己的数据库。后来,这三个计划的领导人将展开合作,将三大数据库合并为一个。联合起来的力量将“减少重复工作,由此也可以节省不必要的费用。”,SWISS-PROT,的领导人、英国剑桥欧洲生物信息研究院的,Rolf Apweiler,说道。,,UniProt,将是,SWISS-PROT,、,TrEMBL,和,PIR,三大数据库的最佳整,合,一个集中化的数据库十分重要,密歇根大学的肿瘤学家,Samir Hanash,对此表示同意。他同时也是人类蛋白组组织(,Human Proteome Organisation,)的主席。然而,,Hanash,提醒说,,UniProt,只是一个开始,还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息,他说。(,2002,年),这句话不仅代表了,Uniport,数据库,也是代表了整个生物信息学,科研本就是站在巨人的肩膀上发展的,那么这个肩膀也得与时俱进了!,Uniport,的前世今生,之前,世界上最广泛使用的蛋白数据库为瑞士的SWISS-PRO,UniProt,(全称,Universal Protein,),它整合了三个老字号数据库(,Swiss-Prot,、,TrEMBL,和,PIR-PSD,)的数据。是目前信息最丰富、资源最广的免费蛋白质数据库(注意没有之一哦!)。,UniProt,知识库(,UniProtKB,)是收集蛋白质功能信息的中心枢纽,具有准确,一致和丰富的注释。除了捕获每个,UniProtKB,条目强制的核心数据(主要是氨基酸序列,蛋白名称或描述,分类数据和引用信息)外,还会添加尽可能多的,注释,信息。这包括广泛接受的生物本体论,分类和交叉引用,以及以实验数据和计算数据的证据归属形式的注释质量的明确指示。,UniProt(全称Universal Protein),它,蛋白质序列从哪里来?,由,UniProtKB,提供的超过,95,的蛋白质序列来源于已经提交给公共核酸数据库,,EMBL-Bank/GenBank/DDBJ,数据库(,INSDC,)的编码序列(,CDS,)的翻译。所有这些序列以及作者提交的相关数据都自动整合到,UniProtKB/TrEMBL,中。,除翻译的,CDS,之外,,UniProtKB,蛋白质序列可以来自:,1,、在,PDB,数据库。,2,、通过直接蛋白质测序实验获得的序列,通过,Edman,降解或,MS/MS,实验并提交给,UniProtKB/Swiss-Prot,。只有约,5,的,UniProtKB/Swiss-Prot,条目包含通过直接蛋白质测序获得的序列数据(具有关键字的条目列表,Direct protein sequencing,)。,3,、从文献(,ig PRF,或其他期刊扫描项目)扫描的序列。,4,、从基因预测,没有提交的序列,EMBL-Bank/GenBank,登录,/DDBJ,。,5,、序列来源于内部基因预测,在非常特殊的情况下。,蛋白质序列从哪里来?由UniProtKB提供的超过95的蛋,Uniprot,主要功能,查询蛋白质序列以及其他多种信息,查询蛋白质组,找相似的蛋白质,对比多种蛋白质序列,查询蛋白质相关文献,Uniprot主要功能查询蛋白质序列以及其他多种信息,网站的,网址为,www.uniprot.org/,,先来看看全景图吧!这个,数据库,可以大致分为,6,个主题部分,如上图红框所示,1,、,UniProtKB,;,2,、,UniRef,;,3,、,UNIParc,;,4,、,Proteomics,;,5,、,Supporting data,。,6,、检索区,网站的网址为www.uniprot.org,这次我们先游览第一个主题,也是最经典的部分。(其实其他的主题我自己还没有完全搞明白),1,、,UniProtKB,(,Uni,versal,Prot,ein Knowledge base,)它是经过专家校验的数据集,又分成两部分(绿框部分,不用担心,这些都是免费的,不是那种滥收费园中园),1.1,、,Swiss-Prot(,经过人工检查、校验的条目,),高质量的、人工注释的、非冗余的数据集;主要来自文献中的研究成果和,E-value,校验过的计算分析结果。,截止到昨天,Swiss-Prot,包含,556,196,条记录,(,2010,年,8,月,10,日有,519,348,条记录,,7,年后增加了,3,万多条记录,评价每天大约,10,几条记录,速度还是比较慢的。),1.2,、,TrEMBL(,计算机自动注释的、未经人工校验的条目,),该数据主要是利用计算机对大量基因组数据流进行分析注释(人工校验速度暂时无法跟上数据的产生速度)。,截止到昨天,2017,年,03,月,19,日,TrEMBL,包含,98,705,220,条记录,(,2010,年,8,月,10,日有,110,636,205,条记录,,7,年后数据量减少了很多,估计是去掉了很多重复的数据)另外大家会注意到这里的数据是,Swiss-Pro,数据的,100,多倍。,进入方式多种多样,,1,、主页默认的入口就是,UniProt,;,2,、可以直接点击红框,1,区域进入;,3,、也可以通过点击红框,6,,系统会弹出下拉菜单如图,2,所示,选择,UniProt,红框,1,即可进入。,这次我们先游览第一个主题,也是最经典的部分。(其实其他的主,检索区主要是为了让有经验同学快速找到自己感兴趣的蛋白质,可以按照蛋白质的名称、序列,,ID,号等方式检索。,红框,1,区是对这个主题区域的简要介绍,检索区主要是为了让有经验同学快速找到自己感兴趣的蛋白质,可,红框,2,区可以让游客根据自己的喜好来显示蛋白质数据,比如可以只显示经过人工校验的条目;可以只看专属于某个物种的蛋白质;还可以检索物种分类;还有直接快速进入,UniRef,的通道以及视频化的帮助,演示文件,红框,3,区是主题区,这里列出了所有,UniProt,数据库的蛋白质条目,因为数据太多,(,这个数字其实是,Swiss-Pro,与,TrEMBL,两部分的总和),每页显示,25,条(您可以自己选择每页的显示数目,10,、,25,、,50,、,100,或,200,),,红框2区可以让游客根据自己的喜好来显示蛋白质数据,比如可以,Entry,:是,UniProt,的给每个蛋白质赋予的独一无二的,ID,号,Entry name:,是蛋白,ID,简要名字,Protein names:,蛋白质的名字,Gene names:,编码这个蛋白的,Gene,名字,Organism,:蛋白质的种属来源,Length:,氨基酸长度,Entry:是UniProt的给每个蛋白质赋予的独一无二的I,Uniprot蛋白数据库专题培训ppt课件,首先,sp,表示,,Swiss-Prot,数据库是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实,(reviewed,manually annotated),。,P02769,是蛋白在,uniprot,上的,ID,号,即蛋白的身份证号。,ALBU_BOVIN,是蛋白在,uniprot,上的登录名,跟,P02769,是一个作用。,Serum albumin,是蛋白名称,即蛋白的姓名啦。,OS,表示,Organism,,也就是物种名称,数据库中的物种名称一般为拉丁名称,牛血清白蛋白,Bostaurus,当然是牛的拉丁。,GN,表示,gene name,即基因名称,PE,表示,ProteinExistence,,即蛋白的可靠性,,PE=1,、,2,、,3,、,4,、,5,分别对应如下,可以看出数字越小可靠性越高:,1.Experimental evidence at protein level,蛋白质水平实验证据,2.Experimental evidence at tran level,转录水平实验证据,3.Protein inferred from homology,从同源蛋白质推断,4.Protein predicted,蛋白质预测,5.Protein uncertain,蛋白质不确定,SV,表示,SequenceVersion,,即序列版本,即蛋白的身份证第二代,第三代,这里需要指出的是,除了,sp,,有时还会出现,TR,。,首先sp表示,Swiss-Prot数据库是注释精炼的蛋白序列,红框,2,区只看专属于某个物种的蛋白质,红框2区只看专属于某个物种的蛋白质,红框,3,区第一行,t BLAST:,这个按钮可以让你用感兴趣的蛋白质序列做,BLAST,分析(就是查一下在,UniProt,数据库中,还有哪些蛋白质的氨基酸序列与你感兴趣的蛋白质相同或相似),别小瞧这个功能,知道哪些蛋白与目的蛋白序列相似,就有可能知道这个蛋白具有哪些生物系功能,如果恰好还有其他相似蛋白的结构信息,就能帮助你大致知道这个蛋白的空间结构。使用这个功能必须先选中,只能选中一个蛋白质。,i Align:t BLAST,是对单个蛋白序列与数据库数据进行比对,,i Align,可以让你对多个蛋白质的序列之间进行相似性比对,这种分析可以让你找到这些蛋白之间的结构保守区域,还可以根据蛋白质的相似性,分析这些蛋白之间的亲缘关系,进化的先后顺序等。,基本局部比对搜索工具,红框3区第一行i Align:t BLAST是对单个蛋白序,=Download,:这个容易理解,您可以下载蛋白的序列数据,可以下载选中的蛋白,也可以下载全部蛋白(做蛋白质组学分析的人经常用,否则没有必要全部下载,不过有时候最好定期下载更新一下,还是很有必要的)下载的格式也多种多样,比如,FASTA,,,Text,,,Excel,,,XML,,,List,等,如果数据量大,还可以选择压缩以后下载。,b Add to basket:,这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加,400,条数据,呵呵,这个不是超市的购物篮,是不收费的。,e Columns:,这个可以让您定制蛋白数据列信息,就是自己定制显示哪些列信息,这个内容非常多,包括名称和分类学信息,序列信息(氨基酸长度,分子量,,SNP,等),功能信息(,EC number,信号通路,活性位点,各种结合位点等),相互作用信息,表达信息,亚细胞定位信息,翻译后修饰,结构,家族及结构域信息,序列信息,.,太多了,感兴趣的自己进去看吧!,b Add to basket:,这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加,400,条数据,呵呵,这个不是超市的购物篮,是不收费的,=Download:这个容易理解,您可以下载蛋白的序列数据,UniProt,参考群集(,UniRef,)提供来自,UniProt,知识库,(包括,同种型,)和选定的,UniParc,记录的序列集合集合,以便以多种分辨率获得对序列空间的全面覆盖,同时从视图中隐藏冗余序列(但不包括其描述)。,与,UniParc,不同,序列片段被合并到,UniRef,中:,UniRef100,数据库将具有来自任何生物体的,11,个或更多残基的相同序列和亚片段组合成单个,UniRef,条目,显示代表性蛋白质的序列,所有合并的登录号条目和链接到相应的,UniProtKB,和,UniParc,记录,。,UniRef90,是通过用,UniRef100,序列对,1
展开阅读全文