蛋白质结构分析原理及工具

上传人:z**** 文档编号:125507294 上传时间:2022-07-27 格式:DOC 页数:5 大小:107KB
返回 下载 相关 举报
蛋白质结构分析原理及工具_第1页
第1页 / 共5页
蛋白质结构分析原理及工具_第2页
第2页 / 共5页
蛋白质结构分析原理及工具_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
蛋白质结构分析原理及工具(南京农业大学生命科学学院 生命基地 111 班) 摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具, 系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。 文章还列举了蛋白质分析中常用的数据库。关键词:蛋白质;结构预测;跨膜域;保守结构域1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化 后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系 同源,它们通常有不同的功能1。因此,推测全新蛋白质功能的第一步是将它的序列与进化 上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的 特点。表一 常用蛋白质数据库数据库说明链接蛋白序列数据库GenPeptTranslations of GenBank codingnucleotide entriesPIRInternational protein databaseRefSeqCurated, non-redundant with expertannotationUniProt/SwissProtReviewed, manually annotated entriesUniProt/TrEMBLAutomatically classified and annotatedentries蛋白质分类数据库CATHProteins classified based on class, architecture, topology and homologySCOPStructural classification of proteinsProtClustDBProteins classified based on sequence similarity蛋白质结构数据库PDBResolved 3D biomolecular structures网址可能有更新氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。 氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck Substitution Matrix (BLOSUM)矩阵、JTT 模型3。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜 索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联 配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了 Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似 性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工 具表二成序列相似性比搜索工具工具说明链接BLASTBasic local alignment search toolFASTAGlobal alignment search tool;/GGSEARCHGlobal alignment search tool/index.html?program=GGSEARCHSSEARCH-ProteinLocal alignment search tool against proteins/index.html?program=SSEARCH网址可能有更新2 蛋白质一级结构分析(含保守结构域)蛋白质结构的基本信息来源于它的一级结构,分析蛋白质一级结构的第一步是将它们分 成其组成部分,然后处理每个部分的结构4。这种拆分常常是根据蛋白质具有的相互作用的 结构域进行的5, 6。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的, 这些数据库通常被称为特征数据库(signature databases) ”。“基序(Motifs) ”通常指没有 间隔的多序列队列,通常由10-20 个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指 纹( fingerprint) ”。使用它们的优势是可以检测远距离的序列关系7。基序的典型例子是位 置加权矩阵(position-specific score matrix, PSSM)。PSSM计算基序中每一位置的分数。任 何一个保守位置的信息被缩小到一个叫“序列模式( sequence patterns) ”的共同序列结果。 “序 列谱(sequence profiles)”用来描述一个较长的可能含有有用信息的保守序列片段。它们被 用来较大结构域的检测。隐马尔可夫模型(Hidden Markov Models,HMMs)即是一种和序 列谱有关的模型。表三列举了主要的蛋白质特征数据库。表三常用蛋白质特征数据库数据库特征类型外部来源网络链接BLOCKSBlocksCDDHMM,MSAPfam,SMART,COGs,ProtClustDBdd.shtmlGene3DHMMCATHInterProIntegrated signature types ofits member databasesGene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART,SUPERFAMLYTIGRFAMsPfamHMM,MSAUniProtKB,GenPept,metagenomicsdatasetsPRINTSFringerprintser/PRINTS/index.phpProDomUniProtKB,SCOPome.phpPROSITEPatterns,profilesUniProtKB/SWISS-PROTSBASEBLOCKS,Pfam,PRINTS,ProDom,PROSITESMARTHMMSUPERFAMILYHMMSCOPhttp:/supfam.org/SUPERFAMILY/MSA:多序列比对;CDD:保守结构域数据库值得一提的是, CDD 数据库包含了蛋白质保守结构域分析。上述数据库都有自带的搜索引擎供搜索,它们采用的算法也不尽相同,此处不再列举。3 蛋白质二级结构分析蛋白质的二级结构是由氨基酸骨架间的氢键决定的,通常有三种形态,螺旋(H),卩 链(E)和卷曲(C)。为了从蛋白质原子的结构中获得更多的信息,蛋白质二级结构字典(DPSS) 定义了蛋白质二级结构的八种状态:三种螺旋,H (a-helix)、G (310-helix)和I (n-helix),卩 链两种,E (extended strand in parallel and/or anti-parallel 卩-strand conformation) 和 B (卩-bridge),三种卷曲,S (bend)、T (turn)和C (coil)。预测二级结构的第一步是搜索PDB 数据库寻找与查询蛋白质同源的蛋白质的实验三维结构,例如FDM(Fragment Database Mining)算法首先会对PDB数据库进行搜索。早期的二级结构预测主要基于单个氨基酸的 形成结构的倾向,GOR算法采用这种方式,但现在的GOR算法通过贝叶斯统计等方法改进。 CDM算法(Consensus Data Mining)结合了 FDM和GOR的优势。还有很多方法各有其特 点:PSIPRED,PSSM等。更现代的方法利用了最新的机器学习技术例如SVMs(Support Vector Machines)和NNs (Neural Networks)o还有一些方法还考虑了氨基酸残基的相对溶解度 (RSA)。表四列举了常用的蛋白质二级结构在线预测工具。表四蛋白质二级结构在线预测工具工具说明网络链接CDMFDM + GORFDMPDB mining for structural fragmentsGORInformation theory, Bayesian statistics,PSSM profilesJpredHMM and PSSM profiles; NNs; RSAPHDMultiple sequence alignments; NNsPORTERPSSM profiles; NNsPSIPREDPSSM profiles; NNsSABLEPSSM profiles; NNs; RSASSproPSSM profiles; NNs and SVMs; RSA;8-state predictionhttp:/www.ics.uci.edu/baldig/scratch/5 蛋白质跨膜结构域分析跨膜(TM)蛋白跨过整个脂膜,通常被分为两类a-helical TM (AHTM)和TM卩-barrel (TMB) proteins。 AHTM 定位在细菌细胞膜的内膜和真核生物的细胞膜上。它们的跨膜区域 有极性的环链接而成的a螺旋。对TMB蛋白的了解还不多,它们的跨膜域为反向平行的桶 装卩链通道。通过实验的方法(X-ray和NMR等)来决定TM蛋白的结构,相比较于球状蛋白,解 析的 TM 蛋白 3D 结构非常有限。因此,人们开发了很多的方法用来预测蛋白质的跨膜结构 域。这些方法中的大部分都只根据序列来识别跨膜结构。表五列举了常用的在线跨膜结构域 预测工具。表五在线跨膜结构域预测工具工具方法预测的结构网络链接DAS-TMfilterDASAHTMMINNOURSA/SSAHTM and TMBPRED-TMMBHMMTMB PRED-TMBB/input.jspPRED-TMRHydrophobicity profileAHTM and TMBSOSUIHydropathy scaleAHTM submit.htmlTMBETA-NETAmino acid composition; NNsTMBTMB-Huntk-NN algorithmTMBandy/betaBarrel/AACompPred/aaTMB Hunt.cgiTMMODHMM profileAHTM.php?p=submitTSEGTandem clusters of membrane proteinsAHTM and TMB tseg_exe.html6 蛋白质三维结构分析蛋白质的三维结构通常比其一级结构更加保守。目前最可靠的蛋白质三维结构预测方法 是同源建模法。同源建模通常有三步:1选择模板,2目标模板分析,3 三维模型的构建。 有些同源建模法专注于同源建模的某些特定步骤,例如CPHmodels和Domain Fishing专注 于模板的选择;ESyPred3D和Geno3D专注于目标模板的分析。SWISS-MODEL是一个高度自动化的同源重组建模综合服务io,其他的在线同源重组 建模工具如表六所示表六在线同源重组建模工具工具说明网络链接CPHmodelsPSSM profile-based search for templatesDomainFishingDomain splitESyPred3DTarget-template alignment generated by different programsGeno3DTarget-template alignment usingPSI-BLASTSWISS-MODELIntegrated serviceTASSER-LiteIterative threading of the PDB for template selection; structure assembly蛋白质三维结构预测还有其他的方法和工具例如折叠识别法和从头计算法ii,这里不 再列举。7 结论本文列举了一系列对生物学有用的蛋白质生物信息学工具,但是,随着越来越多的物种 被测序,越来越多的蛋白质功能被注释以及更多的蛋白质三维结构被解析,生物信息学的分 析方法会更多,也会更准确。最后只得一提的是,生物性息学分析目前只能作为辅助工具 作为实验前的初步筛选,而其分析结果并不能作为准确的结论,准确结论的得出还有赖于实 验的验证。参考文献:1 Fitch WM. Homology - a personal view on some of the problems. Trends Genet 2000;16:227-31.2 Henikoff S, Henikoff JG. Amino-Acid Substitution Matrices from Protein Blocks. P Natl Acad Sci USA 1992;89:10915-9.3 Jones DT, Taylor WR, Thornton JM. The Rapid Generation of Mutation Data Matrices from Protein Sequences. Comput Appl Biosci 1992;8:275-82.4 Paliakasis CD, Michalopoulos I, Kossida S. Web-based tools for protein classification. Methods in molecular biology 2008;428:349-67.5 Ponting CP, Russell RR. The natural history of protein domains. Annu Rev Bioph Biom 2002;31:45-71.6 Holland TA, Veretnik S, Shindyalov IN, Bourne PE. Partitioning protein structures into domains: Why is it so difficult? J Mol Biol 2006;361:562-90.7 Attwood TK. The quest to deduce protein function from sequence: the role of pattern databases. Int J Biochem Cell B 2000;32:139-55.8 Schulz GE. The structure of bacterial outer membrane proteins. Bba-Biomembranes 2002;1565:308-17.9 Schulz GE. beta-Barrel membrane proteins. Curr Opin Struc Biol 2000;10:443-7.10 Kiefer F, Arnold K, Kunzli M, Bordoli L, Schwede T. The SWISS-MODEL Repository and associated resources. Nucleic Acids Res 2009;37:D387-D92.11 Pavlopoulou A, Michalopoulos I. State-of-the-art bioinformatics protein structure prediction tools (Review). Int J Mol Med 2011;28:295-310.
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!