第五章--序列的同源比较及分子系统学和分子进化分析(0)

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第五章：序列的同源比较及分子系统学和分子进化分析,第一节：简介,第二节：相似序列的获得,第三节：多序列比对,第四节：系统发育分析,第五节：其他分子标记在生物系统学中的应用,11/28/2024,1,第一节：简介,生物学研究中常用的方法之一是通过比较分析获得有用的信息。,过去进化学家和分类学家为衡量物种间亲缘关系的密切程度，花大量的精力把形态学特征数量化，希望以量化的形态学差异来表示物种间进化距离，但工作量大，标准不统一，导致进展缓慢。现如今，以大量公开的核酸和蛋白质数据为基础，利用序列分析的计算机软件构建生物进化树来研究各物种间的进化关系。,11/28/2024,2,在本章里研究进化关系所用的软件，我们在应用这些软件时会遇到很多专业术语和应用的计算机程序。这些陌生的术语对于初学者的我们没必要搞清，只要会用就可以了，但要做出非常专业的进化分析则必须搞清每个专业术语的含义。,构建系统树有很多的方法和步骤，我们会逐步学习，但不管采用什么样的方法，都有一些值得注意的问题：,11/28/2024,3,第二节：相似序列的获得,对一段序列进行进化分析的基础是获得此序列大量的同源序列，包括同一物种和不同物种之间，当序列有足够的相似性性，我们才能推断序列之间是否具有同源性。,同源性的判断是质的判断，进化分析是量的结果，两者之间如何进行统一，就是要有假设，当序列之间相似性超过一个值时，认为其是同源的。,序列相似的原因有两个：一是来自于同一祖先，然后发生分歧，二是两个序列来自于不同的祖先，在相似的选择压力下发生趋同进化，形成相似序列。,11/28/2024,4,三、VAST,VAST是NCBI的相似结构搜索工具，它将一个新的蛋白质三维结构与PDB或MMDB数据库中的结构进行比较，通过结构比较，可以发现通过序列比较而无法发现的远程同源蛋白质。,VAST算法是基于统计以下的结构相似性比较算法， VAST在评价结构相似显著性时，不过多的考虑微小子结构因偶然因素而形成的相似关系，而是着重考虑结构域的相似性。,http:/structure/VAST/,11/28/2024,5,VAST的比较有三个步骤：,首先，在数据坐标的基础上，标出所有构成蛋白质核心部分的螺旋和,片层。,然后根据这些二级结构单位的位置计算向量。使用这些向量进行结构比对而不是整个一套坐标。然后算法试图最佳地匹配这些向量，寻找类型和相对方向相同的成对结构单位，并且在这些单位之间还要有同样的连接方式。,最后，在每个残基位置上使用蒙特卡洛方法对结构的比对进行优化。(1LFL),11/28/2024,6,第三节：多序列比对,用于多序列比对的程序开发是一个很活跃的领域，目前，绝大多数的方法均是基于渐进比对的概念。,渐进比对的方法假设了参与比对的序列存在亲缘关系，在算法上下功夫，以寻求计算速度与获得最佳比对之间的平衡。,一、CLUSTAL.W,11/28/2024,7,CLUSTAL是一个单机版的基于渐进比对的多序列比对工具，由Higgins D.G. 等开发。有应用于多种操作系统平台的版本，包括linux版，DOS版的clustlw，clustalx等。,CLUSTAL是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。,11/28/2024,8,CLUSTAL.W,工作原理,Clustal输入多个序列,快速的序列两两比对，计算序列间的距离，获得一个距离矩阵。,邻接法(NJ)构建一个树（引导树）,根据引导树，渐进比对多个序列。,11/28/2024,9,CLUSTAL.W,应用,1.输入输出格式。,输入序列的格式比较灵活，可以是前面介绍过的,FASTA,格式，还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。,输出格式也可以选择，有,ALN,、GCG、PHYLIP和NEXUS等，用户可以根据自己的需要选择合适的输出格式。,11/28/2024,10,2.两种工作模式。,a.多序列比对模式。,b.剖面(profile)比对模式。,3.一个实际的例子。,CLUSTAL.W的应用,11/28/2024,11,多序列比对实例,步骤,输入文件的格式(fasta)：,KCC2_YEAST,NYIFGRTLGAGSFGVVRQARKLSTN,DMK_HUMAN,DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK.,KPRO_MAIZE,TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN,DAF1_CAEEL,QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD,1CSN,HYKVGRRIGEGSFGVIFEGTNLLNN,11/28/2024,12,第一步：输入序列文件。,11/28/2024,13,第二步：设定比对的一些参数。,11/28/2024,14,第三步：开始序列比对,第三步：开始序列比对,11/28/2024,15,第四步：比对完成，选择保存结果文件的格式,第四步：比对完成，选择保存结果文件的格式,11/28/2024,16,二、BioEdit,BioEdit程序非常适合序列比对、编辑和分析，是基于Windows平台的一种比对程序，目前应用最多，可免费下载。,BioEdit具体用法见,三、MultAlin,MultAlin从一系列的两联比对开始，得到分值，然后根据这个分值进行分层次的聚类。,http:/,四、GCG数据库,GCG软件是一套蛋白质、核酸序列分析软件。,11/28/2024,17,GCG支持五种数据库供Wisconsin软件包使用，其中包括两种核酸数据库(GenBank数据库、由GenBank中没有的序列组成的简化版的EMBL核酸序列数据库)和三种蛋白质数据库(PIR、Swiss-Prot、SP-TrEMBL数据库)。 GCG支持的数据库两个月更新一次。,11/28/2024,18,第四节：系统发育分析,课本104页,系统发育分析是根据同源性状的分歧来评估物种或分子之间的进化关系。这种进化关系通常用分支图（系统树）来描述。对序列的系统发育分析又称为分子系统学或分子系统发育研究。,比起其他实验性学科，分子系统学与其他进化研究一样有其局限，即系统发育的发生过程都是已经完成的历史，不能再现。,如何从序列中得到有用的信息，如何用计算的办法得到可信的进化树，如何从有限的数据得到进化模式已成为这个领域的研究热点。,系统发育树是什么？,对一组实际对象的,世系关系,的描述（如基因，物种等）。,11/28/2024,19,一个系统发育树,末端,物种,顶端,中间节点,中间枝条,根,末端分支,叶子,节点,11/28/2024,20,A,B,C,D,E,F,G,树只代表分支的拓扑结构,F,G,C,D,E,A,B,11/28/2024,21,一般来说，系统树是一种两叉树，由一系列节点和分支组成，每个节点代表一个分类单元(物种或序列)，而节点之间的连线代表物种间的进化关系。树的节点又分为外部节点和内部节点。,系统发生树有多种形式：可能是有根树(rooted tree)，也可能是无根树(unrooted tree)；可能是一般的树，也可能是二叉树；可能是有权值的树(或标度树，树中标明分支长度)，也可能是无权值树(非标度树)。,在有根树中，有一个唯一的根节点，代表所有其他根节点的共同祖先，这样的树能够反映进化层次，从根节点历经进化到任何其他节点只有唯一的路径。,11/28/2024,22,Rooted,by outgroup,archaea,archaea,archaea,eukaryote,eukaryote,eukaryote,eukaryote,bacteria outgroup,root,eukaryote,eukaryote,eukaryote,eukaryote,无根树,archaea,archaea,archaea,Monophyletic group,(,单源群,),Monophyletic,group,有根树，无根树，外围群,有根树,外围群,11/28/2024,23,分子进化研究的基础（假设）,核苷酸和氨基酸序列中含有生物进化历史的全部信息。,分子进化研究的基础（理论）,在各种不同的发育谱系及足够大的进化时间尺度中，许多序列的进化速率几乎是恒定不变的。（分子钟理论， 1965 ）,分子进化研究的基础（实际）,虽然很多时候仍然存在争议，但是分子进化确实能阐述一些生物系统发生的内在规律。,11/28/2024,24,从一个分歧数据可以推测其他,序列分歧度,分歧时间,x,y,分子钟理论,11/28/2024,25,一、系统树的构建方法,系统树的构建主要有三种方法：距离法、最简约法、最大似然法。,1、距离法,距离法又称距离矩阵法，首先通过各个物种之间的比较，根据一定的假设（进化距离模型）推导得出分类群之间的进化距离，构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。,计算序列的距离，建立距离矩阵,通过距离矩阵建进化树,11/28/2024,26,一种简单的距离矩阵,11/28/2024,27,由进化距离构建进化树的方法有很多，常见有：,（1）.Fitch-Margoliash Method（FM法）,（2）. Neighbor-Joining Method (NJ法/邻接法),（3）. Neighbors Relaton Method(邻居关系法),（4）.Unweighted Pair Group Method (UPGMA法),通过矩阵建树的方法,11/28/2024,28,Fitch-Margoliash方法（FM法）,11/28/2024,29,1.找出关系最近的序列对，如A和B,2.将剩余的序列作为一个简单复合序列，分别计算A、B到所有其他序列的距离的平均值,3.用这些值来计算A和B间的距离,4.将A、B作为一个单一的复合序列AB，计算与每一个其他序列的距离，生成新的距离矩阵,5.确定下一对关系最近的序列，重复前面的步聚计算枝长,7.从每个序列对开始，重复整个过程,8.对每个树计算每对序列间的预测距离，发现与原始数据最符合的树,Fitch-Margoliash方法（FM法）小结,11/28/2024,30,NJ/邻接法,任意两个节点选为相邻序列的总支长计算公式,11/28/2024,31,把A、B看成一个新的复合序列，构建一个新的距离表，重复以上过程。,11/28/2024,32,邻居关系法,AB组合出现3次，DE组合出现3次，CD、AC、BC组合各一次，则AB和DE各为两对关系最近的邻居。（关系最近的邻居作为邻居的次数最多），将邻居看成一个新的复合序列，重复这个过程。,11/28/2024,33,UPGMA法,d=e=10/2=5,11/28/2024,34,c=19/2=9.5,g=c-d=9.5-5=4.5,11/28/2024,35,a=b=22/2=11,11/28/2024,36,f1+a=f2+c=40.5/2=20.25,f1=9.25 , f2=11.75,11/28/2024,37,2、最大简约法,简约法是分子系统学中应用最广的一种方法。该方法的原则是在所有可能的物种中，最能反映进化历史的树具有最短的树长，即进化步数最少（形状在系统树种改变的次数）,树长是所有形状在所有分支上发生的状态改变的总和。,11/28/2024,38,最大简约法(maximum parsimony, MP)最早源于形态性状研究，现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆（Ockham）哲学原则，这个原则认为：解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算，并计算出所需替代数最小的那个拓扑结构，作为最优树。,优点：,最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设（替代模型）。,此外，最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。,11/28/2024,39,缺点：,在分析的序列位点上没有回复突变或平行突变，且被检验的序列位点数很大的时候，最大简约法能够推导获得一个很好的进化树。,然而在分析序列上存在较多的回复突变或平行突变，而被检验的序列位点数又比较少的时候，最大简约法可能会给出一个不合理的或者错误的进化树推导结果。,11/28/2024,40,3、最大似然法,用于构建基于基因频率的系统树，这种方法是首先选定一个进化模型，计算该模型下，各种分支树产生现有数据的可能性。具有最大可能性的系统树为最优。,一个树的似然性等于每一个形状的似然性之和或每一个性状的似然性对数和。,11/28/2024,41,最大似然法分析中，,选取一个特定的替代模型来分析给定的一组序列数据，使得获得的每一个拓扑结构的似然率都为最大值，然后再挑出其中似然率最大的拓扑结构作为最优树,。在最大似然法的分析中，所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长，并对似然率球最大值来估计枝长。,最大似然法的建树过程是个很,费时,的过程，因为在分析过程中有很大的计算量，每个步骤都要考虑内部节点的所有可能性。,最大似然法是一个比较成熟的参数估计的统计学方法，具有很好的统计学理论基础，在当样本量很大的时候，似然法可以获得参数统计的最小方差。只要使用了,一个合理的、正确的替代模型,，最大似然法可以推导出一个很好的进化树结果。,11/28/2024,42,由于最大似然法的分析过程需要耗费较多的时间，针对这种情况，发展出了许多优化的可以加快最大似然法寻找最优树的搜索方法，如,启发式搜索,，,分枝交换搜索,等。最大似然法具有坚实的统计学理论基础，充分的使用了分析序列中的信息资源，只要采用了合理的替代模型，可以得出很好的进化树分析结果。,11/28/2024,43,4、对三种构建方法的评价,（1）距离法是一种纯数学计算过程，其算法本身就决定了最优树的选择标准；,（2）当DNA的进化速率在不同分支上相差很大或亲缘关系太远时，简约法低估了实际发生的碱基替换数而造成数据越多越支持错误的系统树。,（3）在计算时间上，距离法最快，最大似然法最慢，因此，当数据矩阵过大时，距离法非常有用。,（4）距离法和最大似然法都可以估计枝长，而简约法不能。,11/28/2024,44,5、系统树的统计分析,（1）在分子系统学研究中，用重复取样来检验系统树的可靠性。主要有两种方法即自展法和折刀法。,自展法是原有数据中的性状进行复置重复取样，即随机抽取一个性状后，再将该性状放回原数据，继续随机抽样，直到新产生的一组数据大小与原有数据相同为止。,11/28/2024,45,（2）对整个系统树的评价,广泛用于评价一个系统树可靠性的指标是一致性系数(CI)和保持性指数(RI)。,Ic=R/L,R：,所有性状的范围的总和，即性状可能变化的最小值,L：,给定系统树的最小进化步数,11/28/2024,46,二、常用的系统树构建程序,1、PHYLIP,PHYLIP是包含35个独立程序的软件包，基本上包括了系统发育分析的所有方面，可在很多平台上运行。（包括windows，Macintosh，DOS，Linux，Unix和OpenVMX ）,可以免费下载软件及手册，PHYLIP是目前使用较为广泛的系统发育程序。主要包括一下几个程序组：分子序列组，距离矩阵组，基因频率组，离散字符组，进化树绘制组。,PHYLIP现版本为3.69,11/28/2024,47,PHYLIP软件包分组介绍,分子序列组：,1.蛋白质序列：pro,tpars，,pro,ml，,pro,mlk，,pro,tdist,2.核酸序列：dna,penny，,dna,pars，,dna,move，,dna,ml，,dna,mlk，,dna,invar，,dna,dist，,dna,comp,距离矩阵组：,Fitch，kitsch，neighbor,基因频率组：,Gendist，contml,11/28/2024,48,离散字符组：,Pars，mix，move，penny，dollop，dolmove，dolpenny，clique，factor,进化树绘制组：,drawtree，drawgram,其他：restdist，restml，,seqboot,，contrast,treedist，,consense,，retree,11/28/2024,49,PHYLIP软件包的文档是非常详细的，对于每个独立的程序，都有一个独立的文档，详细的介绍了该程序的使用及其说明。,此外， PHYLIP软件包还包括程序的源代码（c语言）。,PHYLIP软件包的文档,11/28/2024,50,软件包的应用,1、根据你的分析数据，选择适当的程序,如，你分析的是DNA数据，就在核酸序列分析类中选择程序(,dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp,)如果分析的是离散数据，如突变位点数据，就在离散字符组里面选择程序。,2、选择适当的分析方法,如你分析的是DNA数据，可以选择简约(DNAPARS)，似然法(DNAML， DNAMLK)，距离法等(DNADIST),11/28/2024,51,3、进行分析,选择好程序后，执行，读入分析数据，选择适当的参数，进行分析，结果自动保存为outfile，outtree。,Outfield是一个记录文件，记录了分析的过程和结果，可以直接用文本编辑器（如写字板）打开。,Outtree是分析结果的树文件，可以用phylip提供的绘树程序打开查看，也可以用其他的程序来打开，如treeview。,11/28/2024,52,加入统计分析,我们刚刚获得的进化树是纯粹的根据先前获得的排列数据所推导出来的。有很多可能使得这个树并不一定可靠。,1.测序的出错。,2.多序列比对算法本身的问题。,3.其他的问题。,我们可以引进一些统计分析来寻找更优的进化树,最常见的就是bootstrap分析。,11/28/2024,53,分析,Phylip软件包中有两个用于执行bootstrap分析的程序。(seqboot.exe,consence.exe)。,分析过程：,1.Seqboot产生大量的数据组,2.应用选择的算法对产生的数据组进行分析。,3.由consence获得最优树。,11/28/2024,54,2、PAUP,PAUP是著名的系统发育分析商业软件，具有简单并带有菜单的页面。目前，PAUP中构建系统树的方法包括MP（最简约法），如果针对核苷酸数据，还有距离法和最大似然法。,现今有mac，win，linux等多种版本，该软件不是免费软件，使用者需要向开发者购买。,11/28/2024,55,3、PAML,PAML是免费软件包， PAML能够进行ML模型的建立和系统树的构建与评估。,4、其他程序,（1）FastDNAml,是一个独立的最大似然法建树程序。,（2）MACCLEADE,是一个交互式的Macintosh程序，能够对系统树和数据进行操作，研究特性状态下的系统发育行为。,（3）MEGA plus METREE,（4）MOLPHY,是共享软件包，可进行ML分析及核苷酸序列或氨基酸序列的统计。,11/28/2024,56,三、一些需要注意的问题,（1）到目前为止，在进行系统的发育分析中，最重要的不是进行发育分析采用的方法，而是输入数据的质量。即选择数据永远比比对过程重要，即使是最复杂的发育推断方法都不能矫正数据的错误。,（2）从尽可能多的角度观察数据，可以分别从距离法、最大简约法和最大似然法分别观察数据，然后比较其所建立的进化树的一致性。尽管不同的方法得到的结果一致，也不能必然意味着结果就是统计显著的，因为达到一致性的因素很多。,11/28/2024,57,（3）选择合适的外群对分析相当重要，尤其是当外群同一个或几个内在的分类群拥有一个不同寻常的属性时，问题就会复杂化。,（4）序列的输入顺序不同，程序也会给出不同的系统树。如建树软件PHYLIP和PAUP提供了一个随机选项，可以按照随机的顺序输入程序进行运算。,11/28/2024,58,系统树构建案例分析,1、病毒基因组分析,病毒受自身突变和自然选择的影响，但病毒基因组的进化速度远远超过其他细胞的基因组。,2、运用生物信息学方法研究SARS,由一个典型的冠状病毒结构，按照一定的顺序排列5个或者6个基因。,11/28/2024,59,四、COG数据库,COG数据库是把从全基因组中得到的蛋白质按照系统发育方法分类的数据库。COG指的是蛋白质直系同源聚类，每一个COG包含的蛋白质被认为是从同一个蛋白质祖先演化来的，即他们是直系同源的(垂直进化关系)。,建立COG数据库的目的是作为新测基因组的功能解释和和基因组进化研究的平台。,目前的COG数据库是从代表38个系统发育世系的66个全基因组得到的。,在COG数据库里，查看到的信息有三种,(1)蛋白质的注释；(2)系统发育模式；(3)多序列比对。,11/28/2024,60,有两种方法可以找到我们感兴趣的蛋白质所在的COG，一是用基因或蛋白质名检索，二是用数据库带有的COGnitor程序对COG数据库进行检索。把蛋白质序列粘贴到COGnitor程序的文本框中，搜索后输出结果。,COG数据库作为一个最新发展出来的整合全基因组信息平台，在基因组水平的比较上具有很大潜力。,11/28/2024,61,三、SNP标记,SNP是指单核苷酸多态性，能够代表一个群体基因组里的中性遗传变化。一个SNP的含义是在给定的一个群体中，超过1%的个体在给定的遗传区域内发生一次核苷酸的改变。不包括其他遗传变化如插入、缺失、重复序列的拷贝等。,SNP作为标记我们在人类基因组计划里已经讲过，现在，许多机构和公司均建立了SNP的数据库，NCBI联合NHGRI建立了dbSNP数据库。,在此数据库里，可通过输入Genbank序列号查询，也可用BLAST方法进行搜索。,11/28/2024,62,四、同工酶,同工酶的定义：由于蛋白质分离技术的发展，人们从同一种属或同一个体、不同组织或同一组织、同一细胞中发现有的酶具有不同的分子形式但却催化相同的反应，这种酶称为同工酶。,本书定义：电泳观察到的全部条带，包括不同基因座和同一基因座不同等位基因所编码的同一种酶以及转录后的酶变体统称为同工酶。,同工酶在研究居群的遗传结构、遗传多样性、判断杂种和多倍体的亲本中起到过重大作用，但在亲缘关系较远时用处不大。,11/28/2024,63,

展开阅读全文

第五章--序列的同源比较及分子系统学和分子进化分析(0)

最新文档