4-分子进化与系统发育分析

上传人:嘀****l 文档编号:246569796 上传时间:2024-10-14 格式:PPTX 页数:93 大小:15.66MB
返回 下载 相关 举报
4-分子进化与系统发育分析_第1页
第1页 / 共93页
4-分子进化与系统发育分析_第2页
第2页 / 共93页
4-分子进化与系统发育分析_第3页
第3页 / 共93页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物信息学,第四章 分子进化与系统发育分析,Tree of Life,重建所有生物的进化历史并以系统树的形式加以描述,生物进化理论,达尔文进化论:,进化:变异的遗传,自然选择:解释为何演变发生的机制,种群中个体变异的遗传学基础:孟德尔遗传,孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传,中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。,研究生物进化历史的途径,1.,最确凿证据是:生物化石!,零散、不完整,2.,比较形态学、比较解剖学和生理学等:确定大致的进化框架,细节存很多的争议,分子进化,1964,年,,Linus Pauling,提出分子进化理论;,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。,发生在分子层面的进化过程:,DNA, RNA,和蛋白质分子,基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。,分子进化的模式,DNA,突变的模式:替代,插入,缺失,倒位;,核苷酸替代:转换,(Transition) &,颠换,(Transversion),基因复制:多基因家族的产生以及伪基因的产生,A.,单个基因复制,重组或者逆转录,B.,染色体片断复制,C.,基因组复制,DNA,突变的模式,替代,插入,缺失,倒位,核苷酸替代:转换,&,颠换,转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代,颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代,基因复制:单个基因复制,重组,逆转录,基因复制:基因组复制,酿酒酵母,克鲁雄酵母,研究结果:克鲁雄酵母中的同源基因数量与酿酒酵母相比为,1,:,2,物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系, tree of life,大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能预测,进化速率分析:例如,,HIV,的高突变性;哪些位点易发生突变?,分子进化研究的目的,Tree of Life: 16S rRNA,Out of Africa,53,个人的线粒体基因组,(,16,587bp,),人类迁移的路线,同源物定义,Ortholog (,直系同源物,),:两个基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。,Paralog (,旁系同源物,),:两个基因在同一物种中,通过至少一次基因复制的事件而产生。常常具有不同功能。,Xenolog (,异系同源物,),:由某一个基因水平转移事件而得到的同源序列。水平转移的基因功能主要根据在前后宿主中变化而确定,然而功能却常常相似。,paralogs,orthologs,直系同源物,vs.,旁系同源物,异源基因或水平转移基因,xenologous or horizontally transferred genes,同源性与相似性,相似性,(Similarity),序列比对过程中用来描述检测序列和目标序列之间相似,DNA,碱基或氨基酸残基序列所占比例;,定量描述;,同源性,(Homology),两个基因或蛋白质序列具有共同祖先的结论;,定性判断;,相似不一定同源,同源不一定相似。,氨基酸序列相似性超过,30%,很,可能,同源。,序列同源性模型中的进化假设,所有的生物都起源于同一个祖先;,序列不是随机产生,而是在进化上,不断发生着演变;,基本假设:,序列保守性 结构保守性,注意:反之未必,序列保守性 结构保守性,本章内容提要,第一节,密码子偏好及分析,第,二,节,,氨基酸序列的进化演变,第三节,分子系统发育分析,第四节,分子系统发育分析软件介绍,第一节,密码子偏好及分析,密码子,(codon):,在随机或者无自然选择的情况下,各个密码子出现频率将大致相等,;,密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致,;,可能的原因:密码子对应的同功,tRNA,丰度的不同,- Anticodon,标准密码子,大肠杆菌,RNA,聚合酶,大肠杆菌,RNA,聚合酶,(2),密码子偏好非常明显;例如,同为编码,Leu,的同义密码子,CUA,和,CUG,,二者出现的次数显著不等,,CUA(1,次,),,,CUG(141,次,),;,再如:编码,Arg,的四个密码子,CGU, CGC, CGA, CGG,出现次数分别为:,89,,,46,,,1,,,0.,提示:对应,CGG,的同功,tRNA,可能不存在!,tRNA & Anticodon,每一个密码子,对应一个,tRNA,;,tRNA,通过,Anticodon,来识别,codon,,联系,mRNA,和氨基酸序列的合成;,密码子的使用偏好:由密码子对应的,tRNA,的进化及丰度来决定。,碱基出现的频率,1.,假如:每个核苷酸位点上的替代是随机发生的,则,A,T,C,G,出现的频率应该大致相等。,2.,实际情况:,DNA,受到,自然选择,的压力,各个位点的碱基出现频率并不相等。,3.,需要解决的问题:,A.,每个位点上受到什么样的选择压力?,B.,各个位点的碱基频率反映了什么样的规律?,4.,表征,/,统计的方法:计算,G+C,的含量,并进行比较,分子进化的理论,自然选择理论:,阳性选择:促进有益突变;,定向选择:固定有益的等位基因;,平衡选择:保持多态性;,阴性选择(净化选择):清除有害突变;,中性理论:,阳性选择:少有;,阴性选择:普遍存在;,中性进化:普遍存在;,同义替代,vs.,非同义替代,64,个密码子,编码,20,个氨基酸,GTT,GTC,GTA,GTG,CGT,CGC,脯氨酸,P,组氨酸,H,四倍简并,二倍简并,TGG,TGC,色氨酸,W,半胱氨酸,C,同义替代,非同义替代,基因的编码区和非编码区,基因的,DNA,由编码区(,Coding region,)和非编码区(,Non-coding region,)构成;,编码区可以转录信使,RNA,,进而调控蛋白质的合成;,非编码区不能转录成信使,RNA,,但是它可以调控遗传信息的表达;,原核基因:编码区全部编码蛋白质;,真核基因:编码区分为外显子和内含子,只有外显子能编码蛋白质;,分子进化选择压力,进化选择压力:,A.,编码区:阳性选择,1%,;阴性选择,19%,;中性进化,80%,;,B.,非编码区:,100%,的中性进化,中性进化:,同义突变, 约占核苷酸置换总数的四分之一;,非编码区,DNA,序列的突变对蛋白质的合成很少有影响。,编码区:密码子,1.,对于同义的密码子,第一位少部分可以允许不同,例如,编码,Ser,的六个密码子:,TCT, TCC, TCA, TCG, AGT, AGC,2.,第二位必须相同,3.,第三位绝大多数可以不同,近似随机;,4.,因此:,A.,第一位:阴性进化占大部分,中性进化占小部分,B.,第二位:阴性进化,C.,第三位:阴性进化占小部分,中性进化占大部分,密码子偏好的应用及计算,基本假设:在高表达的基因中,密码子的选择,更倾向于使用“优化”的同义密码子,推论,1,:给定一个物种的一些高表达的基因,我们可以估算优化的同义密码子的分布,推论,2,:接着,我们可以对给定的一个未知基因的序列进行密码子分布的分析,预测该基因的表达量!,推论,3,:对于一个表达量很低的基因,我们是否能够通过将少量的密码子改变成优化密码子,从而显著提高基因的表达量?,RSCU,相对同义密码子使用度,(relative synonymous codon usage, RSCU),定义:观测到的某一同一密码子的使用次数,除以“期望”的该密码子出现次数,编码第,i,个氨基酸的第,j,个密码子的出现次数,编码第,i,氨基酸的同义密码子的数目,编码第,i,个氨基酸的第,j,个密码子的,RSCU,值,密码子相对适应度,The relative adaptiveness of a codon,编码第,i,个氨基酸的第,j,个同义密码子的“相对适应性”,:,即该同义密码子的观察值,除以编码该氨基酸的同义密码子的最大值,大肠杆菌,&,酵母,CAI,:密码子适应指数,Codon Adaptation Index,L,为基因中所使用的密码子数,CAI值介于01之间, 该值越大表示偏性越强;,CAI值一般用来预测种内基因的表达水平,以及预测外源基因的表达水平。,不同物种CAI的计算依赖于各自的参考数据集。,大肠杆菌和酵母:部分基因的,CAI,异源基因:在其他物种中的,CAI,第二节,氨基酸序列的进化演变,分子进化的分析:基于氨基酸序列的分析早于,DNA,序列,优势:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较,DNA,远为简单,p,距离:,p-distance,泊松校正,,d,距离,P-distance,两条蛋白质序列之间的氨基酸差异数为,n,d,序列的氨基酸数目均为,n,,则,P,距离:,不同物种的血红蛋白,链中差异氨基酸的数目及比例:(长度:,140aa,),所有的插入,/,缺失均删除,PC,:泊松校正,序列差异的百分比,(p),与分歧时间,t,的关系:,t,较短的时候,回复突变较少,两者大致成线性关系;当,t,较大时,回复突变增多,二者成非线性关系,基本假设:令,r,为某一位点每年的氨基酸替代率,并假设所有位点的,r,都相同,在时间,t,年之后,每个位点替代的平均数为:,rt,给定一个位点,氨基酸替代数,k(k=0,1,2,3,),的可能性遵循泊松分布,即,因此,某一位点氨基酸不变的概率为,泊松距离,祖先序列未知:不知道当前的序列从何演化而来,解决方案:对两条已经有,t,年分化的序列,一条序列某位点无替代的概率为: ,两条序列同源位点均无替代概率为:,此概率可用,1-p,估计:,q=1-p;,两个序列间每个位点氨基酸替代总数(,d=2rt,):,d=-ln(1-p),,即泊松距离,P-,距离,vs.,泊松距离,第三节,分子,系统发育分析,1.,系统发育树:分子进化树,/,分子进化分析,2.,通过进化树的构建,分析分子之间的起源关系,预测分子的功能。,3.,建树方法:,A.,最大简约法,(Maximum Parsimony),B.,距离法,(distance-based methods),C.,最大似然性法,(Maximum Likelihood),D.,贝叶斯(,Bayesian,)推断,祖,先节点,/,树根,内,部节点,/,分歧点,该,分,支可能的祖先结点,分,支,/,世系,末,端节点,A,B,C,D,E,代,表最终分类,可以是物种,群体,或者蛋白质、,DNA,、,RNA,分子等,系统发育树,:,术语,Taxon A,Taxon B,Taxon C,Taxon D,1,1,6,遗,传变化,Taxon A,Taxon B,Taxon C,Taxon D,时,间,Taxon A,Taxon B,Taxon C,Taxon D,无,意义,分,支图,进,化树,时,间度量树,以,上三种类型的系统发育树表示相同的分支状况,相同的进化关系,系,统发育树:三种类型,遗,传变化,无,意义,时,间,遗,传变化,无,意义,以,上三种类型的系统发育树表示相同的分支状况,相同的进化关系,时,间,遗,传变化,无,意义,以,上三种类型的系统发育树表示相同的分支状况,相同的进化关系,时,间,遗,传变化,无,意义,分,支图,进,化树,时,间度量树,树只代表分支的拓扑结构,A,B,C,D,E,F,G,F,G,C,D,E,A,B,通,过外类群来确定树根,根,bacteria outgroup,eukaryote,eukaryote,eukaryote,eukaryote,archaea,archaea,archaea,有根树,外类群,无根树,有根树,外类群,通,过外类群来确定树根,有根树,外类群,通,过外类群来确定树根,有根树,外类群,通,过外类群来确定树根,有根树,eukaryote,eukaryote,eukaryote,eukaryote,archaea,archaea,archaea,无根树,无根树和有根树:潜在的数目,#Taxa,无根树 有根树,3 1 3,4 3 15,5 15 105,6 105 945,7 945 10,395,30 3.58X10,36,2.04X10,38,Taxa,增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解,多序列比对(自动比对,手工校正),选择建树方法以及替代模型,建立进化树,进化树评估,系统发育树重建分析步骤,1.,最大简约法,(maximum parsimony, MP),适用序列有很高相似性时,2.,距离法,(distance),适用序列有较高相似性时,3.,最大似然法,(maximum likelihood, ML),可用于任何相关序列集合,计算速度:,距离法,最大简约法,最大似然法,系统发育树重建的基本方法,1.,最大简约法,(MP),根据信息位点提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。,理论基础为奥卡姆剃刀,(Ockham),原则:计算所需替换数最小的那个拓扑结构,作为最优树。,在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。,优点,:不需要在处理核苷酸或者氨基酸替代的时候引入假设,(,替代模型,),缺点,:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果。,信息位点:能将所有可能的树区别出来的位点。,信息位点是指那些至少存在,2,个不同碱基,/,氨基酸且每个不同碱基,/,氨基酸至少出现两次的位点。,信息位点,(Sites are informative),上例,Position 5, 7, 9,为信息位点,;,基于,position 5,的三个,MP,树,:,Tree 1,长度为,1,,,Tree 2 & 3,长度为,2,Tree 1,最为简约:总长,=4,Tree 2,长,5,;,Tree 3,长,6,计算结果:,MP tree,的最优结果为,tree 1,2.,距离法,又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。再依据进化距离,分别依次将序列合并聚类,构建进化树。,简单的距离矩阵,由进化距离构建进化树的方法有很多,常见有:,(1) Fitch-Margoliash Method (FM,法,):,对短支长非常有效,(2) Neighbor-Joining Method (NJ,法,/,邻接法,):,求最短支长,最通用的距离方法,(3) Neighbors Relaton Method(,邻居关系法,),(4) Unweighted Pair Group Method with Arithmetic Mean (UPGMA,,非加权组平均法,),通过距离矩阵建树的方法,(1) Fitch-Margoliash,方法,(FM,法,),= D,和,E,最接近!,D,E,ABC,e,d,m,示例,分成三组:,D, E,以及,ABC,(1) FM,法示例,DE,距离,=d+e=10 (1),D,到,ABC,间的平均距离,=d+m = 32.7 (2),E,到,ABC,间的平均距离,=e+m = 34.7 (3),(2)-(3)+(1),d=4,e=6,D,E,ABC,e,d,m,分成三组:,C, DE,以及,AB,= C,最接近,DE,!,c+g+(e+d)/2=19 (1),c+f+(a+b)/2=40 (2),(e+d)/2+(a+b)/2+f+g=41 (2),(1)+(2)-(3),=,c=9,= g=5,由:,(a+b)/2+f+g+(d+e)/2=41,得:,f=20,由:,a+f+c=39,得:,a=10,,则,b=12,N-J/,邻接法,与FM方法非常类似,保证总的支长最短,总支长:,a+b+c+d+e=314/4=78.5,找到距离最近的两个点,1.,任意两个节点选为相邻序列的总支长计算公式,:,2.,计算,S,AB, S,BC, S,CD, S,DE,等数值,3.,该例中,,S,AB,最小,把,A,、,B,看成一个新的复合序列,构建一个新的距离表,重复以上过程,计算,A, B,的分支长度,d=e=10/2=5,UPGMA,法,c=19/2=9.5,g=c-d=9.5-5=4.5,a=b=22/2=11,A,B,(CDE),A,-,22,39.5,B,-,-,41.5,(CDE),-,-,-,(AB),(CDE),(AB),-,40.5,(CDE),-,-,f1+a=f2+c=40.5/2=20.25,f1=9.25 , f2=11.75,最大似然法,(ML),最大似然法,(maximum likelihood, ML):,最早应用于对基因频率数据的分析上,选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树;,在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长;,缺点:费时,每个步骤都要考虑内部节点的所有可能性,改进:启发式算法,,分枝交换搜索等,构建进化树的一般原则,1.,可靠的待分析数据,2.,准确的多序列比对,3.,选择合适的建树方法:,A.,序列相似程度高,,MP,首先,B.,序列相似程度较低,,ML,首先,C.,序列相似程度太低,无意义,4.,一般采用两种及以上方法构建进化树,无显著区别可接受,构建进化树的一般原则,(2),选择一个或多个已知与分析序列关系较远的序列作为外类群,;,外类群可以辅助定位树根,;,外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。,外类群,(Outgroup),bacteria outgroup,eukaryote,eukaryote,eukaryote,eukaryote,archaea,archaea,archaea,外类群,进化树的可靠性分析,单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。,改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。,最常见的就是bootstrap评估。,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;,重复上面的过程,得到多组新的序列;,对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。,一般,Bootstrap,的值,70,,则认为构建的进化树较为可靠。,自展法,-,进化树的可靠性分析,Bootstrap Method,第四节,系统发育分析软件介绍,软件,说明,PHYLIP,免费的、集成的进化分析工具,http:/evolution.genetics.washington.edu/phylip.html,MEGA,图形化、集成的进化分析工具,不包括,ML, *,.PHY,输出的*,.PHY,文件:,8和50分别表示8个序列和每个序列有50个碱基,第二步:双击,打开SEQBOOT,按路径输入刚才生成的 *,.,PHY文件,;设定适当参数;输出,outfile,文件。,重命名,Outfile,文本文件为,Outfile,1,,打开如下:,(包括了,100,个,replicate,s,),第三步:,打开,PROTPARS,(最大简约性法),,输入,Outfile,1,文件后如下显示:,设定适当参数;运行输出,outfile和treefile文件,。,重命名,Outfile,文本文件为,Outfile,2,,打开如下:,(包括了,100,个,replicate,s,的结果),第四步:,打开CONSENSE,程序,,,输入,o,utfile,2,,运行输出,outfile和treefile文件,。分别重命名为,outfile,3,和treefile,3.tre,获得的结果文件中,文本文件outfile3显示如下:,outfile,树文件,outtree3.tre,用,TREEVIEW,软件打开显示:,outtree,内容总结,生物信息学。大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。 零散、不完整。发生在分子层面的进化过程:DNA, RNA和蛋白质分子。颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代。基因复制:基因组复制。Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生。Xenolog (异系同源物):由某一个基因水平转移事件而得到的同源序列。相似不一定同源,同源不一定相似。密码子(codon): 在随机或者无自然选择的情况下,各个密码子出现频率将大致相等。每一个密码子,对应一个tRNA。阴性选择(净化选择):清除有害突变。64个密码子,编码20个氨基酸。基因的编码区和非编码区。原核基因:编码区全部编码蛋白质。真核基因:编码区分为外显子和内含子,只有外显子能编码蛋白质。C. 第三位:阴性进化占小部分,中性进化占大部分。p距离:p-distance。1. 系统发育树:分子进化树/分子进化分析。outtree,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!