第四章序列分析课件

上传人:风*** 文档编号:242639386 上传时间:2024-08-30 格式:PPT 页数:131 大小:1.23MB
返回 下载 相关 举报
第四章序列分析课件_第1页
第1页 / 共131页
第四章序列分析课件_第2页
第2页 / 共131页
第四章序列分析课件_第3页
第3页 / 共131页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第四章,序列分析,2024/8/30,BIOINFORMATICS,1,本章提要,:,本章主要介绍,DNA,和蛋白质序列分析的基本内容。包括核酸序列检索、核酸序列的基本分析(碱基组份、限制性酶切分析、重复序列分析),基因结构分析、表达标签序列分析的基本方法和软件。蛋白质序列基本分析、检索、跨膜区分析、蛋白质亚细胞定位、功能预测等内容。,第四章 序列分析2023/9/6BIOINFORMATIC,2024/8/30,BIOINFORMATICS,数理与生物工程学院,2,4.1,核酸序列分析,4.1.1,为什么要分析,DNA,序列,核酸序列分析是生物信息学应用中的一个重要方面。基于已有知识所形成的核酸序列数据库以及在此基础之上所形成的二级数据库对未知核酸序列的分析及功能预测具有重要的参考价值。在从事分子生物学研究的几乎所有实验室中,对所获得的核酸序列进行生物信息学分析已经成为进行下一步实验之前的一个标准操作。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,3,在很多时候,往往通过一个简单序列相似性,的比较就可以对未知序列进行初步的功能预测,为后续实验确定初步的研究方向。本,节将主要讲述如何采用生物信息学技术对核酸序列进行较为全面的分析。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,4,序列比较通常在蛋白质水平上进行,或者说在蛋白质翻译中检测远缘序列更为容易一些,因为由,64,个密码子,(codon),所组成的遗传密码,(genetic code),的冗余被缩减成了,20,个蛋白质的功能单位,氨基酸,。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,5,然而,这种简并性可能伴随着有用信息的丢失,这是因为许多直接与进化过程相关的信息在蛋白质水平无法表现,通过核苷酸序列则可以反映出来。例如,沉默突变,(silent mutation),就是在,DNA,水平的突变,但并不导致蛋白质水平的氨基酸置换。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,6,随着测序技术的迅速发展与普及,越来越多的,DNA,序列已被测定并存贮在各种分子数据库中,(,如,GenBank,),。对这些序列进行分析,可以获得如下几个方面的信息:,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,7,DNA,碱基组成、密码子的偏向、内部重复序,列等;,序列及所代表的类群间的系统发育关系;,特殊位点(限制性位点及转录、翻译和表达,调控相关信号);,内含子,/,外显子,(intron/exon),预测所确定的遗传,结构;,可读框,(open-reading frame,,,ORF),分析所推导,的蛋白质编码序列,(coding sequence, CDS),等。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,8,4.1.2,核酸序列的基本分析,4.1.2.1,核酸序列的检索,已知核酸序列的检索是核酸序列分析最为基本的一个方面。可通过多种方式实现该功能。例如,可通过,NCBI,使用,Entrez(http:/,www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide,),系统进行检索,在输入框中输入需要检索的内容,然后点击按钮“,Go,”即可开始(图,4-1),。同样,也可使用,EBI,的,SRS,服务器,(http:/srs.ebi.ac.uk/),进行检索,可参考第三章。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,9,图,4-1 NCBI,核酸序列检索的网络界面,2023/9/6BIOINFORMATICS9图4-1,2024/8/30,BIOINFORMATICS,数理与生物工程学院,10,在进行序列检索时,往往需要同时检索多条序列。这一点可通过逻辑关系式按照,GenBank,接受号进行批量检索。例如,需要检索序列接受号分别为,AF113671,、,AF113672,、,AF113673,、,AF113674,、,AF113675,、,AF 113676,的序列,可在序列输入框中输入“,AF113671 ac OR AF113672 ac OR AF113673 ac OR AF113674 ac OR AF113675 ac OR AF113676 ac”,,即可同时检索出这些序列。其中,“,ac”,是序列接受号的描述字段。,GenBank,数据库中所采用的描述字段详见网址,http:/www.ncbi.nlm.nih.gov/Entrez/entrezhelp.html#SearchFields,。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,11,4.1.2.2,分子质量、碱基组成、碱基分布,核酸序列的分子质量、碱基组成、碱基分布等分析可通过一些常用软件如,BioEdit(http:/www.mbio.ncsu.edu/BioEdit/bioedit.html),,,DNAMAN( mRNA,全序列,,GenBank,接受号,AJ627251),基本性质分析为例,可以看出,输出结果中,Composition(,组成)和,Percentage(,百分比)一栏以及,Molecular Weight(,分子质量)清楚地给出了关于该条序列的有关结果。,2023/9/6BIOINFORMATICS 数理,图,4-2,核酸序列基本性质分析示例,图4-2 核酸序列基本性质分析示例,2024/8/30,BIOINFORMATICS,数理与生物工程学院,13,4.1.2.3,序列变换,进行序列分析时,经常需要对,DNA,序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示,DNA,双链、转换为,RNA,序列等。这些使用,DNAMAN,软件可以很容易地实现,这些功能集中在,Sequence,Display,,从中可选择不同的序列变换方式对当前通道的序列进行转换。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,14,例如,对一个短序列进行变换后的结果如下:,原始序列,5-ATGAGCGTCT TCCTGCGAAA GCAATGCCTC TGCCTAGGCT-3,反向序列,3-TCGGATCCGT CTCCGTAACG AAAGCGTCCT TCTGCGAGTA- 5,互补序列,3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5,反向互补序列,5-,AGCCTAGGCA GAGGCATTGC TTTCGCAGGA AGACGCTCAT-3,DNA,双链,5-ATGAGCGTCT TCCTGCGAAA GCAATGCCTC TGCCTAGGCT-3,3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5,RNA,序列,5-,AUGAGCGUCU UCCUGCGAAA GCAAUGCCUC UGCCUAGGCU-3,2023/9/6BIOINFORMATICS14例如,对一个,2024/8/30,BIOINFORMATICS,数理与生物工程学院,15,4.1.2.4,限制性酶切分析,限制性酶切分析是分子生物学实验中的日常工作之一。该方面最好的资源是限制酶数据库,(Restriction Enzyme Database,,,REBASE),。,REBASE,数据库中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及公开发表的和未发表的参考文献,(, 数理,2024/8/30,BIOINFORMATICS,16,表,4-1,国际互联网中的核酸序列限制性酶切分析资源,资源,网址,WebGene,http:/www bio.indiana.edu/-tjyin/WebGene/RE.html,http:/www.hyper- 数理,图,4-3,使用,BioEdit,软件进行核酸序列限制性酶切分析界面,图4-3 使用BioEdit软件进行核酸序列限制性酶切分析界,图,4-4,使用,BioEdit,软件进行核酸序列限制性酶切分析结果示例,图4-4 使用BioEdit软件进行核酸序列限制性酶切分析结,2024/8/30,BIOINFORMATICS,数理与生物工程学院,20,上述结果中给出了指定,DNA,序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,21,4.1.2.5,重复序列分析,脊椎动物基因组中各种重复序列占有很高的比例。目前已经开发了一批重复序列数据库,如,RepBase,(,http:/www.girinst.org/server/RepBase/,)。著名的,RepeatMasker,软件就是基于该数据库进行工作(,http:/ftp.genome.washington.edu/cgi-bin/RepeatMasker,),使用该程序可以进行重复序列片段分析。,2023/9/6BIOINFORMATICS 数理,图,4-5,利用,RepeatMasker,软件分析重复序列的网络界面,图4-5 利用RepeatMasker软件分析重复序列的,2024/8/30,BIOINFORMATICS,数理与生物工程学院,23,4.1.3,基因结构与,DNA,序列分析,真核基因结构具有一些关键特征,(,图,4-6),,这是我们理解基因结构对序列分析的影响所必须考虑的。这些特征包括内含子、外显子、编码序列、非翻译区,(untranslated region, UTR),等。而原核基因通常缺少内含子,结构相对简单。,2023/9/6BIOINFORMATICS 数理,图,4-6,真核基因结构示意图,图4-6 真核基因结构示意图,2024/8/30,BIOINFORMATICS,数理与生物工程学院,25,4.1.3.1,非翻译区,非翻译区(,UTR,)在,DNA,和,RNA,中均有,它们是位于蛋白质编码序列,(CDS),两侧的序列,未被翻译成蛋白质。尤其是,3,端,无论是对基因还是对物种都是高度特异的。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,26,4.1.3.2,概念性翻译,如图,4-7,给定一个,DNA,序列,可以利用遗传密码将其翻译为蛋白质序列,这种方式称为概念性翻译(,conceptual translation,)。与基于生化实验的蛋白质翻译不同的是,概念性翻译仅通过理论推导或计算获得。对任意一个,DNA,序列,可能并不知道哪一个碱基代表,CDS,的起始,也不知道其阅读方向。这种情况下,不妨试用六框翻译(,six-frame translation,)。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,27,六框翻译通过移动阅读框起始碱基,获得,6,个潜在的蛋白质序列。其中,,3,个是正向翻译,,3,个是反向翻译,,6,种可能的蛋白质中至多只有一种是正确的。,2023/9/6BIOINFORMATICS 数理,查询序列,1,ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc,61 ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct,121 tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg,181 cgccctacgc ccagtacaag gtgtgggtga agcectcctt cgagcagcag tttctctacg,六框翻译氨基酸,正向序列,1,GQMEHIAFGSTRIGSTISRSGF*S*ASASATSSWCAWAPASASSPRPTN*SSISRRSTTWRPTPSTRCG*SPPSSSSFST,正向序列,2,ARWNILLSGAQGSGLLRLGADFEAERVLRLQAAGVRGHLLRQVLQDQQTEVPYHGALLLGALRPVQGVGEALLRAAVSLR,正向序列,3,PDGTYCFREHKDRVYYVSERILKISECFGYKQLVCVGTCFGKFSKTNKLKFHTTALYYLAPYAQYKVWVKPSFEQQFLY,反向序列,1,RRETAARRRASPTPCTGRRAPSSRAP*YGTSVCWSWRTCRSRCPRTPAACSRSTRSASKSAPRRSRPDPCAPESNMFHLA,反向序列,2,VEKLLLEGGLHPHLVLGVGRQVVERRDMELQFVGLGELAEAGAHAHQLLVAEALAQLQNPLRDVVDPILVLPKAICSIW,反向序列,3,PRNCCSKEGFTHTLYWAGAKSAVIWNFSLLVLENLPKQVPIHTSCLPKHSLSFKIRSETTRSLCSRKQYVPSG,(,*,代表一个终止密码子,),图,4-7,六框氨基酸翻译,查询序列六框翻译氨基酸图4-7 六框氨基酸翻译,2024/8/30,BIOINFORMATICS,数理与生物工程学院,29,从图,4-7,中可以看出,用不同的阅读框翻译,CDS,可能获得不同的蛋白质编码序列。哪一种是“正确”的呢?通常认为是可读框,(ORF ),即没有终止密码子(,TGA,TAA,或,TAG,)打断的阅读框。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,30,mRNA,需要翻译为蛋白质方能发挥其生物学作用,因此,核酸序列的可读框架,(Open reading frame, ORF),的分析便成为核酸分析的一个重要部分。基于遗传密码表,可通过计算机方便地分析核酸序列的读码框。对于真核生物而言,一条全长,cDNA,序列将只含有单一的开放阅读框架。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,31,非全长的,cDNA,序列如,ESTs,,常常来源于,3,末端测序的结果,从而含有,3,非编码区。典型情况下,一般按照具有合适的起始密码子和终止密码子来查找最长的,ORF,,或者在同一相位含有前置终止密码子的起始密码子,并具有,poly(A),末尾的区域视为最可能的,ORF,。发现,ORF,的末端要比找到起始端更容易一些。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,32,一般来说,,CDS,中的起始密码子,(initial codon) ATG,是编码甲硫氨酸,(Met),的,但在,CDS,内也很常见,所以,ATG,的出现并不意味着一定就是,ORF,的起始,还需要应用其他技术来检测,5UTR,。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,33,大量实验证明,在真核生物起始蛋白质合成时,,40S,核糖体亚基及有关合成起始因子首先与,mRNA,模板靠近,5,末端处结合,然后向,3,末端方向滑行,发现,AUG,起始密码子时,与,60S,大亚基结合形成,80S,起始复合物。这就是,Kozak,提出的真核生物蛋白质合成起始的“扫描模式”。,Kozak,调查了,200,多种真核生物,mRNA,中,5,末端第一个,AUG,前后序列发现,除,17,个例外,其余都是,A/GNNAUGG,,说明这样的序列对翻译起始来说最为合适。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,34,具体而言,,AUG,很可能是真核生物惟一的翻译起始位点,具有生物学功能的起始密码,AUG,总是出现在一定的核苷酸序列框架之内。首先,,AUG,上游(即,5,方向)的第三个核苷酸,常常是嘌呤,且多数是,A,;其次,紧跟在,AUG,后面的核苷酸,常常也是嘌呤,但多数情况下是,G,。实验表明,,AUG,附近的核苷酸序列中,ANNAUGN,和,GNNAUGPU,的利用率最高,而没有起始功能,AUG,附近的核苷酸序列则无此保守性。这就是所谓的“,Kozak,序列”,在分析读码框时需要重点参考。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,35,下列几种特性可以用来检测,DNA,序列中潜在的,CDS:,(1),、,ORF,长度,很难随机地发现很长的,ORF,,因而长的,ORF,很可能意味着存在,CDS,。,(2),、,Kozak,序列,该序列是在起始密码子之前与核糖体作用的位点。在高等原核生物中其一致序列为,GCCACC,(,ATG,),而在酵母中为,AAAAAA,(,ATG,)。它们可以用来检测,CDS,的起始。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,36,(3),、密码子用法,(codon usage),在编码区和非编码区中,密码子用法是不同的。尤其是对特定氨基酸,密码子的用法可能随物种而变。因而,统计密码子用法可以用来推断,5,和,3 UTR,,并且有助于检测错译(见表,4-2,)。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,37,表,4-2,部分模式生物中密码子用法的百分比,密码子,Ecoli,D.melanogaster,H. sapiens,Z.mays,S. cerevisiae,ATG,3,1,10,3,5,AGC,20,23,34,30,4,TCG,4,17,9,22,1,TCA,2,2,5,4,6,TCT,34,9,13,4,52,TCC,37,48,28,37,33,此外,在许多生物中已经发现在密码子第三个碱基位置上偏好,G/C,而不是,A/T,,,G/C,的概率偏向也可以帮助我们检测出,CDS,2023/9/6BIOINFORMATICS37表4-2,2024/8/30,BIOINFORMATICS,数理与生物工程学院,38,4.1.3.4,编码区内含子结构分析,(,1,) “断裂”的真核基因,大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。编码序列称为外显子,(exon),,非编码序列称为内含子,(intron),。在一个结构基因中,编码某一蛋白质序列不同区域的各个外显子并不连续排列在一起,而常常被长度不等的内含子所隔离,形成镶嵌排列的断裂方式,所以,真核基因有时被称为断裂基因,(interrupted gene),。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,39,4.1.3.4,编码区内含子结构分析,在基因转录、加工产生成熟,mRNA,分子时,内含子通过剪接加工被去掉,保留在成熟,mRNA,分子中的外显子被拼接在一起,最终被翻译成蛋白质。因此通过反转录酶的作用,由成熟,mRNA,产生的,cDNA,分子中,只含有外显子,没有内含子。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,40,真核基因在结构上的不连续性是近,10,年来生物学上的重大发现之一。当基因转录成,pre-mRNA,后,除了在,5,端加帽及,3,端加多聚,A(poly-A),之外,还要将隔开各个相邻编码区的内含子剪去,使外显子相连后成为成熟,mRNA,。研究发现,有许多基因不是将它们的内含子全部剪去,而是在不同的细胞或不同的发育阶段有选择地剪切其中部分内含子,因此生成不同的,mRNA,及蛋白质分子。由于,RNA,的选择性剪接不牵涉到遗传信息的永久性改变,所以是真核基因表达调控中一种比较灵活的方式。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,41,(,2,)外显子,内含子连接区,真核基因断裂结构的另一个重要特点是外显子,内含子连接区(,exon-intron junction),的高度保守性和特异性碱基序列。外显子,内含子连接区就是指外显子和内含子的交界,又称边界序列。外显子,内含子连接区有两个重要特征:,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,42,内含子的两端序列之间没有广泛的同源性,因此内含子两端序列不能互补。这说明在剪接加工之前,内含子上游序列和下游序列不可能通过碱基配对形成发卡式二级结构,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,43,外显子,内含子连接区序列虽然很短,但却是高度保守的。这一序列与剪接机制密切相关,它是,RNA,剪接的信号序列。序列分析表明,几乎每个内含子,5,端起始的两个碱基都是,GT,,,3,端最后两个碱基总是,AG,。由于这两个碱基的高度保守性和存在的广泛性,有人把它称为,GT/AG,法则,即,5-GT . AG-3,。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,44,由于内含子两端的接头序列不同,因此可定向表明内含子的两个末端,根据剪接加工过程沿内含子自左向右进行的原则,一般将内含子,5,端接头序列称为左剪接位点,,3,端接头序列称为右剪接位点,有时也将前者称为供体位点,(donor site),,将后者称为受体位点,(acceptor site),。外显子,内含子在连接区的保守序列几乎存在于所有高等真核生物基因中,表明在这些基因中,可能存在着一个共同的剪接加工机制。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,45,4.1.3.5,克隆序列,DNA,序列分析的一个重要方面是确定克隆的核苷酸序列。在克隆已知序列基因的实验中,比较克隆序列与已发表序列的是否一致是十分重要的。如果两者不一致,就可能要重新设计实验。例如,,PCR,过程中引物或酶选择不当,都有可能导致错误。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,46,4.2,表达序列标签分析,4.2.1 cDNA,文库与表达序列标签,cDNA(,complementary,DNA,,互补,DNA),是指与,RNA,序列互补的,DNA,,由,RNA,启动的,DNA,多聚酶,(RNA-,dependent,DNA,polymerase,),或反转录酶,(,reverse transcriptase,),合成。这种酶的单链,DNA,产物,(,反转录物,),,可用,DNA,启动的,DNA,多聚酶转换成双链形式,并插入合适的载体成为一个,cDNA,克隆。,cDNA,克隆是成熟,mRNA,分子的拷贝,不含任何内含子序列,因而只要与克隆载体上合适的启动子序列相连接,就很容易在任何一种生物体内表达。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,47,一个,cDNA,文库,(cDNA library),中包含多个,cDNA,克隆,可用于后续的序列分析。例如,可以从一个具有,2000000,个克隆的文库中随机选取,10000,个样品并进行测序,结果则贮存在计算机数据库中供进一步的序列分析。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,48,表达序列标签,(,expressed sequence tag,,,EST),是从,cDNA,文库中生成的一些很短的序列,(300500bp),,它们代表在特定组织或发育阶段表达的基因,有时可代表特定的,cDNA,。,EST,可能是编码的,也可能不是,而两端有重叠序列的,EST,可以组装成全长的,cDNA,序列。因此,,EST,的研究与表达分析可以作为一种发现新基因的有效方法。事实上,该方法已在人类基因组图谱绘制、新基因克隆和基因组序列编码区的确定等方面发挥了极为重要的作用。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,49,4.2.1.1 EST,与,cDNA,的关系,图,4-8,示出了,EST,与,cDNA,以及,CDS,和,UTR,之间的关系。应用自动测序系统,对每个,cDNA,克隆的一种读法可以产生一个,EST,。有的方法采用的引物可能使一个克隆产生两种读法,一个从,5,端起始,另一个从,3,端起始。,2023/9/6BIOINFORMATICS 数理,图,4-8 EST,与,cDNA,以及,CDS,和,UTR,之间的关系,图4-8 EST与cDNA以及CDS和UTR之间的关系,2024/8/30,BIOINFORMATICS,数理与生物工程学院,51,值得一提的是,虽然全长,cDNA,序列分析十分重要,但我们并非总能获得全长序列的信息。事实上,现阶段基因数据库中收录的,DNA,序列数据绝大许多都不是全长的,而是,EST,。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,52,4.2.1.2 EST,要素,在进行,EST,分析时,需要注意以下几点:,(1) EST,字母表,EST,测序是高度自动化的,尽管电泳分析软件已经十分完善,但还是不能确定序列中个别位点究竟是哪个碱基?最终序列中会出现一些其他字母。,2023/9/6BIOINFORMATICS 数理,表,4-3 IUB-IUPAC,编码,符号,代表的碱基,符号,代表的碱基,A,A,Y,C或T或U,C,C,K,C或T,T/U,G,V,A或G或C,M,A或C,H,A或C或T,R,A或G,D,A或G或T,W,A或T,B,C或G或T,S,C或G,X/N,G或A或T或C,表4-3 IUB-IUPAC编码符号代表的碱基符号代表的,2024/8/30,BIOINFORMATICS,数理与生物工程学院,54,(2) INDEL(,插入,/,缺失,),和移码,(frame shift),尽管测序软件有一定的容错能力,还是会出现一定的偏差,有些本来没有的碱基被读出,而应该读出的碱基却不能读出。结果表现为错误的插入或缺失。用计算机软件在蛋白质水平的相似性查询,也可能发生同样的情况,导致虚假的中止信号,或者所有的六框翻译都出错。判断出错误的,INDEL,和移码是十分必要的,这也是翻译工作的复杂性之所在。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,55,(3),剪接变体,不是所有的外显子都能出现在转录,mRNA,过程中,因而真核基因产物可能有不同长度,即最终产生的,mRNA,中可能只包含部分外显子。即使长度相同,也可能因为外显子排列顺序改变而得到不同蛋白质序列。从同一,DNA,,转录得到不同,mRNA,,并最终翻译成不同的蛋白质称为剪接变体(,splice variant,)或可变剪接形式(,alternatively spliced form,)。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,56,单一基因的选择剪接方式是全长序列分析的重要内容。如图,4-9,所示,剪接变体的存在将影响,EST,的检索与分析。测序的错误也许会使,EST,变成无用的序列,因为其中不仅包含了模糊碱基,而且还可能丢失碱基。当,EST,很短时,问题就更严重了,很可能全部落入一个特定的外显子中。在这种情况下,如果数据库中存在选择剪接方式并且均含此外显子,那就不可能知道这个,EST,所代表的是哪种形式了。,2023/9/6BIOINFORMATICS 数理,图,4-9,剪接变体与,EST,图示为一段,mRNA,,有,3,个外显子边界标记,两种匹配方式,(a) EST,与外显子,1,、,3,、,4,有相似性,而缺失了,2,,表明可能是一个剪接,变体;,(b) EST,完全落在外显子,3,的区域里,所以不能确定它是不是代表了一个,剪接变体,图4-9 剪接变体与EST图示为一段mRNA,有3个外显子,2024/8/30,BIOINFORMATICS,数理与生物工程学院,58,(4),非编码区,EST,许多,mRNA,(尤其是人类的)在,CDS,的,5,端和,3,端有长的,UTR,。一个,EST,来源于这些非编码区的可能性是相当大的。如果幸运的话,,UTR,(非编码)序列已贮存在数据库中。因其高度保守且对编码基因而言是特异的,可以找到一个直接的匹配。,如果不是那么幸运的话,就不能找到匹配。这又存在两种可能性:一是这个,EST,虽代表了一个,CDS,,但数据库中没有相似序列;二是它代表了一个非编码序列,也不存在数据库记录。,EST,分析中必须清楚这两种情况的差别。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,59,4.2.2 EST,数据库,鉴于,EST,在基因研究和商业开发上的重要应用价值,人们已经建立了大量的,EST,数据库。到目前为止,主要的通用公共数据库包括,EMBL,数据库中的,ETS,部分以及,GenBank,中的,dbEST,。通过下面,3,个例子,可以初步了解,EST,数据的不同来源。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,60,(1) Merck /University of Washington,1994,年,,Merck,公司资助美国华盛顿大学开展有关从多种规范化,cDNA,文库中测定,EST,序列的研究项目。截止,1997,年,该项目已提交,dbEST 584000,个,EST,。,此外,,Howard Hughes,医学中心资助华盛顿大学测定小鼠克隆序列,提交,dbEST,近,400000,个,EST,,大多数为,5,端。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,61,(2) Incyte,Incyte,制药公司建立了一个数据库,LifeSeq,,重点是通过从标准,cDNA,文库测序获得定量数据。其目标在于提供健康和疾病组织中转录基因相对拷贝数的信息,以期发现潜在的治疗靶标。到,1998,年,4,月,,LifeSeq,中已包含了,2500000,个,EST,,代表,80000-120000,个不同的基因。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,62,(3) TIGR-HGI,美国基因组研究所(,The Institute for Genomic Research,,,TIGR ),是一个非盈利的研究机构,成立于,1992,年。其人类基因索引(,Human Gene Index,,,HGI),旨在综合全球人类基因研究的成果(包括,dbEST,及,GenBank,)。,它已经从,300,个以上的,cDNA,文库中测定了超过,100000,个的,EST,序列。有兴趣的读者可以访问“,TIGRGene Indices”,网页(,http:/www.tigr.org/tdb/tgi.shtml,)。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,63,4.2.3 EST,分析,尽管,EST,本身是不完整的甚至可能是不精确的,DNA,序列,但,EST,分析(例如,检测新的,EST,与分子数据库中收录的大量,EST,匹配与否)将为确定全长,CDS,和寻找新基因提供有价值的线索。,EST,分析工具很多,除商用的(如,IncyteLifeTools,)外,公用的工具通常分为,3,类:,序列相似性查询(,sequence similarity search,);,序列组装(,sequence,assembly,);,序列聚类(,sequence cluster,)。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,64,(1),相似性查询工具,序列相似性查询工具已在上章中介绍。其中,BLAST,系列可用于,EST,查询。,tBLASTn,可以翻译,DNA,数据库,,BLASTx,翻译输入数据,,tBLASTx,则两者均可。,FASTA,亦有类似的功能。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,65,(2),组装工具,用一个“探针”序列在数据库中搜索可获得与之相匹配的,EST,序列,通常需要对这些,EST,序列进行对位排列(,sequence alignment,)以获得一致性序列。下一轮搜索得到的,EST,同样也应参与对位排列。这种反复的对位排列工作称为序列组装。相关的软件工具有,Staden,组装器、,TIGR,组装器和,Phrap,等。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,66,(3),聚类工具,序列聚类工具是指将一个大的序列集合分解成亚集,(subset),或簇(,cluster),的计算机软件,如果不同序列之间有一段重叠序列,并且超过一定长度,这两段序列就应该能拼接在一起,从而应聚为一类。一个可靠而有效的,EST,聚类方法将减小数据集的冗余度,节省数据库搜索时间。总之,如果我们已得到大量的,EST,序列,并且需要估计出它们所代表基因的数目时,聚类工具就显得特别重要。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,67,图,4-10,示出了,EST,序列聚类的一个例子。其中,一个,EST,文库被分解成,A,、,B,、,C,、,D 4,个集合,箭头方向表示,EST,间的重叠是正义(,plus sense,)的还是负义(,minus sense,)的。例如,,A,中两个,EST,是正义重叠,一个是负义重叠;,C,中两个正义,两个负义,等等。实际上,这里的,EST,正负义仅是象征性的,真实的正负义只能由数据库比较确定。,2023/9/6BIOINFORMATICS 数理,图,4-10 EST,聚类,图4-10 EST聚类,2024/8/30,BIOINFORMATICS,数理与生物工程学院,69,EST,聚类的一种策略是用已知的基因去引导,EST,的划分。,EST,可以从各种各样的,DNA,和蛋白质序列数据库中搜索出来并聚合成代表单一基因的集合。一般来说这种方法可能产生出与数据库中任何一段序列不相匹配的,EST,簇。从一个给定的文库中得到不相匹配的,EST,的比例约为,40%,。随着基因组测序项目的增加,将有更多的信息被提供,这个比例值还会继续降低。因而,需要更新的方法(如重叠鉴定)来聚合剩余的序列。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,70,另一种策略是先聚合所有的,EST,以产生一个代表每个集合的一致性序列(,consensus sequence,),然后仅用这个一致性序列去进行数据库检索。这是一个较为理想的方案,因为它显著地减少了相似性检索的数量。然而,这种策略的成功很大程度上依赖于,EST,聚类的可靠性,而,EST,聚类又与,EST,数据的质量密切相关。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,71,估算,EST,文库所代表基因的数目是一项较为复杂的工作,因为不相匹配的,EST,也许并不代表不同的基因。以下两种情况应当被考虑:首先,如图,4-11(a),所示,一个簇,(,图中的,C),可能与一个基因的非特征区相对应,另一种可能是该基因的特征区对应多个簇,(,图中的,A,和,B),。例如,,3 UTR,在数据库记录中通常是不完整的,或者一个基因只是一条部分的序列记录。在这种情况下,将一个不匹配的,EST,簇看做是一个单独的基因将会高估基因的数目;,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,72,其次,如图,4-11(b),所示,可能有两个或更多的未匹配簇,(,图中的,D,和,E),对应于同一个基因的不同区域。如果将所有不相匹配的,EST,簇都算做基因的话,所估计的基因总数将明显偏高。,2023/9/6BIOINFORMATICS 数理,图,4-11 EST,簇与基因数目估计,图4-11 EST簇与基因数目估计,2024/8/30,BIOINFORMATICS,数理与生物工程学院,74,4.3,电子克隆,cDNA,全长序列,电子克隆,又称虚拟克隆,(virtual cloning),,其原理是根据大量,EST,具有相互重叠的性质,通过计算机算法获得,cDNA,全长序列。换言之,电子克隆不采用传统的分子生物学实验方法,而是由一个查询序列开始,依靠,EST,数据库在计算机上对,EST,进行两端延伸,从而获得全长的,cDNA,序列。电子克隆需要综合多种,DNA,序列分析技术。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,75,从部分序列得到全长,cDNA,的分子生物学实验方法通常有杂交筛选文库或,5,末端延伸法。电子克隆则以部分,cDNA,为起始,和,Genbank,的,EST,数据库,dbEST,进行,BLAST,检索,得到与,5,端或,3,端有相似序列的,EST,,然后以该,EST,为模板,进一步搜索,EST,数据库,一直往前延伸,直到找到终止密码子,得到全长,cDNA,。可见,该方法依赖于足够的末端重叠并且能够往前延伸的,EST,序列。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,76,序列拼接软件通过计算序列中的每个位点上各种核苷酸可能出现的分值,找出调和序列。可以设置一些参数来约束每个位点允许出现的错配碱基数。通常,为确定序列拼接质量,需要对一个片段进行多次测序。正链和负链上每个位置至少有两次以上的测序结果一致,该位点的测序结果才比较可信;相反,序列中某一位点几次测序结果不一致,这一位点的可信度则较低。,2023/9/6BIOINFORMATICS 数理,AACCGTTACGAA,A,CCAGGTGC,AACCGTTACGAA,A,CCAGGTGCGCGCCCG,C,GGGAAT,AACCGTTACGAA,C,CCAGGTGC,AACCGTTACGAAaCCAGGTGCGCGCCCGcGGGAATCCTAAAAA,CGCGCCCG,C,GGGAATCCTAAAAA,TGCGCGCCCG,A,GGGAATCCTAAAAA,图,4-12,序列拼接示例,2024/8/30,BIOINFORMATICS,77,AACCGTTACGAAACCAGGTGC图4-12 序列拼,2024/8/30,BIOINFORMATICS,数理与生物工程学院,78,图中用于拼接的序列包括,3,条正链和,2,条负链。,5,个测序结果中,有,2,个位点出现了错误,这些错误将导致这两个位置碱基一致性程度降低,此时,需要用其他数据加以验证,或对测序过程中所得图谱进行人工分析。一般来说,必须利用全长正链和负链测序数据,才能保证拼接结果质量。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,79,4-1,例,一个电子克隆的练习。假定从已发表的酿酒酵母,(S. cerevisiae),的基因组中寻找一个编码未知蛋白的基因。仅有的信息是一个在酵母基因组,14,号染色体上发现的编号,YNR064c,的可能的可读框,(ORF),。,这项工作包含,3,个方面的内容:,(a),、从公共数据库中分离一个基因,(,或,ORF),;,(b),、分析所恢复序列的限制性酶切位点;,(c),、确定克隆策略。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,80,(1),从基因组数据库中分离基因,登录到一个包含酵母基因组,DNA,数据库的网站,如,http/srs.ebi.ac.uk/,以便利用,EMBL,数据库,SRS,系统);,进入数据库的查询界面;,在查询表中你可以发现不同类型的数据库。选择,EMBL,和,EMBLNEW,的数据库;,键入登录号,ynr064c,,进行“,Quick Search,”;,点击链接,获得数据库查询的结果;,获得的页面包括,GenBank,中收录的所有与,064YNRc,有关的数据,你将发现一条从,5-3,的含有目的基因的,DNA,链。,2023/9/6BIOINFORMATICS 数理,图,4-13 WebCutter,软件网络界面,图4-13 WebCutter软件网络界面,2024/8/30,BIOINFORMATICS,数理与生物工程学院,82,(2),在网络上分析限制性位点,打开一个新窗口,(,WebCutter,),连接,: http/bio.lundberg.gu. se/cutter2/.,。这是一个进行在线限制性酶切位点分析的网站。这个程序可以通过简单的“剪切,粘贴”,DNA,序列来进行限制性酶切位点分析;,在原先的网页浏览窗口,(,包含,064YNRc,数据的那一页,),,选中整段,DNA,序列;,在选中的区域点击右键,选择,Copy,;,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,83,返回有,WebCutter,的窗口。在方框里点击鼠标左键来把鼠标的光标置于,DNA,序列框中,按右键选择,Paste,。将从数据库中获得的整个,DNA,序列放入,WebCutter,程序的,DNA,序列分析框中;,保留所有限制性内切酶分析的默认设置。对,YNR064c,进行限制性内切酶分析。,按下,Analyze sequence,。等待。分析通常需要,10,秒至几分钟,时间取决于分析时的网络状况;,如果耗时太长,按,stop,来放弃分析过程,按,back,再按,Analyze sequence,,继续等待,并多尝试几次;,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,84,(3),确定克隆策略,研究输出文件,寻找起始密码子和终止密码子的位置以及编码序列,(CDS),的方向;,比较分析限制性酶切图谱,(WebCutter),,寻找能够切除多余序列保留完整编码序列的限制性内切酶;,除电子方法外,必须对,YNR064c,的编码区进行亚克隆,才能得到编码该蛋白的基因全长序列。所谓亚克隆就是对已经获得的目的,DNA,片段进行重新克隆,其目的在于对目的,DNA,进行进一步分析,或者进行重组改造等。,2023/9/6BIOINFORMATICS 数理,2024/8/30,BIOINFORMATICS,数理与生物工程学院,85,例,4-2,用电子克隆的方法获得一种新的蛋白激酶,A,锚定蛋白,(AKAP,基因,),的例子。结果得到,2106bp,的一段,cDNA,,和,northern blotting,杂交显示的结果相接近,为全长,cDNA,。可利用的,EST,序
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!