《生物信息学》第六章 核酸序列的分析方法 (上)

上传人:考试不挂****2941... 文档编号:243049938 上传时间:2024-09-14 格式:PPTX 页数:152 大小:7.68MB
返回 下载 相关 举报
《生物信息学》第六章 核酸序列的分析方法 (上)_第1页
第1页 / 共152页
《生物信息学》第六章 核酸序列的分析方法 (上)_第2页
第2页 / 共152页
《生物信息学》第六章 核酸序列的分析方法 (上)_第3页
第3页 / 共152页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,核酸序列的分析方法,主讲教师:赵雨杰,当我们得到一个,DNA,序列时,我们往往需要对该片段进行分析,确定它的功能区域、寻找调控区域、启动子区域、编码区域、预测其编码蛋白,才是我们研究,DNA,序列的目的。这需要对,DNA,功能模式进行检测,单靠多个序列的比较不能完成上述任务。,就象人类的语言有多种表达形式,但每种语言都有一定的语法一样,序列上基因的排布方式也有自己独特的规律,我们不妨称之为基因语法。例如,启动子中的,TATA,框、大多数内含子都以,T,为,起始,末端为,等,利用这些基因语法,人们设计了一些程序用于对一段未知序列上的基因进行预测。,这些程序的基本步骤是:先寻找出整个,DNA,序列上重复的和低复杂性的序列并把它们遮蔽起来,以利于进行进一步分析,再寻找基因以及与其相关的调控区域,。目前,网上提供了许多免费和商用的分析工具,用户使用时要注意:这些工具虽很实用,但绝非完全可靠。,当前许多分析软件开发者对功能域原型的描述来自,DDBJ/EMBL/GenBank,等国际序列数据库中对相应功能域的描述,而这些数据库中的描述本身的某些部分却来源于序列的分析应用软件的预测结果。所以,建议用户有必要将序列提呈给多个不同的软件包加以分析,以利用最佳的计算机技术,得到较满意的结果。,真核基因编码蛋白质基因的结构,DNA,序列功能位点,计算机进行编码基因识别时所需解决的问题,一个全面的编码基因搜索方案,无论是通过单个集成的程序实现,还是通过多个程序分步实现,基本的思路是相同的:,1,、通常如果一个序列中某一区域出现重复序列,该区域不大可能处于调控区域和编码区域。,2,、如果某一片段与其它基因或基因产物有序列相似性,该片段是外显子的可能性极大。,3,、一段序列上存在着统计的规则性,表现为显著的“密码子偏好”,是蛋白编码区最明显的标志之一。,4,、与模板模式相符可能指出,DNA,上功能性位点的位置。这类分析可以基于很简单的模式(例如,众所周知的“,TATA box”,和剪接点的保守序列)或基于相当复杂的推理(例如,在后面将提到的启动子搜寻算法中)。,在进行编码基因搜索时的基本步骤:,1,、寻找,DNA,序列中基因不可能出现的区域,并将此遮蔽起来。,2,、在启动子区寻找一致的模式,找出转录因子识别,DNA,结合区域。,3,、寻找转录的起始密码、终止密码和剪切位点。,4,、找出编码区。然后将全部收集到的信息汇总整理成总体上尽可能连贯的谱图。,核酸序列预测应用软件的开发者在编辑软件时,不少采用了神经网络系统和对密码子偏好的检测,对这些概念的了解,有助于我们了解软件的性质,以便更好的应用。,进行,不同的分析,时使用,不同的,软件工具。注意:程序,适用的物种选择和应用范围等。,神经网络系统,大多数计算程序都沿着固有的顺序盲目地执行命令,神经网络系统赋予计算过程“学习”的能力以模仿人类的学习。每个神经网络都包含一个输入层和一个输出层。在输入层和输出层之间有若干个隐含层。神经网络在应用之前必须经过一个学习过程。,软件学习过程即,向网络输入一组训练数据集,一般情况下包括已知结构的序列及其相应结构。网络通过加工这些信息,寻找序列在特定的上下文关系中所能形成的结构之间的微弱联系。经过训练后的神经网络系统就能用来进行查询序列的预测。,密码子偏好,遗传密码具有简并性,编码蛋白质的基因有偏好使用某一密码的倾向,称之为密码子偏好,这使编码蛋白质的基因具有编码区规律性。编码测度(,coding measure),就是用来总结计算这一规律性的方法。一般把计算结果用一个数或一个数列表示,如将密码子出现频率简单列表就是编码测度的一种。,编码测度常用的方法,双,密码子记数方法:两个相同密码子连在一起称为密码子对,双密码子记数是统计密码子对的出现频率,。,直接,周期性度量:同一核苷酸在相同距离重复出现,成为周期,直接周期性度量是对此周期进行统计。,均,一性对复杂性的测量:相同核苷酸聚集在一起的区域称为同聚区,该方法主要统计同聚区数。,很多对蛋白编码区的检测方法把一个或几个编码测度方法组合起来运用,组成一个判别式。根据判别式得出一个较低分辨率的编码区边界的图谱。编码测度有,物种属性,,在使用时应注意。,遮蔽重复序列,主讲教师:赵雨杰,在原核、真核中都有重复出现的核苷酸序列,但在真核更普遍。重复序列有种属特异性,基因组越大、重复序列含量愈丰富。虽然某些重复序列与生物进化有关,有些重复序列可能发生在调控区,但在对核酸序列进行基因预测的过程中,特别是在数据库搜索中,重复序列常常会搅乱其它分析 。,在进行任何真核生物序列的基因辨识分析之前,最好把散布和简单的重复序列找出来并从序列中除去。虽然这些重复序列可能正好覆盖了由,RNA,聚合酶,转录的部分区域,但它们几乎不会覆盖启动子和外显子编码区。这些重复序列的定位能为其它基因特征的定位提供重要的反面信息。,大多用户只是偶尔分析一个所得序列,不需要对大量的序列进行分析预测,对于重复序列的分析用电子邮件或,Web,网页的服务器就可以完成。目前有许多在线服务器,如,CENSOR,(,Jurka,等,,1996,)与,RepeatMasker,(,Smith,,,1996,)就是这种能提供标识和遮蔽分散和简单重复序列的服务器。,CENSOR,可以通过登陆,CENSOR,网页(,http:/www.girinst.org/censor/index.php,),进入,CENSOR,软件使用页面。,CENSOR,可以接受,遮蔽许多真核生物如:真菌、人类,、,啮齿动物、鱼类和,植物,的重复序列,。,CENSOR,使用起来非常简单,查询序列,选择序列来源,如果缺省,服务器就按人类的序列进行计算,,按“,Submit Sequence,”完成,查询。,以,HUMCKMM1,为例运行,CENSOR,得到的输出结果,gi|180579|gb|M21487.1|HUMCKMM1 Human muscle creatine kinase gene (CKMM), 5 flank,GGATCCTTCCTCCTTGGCCTCCCAAAGTGCTGGGATTACAGGTGTGAGCCACTGCACCTGGCCTATTACC,CTTCTCAGGCTCTGGAGTCCATCCTTCTGCTCTGTCTCCCTCAGTTCAATTGTTTTTTGTTTTTTGTTTT TTTTTTAGACACAGTCTCGCTCTGTCACCAAGGCTGGAGTGCAGCAGTGCGATCACAGCTCACCGCAGCC TCACCTCCCAGGCTCAAGTGATCCTCCCATCTCGGCCTCTGAGTAGCTGAGACTATAGGTGTGTCCACAT GTCCGGCTAATTTTTGTATTTTTAGTAGAGACAGGGTTTCACCGCGTTGGCCAGGGTGGTCTTGAACTCC TGAGCTCAAGCAATCCTCCTGCCTCAGCCTCCTTGTTTTGATTTTTAGATCCCACAAATAACTTGTGATG TTTGTCTTTCTATACCTGGTTCATTTAACATTTTCTTTTTCTTTTCTTTTCTTTTTTTTTTTTTTTGTGA GACTGAGTCTTGCTCTGTCACTCAGGCTGGAGGGCAATGGTGCATCTCAGCTCACTGCAACCTCCACCTC CTAGGTTCAAGCAATTCTTATGCCTCAGCCTCCTGGCTAGCTGGGATTACAGGCGTGTGTCACCATGCCA GGCTAATTTTTGTACTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTTGAACTCCTGGC CTCAAGTGATCCACCCGCCTCCGCCTCTGCCTCCCAAAGTGCTGGGATTACGGGCCTGAGCCACTGTGCC CGGCCCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT GGGTCTGCTCCTGTCTCCCCTCCAACCTCATCTTCTTCCTCCCACTCTCTCCTTGGCCCCATCTGCTCCA GTCCCCTGGCCTCCTTCCTGTCTGTCCTCAGATGTGCCCAGCCATTCTCACCTCAGCGCCTTTGCACCTG CTGTTCCCCCCAGAGCCGCACATGGCTGGCTCCCTGTTCTCCTTCAGGTCTCTGCTCAGATGTCATCTTC CCAAAGAGGCCTGCCTCGACCTCCCCTGCTGCTGTGCCGTCCCCTCATCTGTGACCCTCTTGCACTATCA CCTCCAGGACGGCGGGGGTTTTGTGTTTTGTTGTAGCCTCAGGAAGTGCCTGATAGATCCCTGTTTCGAG ACCAGTTCCATTTGGTTTTCTGGGCCTCAGTTTCCGTAACCGTGAAGGAGACCCTCGGCAATCTGAGCTT GCTGGGAAAGGGCTGGGCCCCATGTAAATATTTCTAAAGCACCCCTCTCCCCTCCCCCCTCAGATCAGGA GTCTGAGGGAGAGGCACAGAGGCTCCCTTTCTCTAAGCCAGTCCTCACCTGCCTAAGAAGATGTGAAGGA GACCCAGGAGACCCTGGGATAGGGAGGAACTCAGAGGGAAGGGACATTCTTTTCTTCGTCGCAATCCTGG GAGCTCCCTGGAGGAGGAGACCCGATCAGCCTGCAATCCTGGCGCGTCCCAGGAGGAGAAAGCGGCTTCC TCTATACTGTACTCTCCTCCACAGAACCCCCCTCTCAGCCCTGGAAGTCCTTGCTCACAGCCGAGGCGCC GAGAGCGCTTGCTCTGCCCAGATCTCGGCGAGTCTGCGCCCGCGCTCTGAACGGCGTCGCTGCCCAGCCC CCTTCCCCGGGAGGTGGGAGCGGCCACCCAGGGCCCCGTGGCTGCCCTTGTAAGGAGGCGAGGCCGAGGA CACCCGAGACGCCCGGTTATAATTAACCAGGACACGTGGCGAACCCCCCTCCAACACCTGCCCCCGAACC CCCCCATACCCAGCGCCTCGGGTCTCGGCCTTTGCGGCAGAGGAGACAGCAAAGCGCCCTCTAAAAATAA CTCCTTTCCCGGCGACCGAGACCCTCCCTGTCCCCGCACAGCGAAATCTCCCAGTGGCACCGAGGGGGCG AGGGTTAAGTGGGGGGGAGGGTGACCACCGCCTCCCACCCTTGCCCTGAGTTTGAATCTCTCCAACTCAG CCAGCCTCAGTTTCCCCTCCACTCAGTCCCTAGGAGGAAGGGGCGCCCAAGCGGGTTTCTGGGGTTAGAC TGCCCTCCATTGCAATTGGTCCTTCTCCCGGCCTCTGCTTCCTCCAGCTCACAGGGTATCTGCTCCTCCT GGAGCCACACCTTGGTTCCCCGAGGTGCCGCTGGGACTCGGGTAGGGGTGAGGGCCCAGGGGCGACAGGG GGAGCCGAGGGCCACAGGAAGGGCTGGTGGCTGAAGGAGACTCAGGGGCCAGGGGACGGTGGCTTCTACG TGCTTGGGACGTTCCCAGCCACCGTCCCATGTTCCCGGCGGGGGCCAGCTGTCCCCACCGCCAGCCCAAC TCAGCACTTGGTTAGGGTATCAGCTTGGTGGGGGCGTGAGCCCAGCCCTGGGGCGCTCAGCCCATACAAG GCCATGGGGCTGGGCGCAAAGCATGCCTGGGTTCAGGGTGGGTATGGTGCCGGAGCAGGGAGGTGAGAGG CTCAGCTGCCCTCCAGAACTCCTCCCTGGGGACAACCCCTCCCAGCCAATAGCACAGCCTAGGTCCCCCT ATATAAGGCCACGGCTGCTGGCCCTTCCTTTGGGTCAGTGTCACCTCCAGGATACAGACAGCCCCCCTTC AGCCCAGCCCAGCCAGGTACTGCACGGGGCGGGAATCTGGGTGGGGGCCAGAGTAGGGGATTTCTGTGGG TGCTAGAGGCTTGGCTTGGGAAAGGGTCTGTGTGTCACCCCTTGCTCCACCAACATCCTCCTATACAAAG GCAGGTCGGTGCGTGGGAAGGTTGACCCTTGTGTGTCTGGGAGGCCCCTCCATCTGTGAGGCTGCCTGAA CCCCCACTGGGACCTGTGATTTCTGCGGCACAG,REPEATMASKER WEB SERVER,在线重复序列遮蔽工具,用户可以登陆,(,http:/www.repeatmasker.org,/,)在线应用,,注意:在使用,REPATMASKER WEB SERVER,时,输入序 列要采用,FASTA,格式,否则不予以受理。,如果要对大量序列进行分析,就有必要在本地安装分析软件,本地分析也大大增强了保密性。从因特网上可以得到,XBLAST,(,Claverie,,,1996,),(,ftp:/ftp.x.org/contrib/games/xblast-2.6.sound.tar.gz,),(不要与,BLASTX,混淆)的源程序。许多重复序列能从由,J.Juka,收集的,Repbase,中得到。,DNA,翻译,主讲教师:赵雨杰,在进行,DNA,序列的研究中,把,DNA,(或,RNA,)按所有可能的阅读框(,+1,、,+2,、,+3,、,-1,、,-2,、,-3,)翻译成可能的蛋白质序列、再对得到的候选蛋白序列做进一步分析,对,DNA,序列上基因的辩识很有帮助。,因特网上提供了一些免费翻译工具,,DNA-protein,(,http:/cn.expasy.org/,)就是其一。这些应用程序先寻找出所有可能的翻译蛋白,然后再到数据库对候选蛋白进行列队比较,找出可能性较大的蛋白序列。由于列队比较中存在重复序列的干扰,所以建议在进行,DNA-,蛋白翻译之前最好先遮蔽重复序列。,Translate tool,是,ExPASy,上提供的翻译工具。用户可以直接登陆其,Web,(,http:/www.expasy.org/tools/dna.html,)页面,在输入框中输入查询序列即可。最后给出,6,种阅读框的翻译结果。下面是以,Homo sapiens phenylethanolamine N-methyltransferase (PNMT), transcript variant 1, mRNA,为例进行翻译,其中一个阅读框输出的结果。,要想该阅读框输出的详细结果,用户可以点击输出蛋白序列上的蛋氨酸或“,stop”,后面的氨基酸,就会出现,SWISSSPROT,上已有的相应的蛋白及相关信息,用户可以将这些蛋白相互比较,选出合适的结果。,待分析核酸序列的数据库搜索,主讲教师:赵雨杰,遮蔽重复序列后,对所查询的序列进行下一步分析的最简单和实用的方法就是进行数据库搜索,找出是否有相同或相似基因。数据库中相似基因搜索是应用最广泛的编码蛋白基因的辩识方法,目前完整的基因搜索服务正把数据库搜索包含进来作为分析的一部分,但在某些情况下用户需要自己完成。,对于一段,mRNA,、,cDNA,序列,用户可使用“,DNA-PROTAIN”,应用程序,以六种可能的阅读框翻译成蛋白质,并把结果作为查询序列进行蛋白质同源性比较和进行各种功能性数据库的搜索。数据库搜索对我们了解查询序列很有帮助,如果找到一个已知的同源序列,不仅就此序列上可能存在的基因有所了解,而且还可以应用软件预测查询序列中可能的外显子。,寻找同源产物时应注意:新发现的蛋白大约只有一半能在已有数据库中找到同源蛋白。蛋白序列中表现高度同源性的部分(,ACR,)都已被发现,并能在当前数据库中找到,新发现的基因中的,20%-50%,包含一个数据库中已有描述的,ACR,,低表达的基因比中等或高度表达的基因包含,ACR,序列的可能性更小。,探测,DNA,中的功能性位点,主讲教师:赵雨杰,在对查询序列进行完重复序列的遮蔽和数据库搜索后,识别,DNA,序列上可能的功能位点,例如转录因子结合位点与内含子,-,外显子的接头位点,对基因识别的进一步推进有很大的帮助,并可以提高预测的精度。,一般归纳出这些位点位置的方法是找到所谓的保守序列,再从找到的所有可能的位点中判别真正的位点。许多计算工具、采用位置,权重算法(,PWM,)等较为复杂的判别技术对识别的功能性位点进行判别,以增大预测精度。,启动子,要在一个,DNA,序列上准确找出一组外显子,寻找启动子是非常必要的。启动子是,DNA,分子可以与,RNA,聚合酶特异结合的部位,也就是使转录开始的部位。在基因表达的调控中,转录的起始是个关键。常常某个基因是否应当表达决定于在特定的启动子起始过程。,启动子一般可分为两类,:,(1),一类是,RNA,聚合酶可以直接识别的启动子。,(2),另一类启动子在和聚合酶结合时需要有蛋白质辅助因子的存在。这种蛋白质因子能够识别与该启动子顺序相邻或甚至重叠的,DNA,顺序。,启动子处的核苷酸顺序具有特异的形状,大多数启动子均有共同顺序,(consensus sequence),,,-35,区“,AATGTGTGGAAT” TATA,盒,,-70-80bp “GCCTCAATCT ”CAAT,盒(真核生物),,-10,区“,TTGACATATATT” Pribnow,盒,(,原核生物,),。不少启动子计算程序通过寻找这些启动子特殊的结构和启动子和转录因子结合的特性来识别启动子。,WebGene,上的,HCtata: Hamming-Clustering Method for TATA Signal Prediction in Eukaryotic Genes (hr.it/webgene/),提供了,TATA box,寻找服务,该程序先采用了数字网络系统找到可能的,TATA box,,然后再用神经网络系统作出最后判断。,软件作者,使用了真核启动子数据库中(,EPD,),1252,个条目作为训练集,并输入一系列的真核植物基因来验证预测的准确性。用户可以登陆其网页完成启动子,预测。以,人类磷酸丙酮酸水合酶基因序列(,X56832,)为查询序列用,HCtata,进行,预测。,内含子剪接位点,RNA,的剪接就是要把断裂基因的转录本中的内含子除去。剪接连接点,(splicing junctions),是指在切断和重接位点处的两旁的顺序。在内含子左侧的连接点称为供体,(donor),,在内含子右侧的称为受体,(acceptor),。,在细胞核的结构基因,(,即编码多肽的基因,),中的所有内含子在外显子,-,内含子连接处均有,GT,.AG,的共同顺序。较详细的共同顺序如下,供体位点受体位点:外显子,.AGGTAAGT.,内含子,.Py10CAG.,外显子,箭头表示切断的键。这些还是较短的共同顺序,存在于几乎所有的真核生物中。,由于存在多种剪接机制,以及调控下的交替剪接,已有的程序中预测精度也有待提高。一些复合基因预测程序中包含剪接位点的预测。另外,WebGene,上提供专门的剪接位点预测服务,用户可通过,WebGene,首页 (,r.it/webgene/,)登陆或直接登陆,Spliceview,(,r.it/webgene/wwwspliceview.html,),输出结果包括两部分,以表格形式列出的供体和受体可能的位点和相应的外显子、内含子以及所给的可能性位点分值;以示意图形式表示的整个查询序列上供体和受体可能的位点所在的位置。,起始密码子,翻译的起始位点对真核生物,如果转录起始位点已知,并且没有内含子打断,5,翻译区的话,可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找到正确的起始密码子仍很困难,。,这种情况下,由于多顺反操纵子的存在,启动子定位虽然有用,但不象在真核生物中那样起关键作用。对于原核生物,关键是核糖体结合位点的可靠定位。,Web Gene,上的,AUG_EVALUATOR,提供了起始密码所在位点探测服务,用户可通过,WebGene,首页 (,r.it/webgene/,)选择,AUG,。,终止信号,DNA,中有转录终止信号,称为终止子,在终止子处,,RNA,聚合酶停止其聚合作用,将新生,RNA,链释出,并离开模板,DNA,。在某些位点处,终止需要一种辅助蛋白质,即,因子,但在其他位点处,核心酶本身即可终止转录。,不依赖,因子的终止子有两个特征,:,1DNA,顺序有双重对称,(dyad),。,2DNA,模板链中有一串约,6,个,A,,转录为,RNA3,端的,U,。,双重对称的意义在于其转录本能形成发夹结构。体外实验显示,如果掺入其他碱基以阻止发夹形成时,终止即不发生。,通常只要有一个核苷酸的改变破坏了规则的双螺旋的茎时,即可破坏终止子的功能。对终止子突变的分析亦显示,DNA,模板上多聚,dA,顺序的重要性。如将此序列中的一个碱基换掉,或除去部分序列,(,缺失,),都可使终止子失活。多腺苷酸化和翻译终止信号虽然看上去没有基因起始信号那么重要,但这些信号也能帮助划分基因的范围。,许多复合基因预测程序中包括,PolyA,的预测,,WebGene,上的,HCpolya,提供,了单独的,PolyA,预测程序,它运用数字网络系统首先预测出可能的,PolyA,位点,然后运用神经网络系统,从,EMBL,上抽取了,1000,个,PolyA,信号实例作为训练集。,HCpolya,的具体应用与,WebGene,上的其它应用程序相同。用户直接登陆其网页输入查询序列即可。,其他特征信号的探测对推进基因的识别也有帮助,如,CpG,岛的预测等。用户可上,WebGene,网页进行预测,。用户,可以登陆选择相应的程序进行预测。,CpG,岛:,CpG,岛,(CpG island),一词是用来描述哺乳动物基因组,DNA,中的一部分序列,其特点是胞嘧啶,(C),与鸟嘌呤,(G),的总和超过,4,种碱基总和的,50%,,即每,10,个核苷酸约出现一次双核苷酸序列,CG,。具有这种特点的序列仅占基因组,DNA,总量的,10%,左右,。,从已知的,DNA,序列统计发现,几乎所有的管家基因,(House-Keeping gene),及约占,40%,的组织特异性基因的,5,末端,含有,CpG,岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模,DNA,测序计划中,每发现一个,CpG,岛,则预示可能在此存在基因,。,复合基因分析程序,Genebuilder,主讲教师:赵雨杰,复合基因分析程序,复合,基因分析程序就是把若干个分析基因特征的程序结合在一起,对查询序列进行综合分析,先遮蔽重复序列,找出可能的信号区,再进行同源序列搜索。然后,对相应打分函数进行优化,以确定外显子,并给出与所有现有数据最一致的可能基因,结构。,最后不仅给出查询序列上的外显子可能的位置,而且给出查询序列上的,cDNA,及其编码蛋白序列。这对我们寻找可能的基因,确定其编码蛋白,研究它们的生物学意义有很大的帮助。,最初的计算机辅助基因识别程序主要处理识别基因的分离特征,如前面所介绍的,单独识别剪切位点,单独分析启动子的位点,或只识别不涉及信号的编码区的规律性等。但是,如果一个剪接位点将一段编码区隔断,那它有助于检测时在一边寻找编码区,而在另一边寻找非编码区,。,这说明综合考虑待定特征的整体一致性能显著提高预测的精度。例如,在单独的外显子预测程序中,有的程序长度在,50bp,以下的外显子往往被遗漏,但如果使用复合基因分析程序,在分析中加上一个简单的剪接和框架逻辑分析后就能检测出来。,r.it/webgene/genebuilder.html,Genebuilder,通过不同的方法检测查询序列上的功能性位点和编码区域,在预测过程中结合,EST,数据库搜索和蛋白质同源性比较,用动态的方法得到可能的基因结构,该程序设置了若干参数预测和精选可能的基因结构。由于加入了预测出的外显子与相关蛋白的同源性比较这一步,预测的精度大大提高。而且,在较低同源性的情况下,,Genebuilder,仍能较准确的预测出可能基因结构。,通过检验,,Genebuilder,的的敏感度达,0.89,,特异性达,0.91,,总的相关系数为,0.88,。该程序的优点是,用户输入一个查询序列,该程序不仅预测出可能的编码区位置片段,编码的蛋白肽段,,CpG,island,,而且,给出,TATA box,位点、,PolyA,位置、转录因子以及同源性比较结果等。用户不需分别应用不同的程序预测就能得到综合的结果。,Genebuilder,应用起来很简单,用户通过登陆其,Web,页面,选择相应参数,是否选择剪接位点、同源蛋白、,TATA box,等项,然后输入查询序列,点击,start analysis,即可完成查询。输出的结果可以选择,e,mail,形式返回也可以选择在线,浏览。以,人类磷酸丙酮酸水合酶基因序列(,X56832,)为未知序列,用,GeneBuilder,进行,预测。,GeneBuilder,预测出该序列上编码蛋白肽段共,434,个氨基酸残基,序列如下,:,MGKGALTDSPHAGRQTRSSIQTSSEDIPGRKIFAREILDSRGNPTVEVDLHTAKGRFRAA,VPSGASTGIYEALELRDGDKGRYLGKGEETPAQKEPKLSVVDQEKVDKFMIELDGTENKS,KFGANAILGVSLAVSLREAEAGRSQGQEFETSLTNMAFNVINGGSHAGNKLAMQEFMILP,VGASSFKEAMRIGAEVYHHLKGVIKAKYGKDATNVGDEGGFAPNILENNEALELLKTAIQ,AAGYPDKVVIGMDVAASEFYRNGKYDLDFKSPDDPARHITGEKLGELYKSFIKNYPVVSI,EDPFDQDDWATWTSFLSGVNIQIVGDDLTVTNPKRIAQAVEKKACNCLLLKVNQIGSVTE,SIQACKLAQSNGWGVMVSHRSGETEDTFIADLVIKTGAPCRSERLAKYNQLMRIEEALGD,KAIFAGRKFRNPKA,复合基因分析程序,GENSCAN,主讲教师:赵雨杰,GENSCAN,,也是一种复合基因运用程序,用户通过登陆其网页,(,http:/genscanw.biosino.org/,),输入查询序列,以下是,GENSCAN,的输入页面。,复合基因分析程序,AAT,主讲教师:赵雨杰,AAT,美国密执根科技大学,的,Sequence Analysis Server,(,http:/genome.cs.mtu.edu/sas.html,)提供的,Finding Genes in Genomic Sequence (http:/genome.cs.mtu.edu/aat/aat.html),也是一个复合基因预测程序,它将查询序列与,TIGR,、,NCBI,、,SWISSPROT,数据库中的,cDNA,和蛋白质进行比较来预测可能的基因。并将预测结果与数据库比较。,具体过程是使用一个,GSA2,程序先对序列上的重复序列进行遮蔽,采用了一个叫,MZEF,的程序对外显子进行预测,该程序的优点是预测效率比较好,即使外显子在重复序列遮蔽过程中被遮蔽了也能预测出来。,同样以人类磷酸丙酮酸水合酶基因序列(,X56832,)为未知序列用,AAS,进行预测,得到的结果如下,Prediction Results,Sequence: GI|31166|EMB|X56832.1|HSENO3 H.SAPIENS ENO3 GENE FOR MUSCLE SPECIFIC ENOLASE,Length: 7194 bp C+G Content: 55%,Type End5 End3 Leng Fr St/Ac Do/Te FrCod Prob Score,Intr 3016 3085 70 0 0.498 0.561 0.642 0.994 10.60,Intr 3455 3588 134 0 0.540 0.565 0.578 0.960 6.64,Intr 4820 5042 223 1 0.516 0.503 0.691 1.000 16.59,Intr 5153 5350 198 0 0.513 0.608 0.685 0.998 12.41,Intr 5688 5889 202 1 0.505 0.578 0.997 1.000 17.59,Intr 6318 6426 109 0 0.519 0.506 0.525 0.098 -4.18,Intr 6576 6634 59 2 0.517 0.553 0.685 0.996 11.17,Term 6723 6792 70 0 0.507 0.582 0.669 0.979 8.04,Reverse Strand,Notations:,Star, initial exon; Intr, internal exon; Term, terminal exon;,End5, 5 exon coordinate; End3, 3 exon coordinate;,Leng, exon length; Fr, frame number (0, 1, or 2);,St/Ac, start or acceptor site score; Do/Te, donor or stop site score;,FrCod, in-frame coding score; Prob, exon probability; Score, exon score.,Coding cDNA and protein for each coding region:,cDNA bases 3016 to 6792,AAACTAAGCGTTGTGGATCAAGAAAAAGTTGACAAATTTATGATTGAGCTAGATGGGACC,GAGAATAAGTCCAAGTTTGGGGCCAATGCCATCCTGGGCGTGTCCTTGGCCGTGTGTAAG,GCGGGAGCAGCTGAGAAGGGGGTCCCCCTGTACCGCCACATCGCAGATCTCGCTGGGAAC,protein,KLSVVDQEKVDKFMIELDGTENKSKFGANAILGVSLAVCKAGAAEKGVPLYRHIADLAGN,PDLILPVPAFNVINGGSHAGNKLAMQEFMILPVGASSFKEAMRIGAEVYHHLKGVIKAKY,GKDATNVGDEGGFAPNILENNEALELLKTAIQAAGYPDKVVIGMDVAASEFYRNGKYDLD,FKSPDDPARHITGEKLGELYKSFIKNYPVVSIEDPFDQDDWATWTSFLSGVNIQIVGDDL,TVTNPKRIAQAVEKKACNCLLLKVNQIGSVTESIQACKLAQSNGWGVMVSHRSGETEDTF,IADLVVGLCTGQIKTGAPCRSERLAKYNQLMRIEEALGDKAIFAGRKFRNPKAK,输出结果分为三部分:,1,、外显子的类型及其所在位置、外显子长度、给位和受位、外显子可能性打分、外显子分数。,2,、所预测出的,cDNA,片段序列。,3,、所预测出的编码蛋白肽段,共,354,个氨基酸残基片段。,比较以上三种程序对人类磷酸丙酮酸水合酶基因序列(,X56832,)的预测结果,我们发现预测结果略有差异,,NCBI,上的有关,X56832,的描述是:,外显子位点:,868-973,,,1577-1663,,,2540-2635,,,2796-2854,,,3016-3085,,,3455-3588,,,4820-5042,,,5153-5350,,,5688-5889,,,6318-6426,,,6576-6634,,,6723-6872,;,PolyA,位点:,6872,,,PolyA,信号,6853-6858,,,编码蛋白氨基酸残基数为,392,个,。,MAMQKIFAREILDSRGNPTVEVDLHTAKGRFRAAVPSGASTGIYEALELRDGDKGRYLGKG,VLKAVENINNTLGPALLQK,KLSVVDQEKVDKFMIELDGTENKSKFGANAILGVSLAVCKAGAAEKGVPLYRHIADLAGNPDLILPVPAFNVINGGSHAGNKL,AMQEFMILPVGASSFKEAMRIGAEVYHHLKGVIKAKYGKDATNVGDEGGFAPNILENNEALELLKTAIQAAGYPDKVVIGMDVAASEFYRNGKYDLDFKSPDDPARHITGEKLGELYKSFIKNYPVVSIEDPFDQDDWATWTSFLSGVNIQIVGDDLTVTNPKRIAQAVEKKACNCLLLKVNQIGSVTESIQACKLAQSNGWGVMVSHRSGETEDTFIADLVVGLCTGQ,KLSVVDQEKVDKFMIELDGTENKSKFGANAILGVSLAVCKAGAAEKGVPLYRHIADLAGN,PDLILPVPAFNVINGGSHAGNKLAMQEFMILPVGASSFKEAMRIGAEVYHHLKGVIKAKY,GKDATNVGDEGGFAPNILENNEALELLKTAIQAAGYPDKVVIGMDVAASEFYRNGKYDLD,FKSPDDPARHITGEKLGELYKSFIKNYPVVSIEDPFDQDDWATWTSFLSGVNIQIVGDDL,TVTNPKRIAQAVEKKACNCLLLKVNQIGSVTESIQACKLAQSNGWGVMVSHRSGETEDTF,IADLVVGLCTGQ,IKTGAPCRSERLAKYNQLMRIEEALGDKAIFAGRKFRNPKAK,AAT,NCBI,GENSCAN,MAMQKIFAREILDSRGNPTVEVDLHTAKGRFRAAVPSGASTGIYEALELRDGDKGRYLGK.,AMQEFMILPVGASSFKEAMRIGAEVYHHLKGVIKAKYGKDATNVGDEGGFAPNILENNEA,IKNYPVVSIEDPFDQDDWATWTSFLSGVNIQIVGDDLTVTNPKRIAQAVEKKACNCLLLK,LAKYNQLMRIEEALGDKAIFAGRKFRNPKAK,我们用多序列比较软件,OMIGA,将,WebGene,、,GenScan,、,AAS,分析得到的结果与从,NCBI,查得的数据进行列队,比较。,从,列队比较可以看到各个程序预测的结果之间略有差异,预测序列和,NCBI,查得的序列中间大部分比较一致,差异部分主要在头尾部分。,复合基因分析程序虽然应用简单,覆盖面广,但它也有局限性,主要在于:,、复合算法目前只适用于少数物种,对于大多数物种我们还得应用各个分离软件进行分析;,、一般情况下,在输入序列中包含多个基因或者部分基因时,所预测的外显子尚可靠,但所预测的基因结构就不一定了;,、由于尚不清楚的原因,预测精度可能没有原来预计的那么高,尤其对新发现的基因;,、大多数复合算法都明显对测序错误十分敏感;,、象交替剪接、重叠基因等基因语法结构的预测仍然有待发展。尽管如此。复合基因分析程序仍代表了未来基因预测程序的发展的,方向,。,由于,复合基因分析程序都不是十全十美,所以建议用户在分析每一个序列时把序列提交给多个程序,并仔细对比其结果。如果用户偏爱使用某个程序,最好用大量的已知序列对其进行测试,以便了解该程序的优缺点,对输出结果有一个比较清醒的认识。,搜寻,tRNA,基因,主讲教师:赵雨杰,搜寻,tRNA,基因,在蛋白质生物合成过程中,,tRNA,主要起转运氨基酸的作用。由于,tRNA,分子的同工性,(iso acceptor),,即一种以上的,tRNA,对一种氨基酸特异,所以细胞内,tRNA,的种类,(80,多种,),比氨基酸的种类多。,tRNA,基因往往成簇存在,不论在原核或真核生物中均如此。,在,E.coli,中,至少某些,tRNAs,能聚在一起。形成操纵子,并由一个启动子转录成一条长的前体,RNA,链。例如,,T4,噬菌体即有由,8,个,tRNA,基因所组成的簇。虽然情况各有不同,但有一条共同规则,:,每个,tRNA,均是一个长的前体,RNA,的一部分。,E.coli,中已找到两个,tRNA,基因簇,二者均除,tRNA,基因外尚含有其他基因。这两个基因簇均含有酪氨酸,tRNA,的基因,故即以此,命名:,1tyrU,簇,包括,4,个,tRNA,基因,,tRNAThr,,,tRNAGly,,和,tRNATyr,;,;,2tyrT,簇,仅包含两个相同的基因,编码,tRNATyr,。,在每个,tRNA,基因簇中,唯一的启动子常位于第一个,tRNA,基因之前。在最后一个,tRNA,基因的后面还有编码蛋白质的基因。在,tyrU,簇中是基因,tutB (,编码延长因子,EF-Tu,的两个基因之一,),。而在,tyrT,簇中是编码蛋白质,P,的基因,(,蛋白质,P,是一种类似鱼精蛋白的多肽,),。由于,pol,启动子结构比较简单,,tRNA,二级结构比较保守,,tRNA,基因的识别比较容易。,目前有一些软件专门处理,tRNA,基因识别,如,tRNAscan-SE (http:/www.genetics.wustl.edu/eddy/tRNAscan-SE/),。,tRNAscan-SE,主要依赖对,tRNA,结构检查和二个保守启动子元件的,PWM,检测来预测,tRNA,基因,。,将,tRNAscan,与,Pavesi,算法(依赖转录控制元件分析)合并应用,可识别大于,99%,的真,tRNA,基因,其中的假阳性率超过,50%,。,COVELS,算法能除去全部假阳性,能识别,99%,以上的,tRNA,基因,。,已知,STA55RR,(存取号,L36472,)是,tRNA,基因和,rRNA,基因,,Genbank,中对该基因的描是:整个序列,13214bp,,共有,9,个,tRNA,基因,分布在:,2348-2423,,,2440-2515,,,2533-2594,,,2627-2701,,,2709-2797,,,2802-2879,,,2900-2973,,,2997-3072,,,4841-4917,。现把它做为查询序列进行查询,得到的结果如下:,9,个,tRNA,基因全部预测出来,虽然个别位点与,Genbank,中的注释相差几个碱基,但基本一致。,目前生物信息学已成为科学界的研究热点。有关基因预测的计算工具也不断更新和完善。将人类研究成果进行总结和综合,把当前对转录调控机制的知识融于软件,以计算分析为基因在特定上下文的表达提出意见,这是基因序列分析的发展趋势,。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!