核酸序列分析课件

上传人:29 文档编号:241606406 上传时间:2024-07-09 格式:PPT 页数:141 大小:7.96MB
返回 下载 相关 举报
核酸序列分析课件_第1页
第1页 / 共141页
核酸序列分析课件_第2页
第2页 / 共141页
核酸序列分析课件_第3页
第3页 / 共141页
点击查看更多>>
资源描述
第五章第五章 核酸序列分析核酸序列分析第五章第五章 核酸序列分析核酸序列分析生命之书的阅读生命之书的阅读1、对生物个体的阅读、对生物个体的阅读 2 2、同种生物不同个体之间的比较分析、同种生物不同个体之间的比较分析3 3、不同物种比较、不同物种比较 更重要的是找出差异的结果更重要的是找出差异的结果核酸序列分析课件核酸序列分析课件一段核酸序列上可能有什么?一段核酸序列上可能有什么?一段核酸序列上可能有什么?一段核酸序列上可能有什么?我们能用生物信息学对核我们能用生物信息学对核酸序列进行哪些分析?酸序列进行哪些分析?n n在在在在DNADNA序列中那些是基因?外显子?内含子?序列中那些是基因?外显子?内含子?序列中那些是基因?外显子?内含子?序列中那些是基因?外显子?内含子?n n这些基因编码什么蛋白?这些基因编码什么蛋白?这些基因编码什么蛋白?这些基因编码什么蛋白?n n这些基因有那些不同,不同会产生什么效果?会不会引这些基因有那些不同,不同会产生什么效果?会不会引这些基因有那些不同,不同会产生什么效果?会不会引这些基因有那些不同,不同会产生什么效果?会不会引起蛋白的改变?起蛋白的改变?起蛋白的改变?起蛋白的改变?n n这一段核酸序列上有没有特殊的功能位点?这一段核酸序列上有没有特殊的功能位点?这一段核酸序列上有没有特殊的功能位点?这一段核酸序列上有没有特殊的功能位点?n n物种之间有什么差距?物种之间有什么差距?物种之间有什么差距?物种之间有什么差距?n n这段序列中是否有重复序列这段序列中是否有重复序列这段序列中是否有重复序列这段序列中是否有重复序列我们能用生物信息学对核酸序列进行哪些分析?在我们能用生物信息学对核酸序列进行哪些分析?在DNA序列中那些序列中那些基因识别基因识别n基因识别是生物信息学领域里的一个重要研基因识别是生物信息学领域里的一个重要研究内容究内容 n基因识别问题,在近几年受到广泛的重视基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,当人类基因组研究进入一个系统测序阶段时,当人类基因组研究进入一个系统测序阶段时,当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处急需可靠自动的基因组序列翻译解释技术,以处急需可靠自动的基因组序列翻译解释技术,以处急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的理大量已测定的但未知功能或未经注释的理大量已测定的但未知功能或未经注释的理大量已测定的但未知功能或未经注释的DNADNADNADNA序序序序列列列列 基因识别基因识别是生物信息学领域里的一个重要研究内容基因识别基因识别是生物信息学领域里的一个重要研究内容 基因基因基因基因识别识别使用使用使用使用计计算机手段算机手段算机手段算机手段识别识别DNADNA序列上序列上序列上序列上的具有生物学特征的片段,其的具有生物学特征的片段,其的具有生物学特征的片段,其的具有生物学特征的片段,其对对象主要是蛋白象主要是蛋白象主要是蛋白象主要是蛋白质质编码编码基因,也包括其他具有一定生物学功能的因基因,也包括其他具有一定生物学功能的因基因,也包括其他具有一定生物学功能的因基因,也包括其他具有一定生物学功能的因子,如子,如子,如子,如RNARNA、MicroRNAMicroRNA基因等一些非基因等一些非基因等一些非基因等一些非编码编码基因,基因,基因,基因,基因基因基因基因识别识别是生物信息学是生物信息学是生物信息学是生物信息学领领域里的一个重要研究内域里的一个重要研究内域里的一个重要研究内域里的一个重要研究内容。容。容。容。基因识别基因识别使用计算机手段识别使用计算机手段识别DNA序列上的具有生物学特征序列上的具有生物学特征基因语言的特点基因语言的特点真核生物中有很多重复序列,拷贝在几十几百到几万。真核生物中有很多重复序列,拷贝在几十几百到几万。真核生物中有很多重复序列,拷贝在几十几百到几万。真核生物中有很多重复序列,拷贝在几十几百到几万。通常是不编码的序列通常是不编码的序列通常是不编码的序列通常是不编码的序列n 真核生物基因是不连续的真核生物基因是不连续的真核生物基因是不连续的真核生物基因是不连续的n 真核生物的启动子和增强子真核生物的启动子和增强子真核生物的启动子和增强子真核生物的启动子和增强子n 真核生物的基因有一些特定的模式真核生物的基因有一些特定的模式真核生物的基因有一些特定的模式真核生物的基因有一些特定的模式n 由于进化的原因,基因序列比较保守由于进化的原因,基因序列比较保守由于进化的原因,基因序列比较保守由于进化的原因,基因序列比较保守核酸序列分析课件核酸序列分析课件基因预测的基本原则基因预测的基本原则n n1 1 1 1、如果一个序列中某一区域出现如果一个序列中某一区域出现如果一个序列中某一区域出现如果一个序列中某一区域出现重复序列重复序列重复序列重复序列,该区域不大可能出现在编码区域。该区域不大可能出现在编码区域。该区域不大可能出现在编码区域。该区域不大可能出现在编码区域。n n2 2 2 2、如果某一片段与其它基因或基因产物如果某一片段与其它基因或基因产物如果某一片段与其它基因或基因产物如果某一片段与其它基因或基因产物有序列有序列有序列有序列 相似性相似性相似性相似性,该片段是外显子的可能性极大。,该片段是外显子的可能性极大。,该片段是外显子的可能性极大。,该片段是外显子的可能性极大。n n3 3 3 3、一段序列上存在统计的规则性,表现为一段序列上存在统计的规则性,表现为一段序列上存在统计的规则性,表现为一段序列上存在统计的规则性,表现为 密码子偏好密码子偏好密码子偏好密码子偏好,是蛋白编码区最明显的标志。,是蛋白编码区最明显的标志。,是蛋白编码区最明显的标志。,是蛋白编码区最明显的标志。n n4 4 4 4、与模板模式相符可能指出与模板模式相符可能指出与模板模式相符可能指出与模板模式相符可能指出DNADNADNADNA上功能位点上功能位点上功能位点上功能位点n n 的位置。的位置。的位置。的位置。基因预测的基本原则基因预测的基本原则密码子偏好密码子偏好 编码蛋白对某一个物种有偏好使用某一密码子的现象,称为密码子偏好密码子偏好。密码子偏好密码子偏好 编码蛋白对某一个物种有偏好使用某一编码蛋白对某一个物种有偏好使用某一进行基因预测的基本方法进行基因预测的基本方法1 1、遮蔽重复序列、遮蔽重复序列、遮蔽重复序列、遮蔽重复序列 寻找寻找DNADNA序列中基因不可能出现的区域,序列中基因不可能出现的区域,并将此遮蔽起来;并将此遮蔽起来;2 2、进行序列对比寻找相似性、进行序列对比寻找相似性、进行序列对比寻找相似性、进行序列对比寻找相似性 将预测的将预测的DNADNA与数据库中的与数据库中的DNADNA数据数据 aligmentaligment,寻找保守区域;寻找保守区域;3 3、寻找功能性位点、寻找功能性位点、寻找功能性位点、寻找功能性位点 寻找起始密码、终止密码和剪接位点等;寻找起始密码、终止密码和剪接位点等;4 4、找出编码区、找出编码区、找出编码区、找出编码区 将全部收集到的信息汇总成总体上尽可将全部收集到的信息汇总成总体上尽可 能连贯的谱图。能连贯的谱图。5 5、DNADNA翻译翻译翻译翻译进行基因预测的基本方法进行基因预测的基本方法1、遮蔽重复序列、遮蔽重复序列 寻找寻找DN神经网络系统神经网络系统大多数进行预测的软件都采用了神经网络系统,大多数进行预测的软件都采用了神经网络系统,大多数进行预测的软件都采用了神经网络系统,大多数进行预测的软件都采用了神经网络系统,赋予软件赋予软件赋予软件赋予软件“学习学习学习学习”的功能,在应用之前必须经过的功能,在应用之前必须经过的功能,在应用之前必须经过的功能,在应用之前必须经过输入一定的训练集的一个学习的过程,所以在使输入一定的训练集的一个学习的过程,所以在使输入一定的训练集的一个学习的过程,所以在使输入一定的训练集的一个学习的过程,所以在使用预测工具时一定注意该工具的训练集是什么。用预测工具时一定注意该工具的训练集是什么。用预测工具时一定注意该工具的训练集是什么。用预测工具时一定注意该工具的训练集是什么。神经网络系统神经网络系统 大多数进行预测的软件都采用了神经网络系大多数进行预测的软件都采用了神经网络系1.原核基因组的特点n n长开放阅读框n n简单的基因结构n n高基因密度n nGC含量n n具有操纵子结构1.原核基因组的特点长开放阅读框原核基因组的特点长开放阅读框转录起始位点转录起始位点转录起始位点转录起始位点 起始密码子起始密码子起始密码子起始密码子 终止密码子终止密码子终止密码子终止密码子 转录终止位点转录终止位点转录终止位点转录终止位点5 5 启动区启动区启动区启动区5 5 UTRUTR开放阅读框开放阅读框开放阅读框开放阅读框 3 3 UTRUTR终止区终止区终止区终止区3 3 原核基因的典型结构原核基因的典型结构GCGC含量含量(GC content):(GC content):不同原核生物中,不同原核生物中,GCGC含量从含量从25%75%25%75%。基因水平转移基因水平转移(horizontal gene trasferhorizontal gene trasfer)许多细胞基因组表现具有不同许多细胞基因组表现具有不同GCGC含量的区域含量的区域的组合物,这些区域反映了细菌的进化历史。的组合物,这些区域反映了细菌的进化历史。转录起始位点起始密码子终止密码子转录终止位点转录起始位点起始密码子终止密码子转录终止位点5启动区启动区5Un非翻译区域(非翻译区域(untranslated regions,untranslated regions,UTRUTR)编码区域两端的编码区域两端的DNADNA,有一部分被转,有一部分被转录,但是不被翻译,这一部分称为非录,但是不被翻译,这一部分称为非翻译区域翻译区域 n5 5UTR-UTR-基因上游区域的非翻译区域基因上游区域的非翻译区域 n3 3UTR-UTR-基因下游区域的非翻译区域基因下游区域的非翻译区域非翻译区域(非翻译区域(untranslated regions,UTn对于任何给定的核酸序列(单链对于任何给定的核酸序列(单链DNA或或mRNA),根据密码子的起始位置,可),根据密码子的起始位置,可以按照三种方式进行解释。以按照三种方式进行解释。n例如,序列例如,序列ATTCGATCGCAAn这三种阅读顺序称为阅读框(这三种阅读顺序称为阅读框(reading frames)CAAAATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)对于任何给定的核酸序列(单链对于任何给定的核酸序列(单链DNA或或mRNA),根据密码子的),根据密码子的一个开放阅读框(一个开放阅读框(一个开放阅读框(一个开放阅读框(ORF,open reading ORF,open reading ORF,open reading ORF,open reading frameframeframeframe)是一个没有终止编码的密码子序列。)是一个没有终止编码的密码子序列。)是一个没有终止编码的密码子序列。)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。框,或者说识别长的编码区域。框,或者说识别长的编码区域。框,或者说识别长的编码区域。一个开放阅读框(一个开放阅读框(ORF,open reading framen n形成形成6 6个开放读码框个开放读码框 由于氨基酸是由三联密码子编码的,因此DNA序列就包含三个不同的开放读码框,取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)。而双链DNA的两条链都可以转录RNA,后者翻译蛋白质。因此,一个DNA序列及其互补链可以有6个不同的读码框(reading frames)。形成形成6个开放读码框个开放读码框2.真核基因识别问题真核基因识别问题 真核基因远比原核基因复杂:真核基因远比原核基因复杂:n一方面,真核基因的编码区域是非连续一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。的,编码区域被分割为若干个小片段。n另一方面,真核基因具有更加丰富的基另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因因调控信息,这些信息主要分布在基因上游区域。上游区域。2.真核基因识别问题真核基因识别问题 真核基因远比原核基因复杂:真核基因远比原核基因复杂:真核基因组特点:真核基因组特点:n规模庞大规模庞大人类基因组人类基因组 3103109 9 bpbp 大肠杆菌基因组大肠杆菌基因组 5 105 107 7 bp bpn巨大的非编码序列巨大的非编码序列n复杂的基因结构复杂的基因结构启动区启动区启动区启动区5 5 UTRUTR外显子外显子外显子外显子内含子内含子内含子内含子外显子外显子外显子外显子内含子内含子内含子内含子内含子内含子内含子内含子5 5 外显子外显子外显子外显子3 3 UTRUTR终止区终止区终止区终止区3 3 转录位点转录位点转录位点转录位点 起始密码子起始密码子起始密码子起始密码子终止密码子终止密码子终止密码子终止密码子剪切给体位点剪切给体位点剪切给体位点剪切给体位点剪切受体位点剪切受体位点剪切受体位点剪切受体位点真核基因组特点:启动区真核基因组特点:启动区5UTR外显子内含子外显子内含子内含外显子内含子外显子内含子内含n n复杂的基因转录调控方式n n内含子 GT-AC规则n npG岛 真核生物基因组含量没有原核生物差异那么明显.但在人基因端有p岛,大约有,这样的岛,有一半和持家基因有关。n n等值区n n可变剪接(alternativee splicing)n n密码子使用偏性复杂的基因转录调控方式复杂的基因转录调控方式cDNAcDNA序列序列序列序列基因组序列基因组序列基因组序列基因组序列蛋白质序列蛋白质序列蛋白质序列蛋白质序列翻译翻译翻译翻译Codon biasCodon biasGC ContentGC Content酶切位点酶切位点酶切位点酶切位点引物设计引物设计引物设计引物设计编码区预测编码区预测编码区预测编码区预测基因结构分析基因结构分析基因结构分析基因结构分析选择性剪切选择性剪切选择性剪切选择性剪切SNPSNP序列比对序列比对序列比对序列比对功能注释功能注释功能注释功能注释KEGGKEGGGOGO系统发育树系统发育树系统发育树系统发育树蛋白质理化性质蛋白质理化性质蛋白质理化性质蛋白质理化性质二级结构预测二级结构预测二级结构预测二级结构预测结构域分析结构域分析结构域分析结构域分析重要信号位点分析重要信号位点分析重要信号位点分析重要信号位点分析三级结构预测三级结构预测三级结构预测三级结构预测cDNA序列蛋白质序列翻译序列蛋白质序列翻译Codon bias编码区预测基因编码区预测基因contents1.1.分子分子分子分子质质量、碱基量、碱基量、碱基量、碱基组组成、碱基分布、序列成、碱基分布、序列成、碱基分布、序列成、碱基分布、序列转换转换、核酸序列基本、核酸序列基本、核酸序列基本、核酸序列基本分析分析分析分析2.2.限制性限制性限制性限制性酶酶酶酶切分析切分析切分析切分析3.3.克隆克隆克隆克隆测测序分析序分析序分析序分析4.4.测测序中序中序中序中载载体序列的体序列的体序列的体序列的识别识别与去除与去除与去除与去除5.5.核酸序列拼接核酸序列拼接核酸序列拼接核酸序列拼接6.6.核酸序列的核酸序列的核酸序列的核酸序列的电电子延伸子延伸子延伸子延伸7.7.开放开放开放开放阅读阅读框(框(框(框(ORFORF)分析)分析)分析)分析8.8.基因基因基因基因组组序列序列序列序列编码编码区区区区/内含子内含子内含子内含子结结构分析构分析构分析构分析9.CpG9.CpG岛岛分析分析分析分析10.cDNA10.cDNA和和和和Genomic DNAGenomic DNA比比比比对对11.11.基因启基因启基因启基因启动动子分析子分析子分析子分析contents1.分子质量、碱基组成、碱基分布、序列转换分子质量、碱基组成、碱基分布、序列转换n n进行序列分析也需要一些工具,这些工具包括在进行序列分析也需要一些工具,这些工具包括在线工具和本地化工具。线工具和本地化工具。n n在线工具资源可以通过看资料、读相关文章获得在线工具资源可以通过看资料、读相关文章获得(如前面提到的(如前面提到的“核酸研究核酸研究”上的在线服务专辑)上的在线服务专辑),也可以利用搜索工具,也可以利用搜索工具(google等等)到网上搜寻或到到网上搜寻或到论坛询问论坛询问。n n本地化工具有免费的也有收费的,免费的一般可本地化工具有免费的也有收费的,免费的一般可以从网上下载。其中,以从网上下载。其中,www.bio-收录、介收录、介绍了大量生物软件及生物软件的使用方法,同时绍了大量生物软件及生物软件的使用方法,同时还有一些在线分析工具。还有一些在线分析工具。进行序列分析也需要一些工具,这些工具包括在线工具和本地化工具进行序列分析也需要一些工具,这些工具包括在线工具和本地化工具n n核核核核酸酸酸酸序序序序列列列列的的的的分分分分子子子子质质质质量量量量、碱碱碱碱基基基基组组组组成成成成、碱碱碱碱基基基基分分分分布布布布等等等等分分分分析析析析序列转换序列转换反反反反向向向向序序序序列列列列,互互互互补补补补序序序序列列列列,反反反反向向向向互互互互补补补补序序序序列列列列,显显显显示示示示双双双双良良良良,转化为转化为转化为转化为RNARNA,转换为蛋白质,转换为蛋白质,转换为蛋白质,转换为蛋白质可可可可以以以以通通通通过过过过一一一一些些些些常常常常用用用用软软软软件件件件如如如如:DNASTAR,BioeditDNASTAR,Bioedit,GenetoolGenetool、DNAStarDNAStar等等等等进进进进行行行行。下下下下面面面面我我我我们们们们以以以以小小小小鼠鼠鼠鼠SOD1SOD1基因为例,利用基因为例,利用基因为例,利用基因为例,利用DNAMANDNAMAN软件进行上述分析。软件进行上述分析。软件进行上述分析。软件进行上述分析。1.分子分子质量、碱基量、碱基组成、碱基分布、序列成、碱基分布、序列转换酸序列基本分析酸序列基本分析核酸序列的分子质量、碱基组成、碱基分布等分析序列转换核酸序列的分子质量、碱基组成、碱基分布等分析序列转换1.分分以以DNAMANDNAMAN软件为例软件为例以以DNAMAN软件为例软件为例打开序列打开序列打开序列打开序列展示序列:展示序列:Sequence-Display Sequence进行序列分析时,经常需要对进行序列分析时,经常需要对进行序列分析时,经常需要对进行序列分析时,经常需要对DNADNA序列进行各种变换,如反向序列进行各种变换,如反向序列进行各种变换,如反向序列进行各种变换,如反向序列、互补序列、互补反向序列、显示序列、互补序列、互补反向序列、显示序列、互补序列、互补反向序列、显示序列、互补序列、互补反向序列、显示DNADNA双链、转换为双链、转换为双链、转换为双链、转换为RNARNA序列等。序列等。序列等。序列等。展示序列:展示序列:Sequence-Display Sequen得到的结果得到的结果序列基本信息序列基本信息序列基本信息序列基本信息具体序列具体序列具体序列具体序列显示转换后的不同序列显示转换后的不同序列显示转换后的不同序列显示转换后的不同序列得到的结果序列基本信息具体序列显示转换后的不同序列得到的结果序列基本信息具体序列显示转换后的不同序列2.限制性限制性酶酶切分析切分析pp限限限限制制制制型型型型酶酶酶酶切切切切分分分分析析析析是是是是分分分分子子子子生生生生物物物物学学学学实实实实验验验验中中中中日日日日常常常常工工工工作作作作之之之之一。限制酶数据库提供了较全面的限制酶相关信息一。限制酶数据库提供了较全面的限制酶相关信息一。限制酶数据库提供了较全面的限制酶相关信息一。限制酶数据库提供了较全面的限制酶相关信息pp地址为:地址为:地址为:地址为:http:/ 一种能识别特殊,短核苷酸序列,一种能识别特殊,短核苷酸序列,并在并在DNADNA的某些位点上切割的蛋白质。的某些位点上切割的蛋白质。细菌包含了细菌包含了400400种这样的酶,能识别和种这样的酶,能识别和切割切割100100种以上不同的种以上不同的DNADNA序列。序列。如:如:EcoREcoRI I 识别序列识别序列GAATTCGTTAAC限制性酶切位点限制性酶切位点 一种能识别特殊,短核苷酸序列,并一种能识别特殊,短核苷酸序列,并限制酶数据库网页截图限制酶数据库网页截图输入内切酶的名称,输入内切酶的名称,输入内切酶的名称,输入内切酶的名称,可查询其识别序列及可查询其识别序列及可查询其识别序列及可查询其识别序列及酶切位点酶切位点酶切位点酶切位点限制酶数据库网页截图输入内切酶的名称,可查询其识别序列及酶切限制酶数据库网页截图输入内切酶的名称,可查询其识别序列及酶切以DNAMAN为例载入序列载入序列以以DNAMAN为例载入序列为例载入序列目标目标目标目标DNADNA默认为线状,默认为线状,默认为线状,默认为线状,若选择若选择若选择若选择“环状环状环状环状”,则出,则出,则出,则出现的酶切图谱为环状。现的酶切图谱为环状。现的酶切图谱为环状。现的酶切图谱为环状。目标目标DNA默认为线状,若选择默认为线状,若选择“环状环状”,则出现的酶切图谱为环状,则出现的酶切图谱为环状在在在在“酶文件酶文件酶文件酶文件”、“全选全选全选全选”、“长度长度长度长度”及及及及“末端末端末端末端”等选等选等选等选项的选择都完成后项的选择都完成后项的选择都完成后项的选择都完成后“完完完完成成成成”。可选可选“DNase”DNase”或或“DNADNA内切酶内切酶”选择酶选择酶在在“酶文件酶文件”、“全选全选”、“长度长度”及及“末端末端”等选项的选择都完等选项的选择都完甲基化情况甲基化情况甲基化情况甲基化情况分析结果分析结果分析结果分析结果甲基化情况分析结果甲基化情况分析结果以线状图示酶切位以线状图示酶切位以线状图示酶切位以线状图示酶切位点点点点以环状图示酶切位以环状图示酶切位以环状图示酶切位以环状图示酶切位点点点点以线状图示酶切位点以环状图示酶切位点以线状图示酶切位点以环状图示酶切位点每种酶的单酶切电每种酶的单酶切电每种酶的单酶切电每种酶的单酶切电泳模拟图泳模拟图泳模拟图泳模拟图每种酶的单酶切电泳模拟图每种酶的单酶切电泳模拟图2.2.以以BioEditBioEdit软件软件为例为例碱基组成碱基组成序列转换序列转换ORFORF的查找的查找翻译成相对应翻译成相对应的蛋白质的蛋白质内切酶的识别内切酶的识别2.以以BioEdit软件为例碱基组成序列转换软件为例碱基组成序列转换ORF的查找翻译的查找翻译参数选择区参数选择区参数选择区参数选择区显示序列中的酶切位点显示序列中的酶切位点显示序列中的酶切位点显示序列中的酶切位点显示序列中的酶切位点显示序列中的酶切位点显示内切酶识别的位置显示内切酶识别的位置显示内切酶识别的位置显示内切酶识别的位置显示序列中不存在的内显示序列中不存在的内显示序列中不存在的内显示序列中不存在的内切酶切酶切酶切酶显示内切酶识别的位置显示序列中不存在的内切酶显示内切酶识别的位置显示序列中不存在的内切酶核酸序列分析课件核酸序列分析课件核酸序列分析课件核酸序列分析课件3.克隆克隆测序分析序分析pp克克克克隆隆隆隆测测测测序序序序分分分分析析析析是是是是分分分分子子子子生生生生物物物物学学学学实实实实验验验验日日日日常常常常操操操操作作作作之之之之一一一一,一一一一般般般般情情情情况况况况下下下下单单单单次次次次测测测测序序序序将将将将产产产产生生生生300-500bp300-500bp的的的的序序序序列列列列,或或或或800-900bp800-900bp的的的的序序序序列列列列。将将将将测测测测序序序序峰峰峰峰图图图图识识识识别别别别为为为为序序序序列列列列的的的的过过过过程程程程称称称称为为为为碱碱碱碱基基基基读读读读出出出出(base base callingcalling)。送送送送交交交交专专专专业业业业公公公公司司司司进进进进行行行行测测测测序序序序的的的的结结结结果果果果返返返返回回回回后后后后需需需需要要要要对对对对所所所所测测测测序序序序列列列列进进进进行行行行一一一一系系系系列列列列后后后后续续续续分分分分析析析析,如如如如测测测测序序序序峰峰峰峰图图图图的的的的查查查查看看看看和和和和载载载载体体体体序序序序列列列列的的的的去去去去除除除除及及及及序序序序列列列列装装装装配配配配等等等等过过过过程程程程。当当当当然然然然,服服服服务务务务较较较较好好好好的的的的测测测测序序序序公公公公司司司司后续工作做的也较好。后续工作做的也较好。后续工作做的也较好。后续工作做的也较好。pp一般地,单次测序的正确率在一般地,单次测序的正确率在一般地,单次测序的正确率在一般地,单次测序的正确率在500bp500bp左右。左右。左右。左右。3.克隆测序分析克隆测序分析是分子生物学实验日常操作之一,克隆测序分析克隆测序分析是分子生物学实验日常操作之一,测序峰序峰图查看看pp为为为为了了了了核核核核实实实实测测测测序序序序的的的的准准准准确确确确性性性性,往往往往往往往往需需需需要要要要对对对对测测测测序序序序峰峰峰峰文文文文件件件件进进进进行行行行直直直直接接接接分分分分析析析析。WindowsWindows环环环环境境境境下下下下最最最最简简简简单单单单的的的的峰峰峰峰图图图图查查查查看看看看程程程程序序序序是是是是澳澳澳澳大大大大利利利利亚亚亚亚的的的的Chromas.exeChromas.exe程程程程序序序序,这这这这是是是是一一一一个个个个专业程序,运行快、操作简单。专业程序,运行快、操作简单。专业程序,运行快、操作简单。专业程序,运行快、操作简单。pp其其其其它它它它的的的的软软软软件件件件还还还还有有有有BioEditBioEdit和和和和DNAMANDNAMAN等等等等也也也也都都都都具具具具有有有有该功能。该功能。该功能。该功能。测序峰图查看为了核实测序的准确性,往往需要对测序峰文件进行直测序峰图查看为了核实测序的准确性,往往需要对测序峰文件进行直Chromas.exeChromas.exe查看测序峰图查看测序峰图打开打开.ab1.ab1文件。文件。Chromas.exe查看测序峰图打开查看测序峰图打开.ab1文件。文件。开始一段序列的信号很杂乱,几乎难以辨别,主要开始一段序列的信号很杂乱,几乎难以辨别,主要开始一段序列的信号很杂乱,几乎难以辨别,主要开始一段序列的信号很杂乱,几乎难以辨别,主要是因为残存的染料单体造成的干扰峰所致。该干扰是因为残存的染料单体造成的干扰峰所致。该干扰是因为残存的染料单体造成的干扰峰所致。该干扰是因为残存的染料单体造成的干扰峰所致。该干扰峰和正常序列峰重叠在一起;另外,测序电泳开始峰和正常序列峰重叠在一起;另外,测序电泳开始峰和正常序列峰重叠在一起;另外,测序电泳开始峰和正常序列峰重叠在一起;另外,测序电泳开始阶段电压有一个稳定期,所以经常有阶段电压有一个稳定期,所以经常有阶段电压有一个稳定期,所以经常有阶段电压有一个稳定期,所以经常有20-50 bp 20-50 bp 的紧的紧的紧的紧接着引物的片段读不清楚,有时甚至更长。接着引物的片段读不清楚,有时甚至更长。接着引物的片段读不清楚,有时甚至更长。接着引物的片段读不清楚,有时甚至更长。开始一段序列的信号很杂乱,几乎难以辨别,主要是因为残存的染料开始一段序列的信号很杂乱,几乎难以辨别,主要是因为残存的染料可输出为可输出为可输出为可输出为.txt.txt的文本格式文件。的文本格式文件。的文本格式文件。的文本格式文件。可输出为可输出为.txt的文本格式文件。的文本格式文件。DNAMAN查看测序峰图查看测序峰图DNAMAN查看测序峰图查看测序峰图调节按钮调节按钮调节按钮调节按钮导出序列导出序列导出序列导出序列调节按钮导出序列调节按钮导出序列测序峰图导出的文本测序峰图导出的文本测序峰图导出的文本测序峰图导出的文本测序峰图导出的文本测序峰图导出的文本再再再再“载入序列载入序列载入序列载入序列”“选选选选定项目定项目定项目定项目”后就可以直接后就可以直接后就可以直接后就可以直接载入软件中分析!载入软件中分析!载入软件中分析!载入软件中分析!再再“载入序列载入序列”“选定项目选定项目”后就可以直接载入软件中分析!后就可以直接载入软件中分析!BioeditBioedit查看测序峰图查看测序峰图调节按钮调节按钮调节按钮调节按钮选择选择选择选择“copyFastaformatted”copyFastaformatted”,相当于将文件中的序列以相当于将文件中的序列以相当于将文件中的序列以相当于将文件中的序列以FastaFasta格格格格式复制,可黏贴到记事本中。式复制,可黏贴到记事本中。式复制,可黏贴到记事本中。式复制,可黏贴到记事本中。Bioedit查看测序峰图调节按钮选择查看测序峰图调节按钮选择“copy Fasta4.测序中序中载体序列的体序列的识别与去除与去除pp许多数据库中收集了常用的测序载体序列,使用许多数据库中收集了常用的测序载体序列,使用许多数据库中收集了常用的测序载体序列,使用许多数据库中收集了常用的测序载体序列,使用BlastBlast程序对程序对程序对程序对此类数据库进行相似性分析即可得知目的序列中是否含有载此类数据库进行相似性分析即可得知目的序列中是否含有载此类数据库进行相似性分析即可得知目的序列中是否含有载此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。如果是,在对测序数据进行进一步分析之前必须将体序列。如果是,在对测序数据进行进一步分析之前必须将体序列。如果是,在对测序数据进行进一步分析之前必须将体序列。如果是,在对测序数据进行进一步分析之前必须将载体序列去除。此过程虽然很简单,在核酸序列数据库中仍载体序列去除。此过程虽然很简单,在核酸序列数据库中仍载体序列去除。此过程虽然很简单,在核酸序列数据库中仍载体序列去除。此过程虽然很简单,在核酸序列数据库中仍然有一些序列含有载体序列污染。然有一些序列含有载体序列污染。然有一些序列含有载体序列污染。然有一些序列含有载体序列污染。NCBINCBI的载体识别程序的载体识别程序的载体识别程序的载体识别程序http:/www.ncbi.nlm.nih.gov/VecScreen/VecScreen.htmlhttp:/www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html EMBL EMBL的载体识别程序的载体识别程序的载体识别程序的载体识别程序 http:/www.ebi.ac.uk/blastall/vectors.htmlhttp:/www.ebi.ac.uk/blastall/vectors.html4.测序中载体序列的识别与去除许多数据库中收集了常用的测序测序中载体序列的识别与去除许多数据库中收集了常用的测序NCBI中载体分析服务网页截图中载体分析服务网页截图NCBI中载体分析服务网页截图中载体分析服务网页截图输入序列输入序列输入序列输入序列核酸序列分析课件核酸序列分析课件发现载体序列发现载体序列发现载体序列发现载体序列EMBL中载体分析服务网页截图中载体分析服务网页截图EMBL中载体分析服务网页截图中载体分析服务网页截图结果结果结果结果5.核酸序列拼接核酸序列拼接通过通过通过通过2 2个及个及个及个及2 2个以上测序反应获得的序列都要拼接成个以上测序反应获得的序列都要拼接成个以上测序反应获得的序列都要拼接成个以上测序反应获得的序列都要拼接成一个完整的序列,实验室小规模测序获得的各序列一个完整的序列,实验室小规模测序获得的各序列一个完整的序列,实验室小规模测序获得的各序列一个完整的序列,实验室小规模测序获得的各序列可以通过常规分子生物学软件非常容易地拼接到一可以通过常规分子生物学软件非常容易地拼接到一可以通过常规分子生物学软件非常容易地拼接到一可以通过常规分子生物学软件非常容易地拼接到一起,形成一条完整的序列,也即形成一条起,形成一条完整的序列,也即形成一条起,形成一条完整的序列,也即形成一条起,形成一条完整的序列,也即形成一条contigcontig。这类软件包括:这类软件包括:这类软件包括:这类软件包括:DNAMANDNAMAN、DNASTARDNASTAR、GenetoolGenetool等。等。等。等。5.核酸序列拼接通过核酸序列拼接通过2个及个及2个以上测序反应获得的序列都要拼个以上测序反应获得的序列都要拼以以DNAMANDNAMAN软件为例:序列拼接软件为例:序列拼接待拼接序列显示区待拼接序列显示区待拼接序列显示区待拼接序列显示区以以DNAMAN软件为例:序列拼接待拼接序列显示区软件为例:序列拼接待拼接序列显示区某次测序的结果有两个序列,某次测序的结果有两个序列,某次测序的结果有两个序列,某次测序的结果有两个序列,将其拼成一条。将其拼成一条。将其拼成一条。将其拼成一条。某次测序的结果有两个序列,将其拼成一条。某次测序的结果有两个序列,将其拼成一条。拼接结果拼接结果拼接结果拼接结果导出的是拼接后的序列导出的是拼接后的序列导出的是拼接后的序列导出的是拼接后的序列导出的是拼接后的序列导出的是拼接后的序列序列拼接在线服务序列拼接在线服务pp核酸在线拼接软件:核酸在线拼接软件:核酸在线拼接软件:核酸在线拼接软件:CAP3CAP3(contig assembly contig assembly programprogram)http:/pbil.univ-lyon1.fr/cap3.phphttp:/pbil.univ-lyon1.fr/cap3.php可以自己以关键词搜索,还有其他软件。可以自己以关键词搜索,还有其他软件。可以自己以关键词搜索,还有其他软件。可以自己以关键词搜索,还有其他软件。序列拼接在线服务核酸在线拼接软件:序列拼接在线服务核酸在线拼接软件:CAP3(contig a序列拼接在线服务序列拼接在线服务粘贴序列粘贴序列序列拼接在线服务粘贴序列序列拼接在线服务粘贴序列结果链接结果链接结果链接结果链接结果结果结果链接结果结果链接结果核酸序列分析课件核酸序列分析课件?对于基因组未进行测序的物种,只知道某一对于基因组未进行测序的物种,只知道某一基因的基因的partial CDS区,如何获得其全长区,如何获得其全长cDNA序列?序列?对于基因组未进行测序的物种,只知道某一基因的?对于基因组未进行测序的物种,只知道某一基因的partial随着各基因组计划的顺利进行,很多实验室采用随着各基因组计划的顺利进行,很多实验室采用随着各基因组计划的顺利进行,很多实验室采用随着各基因组计划的顺利进行,很多实验室采用cDNAcDNA文库大规模测序策略获得了大量表达序列文库大规模测序策略获得了大量表达序列文库大规模测序策略获得了大量表达序列文库大规模测序策略获得了大量表达序列标签(标签(标签(标签(Expressed Sequence TagExpressed Sequence Tag,ESTEST)和较长的)和较长的)和较长的)和较长的cDNAcDNA序列。但在大多数情况下,全长序列。但在大多数情况下,全长序列。但在大多数情况下,全长序列。但在大多数情况下,全长cDNAcDNA的获的获的获的获得严重制约着新基因发现。同时很多实验室采用得严重制约着新基因发现。同时很多实验室采用得严重制约着新基因发现。同时很多实验室采用得严重制约着新基因发现。同时很多实验室采用差异显示差异显示差异显示差异显示PCR(different display PCR,DD-PCR)PCR(different display PCR,DD-PCR)、代表性差异分析(代表性差异分析(代表性差异分析(代表性差异分析(representational difference representational difference analysis,RDAanalysis,RDA)等技术发现了大量具有潜在应用)等技术发现了大量具有潜在应用)等技术发现了大量具有潜在应用)等技术发现了大量具有潜在应用价值的新基因片断,但同样面临全长价值的新基因片断,但同样面临全长价值的新基因片断,但同样面临全长价值的新基因片断,但同样面临全长cDNAcDNA序列序列序列序列难以获得的问题。难以获得的问题。难以获得的问题。难以获得的问题。6.核酸序列的核酸序列的电子延伸子延伸随着各基因组计划的顺利进行,很多实验室采用随着各基因组计划的顺利进行,很多实验室采用cDNA文库大规模文库大规模pp通过通过通过通过RACERACE实验能有效解决全长实验能有效解决全长实验能有效解决全长实验能有效解决全长cDNAcDNA问题问题问题问题,但此实但此实但此实但此实验操作要求高,具有耗时、耗财、耗力等缺点。验操作要求高,具有耗时、耗财、耗力等缺点。验操作要求高,具有耗时、耗财、耗力等缺点。验操作要求高,具有耗时、耗财、耗力等缺点。n n生物信息学领域的电子生物信息学领域的电子生物信息学领域的电子生物信息学领域的电子延伸、电子克隆技术为延伸、电子克隆技术为延伸、电子克隆技术为延伸、电子克隆技术为解决全长解决全长解决全长解决全长cDNAcDNA问题在问题在问题在问题在理论上提供了捷径理论上提供了捷径理论上提供了捷径理论上提供了捷径!通过通过RACE实验能有效解决全长实验能有效解决全长cDNA问题问题,但此实验操作要求但此实验操作要求n n电子克隆也称为虚拟克隆(电子克隆也称为虚拟克隆(电子克隆也称为虚拟克隆(电子克隆也称为虚拟克隆(virtual cloningvirtual cloning)n n原理:根据大量原理:根据大量原理:根据大量原理:根据大量ESTEST具有相互重叠的性质,通过具有相互重叠的性质,通过具有相互重叠的性质,通过具有相互重叠的性质,通过计算机算法获得计算机算法获得计算机算法获得计算机算法获得cDNAcDNA全长序列。全长序列。全长序列。全长序列。n n电子克隆以部分电子克隆以部分电子克隆以部分电子克隆以部分cDNAcDNA为起始,和为起始,和为起始,和为起始,和GenBankGenBank的的的的ESTEST数据库进行数据库进行数据库进行数据库进行BLASTBLAST搜索,得到与搜索,得到与搜索,得到与搜索,得到与55或或或或33端相似序端相似序端相似序端相似序列的列的列的列的ESTEST,然后以该,然后以该,然后以该,然后以该ESTEST为模板,进一步搜索为模板,进一步搜索为模板,进一步搜索为模板,进一步搜索ESTEST数据库,一直往前延伸,直到找到终止密码数据库,一直往前延伸,直到找到终止密码数据库,一直往前延伸,直到找到终止密码数据库,一直往前延伸,直到找到终止密码子,得到全长子,得到全长子,得到全长子,得到全长cDNAcDNA。电子克隆电子克隆电子克隆也称为虚拟克隆(电子克隆也称为虚拟克隆(virtual cloning)电子)电子n n在公共数据库(如在公共数据库(如在公共数据库(如在公共数据库(如GenBank/EMBLGenBank/EMBL)中存在大量的)中存在大量的)中存在大量的)中存在大量的序列表达标签。序列表达标签。序列表达标签。序列表达标签。http:/www.ncbi.nlm.nih.gov/dbESThttp:/www.ncbi.nlm.nih.gov/dbEST,这些这些这些这些ESTEST序列序列序列序列很有可能和研究者感兴趣基因序列相重叠,可能代很有可能和研究者感兴趣基因序列相重叠,可能代很有可能和研究者感兴趣基因序列相重叠,可能代很有可能和研究者感兴趣基因序列相重叠,可能代表同一条表同一条表同一条表同一条cDNAcDNA序列。因而从生物信息学原理出发,序列。因而从生物信息学原理出发,序列。因而从生物信息学原理出发,序列。因而从生物信息学原理出发,基于公共数据库中的基于公共数据库中的基于公共数据库中的基于公共数据库中的ESTEST序列或者较长序列或者较长序列或者较长序列或者较长cDNAcDNA序列序列序列序列对新获得的对新获得的对新获得的对新获得的ESTEST序列进行电子延伸,就有可能获得序列进行电子延伸,就有可能获得序列进行电子延伸,就有可能获得序列进行电子延伸,就有可能获得全长全长全长全长cDNAcDNA。n n电子克隆的原理来源于大片段测序拼装,主要依据电子克隆的原理来源于大片段测序拼装,主要依据电子克隆的原理来源于大片段测序拼装,主要依据电子克隆的原理来源于大片段测序拼装,主要依据片断末端的重叠。片断末端的重叠。片断末端的重叠。片断末端的重叠。在公共数据库(如在公共数据库(如GenBank/EMBL)中存在大量的序列表)中存在大量的序列表基本过程基本过程a)a)将将将将待待待待分分分分析析析析核核核核酸酸酸酸序序序序列列列列(或或或或蛋蛋蛋蛋白白白白序序序序列列列列,称称称称为为为为种种种种子子子子序序序序列列列列)用用用用blastblast软软软软件件件件搜搜搜搜索索索索GenBankGenBank的的的的ESTEST数数数数据据据据库库库库,选选选选择择择择与与与与之之之之具具具具有有有有较较较较高一致性的高一致性的高一致性的高一致性的ESTEST序列(称匹配序列)。序列(称匹配序列)。序列(称匹配序列)。序列(称匹配序列)。b)b)将将将将匹匹匹匹配配配配序序序序列列列列与与与与种种种种子子子子序序序序列列列列装装装装配配配配产产产产生生生生新新新新生生生生序序序序列列列列,此此此此过过过过程程程程称称称称为为为为片片片片断断断断重重重重叠叠叠叠群群群群分分分分析析析析(Contig Contig AnalysisAnalysis)。(如如如如果果果果种种种种子子子子序序序序列列列列不是核酸,则不必拼装新序列)不是核酸,则不必拼装新序列)不是核酸,则不必拼装新序列)不是核酸,则不必拼装新序列)c)c)以以以以新新新新生生生生序序序序列列列列作作作作为为为为种种种种子子子子序序序序列列列列重重重重复复复复上上上上述述述述过过过过程程程程,直直直直至至至至没没没没有有有有新新新新的的的的匹匹匹匹配配配配序序序序列列列列入入入入选选选选,从从从从而而而而生生生生成成成成最最最最后后后后的的的的新新新新生生生生序序序序列列列列,作作作作为为为为对对对对种种种种子子子子序列的延伸产物。序列的延伸产物。序列的延伸产物。序列的延伸产物。d)d)对延伸产物进行对延伸产物进行对延伸产物进行对延伸产物进行ORFORF分析,确定分析,确定分析,确定分析,确定cDNAcDNA的完整性。的完整性。的完整性。的完整性。需要注意的是,核酸序列电子延伸获得的序列只具有参考作用,可为后继的需要注意的是,核酸序列电子延伸获得的序列只具有参考作用,可为后继的需要注意的是,核酸序列电子延伸获得的序列只具有参考作用,可为后继的需要注意的是,核酸序列电子延伸获得的序列只具有参考作用,可为后继的实验研究提供线索,真正的实验研究提供线索,真正的实验研究提供线索,真正的实验研究提供线索,真正的cDNAcDNAcDNAcDNA序列需要通过实验获得和验证。序列需要通过实验获得和验证。序列需要通过实验获得和验证。序列需要通过实验获得和验证。基本过程将待分析核酸序列(或蛋白序列,称为种子序列)用基本过程将待分析核酸序列(或蛋白序列,称为种子序列)用bla核酸序列电子延伸示意图核酸序列电子延伸示意图ESTESTESTEST序列序列序列序列种子序列种子序列种子序列种子序列ESTESTESTEST数据库中数据库中数据库中数据库中BlastBlastBlastBlast分析分析分析分析开始开始开始开始获得匹获得匹获得匹获得匹配序列配序列配序列配序列种子序列与匹种子序列与匹种子序列与匹种子序列与匹配序列组装配序列组装配序列组装配序列组装无匹配时无匹配时无匹配时无匹配时结束,进结束,进结束,进结束,进行行行行ORFORFORFORF分析分析分析分析核酸序列电子延伸示意图核酸序列电子延伸示意图EST序列种子序列序列种子序列EST数据库中数据库中Blan n例例例例:以以以以 拟拟拟拟 南南南南 芥芥芥芥(Arabidopsis Arabidopsis thalianathaliana)Cu-Cu-ZnSODZnSOD的的的的蛋蛋蛋蛋白白白白质质质质序序序序列列列列(P24704P24704)为为为为种种种种子子子子序序序序列列列列,电电电电子克隆水稻(子克隆水稻(子克隆水稻(子克隆水稻(ricerice)的)的)的)的Cu-ZnSODCu-ZnSOD基因的过程。基因的过程。基因的过程。基因的过程。例:以拟南芥(例:以拟南芥(Arabidopsis thaliana)Cu(1 1)采用)采用tblastntblastn程序,用程序,用P24704P24704对水稻对水稻ESTdbESTdb进行比对,获得进行比对,获得匹配的匹配的ESTEST序列序列数据库参数:应选择数据库参数:应选择数据库参数:应选择数据库参数:应选择non-non-humanhuman,non-mousenon-mouseESTsESTs(estothersestothers)物种名参数:写物种名参数:写物种名参数:写物种名参数:写ricerice或水或水或水或水稻拉丁文稻拉丁文稻拉丁文稻拉丁文(1)采用)采用tblastn程序,用程序,用P24704 对水稻对水稻ESTdb得到一致性最高的匹配序得到一致性最高的匹配序得到一致性最高的匹配序得到一致性最高的匹配序列(列(列(列(ESTEST序列)序列)序列)序列)得到一致性最高的匹配序列(得到一致性最高的匹配序列(EST序列)序列)(2)因为匹配序列为EST序列,因此此时选择的程序为:blastn。再次对水稻ESTdb进行比对。数据库参数:选择数据库参数:选择数据库参数:选择数据库参数:选择othersothers;物种名参数:写物种名参数:写物种名参数:写物种名参数:写ricerice或水稻拉丁文或水稻拉丁文或水稻拉丁文或水稻拉丁文(2)因为匹配序列为因为匹配序列为EST序列,因此此时选择的程序为:序列,因此此时选择的程序为:bl匹配的匹配的匹配的匹配的ESTEST序列序列序列序列(3)(3)将所得序列以将所得序列以FastaFasta格式保存后,用序列拼接程序拼出一条格式保存后,用序列拼接程序拼出一条contigcontig。匹配的匹配的EST序列序列(3)将所得序列以将所得序列以Fasta格式保存后,用格式保存后,用CAP:contig assembly programCAP:contig assembly program提交后的提交后的结果果点击点击“contigs”contigs”,获,获得拼装后的序列。如下得拼装后的序列。如下图。图。提交后的结果点击提交后的结果点击“contigs”,获得拼装后的序列。如下图,获得拼装后的序列。如下图核酸序列分析课件核酸序列分析课件(4)(4)以新生的以新生的以新生的以新生的contigcontig序列作为种子序列重复上述过程,直至没有新的匹配序序列作为种子序列重复上述过程,直至没有新的匹配序序列作为种子序列重复上述过程,直至没有新的匹配序序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。接下列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。接下列入选,从而生成最后的新生序列,作为对种
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!