第四章序列分析课件

资源描述

第四章第四章序列分析序列分析2024/6/10BIOINFORMATICSBIOINFORMATICS1本本章章提提要要：本章主要介绍DNA和蛋白质序列分析的基本内容。包括核酸序列检索、核酸序列的基本分析（碱基组份、限制性酶切分析、重复序列分析），基因结构分析、表达标签序列分析的基本方法和软件。蛋白质序列基本分析、检索、跨膜区分析、蛋白质亚细胞定位、功能预测等内容。第四章序列分析2023/8/8BIOINFORMATIC2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院24.1 核酸序列分析核酸序列分析4.1.1 为什么要分析什么要分析DNA序列序列核酸序列分析是生物信息学应用中的一个重要方面。基于已有知识所形成的核酸序列数据库以及在此基础之上所形成的二级数据库对未知核酸序列的分析及功能预测具有重要的参考价值。在从事分子生物学研究的几乎所有实验室中，对所获得的核酸序列进行生物信息学分析已经成为进行下一步实验之前的一个标准操作。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院3 在很多时候，往往通过一个简单序列相似性的比较就可以对未知序列进行初步的功能预测，为后续实验确定初步的研究方向。本节将主要讲述如何采用生物信息学技术对核酸序列进行较为全面的分析。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院4 序列比较通常在蛋白质水平上进行，或者说在蛋白质翻译中检测远缘序列更为容易一些，因为由64个密码子(codon)所组成的遗传密码(genetic code)的冗余被缩减成了20个蛋白质的功能单位氨基酸。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院5 然而，这种简并性可能伴随着有用信息的丢失，这是因为许多直接与进化过程相关的信息在蛋白质水平无法表现，通过核苷酸序列则可以反映出来。例如，沉默突变(silent mutation)就是在DNA水平的突变，但并不导致蛋白质水平的氨基酸置换。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院6 随着测序技术的迅速发展与普及，越来越多的DNA序列已被测定并存贮在各种分子数据库中(如GenBank)。对这些序列进行分析，可以获得如下几个方面的信息：2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院7DNA碱基组成、密码子的偏向、内部重复序列等；序列及所代表的类群间的系统发育关系；特殊位点（限制性位点及转录、翻译和表达调控相关信号）；内含子/外显子(intron/exon)预测所确定的遗传结构；可读框(open-reading frame，ORF)分析所推导的蛋白质编码序列(coding sequence,CDS)等。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院84.1.2 核酸序列的基本分析核酸序列的基本分析4.1.2.1核酸序列的核酸序列的检索索已知核酸序列的检索是核酸序列分析最为基本的一个方面。可通过多种方式实现该功能。例如，可通过NCBI使用Entrez(http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=Nucleotide)系统进行检索，在输入框中输入需要检索的内容，然后点击按钮“Go”即可开始（图4-1)。同样，也可使用EBI的SRS服务器(http:/srs.ebi.ac.uk/)进行检索，可参考第三章。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS9图4-1 NCBI核酸序列检索的网络界面2023/8/8BIOINFORMATICS9图4-1 2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院10 在进行序列检索时，往往需要同时检索多条序列。这一点可通过逻辑关系式按照GenBank接受号进行批量检索。例如，需要检索序列接受号分别为 AF113671、AF113672、AF113673、AF113674、AF113675、AF 113676的序列，可在序列输入框中输入“AF113671 ac OR AF113672 ac OR AF113673 ac OR AF113674 ac OR AF113675 ac OR AF113676 ac”，即可同时检索出这些序列。其中，“ac”是序列接受号的描述字段。GenBank数据库中所采用的描述字段详见网址http:/www.ncbi.nlm.nih.gov/Entrez/entrezhelp.html#SearchFields。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院114.1.2.2分子分子质量、碱基量、碱基组成、碱基分布成、碱基分布核酸序列的分子质量、碱基组成、碱基分布等分析可通过一些常用软件如BioEdit(http:/www.mbio.ncsu.edu/BioEdit/bioedit.html)，DNAMAN(http:/ mRNA全序列，GenBank接受号AJ627251)基本性质分析为例，可以看出，输出结果中Composition(组成）和Percentage(百分比）一栏以及Molecular Weight(分子质量）清楚地给出了关于该条序列的有关结果。2023/8/8BIOINFORMATICS 数理图4-2 核酸序列基本性质分析示例图4-2 核酸序列基本性质分析示例2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院134.1.2.3 序列序列变换进行序列分析时，经常需要对DNA序列进行各种变换，例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些使用DNAMAN软件可以很容易地实现，这些功能集中在SequenceDisplay，从中可选择不同的序列变换方式对当前通道的序列进行转换。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS14例如，对一个短序列进行变换后的结果如下：原始序列 5-ATGAGCGTCT TCCTGCGAAA GCAATGCCTC TGCCTAGGCT-3反向序列 3-TCGGATCCGT CTCCGTAACG AAAGCGTCCT TCTGCGAGTA-5互补序列 3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5反向互补序列 5-AGCCTAGGCA GAGGCATTGC TTTCGCAGGA AGACGCTCAT-3 DNA双链 5-ATGAGCGTCT TCCTGCGAAA GCAATGCCTC TGCCTAGGCT-3 3-TACTCGCAGA AGGACGCTTT CGTTACGGAG ACGGATCCGA-5 RNA序列 5-AUGAGCGUCU UCCUGCGAAA GCAAUGCCUC UGCCUAGGCU-32023/8/8BIOINFORMATICS14例如，对一个2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院154.1.2.4 限制性限制性酶酶切分析切分析限制性酶切分析是分子生物学实验中的日常工作之一。该方面最好的资源是限制酶数据库(Restriction Enzyme Database，REBASE)。REBASE数据库中含有限制酶的所有信息，包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及公开发表的和未发表的参考文献(http:/,http:/ 数理2024/6/10BIOINFORMATICSBIOINFORMATICS16表4-1国际互联网中的核酸序列限制性酶切分析资源资源网址WebGenehttp:/www bio.indiana.edu/-tjyin/WebGene/RE.htmlhttp:/www.hyper- 数理与生物工程学院17 同时，很多软件也能够识别REBASE限制酶数据库。此处以使用BioEdit软件进行核酸序列限制性酶切分析为例加以说明。将待分析序列输入BioEdit软件的序列显示区后，按照图4-3的说明即可完成分析过程，其结果见图4-4。2023/8/8BIOINFORMATICS 数理图4-3 使用BioEdit软件进行核酸序列限制性酶切分析界面图4-3 使用BioEdit软件进行核酸序列限制性酶切分析界图4-4 使用BioEdit软件进行核酸序列限制性酶切分析结果示例图4-4 使用BioEdit软件进行核酸序列限制性酶切分析结2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院20 上述结果中给出了指定DNA序列的酶切位点信息，为克隆鉴定和亚克隆提供了重要信息。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院214.1.2.5 重复序列分析重复序列分析脊椎动物基因组中各种重复序列占有很高的比例。目前已经开发了一批重复序列数据库，如RepBase（http:/www.girinst.org/server/RepBase/）。著名的RepeatMasker软件就是基于该数据库进行工作（http:/ftp.genome.washington.edu/cgi-bin/RepeatMasker），使用该程序可以进行重复序列片段分析。2023/8/8BIOINFORMATICS 数理图4-5 利用RepeatMasker软件分析重复序列的网络界面图4-5 利用RepeatMasker 软件分析重复序列的2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院234.1.3 基因基因结构与构与DNA序列分析序列分析真核基因结构具有一些关键特征(图4-6)，这是我们理解基因结构对序列分析的影响所必须考虑的。这些特征包括内含子、外显子、编码序列、非翻译区(untranslated region,UTR)等。而原核基因通常缺少内含子，结构相对简单。2023/8/8BIOINFORMATICS 数理图4-6 真核基因结构示意图图4-6 真核基因结构示意图2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院254.1.3.1 非翻非翻译区区非翻译区（UTR）在DNA和RNA中均有，它们是位于蛋白质编码序列(CDS)两侧的序列，未被翻译成蛋白质。尤其是3端，无论是对基因还是对物种都是高度特异的。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院264.1.3.2 概念性翻概念性翻译如图4-7给定一个DNA序列，可以利用遗传密码将其翻译为蛋白质序列，这种方式称为概念性翻译（conceptual translation）。与基于生化实验的蛋白质翻译不同的是，概念性翻译仅通过理论推导或计算获得。对任意一个DNA序列，可能并不知道哪一个碱基代表CDS的起始，也不知道其阅读方向。这种情况下，不妨试用六框翻译（six-frame translation）。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院27 六框翻译通过移动阅读框起始碱基，获得6个潜在的蛋白质序列。其中，3个是正向翻译，3个是反向翻译，6种可能的蛋白质中至多只有一种是正确的。2023/8/8BIOINFORMATICS 数理查询序列 1 ggccagatgg aacatattgc tttcgggagc acaaggatcg ggtctactac gtctcggagc 61 ggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgct121 tcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttgg181 cgccctacgc ccagtacaag gtgtgggtga agcectcctt cgagcagcag tttctctacg六框翻译氨基酸正向序列正向序列1 1GQMEHIAFGSTRIGSTISRSGF*S*ASASATSSWCAWAPASASSPRPTN*SSISRRSTTWRPTPSTRCG*SPPSSSSFST正向序列正向序列2 2ARWNILLSGAQGSGLLRLGADFEAERVLRLQAAGVRGHLLRQVLQDQQTEVPYHGALLLGALRPVQGVGEALLRAAVSLR正向序列正向序列3 3PDGTYCFREHKDRVYYVSERILKISECFGYKQLVCVGTCFGKFSKTNKLKFHTTALYYLAPYAQYKVWVKPSFEQQFLY反向序列反向序列1 1RRETAARRRASPTPCTGRRAPSSRAP*YGTSVCWSWRTCRSRCPRTPAACSRSTRSASKSAPRRSRPDPCAPESNMFHLA反向序列反向序列2 2VEKLLLEGGLHPHLVLGVGRQVVERRDMELQFVGLGELAEAGAHAHQLLVAEALAQLQNPLRDVVDPILVLPKAICSIW反向序列反向序列3 3PRNCCSKEGFTHTLYWAGAKSAVIWNFSLLVLENLPKQVPIHTSCLPKHSLSFKIRSETTRSLCSRKQYVPSG（*代表一个终止密码子）图图4-7 六框氨基酸翻译六框氨基酸翻译查询序列六框翻译氨基酸图4-7 六框氨基酸翻译2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院29 从图4-7中可以看出，用不同的阅读框翻译CDS可能获得不同的蛋白质编码序列。哪一种是“正确”的呢？通常认为是可读框(ORF)即没有终止密码子（TGA,TAA或TAG）打断的阅读框。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院30 mRNA需要翻译为蛋白质方能发挥其生物学作用，因此，核酸序列的可读框架(Open reading frame,ORF)的分析便成为核酸分析的一个重要部分。基于遗传密码表，可通过计算机方便地分析核酸序列的读码框。对于真核生物而言，一条全长cDNA序列将只含有单一的开放阅读框架。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院31 非全长的cDNA序列如ESTs，常常来源于3末端测序的结果，从而含有3非编码区。典型情况下，一般按照具有合适的起始密码子和终止密码子来查找最长的ORF，或者在同一相位含有前置终止密码子的起始密码子，并具有poly(A)末尾的区域视为最可能的ORF。发现ORF的末端要比找到起始端更容易一些。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院32 一般来说，CDS中的起始密码子(initial codon)ATG是编码甲硫氨酸(Met)的，但在CDS内也很常见，所以ATG的出现并不意味着一定就是ORF的起始，还需要应用其他技术来检测5UTR。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院33 大量实验证明，在真核生物起始蛋白质合成时，40S核糖体亚基及有关合成起始因子首先与mRNA模板靠近5末端处结合，然后向3末端方向滑行，发现AUG起始密码子时，与60S大亚基结合形成80S起始复合物。这就是Kozak提出的真核生物蛋白质合成起始的“扫描模式”。Kozak调查了200多种真核生物mRNA中5末端第一个AUG前后序列发现，除17个例外，其余都是A/GNNAUGG，说明这样的序列对翻译起始来说最为合适。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院34 具体而言，AUG很可能是真核生物惟一的翻译起始位点，具有生物学功能的起始密码AUG总是出现在一定的核苷酸序列框架之内。首先，AUG上游（即5方向）的第三个核苷酸，常常是嘌呤，且多数是A；其次，紧跟在AUG后面的核苷酸，常常也是嘌呤，但多数情况下是G。实验表明，AUG附近的核苷酸序列中ANNAUGN和GNNAUGPU的利用率最高，而没有起始功能AUG附近的核苷酸序列则无此保守性。这就是所谓的“Kozak序列”，在分析读码框时需要重点参考。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院35 下列几种特性可以用来检测DNA序列中潜在的CDS:(1)、ORF长度很难随机地发现很长的ORF，因而长的ORF很可能意味着存在CDS。(2)、Kozak序列该序列是在起始密码子之前与核糖体作用的位点。在高等原核生物中其一致序列为GCCACC（ATG），而在酵母中为AAAAAA（ATG）。它们可以用来检测CDS的起始。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院36(3)、密码子用法(codon usage)在编码区和非编码区中，密码子用法是不同的。尤其是对特定氨基酸，密码子的用法可能随物种而变。因而，统计密码子用法可以用来推断5和3 UTR，并且有助于检测错译（见表4-2）。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS37表4-2 部分模式生物中密码子用法的百分比密码子EcoliD.melanogasterH.sapiensZ.maysS.cerevisiaeATG311035AGC202334304TCG4179221TCA22546TCT34913452TCC3748283733 此外，在许多生物中已经发现在密码子第三个碱基位置上偏好G/C而不是A/T，G/C的概率偏向也可以帮助我们检测出CDS 2023/8/8BIOINFORMATICS37表4-2 2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院384.1.3.4 编码区内含子区内含子结构分析构分析（1）“断裂”的真核基因大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。编码序列称为外显子(exon)，非编码序列称为内含子(intron)。在一个结构基因中，编码某一蛋白质序列不同区域的各个外显子并不连续排列在一起，而常常被长度不等的内含子所隔离，形成镶嵌排列的断裂方式，所以，真核基因有时被称为断裂基因(interrupted gene)。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院394.1.3.4 编码区内含子区内含子结构分析构分析在基因转录、加工产生成熟mRNA分子时，内含子通过剪接加工被去掉，保留在成熟mRNA分子中的外显子被拼接在一起，最终被翻译成蛋白质。因此通过反转录酶的作用，由成熟mRNA产生的cDNA分子中，只含有外显子，没有内含子。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院40 真核基因在结构上的不连续性是近10年来生物学上的重大发现之一。当基因转录成pre-mRNA后，除了在5端加帽及3端加多聚A(poly-A)之外，还要将隔开各个相邻编码区的内含子剪去，使外显子相连后成为成熟mRNA。研究发现，有许多基因不是将它们的内含子全部剪去，而是在不同的细胞或不同的发育阶段有选择地剪切其中部分内含子，因此生成不同的mRNA及蛋白质分子。由于RNA的选择性剪接不牵涉到遗传信息的永久性改变，所以是真核基因表达调控中一种比较灵活的方式。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院41（2）外显子内含子连接区真核基因断裂结构的另一个重要特点是外显子内含子连接区（exon-intron junction)的高度保守性和特异性碱基序列。外显子内含子连接区就是指外显子和内含子的交界，又称边界序列。外显子内含子连接区有两个重要特征：2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院42p内含子的两端序列之间没有广泛的同源性，因此内含子两端序列不能互补。这说明在剪接加工之前，内含子上游序列和下游序列不可能通过碱基配对形成发卡式二级结构2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院43p外显子内含子连接区序列虽然很短，但却是高度保守的。这一序列与剪接机制密切相关，它是RNA剪接的信号序列。序列分析表明，几乎每个内含子5端起始的两个碱基都是GT，3端最后两个碱基总是AG。由于这两个碱基的高度保守性和存在的广泛性，有人把它称为GT/AG法则，即5-GT.AG-3。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院44 由于内含子两端的接头序列不同，因此可定向表明内含子的两个末端，根据剪接加工过程沿内含子自左向右进行的原则，一般将内含子5端接头序列称为左剪接位点，3端接头序列称为右剪接位点，有时也将前者称为供体位点(donor site)，将后者称为受体位点(acceptor site)。外显子内含子在连接区的保守序列几乎存在于所有高等真核生物基因中，表明在这些基因中，可能存在着一个共同的剪接加工机制。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院454.1.3.5 克隆序列克隆序列 DNA序列分析的一个重要方面是确定克隆的核苷酸序列。在克隆已知序列基因的实验中，比较克隆序列与已发表序列的是否一致是十分重要的。如果两者不一致，就可能要重新设计实验。例如，PCR过程中引物或酶选择不当，都有可能导致错误。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院464.2 表达序列表达序列标签分析分析4.2.1 cDNA文文库与表达序列与表达序列标签 cDNA(complementary DNA，互补DNA)是指与RNA序列互补的DNA，由RNA启动的DNA多聚酶(RNA-dependent DNA polymerase)或反转录酶(reverse transcriptase)合成。这种酶的单链DNA产物(反转录物)，可用DNA启动的DNA多聚酶转换成双链形式，并插入合适的载体成为一个cDNA克隆。cDNA克隆是成熟mRNA分子的拷贝，不含任何内含子序列，因而只要与克隆载体上合适的启动子序列相连接，就很容易在任何一种生物体内表达。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院47 一个cDNA文库(cDNA library)中包含多个cDNA克隆，可用于后续的序列分析。例如，可以从一个具有2000000个克隆的文库中随机选取10000个样品并进行测序，结果则贮存在计算机数据库中供进一步的序列分析。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院48 表达序列标签(expressed sequence tag，EST)是从cDNA文库中生成的一些很短的序列(300500bp)，它们代表在特定组织或发育阶段表达的基因，有时可代表特定的cDNA。EST可能是编码的，也可能不是，而两端有重叠序列的EST可以组装成全长的cDNA序列。因此，EST的研究与表达分析可以作为一种发现新基因的有效方法。事实上，该方法已在人类基因组图谱绘制、新基因克隆和基因组序列编码区的确定等方面发挥了极为重要的作用。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院494.2.1.1 EST与与cDNA的关系的关系图 4-8示出了 EST与 cDNA以及 CDS和UTR之间的关系。应用自动测序系统，对每个cDNA克隆的一种读法可以产生一个EST。有的方法采用的引物可能使一个克隆产生两种读法，一个从5端起始，另一个从3端起始。2023/8/8BIOINFORMATICS 数理图4-8 EST与cDNA以及CDS和UTR之间的关系图4-8 EST与cDNA以及CDS和UTR之间的关系2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院51 值得一提的是，虽然全长cDNA序列分析十分重要，但我们并非总能获得全长序列的信息。事实上，现阶段基因数据库中收录的DNA序列数据绝大许多都不是全长的，而是EST。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院524.2.1.2 EST要素要素在进行EST分析时，需要注意以下几点：(1)EST字母表 EST测序是高度自动化的，尽管电泳分析软件已经十分完善，但还是不能确定序列中个别位点究竟是哪个碱基？最终序列中会出现一些其他字母。2023/8/8BIOINFORMATICS 数理表4-3 IUB-IUPAC编码符号符号代表的碱基代表的碱基符号符号代表的碱基代表的碱基AAYC或T或UCCKC或TT/UGVA或G或CMA或CHA或C或TRA或GDA或G或TWA或TBC或G或TSC或GX/NG或A或T或C表4-3 IUB-IUPAC编码符号代表的碱基符号代表的2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院54(2)INDEL(插入/缺失)和移码(frame shift)尽管测序软件有一定的容错能力，还是会出现一定的偏差，有些本来没有的碱基被读出，而应该读出的碱基却不能读出。结果表现为错误的插入或缺失。用计算机软件在蛋白质水平的相似性查询，也可能发生同样的情况，导致虚假的中止信号，或者所有的六框翻译都出错。判断出错误的INDEL和移码是十分必要的，这也是翻译工作的复杂性之所在。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院55(3)剪接变体不是所有的外显子都能出现在转录mRNA过程中，因而真核基因产物可能有不同长度，即最终产生的mRNA中可能只包含部分外显子。即使长度相同，也可能因为外显子排列顺序改变而得到不同蛋白质序列。从同一DNA，转录得到不同mRNA，并最终翻译成不同的蛋白质称为剪接变体（splice variant）或可变剪接形式（alternatively spliced form）。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院56 单一基因的选择剪接方式是全长序列分析的重要内容。如图4-9所示，剪接变体的存在将影响EST的检索与分析。测序的错误也许会使EST变成无用的序列，因为其中不仅包含了模糊碱基，而且还可能丢失碱基。当EST很短时，问题就更严重了，很可能全部落入一个特定的外显子中。在这种情况下，如果数据库中存在选择剪接方式并且均含此外显子，那就不可能知道这个EST所代表的是哪种形式了。2023/8/8BIOINFORMATICS 数理图4-9 剪接变体与EST图示为一段mRNA，有3个外显子边界标记，两种匹配方式(a)EST与外显子1、3、4有相似性，而缺失了2，表明可能是一个剪接变体；(b)EST完全落在外显子3的区域里，所以不能确定它是不是代表了一个剪接变体图4-9 剪接变体与EST图示为一段mRNA，有3个外显子2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院58(4)非编码区EST 许多mRNA（尤其是人类的）在CDS的5端和3端有长的UTR。一个EST来源于这些非编码区的可能性是相当大的。如果幸运的话，UTR（非编码）序列已贮存在数据库中。因其高度保守且对编码基因而言是特异的，可以找到一个直接的匹配。如果不是那么幸运的话，就不能找到匹配。这又存在两种可能性：一是这个EST虽代表了一个CDS，但数据库中没有相似序列；二是它代表了一个非编码序列，也不存在数据库记录。EST分析中必须清楚这两种情况的差别。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院594.2.2 EST数据数据库鉴于EST在基因研究和商业开发上的重要应用价值，人们已经建立了大量的EST数据库。到目前为止，主要的通用公共数据库包括EMBL数据库中的ETS部分以及GenBank中的dbEST。通过下面3个例子，可以初步了解EST数据的不同来源。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院60(1)Merck/University of Washington 1994年，Merck公司资助美国华盛顿大学开展有关从多种规范化cDNA文库中测定EST序列的研究项目。截止1997年，该项目已提交dbEST 584000个EST。此外，Howard Hughes医学中心资助华盛顿大学测定小鼠克隆序列，提交dbEST近400000个EST，大多数为5端。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院61(2)Incyte Incyte制药公司建立了一个数据库LifeSeq，重点是通过从标准cDNA文库测序获得定量数据。其目标在于提供健康和疾病组织中转录基因相对拷贝数的信息，以期发现潜在的治疗靶标。到 1998年 4月，LifeSeq中已包含了2500000个EST，代表80000-120000个不同的基因。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院62(3)TIGR-HGI 美国基因组研究所（The Institute for Genomic Research，TIGR)是一个非盈利的研究机构，成立于1992年。其人类基因索引（Human Gene Index，HGI)旨在综合全球人类基因研究的成果（包括dbEST及GenBank）。它已经从300个以上的cDNA文库中测定了超过100000个的EST序列。有兴趣的读者可以访问“TIGRGene Indices”网页（http:/www.tigr.org/tdb/tgi.shtml）。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院634.2.3 EST分析分析尽管EST本身是不完整的甚至可能是不精确的DNA序列，但EST分析（例如，检测新的EST与分子数据库中收录的大量EST匹配与否）将为确定全长CDS和寻找新基因提供有价值的线索。EST分析工具很多，除商用的（如IncyteLifeTools）外，公用的工具通常分为3类：序列相似性查询（sequence similarity search）；序列组装（sequence assembly）；序列聚类（sequence cluster）。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院64(1)相似性查询工具序列相似性查询工具已在上章中介绍。其中BLAST系列可用于EST查询。tBLASTn可以翻译DNA数据库，BLASTx翻译输入数据，tBLASTx则两者均可。FASTA亦有类似的功能。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院65(2)组装工具用一个“探针”序列在数据库中搜索可获得与之相匹配的EST序列，通常需要对这些EST序列进行对位排列（sequence alignment）以获得一致性序列。下一轮搜索得到的EST同样也应参与对位排列。这种反复的对位排列工作称为序列组装。相关的软件工具有Staden组装器、TIGR组装器和Phrap等。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院66(3)聚类工具序列聚类工具是指将一个大的序列集合分解成亚集(subset)或簇（cluster)的计算机软件，如果不同序列之间有一段重叠序列，并且超过一定长度，这两段序列就应该能拼接在一起，从而应聚为一类。一个可靠而有效的EST聚类方法将减小数据集的冗余度，节省数据库搜索时间。总之，如果我们已得到大量的EST序列，并且需要估计出它们所代表基因的数目时，聚类工具就显得特别重要。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院67 图4-10示出了EST序列聚类的一个例子。其中，一个EST文库被分解成A、B、C、D 4个集合，箭头方向表示EST间的重叠是正义（plus sense）的还是负义（minus sense）的。例如，A中两个EST是正义重叠，一个是负义重叠；C中两个正义，两个负义，等等。实际上，这里的EST正负义仅是象征性的，真实的正负义只能由数据库比较确定。2023/8/8BIOINFORMATICS 数理图4-10 EST聚类图4-10 EST聚类2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院69 EST聚类的一种策略是用已知的基因去引导EST的划分。EST可以从各种各样的DNA和蛋白质序列数据库中搜索出来并聚合成代表单一基因的集合。一般来说这种方法可能产生出与数据库中任何一段序列不相匹配的EST簇。从一个给定的文库中得到不相匹配的EST的比例约为40%。随着基因组测序项目的增加，将有更多的信息被提供，这个比例值还会继续降低。因而，需要更新的方法（如重叠鉴定）来聚合剩余的序列。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院70 另一种策略是先聚合所有的EST以产生一个代表每个集合的一致性序列（consensus sequence），然后仅用这个一致性序列去进行数据库检索。这是一个较为理想的方案，因为它显著地减少了相似性检索的数量。然而，这种策略的成功很大程度上依赖于EST聚类的可靠性，而EST聚类又与EST数据的质量密切相关。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院71 估算EST文库所代表基因的数目是一项较为复杂的工作，因为不相匹配的EST也许并不代表不同的基因。以下两种情况应当被考虑：首先，如图4-11(a)所示，一个簇(图中的C)可能与一个基因的非特征区相对应，另一种可能是该基因的特征区对应多个簇(图中的A和B)。例如，3 UTR在数据库记录中通常是不完整的，或者一个基因只是一条部分的序列记录。在这种情况下，将一个不匹配的EST簇看做是一个单独的基因将会高估基因的数目；2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院72 其次，如图4-11(b)所示，可能有两个或更多的未匹配簇(图中的D和E)对应于同一个基因的不同区域。如果将所有不相匹配的EST簇都算做基因的话，所估计的基因总数将明显偏高。2023/8/8BIOINFORMATICS 数理图4-11 EST簇与基因数目估计图4-11 EST簇与基因数目估计2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院744.3 电子克隆子克隆cDNA全全长序列序列电子克隆，又称虚拟克隆(virtual cloning)，其原理是根据大量EST具有相互重叠的性质，通过计算机算法获得cDNA全长序列。换言之，电子克隆不采用传统的分子生物学实验方法，而是由一个查询序列开始，依靠EST数据库在计算机上对EST进行两端延伸，从而获得全长的cDNA序列。电子克隆需要综合多种DNA序列分析技术。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院75 从部分序列得到全长cDNA的分子生物学实验方法通常有杂交筛选文库或5末端延伸法。电子克隆则以部分cDNA为起始，和Genbank的EST数据库dbEST进行BLAST检索，得到与5端或3端有相似序列的EST，然后以该EST为模板，进一步搜索EST数据库，一直往前延伸，直到找到终止密码子，得到全长cDNA。可见，该方法依赖于足够的末端重叠并且能够往前延伸的EST序列。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院76 序列拼接软件通过计算序列中的每个位点上各种核苷酸可能出现的分值，找出调和序列。可以设置一些参数来约束每个位点允许出现的错配碱基数。通常，为确定序列拼接质量，需要对一个片段进行多次测序。正链和负链上每个位置至少有两次以上的测序结果一致，该位点的测序结果才比较可信；相反，序列中某一位点几次测序结果不一致，这一位点的可信度则较低。2023/8/8BIOINFORMATICS 数理AACCGTTACGAAACCAGGTGCAACCGTTACGAAACCAGGTGCGCGCCCGCGGGAATAACCGTTACGAACCCAGGTGCAACCGTTACGAAaCCAGGTGCGCGCCCGcGGGAATCCTAAAAA CGCGCCCGCGGGAATCCTAAAAA TGCGCGCCCGAGGGAATCCTAAAAA图4-12 序列拼接示例2024/6/10BIOINFORMATICSBIOINFORMATICS77AACCGTTACGAAACCAGGTGC 图4-12 序列拼2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院78 图中用于拼接的序列包括3条正链和2条负链。5个测序结果中，有2个位点出现了错误，这些错误将导致这两个位置碱基一致性程度降低，此时，需要用其他数据加以验证，或对测序过程中所得图谱进行人工分析。一般来说，必须利用全长正链和负链测序数据，才能保证拼接结果质量。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院794-1例例一个电子克隆的练习。假定从已发表的酿酒酵母(S.cerevisiae)的基因组中寻找一个编码未知蛋白的基因。仅有的信息是一个在酵母基因组14号染色体上发现的编号YNR064c的可能的可读框(ORF)。这项工作包含3个方面的内容：(a)、从公共数据库中分离一个基因(或ORF)；(b)、分析所恢复序列的限制性酶切位点；(c)、确定克隆策略。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院80(1)从基因组数据库中分离基因登录到一个包含酵母基因组DNA数据库的网站，如http/srs.ebi.ac.uk/以便利用EMBL数据库SRS系统）；进入数据库的查询界面；在查询表中你可以发现不同类型的数据库。选择EMBL和EMBLNEW的数据库；键入登录号ynr064c，进行“Quick Search”；点击链接，获得数据库查询的结果；获得的页面包括GenBank中收录的所有与064YNRc有关的数据，你将发现一条从5-3的含有目的基因的DNA链。2023/8/8BIOINFORMATICS 数理图4-13 WebCutter软件网络界面图4-13 WebCutter软件网络界面2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院82(2)在网络上分析限制性位点打开一个新窗口(WebCutter)连接:http/bio.lundberg.gu.se/cutter2/.。这是一个进行在线限制性酶切位点分析的网站。这个程序可以通过简单的“剪切粘贴”DNA序列来进行限制性酶切位点分析；在原先的网页浏览窗口(包含064YNRc数据的那一页)，选中整段DNA序列；在选中的区域点击右键，选择Copy；2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院83返回有WebCutter的窗口。在方框里点击鼠标左键来把鼠标的光标置于DNA序列框中，按右键选择Paste。将从数据库中获得的整个DNA序列放入WebCutter程序的DNA序列分析框中；保留所有限制性内切酶分析的默认设置。对YNR064c进行限制性内切酶分析。按下Analyze sequence。等待。分析通常需要10秒至几分钟，时间取决于分析时的网络状况；如果耗时太长，按stop来放弃分析过程，按back再按Analyze sequence，继续等待，并多尝试几次；2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院84(3)确定克隆策略研究输出文件，寻找起始密码子和终止密码子的位置以及编码序列(CDS)的方向；比较分析限制性酶切图谱(WebCutter)，寻找能够切除多余序列保留完整编码序列的限制性内切酶；除电子方法外，必须对YNR064c的编码区进行亚克隆，才能得到编码该蛋白的基因全长序列。所谓亚克隆就是对已经获得的目的DNA片段进行重新克隆，其目的在于对目的DNA进行进一步分析，或者进行重组改造等。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院85例例4-2 用电子克隆的方法获得一种新的蛋白激酶A锚定蛋白(AKAP基因)的例子。结果得到2106bp的一段cDNA，和northern blotting杂交显示的结果相接近，为全长cDNA。可利用的EST序列有：H18281、H46461、AL120999、A1479138、R35395、A1677943和AL045281。各EST序列的位置和剪接图如图5-14所示。2023/8/8BIOINFORMATICS 数理第四章序列分析课件图4-14 AKAP基因的电子克隆图4-14 AKAP基因的电子克隆2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院884.4 蛋白蛋白质序列分析序列分析蛋白质序列分析是从理论分析迈向实验研究的重要步骤。如果拟对感兴趣的基因投入实验研究，基于生物信息学获得尽可能多的关于该基因/蛋白质的信息是十分必要的，尤其是用生物信息学分析得到蛋白质的结构功能域信息对研究思路的制定具有重要的指导意义。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院894.4.1 蛋白蛋白质序列基本分析序列基本分析蛋白质序列的基本性质分析是蛋白质序列分析的基本方面，一般包括蛋白质的氨基酸组成、分子质量、等电点（pI）、亲水性和疏水性、信号肽、跨膜区及结构功能域的分析等。蛋白质的很多功能特征可直接由分析其序列而获得。例如，疏水性图谱可用来预测跨膜螺旋。同时，也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标（其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网）。Web中有很多此类资源用于帮助预测蛋白质的功能。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院90 其中关于蛋白质的氨基酸组成、分子质量、等电点等方面的分析均可使用本地化的软件（如 MacVector,OMIGA,DNAMAN,BioEdit等）进行，所以此处不进行详述，而只是对蛋白质序列的信号肽和跨膜区分析的网络资源进行描述。2023/8/8BIOINFORMATICS 数理2024/6/10BIOINFORMATICSBIOINFORMATICS 数理与生物工程学院914.4.1.1 蛋白蛋白质序列序列检索索与核酸序列分析一样，蛋白质序列检索往往是序列分析的第一步。由于数据库和网络技术的发展，蛋白质序列的检索是十分方便的。你可以从NCBI网站http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=protein进行检索。在输入框中输入需要检索的内容，然后点击Go即可开始。2023/8/8BIOINFORMATICS 数理图4-15 GenBank检索蛋白质序列页面图4-15 GenBank检索蛋白质序列页面第四章序列分析课件图4-

展开阅读全文

第四章序列分析课件

最新文档