表达序列标签有关知识总结.docx

资源描述

个人总结：我觉得要做好电子延伸，必须要把它上升到系统的高度。基本同意starrweb战友的提法（那个图8错）。电子延伸系统应该有以下几个部分组成：预处理(preprocessing)、聚类(clustering)、拼接(assembly) 和分析(analysis)。一.预处理仅仅去除载体序列是不够的：1.去除载体序列,用crossmatch程序。载体序列库为 ftp:/ncbi.nlm.nih.gov/repository/vector2.将ESTs序列将与人重复序列库(RepBase, http:/www.girinst.org ) 比较，去除重复序列，这样可以提高拼接的效率。 3.其它潜在的污染序列(如鼠DNA序列、线粒体、核糖体DNA 序列等) 前些时候就发现一些EST数据中存在线粒体序列污染（发了第一个SOS的帖子，得到了我在DXY的第一分），大家应该根据具体的数据来源来分析可能的污染.4.还有几种污染属于研究前沿，至今没有很好的解决。包括：来自基因组DNA的污染、来自pre-mRNA的污染、跨越非常规内含子（不是以GT或GC开头和AG结尾的内含子）的EST，这些都会影响拼接的成功率和正确率。二.聚类(clustering)：在对大量ESTs数据进行分析时, 情况比较复杂，从概念上区分“聚类”和“拼接”是必要的。聚类过程的目的是将标记同一基因相同转录本的、具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。用BLAST和fasta进行同源性搜索其实就是聚类的前导工作。搜索UNIGENE数据库也是一个完成聚类的捷径（本论坛 http:/www.dxy.cn/bbs/post/view?bid=73&id=1361500&sty=1&tpg=1&age=0 讲了这个方法），但是我的经验是UNIGENE是一个错误比较多的数据库，最好在选取了unigene的某个cluster以后对它进行处理，再在基因组上校正一下错误，我发现unigene的含错率还是比较高的，会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。聚类分为不严格的和严格的聚类( loose and stringent clustering )：不严格的聚类: 不严格的聚类系统产生大的、“松散”的类。在所形成的每一类中, 表达基因ESTs 数据的覆盖率高, 含有同一基因不同的转录形式, 如各种选择性剪接体、由选择不同的多腺苷酸位点(polyadenylation site) 而产生的不同的转录本等。其主要缺点在于每一类中可能包含旁系同源基因(paralogous expressed gene) 的转录本, 信噪比低, 序列的忠实性低。这种系统的代表, 如STACK 采用的基于字的聚类算法, 即dsquare 聚类。严格的聚类: 严格的聚类系统产生高度相关的聚类成员, 因此忠实性更加可靠。但是, 表达基因ESTs数据的覆盖率低, 因此所含有的同一基因的不同转录形式少。这种系统的代表, 如TIGR的Gene Indices 所采用的类似于BLAST 和FASTA的序列比对程序FLAST。三.几种拼接程序及其评价：前四个比较经典1.PHRAP(phragment assembly program)( http:/bozeman.genome.washington.edu/index.html ) 是一个拼接霰弹法产生的序列片断的程序。注意特征为：允许使用所判读的完整序列而不仅仅是经剪切的高质量部分；在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性；构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列；可提供广泛的包括质量值在内的关于拼接的信息，可控制非常大的数据集。但它单独不能提供编辑或浏览的功能。最佳搭配是PHREP+PHRAP+CONSED，该套系统就可以高效、规模化地进行EST序列的拼接延伸。缺点是如果以可变剪切的基因来试验，Phrap可正确地拼接出它所产生的一个蛋白，但是不能发现其它可变剪切的结果，如AMP2基因。2.CAP3该软件是CAP（contig assembly programme）的改进版本，可在线进行。该软件适用于EST拼接，可快速去除不能拼接在一起的序列，运用动态规划算法可容忍序列的部分错误，可剪切掉所判断序列中5和3端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控制，建立多重比对，产生一致序列。并且它可使用正反向约束修正拼接错误和连接片段重叠群。PHRAP可以产生较长的重叠群，而CAP3拼接起来的一致性错误比较少，同时它运用正反向约束机制来处理低质量序列时更容易得到结构框架（scaffold）。但是它同样不能发现AMP2基因的可变剪切变体。CAP3在线服务： http:/bioinfomatics.iastate.edu/aat/sas.html3.TIGR assembler可下载到本地进行，与PHRAP一样是针对基因组序列拼接的。采用的是贪婪算法，我们同样地拿它检验AMP2，可以拼接出它的蛋白，而且可以找到由两个EST构成的变体，但是没有任何证据和实验能够证明它的真实性。4.zEST assemblerzEST assembler是专门为EST设计的拼接软件。它由两个步骤组成：a.EST聚类；b.拼接EST.运用zEST assembler优势在于可以发现不同变体和多态性。zEST assembler不同于其它程序，采用的是自组织算法，通过EST与已有的一致序列相比获得新的一致序列，从而得到新的变体。除了上述的四种，还有很多关于序列拼接的程序：MIRA2: http:/chevreux.org/mira_downloads.htmlGigAssembler: http:/www.cse.ucsc.edu/learithe/browse/goldenPath/algo.htmlCelera Assembler:J.Comp.Biol,1995,2,275-290ARACHNE: Genome Reserch 2002,177-189EULER: PNAS(2001)98(17),9748-9753The Phusion Assembler:Genome Reserch 2003,13(1):81-90ESTBlast: http:/www.hgmp.mrc.ac.uk/ESTBlast/四：分析(analysis)及文库构建通过以上软件对EST进行拼接，并不是说就万事大吉了，还要验证拼接是否正确，或同时想经过比对对结果再进行延伸，就需要与转录组数据库和蛋白质组数据库进行比对，转录组数据库有：DoTS：http:/www.allgenes.orgMGC: http:/mgc.nci.nih.orgunigene: ftp:/ftp.ncbi.nih.gov/respository/UnigeneTWINSCAN: http:/genes.cs.wustl.eduHUNT: Nuleic Acids Reserch (2001) 29(1):185-8dbtss: Nuleic Acids Reserch(2002) 30(1):328-31fantom:Nature (2002) 420:563-573蛋白质组数据库：TrEMBL: Nuleic Acids Reserch(2000) 28(1):45-48GenPept: http:/www.ornl.gov/sci/techresources/Human_Genome/publicat/hgn/v8n2/12genpep.shtml这里实在没有力气再详细介绍了，大家上网搜搜资源就OK,很容易找到。如果拼接完了，还想判断全长cDNA的完整性，常用的方法有ATGpr和ATGsim，如果大家想知道具体方法，以后可以再写上。这个过程中ORF的选择也是一个比较重要的问题，说细了又是一篇文章。再进一步的话你就甚至可以构建你的全长cDNA文库了。总结：说了这么多，看起来这个体系好像已经比较完备了，实际上我们要做的事情还很多。首先可变剪切是一个大问题。由于一个基因mRNA 剪接位点不同, 可获得多个cDNA 克隆, 因此EST 既可能对应于一个cDNA 的某一部分, 又可能代表mRNA 的不同剪接方式。所以我们可以挖掘的可变剪切的信息还有很多。其次，由于特定组织在特定时间的表达水平不同, 因此所构建的cDNA文库中可能会缺失低表达基因的转录本而高表达基因的转录本却过于丰富，既冗余性很大，为我们聚类带来了困难。同时可能鉴定不到低丰度基因、组织特异性基因、不同发育阶段表达的基因。再次，测序带来的EST错误不是随机分布的，例如：自动化测序中会出现一些错误, 包括碱基的替代、插入和缺失,这些错误主要分布于序列的两端。EST s 数据拼接算法需要考虑ESTs 数据存在的错误类型及分布, 以获得高度忠实的共有序列。第四部分分析(analysis)及文库构建讲的比较粗略，今天弥补一下！上次讲到如果要验证拼接是否正确，或同时想经过比对对结果再进行延伸，就需要与转录组数据库和蛋白质组数据库进行比对，今天具体介绍一下这些库：转录组数据库有：DoTS：http:/www.allgenes.orgDoTS（Database Of Transcribed Sequence）是一个人类和小鼠转录本索引，来自所有公开的的转录本序列，它是由输入序列聚类后拼接而成的，大部分由人工注释，较准确。在版本8中，通过Blast算法得到的基因模块里已经包含了53，204个人类DoTS基因和47，522个小鼠基因。MGC: http:/mgc.nci.nih.orgI.M.A.G.E.联盟（I.M.A.G.E. Consortium）包含了来自六个物种的超过5，500，000条cDNA克隆，分析产生的结果发布到Genbank。具体可见MGC（The Mammalian Gene Collection Project），它由NIH赞助，主要是为获得人类、小鼠、大鼠、的全长开放阅读框架（FL-ORF）。到2004年3月22日，人类、小鼠和大鼠的非冗余基因分别已经达到11，311个、10，314个、645个。Unigene: ftp:/ftp.ncbi.nih.gov/respository/UnigeneUnigene是被整理成簇的EST和全长mRNA序列，每一个代表一种已知的或假设的人类基因，有定位图、表达信息以及同其它资源的交叉参考。序列数据库可以cluster形式在Unigene网页下载，目前人类基因归入105，680类中。PS:小技巧，有一个文件在NCBI的匿名站点上为Hs.seq.uniq.Z,它包含每一个cluster中的一个质量最高、长度最长的序列。TWINSCAN: http:/genes.cs.wustl.eduTWINSCAN是Genscan概率模式的扩展，是一种新的基因结构预测系统。它可以对两个亲缘关系比较近的基因组进行同源性分析。各概率模型分别用于描述外显子、内含子、剪切位点及UTRs的保守性，以用来反映他们的进化保守模式HUNT: Nuleic Acids Reserch (2001) 29(1):185-8dbtss: Nuleic Acids Reserch(2002) 30(1):328-31fantom:Nature (2002) 420:563-573蛋白质组数据库：TrEMBL: Nuleic Acids Reserch(2000) 28(1):45-48TrEMBL（Translaition of EMBL），该数据库采用SwissProt数据库格式，包含EMBL数据库中的所有编码序列的翻译。TrEMBL的数据库分为两部分，SP-TrEMBL和REM-TrEMBL。SP-TrEMBL中条目最终将归并到SWISSPROT数据库中。而REM-TrEMBL则包括其它剩余的序列，包括免疫球蛋白、T细胞受体、少于8各氨基酸的小肽、合成序列、专利序列等。GenPept: http:/www.ornl.gov/sci/techresources/Human_Genome/publicat/hgn/v8n2/12genpep.shtml与TrEMBL类似，GenPept是由Genbank翻译得到的蛋白质序列。由于TrEMBL和GenPept均由核酸序列通过计算机程序翻译生成，这两个数据库中的序列错误率较大，均有较大冗余度。但对于未知EST来说，是非常重要的。上次讲到如果拼接完了，还想判断全长cDNA的完整性，常用的方法有ATGpr和ATGsimATGpr：是基于基因组序列中一致基因的注释信息通过人工剪切，得到全长的mRNA数据库，然后以此来建立预测模型。ATGsim：是结合与已知蛋白质的相似性和ATGpr分值我的经验是：鉴于目前大部分数据都为包含了完整的ORF的非全长RNA，也就是说没有包含5端的帽子结构而只包含了5UTR区少量部分，以这些方法判断拼接是否完整分值都较低。欢迎大家列举更好的方法。目前用于ORF预测的工具可以分为两类：1.如rsCDS，它使用与已知蛋白质序列的同源性来预测2.如Procrest、LongestORF、TruncatedORF，它们采用的大都是从头预测的方法3.如DECODER、NCBI ORF Finder则是两种方法的结合。这些方法都可以预测ORF，但是对于含完整的阅读框架的非全长cDNA，要判断哪一个ORF是可能真正的ORF还未见真正的标准，只是各项统计的结果。再进一步的话你就甚至可以构建你的全长cDNA文库了。基于目前转录组中大部分序列都未包含5端的帽子结构或完整的5UTR区，要想真正地得到大量的可靠的全长cDNA，就有必要建立自己的全长的cDNA文库。目前建立全长的cDNA文库地的方法是Gubler和hoffman的cDNA合成法、Frohman的RACE技术、Chenchik的加特异接头及大片段高保真扩增法、CAP Finder、Capselect、CAP-Trapper、CAPture、OligoCapping等。总的来说对于合成个别基因的全长cDNA，RACE技术相对较好。对于大规模构建全长cDNA文库，其中较好的有OligoCapping、CAP-Trapper技术。

展开阅读全文

表达序列标签有关知识总结.docx

最新文档