序列比对基础与BLAST入门.ppt

上传人:xt****7 文档编号:3655416 上传时间:2019-12-20 格式:PPT 页数:116 大小:9.83MB
返回 下载 相关 举报
序列比对基础与BLAST入门.ppt_第1页
第1页 / 共116页
序列比对基础与BLAST入门.ppt_第2页
第2页 / 共116页
序列比对基础与BLAST入门.ppt_第3页
第3页 / 共116页
点击查看更多>>
资源描述
,序列比对基础与BLAST入门,生物信息学,序列比对基础与BLAST入门,教材Page68,第五章本次课重点讲BLAST的使用下次理论课对本次课的内容进行总结、补充和深化,上篇:序列比对基础,Yourtruevaluedependsentirelyonwhatyouarecomparedwith.BobWells,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,一、序列比对(alignment)的概念、目的,比对(联配)将两条或多条(核苷酸或氨基酸)序列排列在一起,通过一定的算法找出序列之间最大相似性匹配的过程。,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,一、序列比对(alignment)的概念、目的,序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。多序列比对还可以确定一群分子之间共享的结构域(domain)或模体(motif)。序列比对基于一种生物学推断(进化论):相似性同源性相似的结构和功能(问题:相似性等于同源性吗?),相似性与同源性的关系,相似性(similarity)是指两个序列之间的相关程度。比如说,A序列和B序列的相似性是85。这是个量化的关系。同源性(homology):是指两个序列具有共同的祖先,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为85则是不科学的。,相似性与同源性的关系,注意:序列相似不一定同源(相似可能是偶然的)序列不相似不一定不同源(高级结构相似)例如:肌红蛋白与球蛋白是同源蛋白,两者的三维结构非常相似,但氨基酸序列的相似性不到40%。,肌红蛋白,球蛋白,相似性与同源性的关系,总结:一般来说序列间的相似性越高的话,它们是同源序列的可能性就越大,所以经常可以通过序列的相似性来推测序列是否同源(统计学推断)。根据经验法则,序列长度大于100(bp或aa)时,蛋白质序列相似性程度需大于25%,核酸序列相似性程度需大于70%,才能判断同源性。,同源序列的两种形式,直系同源(Orthologs):在物种形成、分化过程中,由共同祖先基因衍生而来的同源基因(或蛋白)。直系同源物存在于不同物种间,如:人和鼠的肌红蛋白。旁系同源(Paralogs):在同一物种内,由于基因复制而产生的同源基因(或蛋白)。如:人类的1球蛋白和2球蛋白,人类的球蛋白和球蛋白。,旁系同源,直系同源,同源序列的两种形式,人球蛋白与人球蛋白?人球蛋白与鼠球蛋白?人球蛋白与鼠球蛋白?同源序列的两种形式代表了两个不同的进化事件。用于分子进化分析的序列必须是直系同源的,才能真实反映进化过程。,Agroupofmyoglobinorthologs(直系同源),二、序列比对的形式,双序列比对(pairwisealignment)简单的双序列比对序列对库的双序列比对多重序列的比对(Multiplesequencealignment)3条或3条以上的序列进行比对。主要用于构建系统发育树和蛋白质结构域研究等。,BLAST,三、序列比对的基本原理,提出比对要考虑的问题专业算法(构建打分矩阵)数学编程计算机搜索数据库计算机给出比对结果(比对分数、显著性检验),打分,序列比对要考虑的问题1,1、如何排列比较?(寻求序列之间最大相似性匹配!)我们不能够简单的将两个序列头尾对应的排比,而是对各种可能的排比方式都进行比较以找出最佳的比对结果。,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,序列比对要考虑的问题2,2、是否存在插入和缺失?(gap,空位罚分的问题教材Page71)连字号(-)标记插入或缺失的事件。,-AT-GCAT-GCATGC-ATGCATATATATATAT-ATATAT-GCATGCATGCATGCATGC|CGATCG-ATCG-AT-CG-ATATATATATATGCATATATATGCATGCATGCATGCAT,ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC|CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT,序列比对要考虑的问题3,3、是否存在氨基酸的保守性替换?(相似性打分的问题)通常在某些位点上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,这种突变可称为保守性替换。保守性替换一般不会影响蛋白质的结构和功能。与核苷酸序列比对不同,氨基酸序列比对不仅要考虑残基是否相同,还要考虑残基是否相似以及相似的不同程度。,LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE|.|:|:ALALTCGAQALIVT.QTMKGLDIQKVAGTWYSLAMAASD,1.极性中性氨基酸,2.碱性氨基酸,氨基酸分类,glycine甘氨酸GlyGalanine丙氨酸AlaAvaline缬氨酸ValVleucine亮氨酸LeuLisoleucine异亮氨酸IleIphenylalanine苯丙氨酸PheFproline脯氨酸ProPtryptophan色氨酸TrpWserine丝氨酸SerStyrosine酪氨酸TyrYcysteine半胱氨酸CysCmethionine甲硫氨酸MetMasparagine天冬酰氨AsnNglutarmine谷氨酰胺GlnQthreonine苏氨酸ThrTasparticacid天冬氨酸AspDglutarmicacid谷氨酸GluEarginine精氨酸ArgRhistidine组氨酸HisHlysine赖氨酸LysK,非极性疏水性氨基酸,极性中性氨基酸,酸性氨基酸,碱性氨基酸,(芳香族氨基酸F、W、Y),(含硫氨基酸C、M),序列比对要考虑的问题4,4、全局比对还是局部比对?全局比对(globalalignment)对两条核苷酸或氨基酸序列的全长进行比对。局部比对(localalignment)对两条核苷酸或氨基酸序列的一部分进行比对。,TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV,LPKLAGTWHSMAVNKYLGTWYEIE,局部比对通常比全局比对更有意义因为它能发现序列中的保守区域,序列比对要考虑的问题,综上所述,序列比对并非简单的事情,比对之前需考虑诸多问题。这些问题的解决依赖于数学及计算机科学的帮助。,三、序列比对的基本原理,提出比对要考虑的问题专业算法(构建打分矩阵)数学编程计算机搜索数据库计算机给出比对结果(比对分数、显著性检验),打分,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,四、序列比对(alignment)的应用,序列比对的主要目的在于阐明序列之间的同源性关系,以及从已知序列预测新序列的结构和功能。评价实验结果,为实验提供新思路指导进一步的实验设计(鉴定一条序列的身份,预测其功能)寻找和鉴定新基因的重要手段蛋白质结构预测和分子设计的基础(同源建模)研究生物进化和种属分类的基本方法(系统发生分析)比较基因组分析,问题,什么是序列比对?概念、目的、比对形式、基本原理序列比对有何用?应用怎样进行序列比对?算法、程序,五、局部序列比对的工具,FASTABLAST,1.简单的双序列比对2.序列对库的双序列比对,今天你BLAST了吗?,一般认为,BLAST运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感。,下篇:BLAST入门,NCBI-BLAST,BasicLocalAlignmentSearchTool基本局部比对搜索工具(1990)TheBLASTalgorithmisfast,accurate,andweb-accessible.(教材Page74),一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,NCBI-Blast,PopularResources(常用资源),Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,NucleotideBLAST(blastn)1、确认一条DNA序列的身份2、寻找与查询序列相似的DNA序列,1、,Step1:选择一个BLAST搜索类型,ProteinBLAST(blastp)1、确认一条蛋白质序列的身份2、寻找与查询序列相似的蛋白质序列,2、,Step1:选择一个BLAST搜索类型,Translatednucleotidequeryvs.proteindatabase(blastx)查询一条DNA序列是否可能编码某种蛋白质,3、,Step1:选择一个BLAST搜索类型,Proteinqueryvs.translatednucleotidedatabase(tblastn)查询一个DNA数据库中是否存在某些DNA序列,它们编码与查询序列相同或相似的蛋白。,4、,Step1:选择一个BLAST搜索类型,Translatednucleotidequeryvs.translatednucleotidedatabase(tblastx)查询一个DNA数据库中是否存在某些DNA序列,它们与查询序列编码相同或相似的蛋白。,5、,Step1:选择一个BLAST搜索类型,Step1:选择一个BLAST搜索类型,Aligntwosequences(bl2seq)简单的两条序列的比对,6、,Step1:选择一个BLAST搜索类型,blastn(Nucleotide-nucleotideBLAST)blastp(Protein-proteinBLAST)blastx(Translatedqueryvs.proteindatabase)tblastn(Proteinqueryvs.translateddatabase)tblastx(Translatedqueryvs.translateddatabase)bl2seq(Aligntwosequences),Step1:选择一个BLAST搜索类型,ProgramInputDatabase1blastnDNADNA1blastpproteinprotein6blastxDNAprotein6tblastnproteinDNA36tblastxDNADNA,DNA可能编码六种蛋白质,5CATCAA5ATCAAC5TCAACT,5GTGGGT5TGGGTA5GGGTAG,5CATCAACTACAA.AAACCTACCCAC33GTAGTTGATGTT.TTTGGATGGGTG5,Step1:选择一个BLAST搜索类型,问题:为什么要将DNA序列翻译成蛋白质序列后进行比对?蛋白质序列比对能提供更多的信息,较之DNA序列比对,更能发现序列间的同源关系。1.密码子的简并性决定了蛋白质序列比对更符合实际情况;2.氨基酸的打分系统比碱基的复杂,因此其比对更为灵敏;3.蛋白质比DNA进化慢,也就是说DNA序列变化较快,蛋白质序列变化较慢,可用于远源关系序列的比较研究;4.蛋白质序列的长度比相应的DNA序列要短许多,蛋白质序列数据库比DNA序列数据库小得多,这样随机序列的干扰就少。,Step1:选择一个BLAST搜索类型,1、EnterQuerySequence,2、ChooseSearchSet,3、ProgramSelection,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,Step2:输入你要查询的序列,在搜索框中复制粘贴一条DNA或蛋白质序列复制粘贴一条FASTA格式的DNA或蛋白质序列输入查询序列的索引号(accessionnumber)或gi号注意:当你输入的是DNA序列时,BLAST将自动对两条互补链都进行搜索。,Step2:输入你要查询的序列,Thesequenceyougivetoblastpisthequerysequence.Sequencessimilartothequerythatblastpreturnsarethehitsormatches.Thedatabaseyousearchisthetargetdatabase.,复制粘贴一条序列,复制粘贴一条FASTA格式序列,直接输入查询序列的索引号,Querysubrange:From_To_设置查询序列的比对范围,Organism限定物种,EntrezQuery使用entrez的限定词限制搜索范围,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数(搜索参数、格式参数),Step2:选择要搜索的数据库(proteinblast),Choosedatabase(默认为:nr),BLAST蛋白质序列数据库(6种),BLAST蛋白质序列数据库(6种),nr:非冗余GenBank编码序列+RefSeq+PDB+SwissProt+PIR+PRFrefseq:NCBI的蛋白质参考序列swissprot:swissprot最近发布的蛋白质序列pat:专利序列pdb:pdb的蛋白质三维结构数据库env_nr:非冗余的环境采样编码序列,Step2:选择要搜索的数据库(nucleotideblast),通常选择Others(nretc.),默认,BLAST核酸序列数据库(14种),nr:所有GenBank+EMBL+DDBJ+PDBrefseq_mrna:NCBI的mRNA参考序列。refseq_genomic:NCBI的基因组参考序列。est:GenBank+EMBL+DDBJ的EST序列。est_others:人类和小鼠以外的EST序列。gss:基因组调查序列。,BLAST核酸序列数据库(14种),Htgs:高通量基因组测序序列。pat:核酸专利序列。Pdb:来自pdb的蛋白质三维结构序列数据alu_repeats:Alu重复序列。dbsts:GenBank+EMBL+DDBJ+PDB的STS序列。chromosome:完整的基因组和染色体序列。wgs:WholeGenomeShotgun,全基因组鸟枪法测序片段。env_nt:环境采样序列。,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库选择一个BLAST程序(nucleotide/proteinblast)4.选择可选参数(搜索参数、格式参数),选择一个BLAST程序(nucleotideblast),通常选择blastn(默认为:megablast),选择一个BLAST程序(proteinblast),默认为:blastp,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数,Step4:选择可选的搜索参数,Algorithmparameters算法参数,GeneralParameters设置一般参数,ScoringParameters设置打分参数,Filters设置过滤参数,1、,2、,3、,Step4:选择可选的搜索参数,1、Maxtargetsequences(默认为:100),Step4:选择可选的搜索参数,2、Shortqueries(默认为:),Step4:选择可选的搜索参数,3、Expect期望值(默认为:10),问题:期望值(E值)是什么意思?,E值:是BLAST的一个非常重要的统计学指标。理解E值的前提:1、BLAST比对结果中,得分高、非常相似的两条序列有可能是随机造成的,无生物学意义(不同源),但被BLAST报告出来。反之,得分低、不相似的两条序列也可能不是随机的,有生物学意义(同源),但被BLAST漏报。2、这样的话,BLAST输出的比对结果就会出现两种疏漏,假阳性(上述前一种情况)和假阴性(上述后一种情况)。且两种情况此消彼涨。即,当我们增加BLAST输出的搜索结果时,假阴性会减少(但假阳性增加);反之亦然。,问题:期望值(E值)是什么意思?,理解E值的前提:3、显然,BLAST在输出比对的结果时,需要在减少假阳性(尽可能减少随机比对的输出)与减少假阴性(尽可能不要漏报)之间寻找一个平衡。4、E值正是用来解决这一平衡的统计学指标。,问题:期望值(E值)是什么意思?,E值的定义:一次搜索中(特定的数据库、打分矩阵及相关参数),期望发生的比对得分等于或大于某一分数的随机比对数目。E10,我们期望在BLAST搜索结果中,比对得分等于或大于某一分数,属于随机匹配的比对数目为10个。E1E0.01E值越小,我们期望的,属于随机匹配的比对数目就会越少。,问题:期望值(E值)是什么意思?,总结:从一次BLAST实践来讲,如果我们将E值调低,则BLAST返回的搜索结果就会变少(假阳性减少,但假阴性增加);反之,将E值调高,则返回的搜索结果就会增多(假阴性减少,但假阳性增加)。BLAST默认E值为10,也有文献建议通常情况下将E值设为1是一个比较好的平衡点。(我们将在BLAST结果判读中继续讨论E值的含义),Step4:选择可选的搜索参数,4、Wordsize字段长度blastp默认为:3blastn默认为:11,5、Matrix打分矩阵:blastp提供5种打分矩阵PAM30、PAM70、BLOSUM45、BLOSUM62、BLOSUM80(默认为BLOSUM62)blastn无此选项,Step4:选择可选的搜索参数,问题:为什么蛋白质序列比对需要我们选择打分矩阵?(参见教材Page70)当我们选择不同的打分矩阵时,BLAST的搜索结果会发生什么样的变化?(BLAST实习),6、GapCosts空位罚分blastp默认为:空位开放11,空位延伸1,Step4:选择可选的搜索参数,问题:为什么要在序列比对时引入空位,同时又要罚分?(教材Page71)基因在进化过程中往往会产生碱基的插入或缺失。这样,在进行序列比对时,为了更好地反映序列的相似性,也就必须考虑引入空位并进行罚分以控制空位插入的合理性。,7、过滤选项blastp过滤低复杂度区域,blastn过滤低复杂度区域及重复片段,问题:为什么要设置过滤选项?低复杂度区域、重复片段是什么意思?,低复杂度区域(LowComplexityRegions,LCR):是核酸和蛋白质序列中具有某种组成偏好的区域。如DNA序列中含大量aaaaaaaaaa、tttttttttt、或atatatatat的区域,蛋白质序列中富含某一种氨基酸如脯氨酸(PPPPP)的区域。低复杂度区域很常见,对序列比对会产生不良影响。因为低复杂度区域的碱基或氨基酸残基对评分贡献正分,使配对的显著性评分过高,从而检出大量的假阳性结果。低复杂度区域也可能是信号序列、疏水骨架、跨膜结构域等有用信息,因此,有时也应考虑关掉过滤功能。,重复片段(Repeatsegment):是DNA序列中某些碱基组成在序列中重复出现的片段。如人类的Alu重复序列。重复片段在数据库序列中也很普遍,对序列比对的影响与低复杂度区域相似。GenBank专门设立了alu_repeats数据库,可用于判断查询序列中是否含有Alu重复序列。blastn提供了人类、啮齿类动物等10种生物的重复序列过滤功能。注意:BLAST的过滤功能过滤的是查询序列而不是数据库。,问题:为什么要设置过滤选项?低复杂度区域、重复片段是什么意思?,Step4:选择可选的搜索参数,Filter(Lowcomplexityregions,Repeats)过滤选项。Blastn过滤低复杂度区域及重复片段;blastp过滤低复杂度区域。Expect期望值。默认为10。Matrix打分矩阵。blastp提供5种打分矩阵,默认为BLOSUM62;blastn无此选项。,一、BLAST搜索的基本步骤,1.选择一个BLAST搜索类型2.输入你要查询的序列3.选择要搜索的数据库4.选择可选参数Thenclick“BLAST”,二、BLAST搜索结果及其判读,我们以一个蛋白质的blastp查询为例:1.选择blastp搜索类型2.输入一个查询号NP_0067353.默认选择nr数据库4.默认可选参数,1、进入新页面:FormattingRequest,2、进入新页面:FormattingResults,该次查询任务的RID号,自动搜索保守结构域,ConservedDomains(保守结构域),2、进入新页面:FormattingResults,该次查询任务的RID号,自动搜索保守结构域,3、BLAST搜索结果页面,1、顶部:描述项,2、体部1:比对结果彩图,3、体部2:比对结果列表,4、体部3:两两比对结果,4、BLAST搜索结果页面(顶部:描述项),1.搜索类型和程序版本,2.数据库及其大小,5、BLAST搜索结果页面(体部1:比对结果彩图),6、BLAST搜索结果页面(体部2:比对结果列表),比对信息(从左往右阅读):1、序列的标识号及简单的描述(序列名称)。2、Score(Bits)比特分,由原始分数转化而来,便于比较。3、EValue,E值。在本次搜索中(特定的数据库、打分矩阵及相关参数),比对得分等于或大于414分的随机比对数目为110-114(1e-114)。4、相关链接。U表示UniGene,G表示Gene。,E值与P值的关系,EP100.9999546050.9932620520.8646647210.632120560.10.09516258(about0.1)0.050.04877058(about0.05)0.0010.00099950(about0.001)0.00010.0001000,当E值0.1时,EP。,EValue(E值)与比对结果的判读:在本次搜索中,比对得分等于或大于414分的随机比对数目为110-114(1e-114)。在本次搜索中,比对得分等于或大于414分属于随机比对的概率为110-114(1e-114)。该序列与查询序列属于随机匹配的概率为110-114。该序列与查询序列不可能是随机匹配。该序列与查询序列极可能是同源序列。E值是判断两条序列是否同源的重要统计学指标,7、BLAST搜索结果页面(体部2:比对结果列表最下端),在设置搜索参数时,若E10,则BLAST搜索结果只提交E10的比对序列。E100?E1?,比对得分与E值是一种反向的关系一个高分对应着一个低的E值分数越高,E值越低,属于随机匹配的可能性越小,8、BLAST搜索结果页面(体部3:两两比对结果),两两比对结果的描述:Score=248bits(633)Expect=1e-64Identities=112/189(59%)一致性百分比Positives=146/189(77%)正性(相似性)百分比Gaps=1/189,比对结果的判读(统计学经验专业知识),E值:E110-4,E(0.05/数据库的序列总数)。比如:E(0.05/500万)110-8参考E值:blastn:E110-6;blastp:E110-3经验法则(针对蛋白质序列):如果两个序列的长度都大于100,在适当地加入空位之后,它们配对的一致性达到25%以上,则两个序列相关;(DNA:一致性达到70%以上)如果配对的一致性小于15%,则不管两个序列的长度如何,它们都不可能相关;如果两个序列的一致性在15%25%之间,它们可能是相关的也可能不相关(模糊区)。专业知识,比对结果的判读:Score=248bits(633)Expect=1e-64Identities=112/189(59%)一致性百分比Positives=146/189(77%)正性(相似性)百分比Gaps=1/189该序列与查询序列极可能是同源序列。,9、BLAST搜索结果页面(底部:相关参数的总结),数据库类型及规模,打分矩阵及空位罚分,五、局部序列比对的工具,BLAST,1.简单的双序列比对2.序列对库的双序列比对,Choosingtwosequencesisabitlikearrangingaboxingmatchbetweentwoopponents:Theideaistogetthemostexcitingfight.,Aligntwosequences(bl2seq),Aligntwosequences(bl2seq)简单的两条序列的比对,Sequence1,Sequence2,点矩阵作图(点阵图),Score=250bits(130)Expect=9e-63Identities=240/295(81%),Halfdayontheweb,halfmonthinthelab.,savesyou,-AlanBleasby,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!