生物信息学应用:序列比对与数据库搜索汇总课件

上传人:仙*** 文档编号:241596637 上传时间:2024-07-08 格式:PPT 页数:65 大小:3.45MB
返回 下载 相关 举报
生物信息学应用:序列比对与数据库搜索汇总课件_第1页
第1页 / 共65页
生物信息学应用:序列比对与数据库搜索汇总课件_第2页
第2页 / 共65页
生物信息学应用:序列比对与数据库搜索汇总课件_第3页
第3页 / 共65页
点击查看更多>>
资源描述
第三章序列比对序列比对概念序列比对用途常用术语序列比对的类型序列比对的策略打分系统-打分矩阵比对算法-全局比对Needleman-Wunsch算法-局部比对Smith-Waterman算法序列比对搜索程序序列比对概念序列中的符号符号在核酸中是A,T/U,C,G,在蛋白质中则是20个氨基酸残基的单字母。序列比序列比对指将两个或多个序列排列在一起,标明最相最相似的排列方式似的排列方式,计算其相似度相似度。除匹配匹配外,序列间可以有错配配,还可以插入间隔隔,通常用短横线“-”表示。序列比对用途基因预测、基因注释(annotation)、蛋白质结构和功能预测等基因和蛋白序列的进化分析在比对中,错配与突变相应,而空位与插入或缺失对应根据物种间基因(或蛋白)序列的比对结果构建系统发生树,从分子层次分析物种的进化48条染色体24对)黑猩猩细胞色素C的氨基酸顺序与人类的相同神经功能相关基因NCAM2和GRIK1黑猩猩中大片段DNA缺失语言能力相关基因FOXP2序列在人-黑猩猩间存在两个氨基酸的差异Pan troglodytes chr22Homo Sapiens chr2146条染色体23对)常用术语比对常用常用语插入,Insertion缺失,Deletion替换,Substitution插入缺失,Indel序列相同相同两序列所有比对位置上的元素(核酸或氨基酸)完全相同序列相似性相似性两序列比对位置上的元素(核酸或氨基酸)大部分相同两序列比对位置上的元素(氨基酸)相似序列同源性同源性两序列来自一个共同的祖先序列序列比较Dotmatrix分析(intuitive)序列比对计算DPalgorithm(exact)Wordork-tuple(FASTA,BLAST)(heuristic)DotMatrixThe amino acid sequences of the phage cI(horizontal sequence)and phage P22 c2(verticalsequence)repressors.The window size and stringency are both 1.序列比对的类型序列数目双序列比双序列比对 (pairwise alignmentpairwise alignment)多序列比对(multiple sequences alignment)序列种类核酸序列比核酸序列比对蛋白蛋白质序列比序列比对比比对方式方式全局比全局比对 (Needleman-Wunsch Needleman-Wunsch)局部比局部比对 (Smith-Waterman Smith-Waterman)Globalvs.Local序列(待测序列):AGGVLIIQVGAGGVLIIQVG|序列(目标序列):AGGVLIQVGAGGVLIQVG序列(待测序列):AGGVLIIQVGAGGVLIIQVG|序列(目标序列):AGGVLI QVGAGGVLI QVGmatch9match序列比对中的两个关键点Key point 1,Key point 1,对齐方式对齐方式序列(待测序列):ATCTG 序列(目标序列):ATCAG8分Match2,gap-1,mismatch0Key point 2,Key point 2,打分方式打分方式序列(待测序列):ATC_TG|序列(目标序列):ATCA_GMatch2,mismatch-1,gap0序列(待测序列):ATCTG|序列(目标序列):ATCAG序列比对目的和实现方法目的:目的:通过寻找序列间的最佳匹配最佳匹配,判断序列间的相似性程度相似性程度实现方法:方法:依据打分系统,利用算法寻找最佳匹配打分系打分系统打分矩阵空位罚分寻找最佳匹配的算法找最佳匹配的算法打分系统-打分矩阵打分矩阵(scoring matrix)描述比对字符间(氨基酸或碱基)的相似性单一打分矩阵(核酸,氨基酸)相同(1)不同(0)AGCTA1000G0100C0010T0001遗传密码子矩阵(氨基酸)所有的氨基酸突所有的氨基酸突变都都产生于核苷酸的生于核苷酸的变化化,故氨基酸替换的分值应取决于由一个密码子转变为另一密码子所必需的突变的数量。一种遗传密码子打分矩阵根据导致密码子改变所需改改变核苷酸的数量核苷酸的数量来定义两个氨基酸之间的距离,比如PAMPAM矩矩阵不同氨基酸之不同氨基酸之间的替的替换率是不一率是不一样的的,原因有密码子突变,氨基酸间理化性质的相似性等。另一种遗传密码子打分矩阵则是直接基于实际氨基酸之间的替换率,比如BlosumBlosum矩矩阵矩矩阵元素元素通常为比对中的一对字符(氨基酸或碱基)随机随机发生生的概率的概率(每个氨基酸出现的独立概率)与其实际出出现的概率的概率之比之比Dayhoff的PAM矩阵PAMPAM(point accepted mutationpoint accepted mutation)可)可为进化化时间单位位 假设同一位点不会发生二次以上的突变,则1PAM等于100个氨基酸多肽链中预期发生一次替换所需的时间。1PAM相当于所有的氨基酸平均有1%发生了变化,经过100PAM的进化,并非每个氨基酸的残基均发生变化:有一些可能突变多次,甚至又变成原来的氨基酸,而另一些氨基酸可能根本没有发生过变化。因此利用大于100PAM的时间间隔可能达到区分同源性蛋白质的目的。N PAMN PAM表示表示对原始原始PAMPAM矩矩阵N N次方次方250PAM突变概率矩阵(Dayhoff等,1979)*表中数值均乘以了100;BLOSUM矩阵BLOSUMBLOSUM(Blocks substitution matrixBlocks substitution matrix)矩)矩阵Dayhoff模型假设基于全序列基于全序列,且蛋白质序列各部位序列各部位进化的化的速率速率 是均等的是均等的。但事实上并非如此,因为保守区的进化速率显然低于非保守区。对不同家族蛋白质序列片段的区片段的区间(blocks)(blocks)进行比对,不加不加入入gapsgaps,这些序列区间对应于高度保守的区域。氨基酸匹配率可通过各区间可能的匹配率得到。再将这些匹配率计入匹配率表。其进化相关机率的计算方法与Dayhoff矩阵相似。矩矩阵名中的数字名中的数字代表产生矩阵所用序列集的相似度序列集的相似度BLOSUM62(lower part)PAM矩阵和BLOSUM矩阵的比较PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋白质的关系则可用外推过程建立模型,但BLOSUNM矩阵却是通过直接观测保守区域中氨基酸的替换几率建立的PAM矩阵基于序列全局比对观测到的突变,包括了保守区域和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允许有空位的出现一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择打分系统-空位罚分序列的改变不仅可由点突变造成,也可因残基的插入和缺失引起。所以引入空位以产生序列比对是有生物学基础的。引入空位罚分来代表比对中加入空位的有效性ACTACGT A_ _ _CGT空位罚分的计算:k:空位长度;r:开放空位罚分值;:扩展空位罚分值,r比对方法最初采用点点阵分析法分析法1950年由Bellman描述的一种优化算法,后被NeedlmanNeedlman和和 WunschWunsch引入生物序列比较计算,即动态规划算法划算法全局比对局部比对全局比对-局部比对全局比对局部比对全局比对Needleman&Wunsch算法:适用于整体相似性整体相似性程度程度较高的序列高的序列(JMB,48,443-453,1970)的动态规划算法全局比对算法:两条核酸/蛋白质序列具有最多最多匹配匹配碱基/残基定义为最佳匹配最佳匹配,允许插入与缺失速度慢慢Needleman-Wunsch算法动态规划算法思路:将多多级问题划分成多个有划分成多个有联系的系的单级问题,并逐级解决对于序列比对而言,将整条序列的比对,划分为从序列一端逐个位置比序列一端逐个位置比对到另一段到另一段的过程AB实现算法两序列开端的位置,但不一定是序列第一个字母的位置?AG?A_?C_?AT?1.将求解最佳匹配映射成矩阵模型;2.矩阵中横行竖列各多一个,表示序列开端;3.矩阵中每个数值表示到当前位置的最佳匹配分值,但单从这个数值只能知道当前位置的匹配情况;4.当前位置之前的最佳匹配方式必需通过回溯当前位置的得分的来源确定。例:步骤1:初始化打分矩阵:S0,0=0S0,j=-j*gapSi,0=-i*gapSm,n=optimal score步骤2:计算Si,j步骤3:回溯最佳对齐路径打分:Match +2分 mis-match-3分 Gap(insertion&deletion)-1分最佳匹配:1.AGCT_ 2.A_GCT A_ _TG ATG_ _ 局部比对工具Smith-Waterman算法:执行局部比对的动态规划算法。适用于亲缘关系较远、仅具有局部区域相似性的序列。(JMB,147,195-197,1981)MPSrch程序SSearch速度慢Needleman-Wunsch算法的改造其它基于DP的实现方法结构-遗传矩阵CSTPAGNDEQHRKMILVFYW64222321012202222333C6545553333331222332S645242332343323121T65322333322233222P6534432232225222A634421321224123G65334241212130N6543230113120D642241114011E64342122121Q6431131231H652222112R62223011K6454223M655432I65434L6433V653F63Y6WV E D Q K L S K C NV E N K L T R P K C D对齐:V E D Q K L SK C NV E NK L T R P K C DVEDQKLSKCNV6432352322E4654413403N2353415426K3434623604L5112262221T3323425424R2223523522P3323234222K3434623604C2011024062D3564313315VEDQKLSKCNV6432352322E4654413403N2353415426K3434623604L5112262221T3323425424R2223523522P33232321222K34346231754C20110245112D3564313315VEDQKLSKCNV504640353026191482E424442373122201563N353638363122201576K333432313323201754L343030292527191371T292928292723221574R232323242623201672P202019201920211372K141514151713141754C80110245112D3564313315序列比对搜索程序序列比对程序基于启启发式算法式算法,用于数据库搜索(Heuristic database search),可保证搜索快速且敏感度高快速且敏感度高,但不能保不能保证最最佳佳典型程序FastA系列Blast系列在数据库中查询新序列提交新序列进行数据库搜索以确定:数据库中是否已经存在该序列结构数据功能与机制活性位点、配体结合位点、作用位点进化关系启发式算法特征The principal heuristic of these algorithms is to use“word”to search the databaseA“word”can consist of any multiple and arrangement of charactersA word is also known as a k-tuple or w-tuple,which is essentially a derivation of the word multipleThe main assumption in a word-based method assumes that related sequences are more likely to share several common words.Increasing the word size,enables searches to be performed faster,but reduces the sensitivity操作和评估2-step process:1.matches sequence in query sequence to the same words in database2.use the match to establish or seed an alignmentScoring:a score is calculated for the similarity of the alignmentSensitivity(灵敏度)the ability to identify distantly related sequence TP/(TP+FN),i.e.True positive/Actual positiveSelectivity(精确度)the ability to avoid false positiveTP/(TP+FP),i.e.True positive/Predicted positiveFASTAFASTA(Lipman&Pearson,1990)基于字,利用字宽(k-tuple=1-2残基,或=6碱基)快速识别匹配的短序列FASTA程序操作分四部根据字字宽打分打分,并筛选出出较好的短匹配好的短匹配利用PAM或或BLUSM对筛选出的短匹配精短匹配精细评估估拼接匹配短序列拼接短序列拼接评估估拼接结果的优劣劣,输出出结果果FASTA找出高相似短序列找出高相似短序列打分,精细匹配打分,精细匹配拼接,去除不可能区段拼接,去除不可能区段结果评估结果评估FASTA的快速来源于其在序列库中进行的快速初检,找出与待检序列高度相似的序列,但这一快速检索局限于待检序列和序列库序列之间较短的完全相同序列区段上改进的FSATA程序可对结果进行统计显著性著性评估估数据库相似性搜索程序FASTA程序名称程序名称待检序列待检序列类型类型数据库序列数据库序列类型类型说明说明FASTA3p p在某一蛋白质序列库中搜索蛋白质相似TFASTA3pn在核酸序列库(已被即时翻译)中比对待检蛋白质序列FASTX3np在蛋白质序列库中比对待检核酸序列(用6种读框翻译)TFASTX3pn 在核酸序列库中比对待检蛋白质序列SSEARCHp/np/n 使用Smith-Waterman算法联配比对 BLASTBLAST(Basic Local Alignment Search Tool,Altschul et al.,1990)BLAST进行的是无空位的局部比无空位的局部比对,以寻找找两序列两序列间HSPHSP(high-score segment pairshigh-score segment pairs)为目标BLAST操作过程根据给定字宽,寻找HSP区域,即分值超过阈值T的区域(初始区域,字的长度对于蛋白质序列默认为3,对于DNA序列默认为11)拓展HSP区域,得到高于阈值S的比对结果对高于阈值S的结果利用E值(默认为10)进行统计性评估输出最大分值结果BLAST数据库相似性搜索程序BLAST程序名称程序名称待检序待检序列类型列类型数据库序数据库序列类型列类型说明说明BLASTPpp 在蛋白质序列库中比对待检蛋白质序列BLASTNnn在核酸序列库中比对待核酸序列BLASTXnp在蛋白质序列库中比对待检核酸序列(用所有6种读框翻译)TBLASTNpn在核酸序列库(用6种读框即时翻译)中比对待检蛋白质序列TBLASTXnn在核酸序列库(用6种读框即时翻译)中比对 待检核酸序列(同样用所有6种读框翻译)BLAST的一项重要特性就是所报告的匹配序列的统计学显著性评分。这一统计学显著性评分是用Karlin-Altschul算法决定的,所算出的Poisson概率表明所得到的序列相似性随机出现的可能性。表示仅仅因为随机性造成获得联配结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,联配结果越显著。E值(E-value)BLAST2.0版本已有序列过滤器功能。过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这些序列。N代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,“Filter”项的缺省选项为ON。总结FASTA和BLASTScience(NO.5507,2001)人类基因组专刊有一篇题为“生物信息学:努力在数据的海洋里畅游”的文章中写到:“我们身处急速上涨的数据海洋中我们如何避免没顶之灾?”一条可靠的办法可能是赶紧找到“一叶轻舟”,而且在轻舟上装上先进的电子设备,诸如卫星定位系统卫星信息传输系统等等BLAST和FASTA便是这样的一条“轻舟”。Altschul S.F.等人(1997)提出了一个通过寻找蛋白质家族保守序列来提高算法敏感性的PSI-BLAST(Position-Specific Iterated BLAST)算法。PSI-BLAST可以对数据库进行多轮循环检索,每一轮的检索速度都大约是BLAST的两倍,但每一轮都能提高检索的敏感性。FASTA和BLAST系列程序FASTA程序BLAST程序适用数据描述FASTABLASTNDNA水平将核苷酸查询序列与核苷酸序列数据库进行比较FASTABLASTP蛋白质水平将蛋白质查询序列与蛋白质序列数据库进行比较FASTXBLASTX蛋白质水平将核苷酸查询序列的六读码框(两条链)翻译序列与蛋白质数据库进行比较TFASTATBLASTN蛋白质水平将蛋白质查询序列与核苷酸数据库的六读码框翻译序列进行比较TBLASTX蛋白质水平将核苷酸查询序列的六读码框(两条链)翻译序列与核苷酸数据库的六读码框翻译序列进行比较TFASTX蛋白质水平TFASTA的增强版本,考虑了移框误差因为BLAST和FASTA采用不同的算法,可同时用这两种搜同时用这两种搜索引擎重新检索某一特定序列索引擎重新检索某一特定序列,如果用其中一种找不到显著相似序列,不妨试一试另一程序。如果BLAST和FASTA均找不到显著匹配的序列,还可以选择第3条比较费时的搜索策略比较费时的搜索策略。一些网站允许用户使用基于Smith-Waterman算法的搜索程序,如BLITZ。BLITZ(www.ebi.ac.uk/searchs/blitz.html)BLITZ(www.ebi.ac.uk/searchs/blitz.html)被设计在大型并行计算机上运行,因此使检索更灵敏。虽然运行这样的程序比较费时,但它们有时会发现有时会发现一些被BLAST和FASTA错过的勉强达到显著的联配勉强达到显著的联配。搜索数据库的主要程序程序名程序名URLURLFASTAFASTAwww.ebi.ac.uk/fasta33www.ebi.ac.uk/fasta33BLASTBLASTwww.ncbi.nlm.nih.gov/BLASTwww.ncbi.nlm.nih.gov/BLASTMPsrchMPsrchwww.ebi.ac.uk/MPsrchwww.ebi.ac.uk/MPsrchSSearchSSearchwww.ebi.ac.uk/bic_swwww.ebi.ac.uk/bic_swWU-BLASTWU-BLASTwww.ebi.ac.uk/blast2/blast.wustl.edu/www.ebi.ac.uk/blast2/blast.wustl.edu/ScanpsSpbio.dundee.ac.uk/Software/Scanps/pbio.dundee.ac.uk/Software/Scanps/scanps.htmlanps.htmlwww.ebi.ac.uk/scanpswww.ebi.ac.uk/scanpsMegaBlastMegaBlastwww.ncbi.nlm.nih.gov/BLASTwww.ncbi.nlm.nih.gov/BLASTBLASTBLASTgenome.ucsc.edu/cgi-genome.ucsc.edu/cgi-bin/hgBlat?command=start&db=hg11bin/hgBlat?command=start&db=hg11SSAHASSAHAwww.sanger.ac.uk/Software/analysis/SSAHAwww.sanger.ac.uk/Software/analysis/SSAHAThankyou!应用举例选择相关程序:BLASTN。该程序是在核酸数据库中进行相似核酸序列的搜索;选择数据库:EMBL without ESTs(DNA)。这是EMBL的主要核酸数据库;缺省替换矩阵选项:在BLASTN中不必应用矩阵;选择序列输入格式:Plain TEXT。以文本格式发送核酸序列;按如下选定:Gapped Alignment ON、BLAST filter:ON、Graphic Output:ON 粘贴未知序列到输入框内;按下运行按钮:Run BLAST;等待,并检查运行结果用一组BLAST程序联配可以快速进行核酸和蛋白质序列库的相似性检索采用BLAST的基本算法编成了若干各不同的程序,分别使用特定的序列库和用于特定类型的输入序列。蛋白质序列比对氨基酸替换矩阵氨基酸替换次数表(Dayhof等,1979)总计观测到1572次替换;表中次数均已乘10;祖先序列不明时,次数以平分处理氨基酸相对突变力(mi)和频率fi根据可观测点突变资料得到的氨基酸相对突变力(mi)和频率fI(Dayhoff等,1979)250PAM突变概率矩阵(Dayhoff等,1979)*表中数值均乘以100;舍入误差使本表结果与上二表计算结果不完全相等。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!