序列比对算法课件

上传人:2127513****773577... 文档编号:241751006 上传时间:2024-07-21 格式:PPT 页数:66 大小:811.61KB
返回 下载 相关 举报
序列比对算法课件_第1页
第1页 / 共66页
序列比对算法课件_第2页
第2页 / 共66页
序列比对算法课件_第3页
第3页 / 共66页
点击查看更多>>
资源描述
He Miao PhDSun Yat-sen University,GuangzhouMay 2011Lecture 13Lecture 13He Miao PhD序列比对算法Lecture 13授课内容第1节 序列比对的意义第2节 成对序列比对算法介绍第3节 多序列比对算法介绍授课内容第1节 序列比对的意义第1节 序列比对的意义生物序列的比对DNA-DNARNA-RNAProtein-protein序列比对是生物信息学中最重要和最基础的操作理解生物或基因进化的关键环节第1节 序列比对的意义生物序列的比对应用于大部分的生物信息学问题Sequence assemblyGene findingProtein structure predictionPhylogenic tree analysis最通用的工具:BLAST序列数据库搜索的基础序列比对的应用应用于大部分的生物信息学问题序列比对的应用第2节 成对序列比对算法介绍成对序列比对问题序列比对的内涵打分矩阵应该使用哪些矩阵?空位罚分机制动态规划算法Needleman-Wunsch算法比对的构建动态规划计算的复杂度序列比对置信度评估FASTA、BLAST第2节 成对序列比对算法介绍成对序列比对问题成对序列比对问题示例 TT.TGTGTGCATTTAAGGGTGATAGTGTATTTGCTCTTTAAGAGCTG|TTGACAGGTACCCAACTGTGTGTGCTGATGTA.TTGCTGGCCAAGGACTG AGTGTTTGAGCCTCTGTTTGTGTGTAATTGAGTGTGCATGTGTGGGAGTG|AAGGATC.TCAGTAATTAATCATGCACCTATGTGGCGG AAATTGTGGAATGTGTATGCTCATAGCACTGAGTGAAAATAAAAGATTGT|AAA.TATGGGATATGCATGTCGA.CACTGAGTG.AAGGCAAGATTAT成对序列比对问题示例 TT.TGTGTGCAT成对序列比对问题两个序列间保持顺序(或拓扑结构)的元素对应关系FSEYTTHRGHR:FESYTTHRPHRFESYTTHRGHR:FESYTTHRPHR成对序列比对问题两个序列间保持顺序(或拓扑结构)的元素对应关类似于字符串中的最长共同子序列问题(longest common subsequence,LCS)(Robinson,1938)LCS:定义一个比对操作的集合(e.g.Substitution,Insertion or Deletion),操作将一个序列比对元素转换至另一个序列的相应元素,相应的操作被赋予一定的分值优化比对:是以最低的代价或获取最高分值的比对在两个序列比对中,可能会构建出多个优化的比对FSEY-THRGHR:FESYTTHRPHRFSEYT-HRGHR:FESYTTHRPHR成对序列比对问题类似于字符串中的最长共同子序列问题(longest comm序列比对的内涵FDSK-THRGHR:.:FESYWTH-GHRMatch(:)Mismatch(substitution)InsertionDeletionIndel打分功能:度量元素间(nucleotides,amino acids,gaps)相似度的尺度比对算法比对结果置信度的评估序列比对的内涵FDSK-THRGHRMatch(:)Mis编辑距离(Hamming距离)Levenshtein 在1966提出概念二元论:匹配 1/不匹配 0(单位矩阵Identity Matrix)定义:将一个字符串转换到另一个字符串需要的最低编辑操作次数可以应用于 DNA/RNA可能的编辑操作符号的插入符号的删除符号的替换编辑距离(Hamming距离)Levenshtein 在19氨基酸替换矩阵(20X20)计算一个氨基酸被另一个替换的概率:替换频率 遗传密码对变换的容忍 自然选择基本准则:处罚在进化过程中变异概率低的残基对、奖励高变异概率的残基对在同源序列比对过程,依据经验,获取比对残基时发生的氨基酸替换打分矩阵氨基酸替换矩阵(20X20)计算一个氨基酸被另一个替换的变异矩阵的物理基础几何属性物理属性(带电性与疏水性)化学属性氨基酸频率物质(理)特征矩阵物质(理)特征矩阵芳香烃微小分子脂肪族 极性带电性非极性小分子正电荷变异矩阵的物理基础几何属性物质(理)特征矩阵芳香烃微小分子脂什么是PAM?PAM(Point Accepted Mutation)距离:对于两个序列,如果平均每100个氨基酸中发生一个可接受的点突变(即一个氨基酸的改变),则定义为具有一个PAM 单位的分歧。Dayhoff 等人(1978)提出了第一个替换矩阵由成对序列比对所导出的分歧一般低于15%什么是PAM?PAM(Point Accepted Mut关于BLOSUMHenikoff(1992)提出了模块置换矩阵的概念(Block Substitution Matrices)模块(Blocks):是指在蛋白质序列比对中(局部多序列比对)的高度保守区域BLOSUM矩阵的数目(例如:BLOSUM 62)表示收集Blocks资料库中序列一致性为62%(离群值截断点,cutoffs)的序列,再由这些序列推导出计分矩阵,数目越低,差异越大关于BLOSUMHenikoff(1992)提出了模块置换 A R N D C Q E G H I L K M F P S T W Y VARNDCQEGHILKMFPSTWYV 4-1 5-2 0 6-2 -2 1 6 0 -3 -3 -3 9-1 1 0 0 -3 5-1 0 0 2 -4 2 5 0 -2 0 -1 -3 -2 -2 6-2 0 1 -1 -3 0 0 -2 8-1 -3 -3 -3 -1 -3 -3 -4 -3 4-1 -2 -3 -4 -1 -2 -3 -4 -3 2 4-1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5-2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6-1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5-3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11-2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4BLOSUM62 矩阵 A R N D C Q E G密密切切同同源源:BLOSUM 具有高离群值截断点(高至 BLOSUM 90)或较低的PAM值 BLAST默认值:BLOSUM 62远缘同同源源:BLOSUM 具有低离群值截断点(低至 BLOSUM 10)或较高的PAM值(PAM 200 or PAM 250)最好的结构预测矩阵是:PAM 250应该使用哪些矩阵?应该使用哪些矩阵?空位罚分功能对应于分子进化问题中的插入/删除典型的线性空位罚分容易在算法中执行在比对中令人满意的效率可能源于比对已知的比对基于效率的序列比较空位罚分功能对应于分子进化问题中的插入/删除仿射空位罚分(Affine Gap Penalty)最常用的模型w(k)=h+gk,k 1,with w(0)=0h:开放空位罚分g:空位延伸罚分h g 0(例如,对于PAM250,10.8+0.6k)非线性形式:h+g log(k)FDS-T-HRGHR:.:FESYTTHRGHRFDS-THRGHR:.:FESYTTHRGHR仿射空位罚分(Affine Gap Penalty)最常用的全局比对全局比对:用于完整序列间的比对 对于同一个蛋白质家族成员的比对效果良好Needleman&Wunsch 1970 J Mol Biol 48:443局域比对局域比对:序列片断间的比对 通常会忽视那些表现出些许相似性的区域改进自Needelman-Wunsch 算法可以利用启发式算法执行(FASTA and BLAST)Smith&Waterman 1981,J Mol Biol,147:195 全局比对vs.局域比对全局比对:用于完整序列间的比对 全局比对vs.局域比对点阵和比对A A C G G T A T G CA 1 11T11C11G1 11G1 11G1 11T11T11G1 11C11AACGATCG-GGTGTA-TGCTGC点阵Dot matrix:给交叉元素间打分 路径:映射至一个比对点阵和比对AACGGTATGCA111T11C11G111G动态规划一般步骤划划分分阶阶段段:按照问题的时间或空间特征,把问题分为若干个阶段。注意这若干个阶段一定是有序的或是可排序的(即无后向性),否则问题就无法用动态规划求解 选选择择状状态态:将问题发展到各个阶段时所处的各种客观情况用不同的状态表示出来。当然,状态的选择要满足无后效性 确确定定决决策策并并写写出出状状态态转转移移方方程程:之所以把这两步放在一起,是因为决策和状态转移有着天然的联系,状态转移就是根据上一阶段的状态和决策来导出本阶段的状态。所以,如果确定了决策,状态转移方程也就写出来了。事实上,常常是反过来做,根据相邻两段的各状态之间的关系来确定决策 写写出出规规划划方方程程(包包括括边边界界条条件件):动态规划的基本方程是规划方程的通用形式化表达式。一般说,只要阶阶段段、状态、决策和状态转移状态、决策和状态转移确定了,这一步是比较简单的。动态规划一般步骤划分阶段:按照问题的时间或空间特征,把问题分标准动态规划的基本框架标准动态规划的基本框架1.指定所有点阵元素间的打分值2.对于点阵中的每一个单元,检查回到序列起点的所有可能途径(允许插入和删除)并给出单元最大打分途径的值3.在点阵中构建一个比对(途径),具体是从最后一个单元(或最高分值单元)回朔给出最高打分的比对序列比对中的动态规划步骤指定所有点阵元素间的打分值序列比对中的动态规划步骤动态规划基本评述理理论论基基础础:如果任何部分的子路径沿着真正的最优路径上终止于一个点,它本身必定是通向那一个点的最优路径。因此,优化路径可以通过延伸优化子路径获得。核心算法:核心算法:是生物信息学中最基础的算法之一。具具体体应应用用:序列比对,新基因的发现,质谱数据分析,.。动态规划基本评述理论基础:如果任何部分的子路径沿着真正的最Needleman-Wunsch算法(1)全局比对基本操作:单个的插入/删除(s(ai,-)或 s(-,bj)替换(s(ai,bj)简单情形:对于空位罚分(h+gk),h=0Needleman-Wunsch算法(1)全局比对210110001),(1),(0ljbsSliasSSjkkjikki=()211,1,1,1 1,1),(,),(maxljlibsSbasSasSSjjijijiijiij+=最优打分终止于最优打分终止于 i&jNeedleman-Wunsch算法(2)210110001),(1),(0ljbsSliasSSjk 用三种渠道计算用三种渠道计算 S(i,j):通过对角斜线向上地增加 s(ai,bj)给分值i.e.S(i-1,j-1)通过向上垂直地增加s(-,bj)(表示在比对中引入了空位)给分值 i.e.S(i,j-1)或水平的增加s(ai,-)给左边分值 i.e.S(i-1,j)ijAAAS(i-1,j-1)S(i,j-1)AS(i-1,j)S(i,j)TCNeedleman-Wunsch算法(3)用三种渠道计算 S(i,j):比对的构建(1)AAC.0-1-2-3.A-1T-2C-3.-(AAC)AT (C)初始化:S(0,0)=0 外侧行和列给定单调递减的数值比对的构建(1)AAC.0-1-2-3.A-1T-AAC.0-1-2-3.A-1T-2C-3.1A(AC)A(TC)A-(AC)-A(TC)-A(AC)A-(TC)S(1,1):三个值之一(1)ai=bj,s=1S(i-1,j-1)+s(ai,bj)=0+1=1(2)add s(-,bj)to S(i,j-1)s(i,j-1)-s(-,bj)=-2(3)add s(ai,-)to S(i-1,j)s(i-1,j)-s(ai,-)=-2选择单元格的最高值选择单元格的最高值 1 比对的构建(2)AAC.0-1-2-3.A-1T-2C-3.AAC.0-1-2-3.A-1T-2C-3.10对于下一个单元格,如果 ai=bj并且,s(ai,bj)=1,则三种可能的计分为:i,j -1+1=0 i,j-1 -2-1=-3 i-1,j 1-1=0有两种简并路径!(degenerate paths)(Max=3)比对的构建(3)AAC.0-1-2-3.A-1T-2C-3.AAC.0-1-2-3.A-1T-2C-3.10-1对于再下一个单元格,如果 ai bj,s(ai,bj)=0那么三种可能的计分为:i,j-2+0=-2i,j-1-3-1=-4i-1,j 0-1=-1比对的构建(4)AAC.0-1-2-3.A-1T-2C-3.AAC.0-1-2-3.A-1T-2C-3.10-1010-102 C C AC TCAACATC追朔:比对的构建(5)AAC.0-1-2-3.A-1T-2C-3.数学的表达002010=ljjSliiSji序列 1长度序列 2长度0for 1),(with0,0),(max211,1,1,1=+=elsebabasljli1SbasS1SSjijijijijijiij初始化初始化打分打分数学的表达002010-=zo)如果在一个比对中获得的P-值小(zo)对于启发式比对的需求优化比对的时间复杂度为:O(n2),其中n 序列长度对于给定现有大小的数据库,优化算法在数据库的搜索过程中没有实际意义启发式技术:BLAST,FASTA,MUMmer,PatternHunter.20 分钟(优化比对,SSearch)2分钟(FASTA)20 秒(BLAST)对于启发式比对的需求优化比对的时间复杂度为:O(n2),启发式搜索的思路检索和过滤:Google 搜索好的比对包含有同样的或相似的片断将完整的字符串打散为一些子串,对子串进行检索搜索匹配的短子串,将这些短子串作为“种子”使用,用于进一步的分析延伸整个字符串,找出最富有意义的局部比对片断启发式搜索的思路检索和过滤:Google 搜索FASTA 算法(1)参考文献Lipman&Pearson,1985,Science 227,1435-1441 关键思想关键思想关键思想关键思想序列的一致性区域具有最高密度的匹配。在这个步骤中,特定长度(蛋白质默认值为2,核酸默认值为6)的准确匹配由选定的一组匹配区域(对角线片断)决定。FASTA 算法(1)参考文献Lipman&PearsA-FTFWSYAIGL-PSSSIVSWKSCHVLHKVLRDGHPNVLHDCQRYRSNI|.|:AIPQFWSYAIERPLNSSWIVVWKSCITTHHLMVYGNERFIQYLAS-RNTLFASTA算法(2)FASTA算法(2)Basic Local Alignment Search Tool 参考文献Altschul et al,1990,J.Mol.Biol.215,403-410使用字匹配方法,类似 FASTA字的相似性匹配不需要同样的字如果没有字具备相似性,则不会产生匹配对于非常短的序列不会发现匹配BLAST算法Basic Local Alignment Search T第3节 多序列比对算法介绍背景简述为什么需要多序列比对渐进式多序列比对算法渐进式多序列比对算法的步骤CLUSTAL基于Profile的途径构建和计算Profile频率矩阵Profile比对第3节 多序列比对算法介绍背景简述背景简述在一个序列集合中,进行多序列比对,可以看作是对序列进化历史的研究不需要给出序列的顺序背景简述在一个序列集合中,进行多序列比对,可以看作是对序列进多序列比对的例子VTISCTGSESNIGAG-NHVKWYQQLPGVTISCTGTESNIGS-ITVNWYQQLPGLRLSCSSSDFIFSS-YAMYWVRQAPGLSLTCTVSETSFDD-YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA-VTVAWKADS-AALGCLVKDYFPEP-VTVSWNSG-VSLTCLVKEFYPSD-IAVEWWSNG-多序列比对的例子VTISCTGSESNIGAG-NHVKWY关于多序列比对是成对序列比对的自然延伸“成对序列的比对是窃窃私语 多序列比对是大声嚷嚷”Hubbard et al 1996在检测序列关系和模式时,要求更高的敏感性关于多序列比对是成对序列比对的自然延伸可以给出关于一个序列集合的功能和进化历史的线索是蛋白质家族分类和构建系统发育树的基础在蛋白质结构预测过程中十分有用为什么要多序列比对可以给出关于一个序列集合的功能和进化历史的线索为什么要多序列渐进式比对由Feng和Doolittle在1987年提出基本上属于启发式方法,不保证找到“优化”的比对通过连续的应用“成对比对方法”实现多序列的比对渐进式比对由Feng和Doolittle在1987年提出算法基本思想两两比较所有的序列 在成对比对数据的基础上执行镞(cluster)分析,产生用于比对的分层体系(向导树)依据向导树逐步建立比对。建立多序列的比对,首先要比对最相似的一对序列,然后,添加另一个或另一对序列的比对算法基本思想两两比较所有的序列 渐进多序列比对的步骤比较成对的序列基于成对比对数据基础上,执行镞分析,产生比对的分层体系渐进多序列比对的步骤比较成对的序列多序列比对(1)建立多序列比对,首先要比对最相似的一对序列,然后添加下一对相似的序列对等等多序列比对(1)建立多序列比对,首先要比对最相似的一对序列多序列比对(2)多序列比对(2)打分方案PQRRZWYQRKZXYZTUOPTZZ_FOTotal Score=w(R,U)+w(R,)+w(K,U)+w(K,)/4打分方案PQRRZWTotal Score=最成功的实现渐进式比对的程序(Des Higgins)CLUSTAL 对于所有的序列给予相同的权重CLUSTALW 具有调节序列权重的功能CLUSTALX 为CLUSTAL提供一个 GUI(图形用户界面)获取程序的网络地址http:/searchlauncher.bcm.tmc.edu/multi-align/multi-align.htmlCLUSTAL最成功的实现渐进式比对的程序(Des Higgins)CL基于Profile的途径Seq1-a b aSeq3-b aSeq4-c a -Seq2-a b -ProfileProfile:主要记录了序列位置保存度的信息:主要记录了序列位置保存度的信息:主要记录了序列位置保存度的信息:主要记录了序列位置保存度的信息Col 1 Col 2 Col 3a50%25%50%b0%75%0%c25%0%0%-25%0%50%基于Profile的途径Seq1-a b aSeq3-特定位置打分矩阵(PSSM)特定位置打分矩阵 Position-specific Score Matrix对于长度为L的蛋白质,打分矩阵是维数为L20的矩阵PSSM(i,j)-“Profile”:在一个序列中,20个氨基酸的每一个在序列每个位置的特定分值对于特定位置上的高度保守的残基,指定一个高的正分值,其他情况指定高的负分值针对弱保守的位置,通常对于所有的氨基酸类型均指定一个接近于零的数值特定位置打分矩阵(PSSM)特定位置打分矩阵 Positi构建一个Profile首先,利用替换矩阵 Sjk,获得多序列比对其次,计算氨基酸 k 在位置i 出现的次数Cik(1)平均分数方法:Wij=Sk CikSjk/N(2)几率对数公式:Wij=log(qij/pj)qij=Cij/N pj:残基j背景概率构建一个Profile首先,利用替换矩阵 Sjk,获得多序列计算Profiles(1)参考文献Gribskov et al,Gribskov et al,Proc.Natl.Acad.Sci.USA 84,4355-4358,1987Proc.Natl.Acad.Sci.USA 84,4355-4358,1987ACGCTAFKIGCGCTAFKIACGCTAFKLGCGCTGFKIGCGCTLFKIASGCTAFKLACACTAFKLC1A=4,C1G=3W1A=(4 SAA+3 SAG)/7 =(4 4+3 0)/7 =2.3Wij=S Sk CikSjk/N计算Profiles(1)参考文献Gribskov etWij=log(qij/pj)qij=Cij/N pj:残基j 的背景概率 对于小的N,公式 qij=Cij/N 不是很好 非常密切相关的一个大的序列集合携带的信息仅仅比单个序列多一点当异亮氨酸 Ile丰富时,缺乏亮氨酸(Leu)并不意味着在这个位置没有Leu!引入“拟计算频率(Pseudocount frequency)”,gij计算Profiles(2)Wij=log(qij/pj)对于小的N,公式频率矩阵 有效频率 fij频率矩阵元素 fij是氨基酸 j 在位置 i的概率jgij=pj S Sk qik exp(l l Skj)pj:背景频率背景频率频率矩阵 有效频率 fij频率矩阵元素 fij是氨基酸 j一个频率矩阵的实例0.03 0.02 0.01 0.01 0.01 0.02 0.02 0.02 0.01 0.22 0.27 0.02 0.12 0.03 0.01 0.02 0.03 0.00 0.01 0.080.04 0.02 0.17 0.03 0.01 0.02 0.03 0.03 0.01 0.03 0.08 0.03 0.01 0.01 0.02 0.07 0.34 0.00 0.01 0.040.07 0.03 0.02 0.03 0.01 0.12 0.13 0.03 0.01 0.01 0.02 0.04 0.01 0.01 0.38 0.07 0.07 0.00 0.01 0.020.07 0.03 0.09 0.06 0.01 0.03 0.14 0.03 0.06 0.01 0.02 0.09 0.01 0.01 0.15 0.16 0.05 0.00 0.01 0.020.03 0.11 0.08 0.03 0.01 0.12 0.13 0.02 0.01 0.04 0.04 0.13 0.09 0.01 0.02 0.04 0.03 0.00 0.01 0.040.03 0.12 0.05 0.03 0.01 0.10 0.05 0.02 0.01 0.04 0.14 0.10 0.16 0.01 0.01 0.04 0.03 0.00 0.01 0.040.04 0.04 0.12 0.06 0.00 0.06 0.12 0.03 0.03 0.01 0.02 0.18 0.02 0.02 0.02 0.15 0.04 0.03 0.01 0.020.06 0.02 0.08 0.03 0.00 0.08 0.19 0.02 0.04 0.05 0.07 0.09 0.04 0.01 0.02 0.12 0.04 0.00 0.01 0.030.03 0.01 0.01 0.01 0.01 0.02 0.01 0.01 0.02 0.15 0.31 0.01 0.02 0.12 0.01 0.02 0.02 0.01 0.02 0.130.06 0.03 0.05 0.06 0.03 0.07 0.19 0.02 0.02 0.03 0.06 0.10 0.01 0.05 0.02 0.07 0.07 0.00 0.05 0.030.22 0.10 0.03 0.08 0.01 0.03 0.12 0.02 0.01 0.01 0.06 0.11 0.01 0.01 0.03 0.05 0.07 0.00 0.02 0.030.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.08 0.34 0.01 0.02 0.26 0.01 0.02 0.02 0.01 0.02 0.100.03 0.05 0.02 0.03 0.00 0.10 0.29 0.12 0.01 0.01 0.08 0.13 0.02 0.03 0.02 0.03 0.03 0.00 0.01 0.020.06 0.10 0.10 0.07 0.00 0.06 0.13 0.03 0.06 0.01 0.02 0.18 0.01 0.01 0.02 0.08 0.04 0.00 0.03 0.010.09 0.22 0.07 0.03 0.00 0.06 0.04 0.02 0.02 0.04 0.07 0.18 0.01 0.01 0.01 0.07 0.05 0.00 0.01 0.030.03 0.01 0.02 0.01 0.01 0.01 0.02 0.01 0.01 0.17 0.41 0.01 0.03 0.05 0.01 0.03 0.04 0.00 0.04 0.050.04 0.02 0.10 0.05 0.00 0.06 0.02 0.48 0.02 0.01 0.02 0.05 0.01 0.01 0.01 0.05 0.03 0.00 0.01 0.010.05 0.01 0.01 0.01 0.01 0.02 0.08 0.01 0.06 0.13 0.09 0.02 0.04 0.05 0.01 0.02 0.02 0.01 0.25 0.080.06 0.06 0.07 0.05 0.01 0.06 0.09 0.02 0.01 0.02 0.02 0.07 0.01 0.02 0.09 0.17 0.13 0.00 0.02 0.020.02 0.01 0.01 0.04 0.00 0.02 0.05 0.01 0.01 0.06 0.11 0.01 0.01 0.43 0.03 0.03 0.03 0.01 0.04 0.03 i(position)1,Lj(氨基酸类型氨基酸类型氨基酸类型氨基酸类型)1,20一个频率矩阵的实例0.03 0.02 0.01 0.01 0Profile 比对(1)ACDVWYsequenceprofileProfile 比对(1)ACDVWYsequencep比对的比对序列比对 ProfileProfile Profile 比对与更具变化性的区域空位罚分比较,对于保守区域中的空位将给予更严厉的罚分动态规划算法(与成对序列比对具有相同的思想)优化比对时间 O(a2l2)a=字大小,l=序列长度Profile 比对(2)比对的比对Profile 比对(2)PsiBlast介绍Psi(Position Specific Iterated)是一个自动的 profile-like搜索程序首先执行一个有空位的对数据库的Blast搜索。然后,重要的比对信息被用于构建一个“特定位置”打分矩阵。该矩阵在下一轮数据库搜索中替换了查询序列程序将迭代不断运行,直到发现新的有意义的信息PsiBlast介绍Psi(Position Specif思考题问题1:为什么说如果在一个比对中获得的P-值小(zo)问题2:如何理解“成对序列的比对是窃窃私语 多序列比对是大声嚷嚷”Hubbard et al 1996思考题问题1:为什么说如果在一个比对中获得的P-值小(0.Thanks!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!