编辑距离,重叠,组装算法和python程序

上传人:奇*** 文档编号:251074187 上传时间:2024-11-05 格式:PPTX 页数:40 大小:3.77MB
返回 下载 相关 举报
编辑距离,重叠,组装算法和python程序_第1页
第1页 / 共40页
编辑距离,重叠,组装算法和python程序_第2页
第2页 / 共40页
编辑距离,重叠,组装算法和python程序_第3页
第3页 / 共40页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,edit distance,hamming距离是两个相等长度的字符串之间的距离。它只是等于将一个字符串转换为另一个字符串所需的替换数。你会排队你的字符串,x和y,通过比较每个位置。在每种情况下,你发现对应的字符不匹配,你会添加1到计数器。然后结束时,你只是报告那个数。,编辑距离定义为将一个字符串转换为另一个字符串所需的替换或插入或删除的最小数量。,question:hammingDistance和这两个字符串的editDistance之间的关系。它们是平等的,还是其中一个大于另一个,还是大于或等于另一个?,例如:,x:ACG Y:TCG,hammingDistance和 editDistance相等,都为,1,然而,x:ACTGC Y:ATGCA,editDistance为,2,,hammingDistance为,4,结论:X和Y之间的editDistance将总是小于或等于X和Y之间的hammingDistance,下限是editDistance必须至少与X和Y的长度之间的绝对差异一样大。如果我们知道这两个字符串的前缀之间的编辑距离帮助我们很多。例如:,X:ACTG Y :A,编辑距离至少为,3,两个字符串之间的编辑距离可以计算为三个事物的最小值,即三个项。,def editDistRecursive(a,b):if len(a)=0:return len(b)if len(b)=0:return len(a)delt=1 if a-1!=b-1else 0 return min(editDistRecursive(a:-1,b:-1)+delt,editDistRecursive(a:-1,b)+1,editDistRecursive(a,b:-1)+1),所以如果以后我们做相同的精确调用,我们调用具有相同参数的函数,那么我们可以记住答案是什么。而不是再次运行该函数,这可能需要很多时间。下面为效率更好的算法:,def editDistance(x,y):D=for i in range(len(x)+1):D.append(0*(len(y)+1)for i in range(len(x)+1):Di0=i for i in range(len(y)+1):D0i=i for i in range(1,len(x)+1):for j in range(1,len(y)+1):distBor=Dij-1+1 distVor=Di-1j+1 if xi-1=yi-1:distDiag=Di-1j-1 else:distDiag=Di-1j-1+1 Dij=min(distBor,distVor,distDiag)return D-1-1,近似匹配,近似匹配是一种允许误差的串匹配。这种误差的度量一般用编辑距离,记为k。衡量编辑距离的操作包括插入、删除、替换。问题的输入是文本T,模式P和编辑距离k,输出是匹配数或匹配位置。常用的方法包括动态规划、自动机、位并行和过滤算法。近似匹配也属于Non-standard Stringology问题。它最常见的应用背景来源于生物信息学。问题定义上,近似匹配中的k可以对模式中的任何字符的编辑操作进行计数。例如,给定文本T的子串T=aacct,P=aaacc,从P到T要经过两次替换操作,因此k=2。,A new solution to approximate matching,这是因为我们不知道提前在T内发生P的时间,因此每个偏移在这里是同样可能的,因此通过用全部0填充第一行,我们不偏向于任何特定偏移,其中P 可能发生在T.如果这一点现在不明显,它可能会在算法的描述后变得更清楚。,运用编辑距离相同的思想填写下面矩阵:,我们是如何得到这个2在底行?,这样的方法的一个大问题是,他们可以很慢。因此,我们必须解决这个问题的工作量与矩阵中的元素数量成正比,矩阵中的元素数量又与P中的字符数乘以T中的字符数成正比,碱基A和G,腺嘌呤和鸟嘌呤都属于称为嘌呤的类别,然后碱基C和T都属于称为嘧啶的类别。对于将嘌呤变为另一嘌呤或将嘧啶变为另一嘧啶的取代,这些取代称为转换。然后所有其他种类的替换被称为颠倒,,替换 概率为 1/1000,插入和删除 概率为 1/3000,alphabet=A,C,G,Tscore=0,4,2,4,8,4,0,4,2,8,2,4,0,4,8,4,2,4,0,8,8,8,8,8,8,def globalAlign(x,y):,D=,for i in range(len(x)+1):,D.append(0*(len(y)+1),for i in range(1,len(x)+1):,Di0=Di-10+scorealphabet.index(x(i-1)-1,for i in range(1,len(y)+1):,D0i=D0i-1=score-1alphabet.index(y(i-1),for i in range(1,len(x)+1):,for j in range(1,len(y)+1):,distBor=Dij-1+score-1alphabet.index(y(j-1),distVor=Di-1j+scorealphabet.index(x(i-1)-1,if xi-1=yi-1:,distDiag=Di-1j-1,else:,distDiag=Di-1j-1+scorealphabet.index(x(i-1)alphabet.index(y(j-1),Dij=min(distBor,distVor,distDiag),return D-1-1,测试,编写一个函数来找到两个字符串之间的重叠,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 各类标准


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!