算法合集之《多串匹配算法及其启示》.ppt

上传人:za****8 文档编号:15962090 上传时间:2020-09-14 格式:PPT 页数:37 大小:917KB
返回 下载 相关 举报
算法合集之《多串匹配算法及其启示》.ppt_第1页
第1页 / 共37页
算法合集之《多串匹配算法及其启示》.ppt_第2页
第2页 / 共37页
算法合集之《多串匹配算法及其启示》.ppt_第3页
第3页 / 共37页
点击查看更多>>
资源描述
多串匹配算法及其启示,南京市外国语学校 朱泽园,问题提出,所谓多串匹配,就是给定一些模式串,在一段文章(只出现小写a到z这26个字母)中,找出第一个出现的任意一个模式串的位置,或者所有模式串出现的所有位置。,例子,模式串:“abcd” “bcde” 正文:,abcabcde,实际应用,含逻辑关键字的搜索引擎 DNA序列搜索 ,广!,因此用有效算法解决该问题能大大提高各行各业的工作效率!,数据规模,设共有m个模式串,长度分别为L1、L2Lm正文为一个长度为n的数组T1.n,限定,朴素想法,从小到大枚举每一个位置,并且对所有模式串进行检查。最坏情况下时间复杂度为 对每一个模式串,使用kmp算法进行单串匹配,时间复杂度为,我的算法,辅助算法1:Knuth-Morris-Pratt模式匹配 辅助算法2:单词前缀树(自创) 主算法1:线性算法 辅助算法3:后缀树 主算法2:平均性能更好的算法,单词前缀树,单词查找树 前缀指针的定义 单词前缀树之所以不同于单词树,是因为它的每一个非根结点上都有一个前缀指针(Prefix Pointer)。 设s为结点p在树中对应的字符串 s的所有后缀中,找到在单词树中出现的,最长的一个,设为s1。 p结点的前缀指针指向s1对应的结点。,单词前缀树(续),举例,a,b,b,a,b,a,b,“bab”不在树中 “ab”在树中! 所以前缀指针指向“ab”,单词前缀树(续),前缀指针的生成 从定义出发,穷举+扫描 从kmp算法的前缀数组中吸取经验,通过父节点的前缀指针计算,单词前缀树(续),举例,a,b,b,a,b,a,b,结点p,结点q1,结点q2,主算法一,kmp算法的启发 kmp算法的精髓是减少重复的计算,根据自身的位移匹配(特征),确定模式串的右移量。,主算法一(续),单词前缀树的使用和附加标记Okay 模式串是构成单词前缀树的基本元素 模式“abcd”“bc”,a,b,c,c,b,d,p也应该标记,q,附加标记,附加标记,传递性!,主算法一(续),主过程,a,b,b,a,b,a,b,正文:“abcbcabb”,a,b,c,b,c,a,b,b,找到匹配“bb”!,主算法一(续),一点注意,主算法一(续),时间复杂性分析 单词前缀树的构建 正文的检索 空间复杂性分析,主算法一(续),优化方案 二进制转化 动态分配子结点+二分查找,a,后缀树概述,路经压缩 McCreight(1976),On-line Construction(1995),单词:“ababc”,主算法二,单词前缀树的使用和扩展(TreeA),a,b,b,a,b,a,b,1,1,1,1,1,2,2,2,主算法二(续),参数Shift,记录每一个结点到达任意一个Okay结点(自身除外)的最短路径(既可以通过树中的边,也可以通过前缀指针),主算法二(续),举例,a,b,b,a,b,a,b,1,1,1,1,1,2,2,2,主算法二(续),后缀树的使用和扩展(TreeB) 由所有模式串倒置后的所有后缀组成。 模式串为“abab”“ba”“bb” 倒置:“baba”“ab”“bb” 作用: 在O(N)的时间内,从后向前地查看一段长度为N的字符,检测它是否为任意一个模式串的子串,a,b,b,a,b,ab,主算法二(续),TreeA上的函数ScanA Function ScanA(Left,Right,P); 如果Shift参数 最短的模式串长度 div 2,继续读入字符并且P继续移动 输出所有遇到的匹配,xxxxxxxx,Right,Left,P,主算法二(续),TreeB上的函数ScanB Function ScanB(Left,Right); 在TreeB中,将TLeft.Right从右向左进行扫描,检查其是否为某个模式串的子串,返回最后扫描到的正文的位置。 定义:当一个字符串是某个模式串的子串时,称其为“有效的”,反之为“无效的”。,主算法二(续),主过程的基本思想: 1、每次处理一个Left+1Right的段落 2、从Right向左通过ScanB检索,最后到达位置pos。 3、从pos到Right进行ScanA检索。 4、下一个过程的Left为ScanA检索到的正文位置,Right为Left + 当前TreeA上的结点的Shift参数,主算法二(续),举例 模式串为“abcd”和“bcde” TreeA,abcabcde,ca,Right,主算法二(续),T=“abcabcde” ,Left=0, Right=4, P=1 从Right到Left+1逆向进行ScanB “a”为“有效的” “ca”为“无效的”,所以pos=4。,Left+1,模式串 “abcd” “bcde”,a,a,ca没出现,pos,主算法二(续),1.3的正文位置上,不可能出现模式的匹配 ScanA的检索需要从TreeA根结点重新开始,P指针重置为TreeA的根结点。,abcabcde,从pos到Right进行ScanA检索,abcabcde,Right,主算法二(续),pos,a,主算法二(续),阶段1: 正向ScanA检索字符串“a”,a,b,c,b,c,d,6,5,3,9,1,2,4,7,8,d,e,P,P,2 3,pos,abcabcde,bcd,Right,主算法二(续),T=“abcabcde” Left = 4, Right = Left + ShiftP = 7, P = 2 从Right到Left+1逆向进行ScanB 有“bcd”为“有效的”,所以pos=5。,Left+1,模式串 “abcd” “bcde”,bcd,pos=L+1,主算法二(续),阶段1: 正向ScanA检索字符串“bcd” 再读入字符“e”,a,b,c,b,c,d,6,5,3,9,1,2,4,7,8,d,e,P,5 1,P,P,P,找到匹配“abcd”,找到匹配“bcde”,主算法二(续),时间复杂度分析: 设最短的模式串长度为 最坏情况O(N) 设所有的模式串长度均为,足够大时,若正文随机。 ScanB将所有的TLeft+1.Right的字符扫描完毕的概率并不大,可以证明平均复杂度:,算法总结启示1,的使用 变大 ScanA将很难退出,平均复杂度变大! 变小 Right-Left的差变小,ScanB的pos回到Left+1的可能性变大,平均复杂度变大!,中间值!,算法总结启示2,优劣得所的思想 算术平均数本算法 几何平均数Editor块状链表 不断更新的数组A1.10000,求maxA1.i 更新:O(10000)。取值:O(1) 二叉树(不易实现) max1i记录A1*100(i-1)*100中的最大值 更新:O(100)。取值:O(100),启示,一条铁链的强度,决定于最弱的铁环的强度一个水桶的水量,决定于最短的竹片的长度 在算法深度达到一定程度的前提下,我们应该将算法的广度拓宽,多种算法并用,从最弱的点找到解决问题的钥匙。 只要不断地从瓶颈处突破,解题将会“有山就有路,有河就能渡”! 最重要的是领悟“融会贯通”的思想,Thats all!,Thank you for listening.,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!