一种利用越界保护机制对字符串匹配进行加速的方法技术

技术编号：2824763 阅读：331 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供的是一种利用越界保护机制对字符串匹配进行加速的方法。根据待匹配文本长度，得到文本尾位置，这里假定文本最末字符位于ｌｏｃ位置；在ｌｏｃ＋１位置设置１个字符的隔离字，该隔离字是任意在模式中没有出现的字符；拷贝模式串至文本的ｌｏｃ＋２位置；进行不检查是否下标越界的字符串匹配，在输出模式匹配位置前进行是否下标越界的判断，若没有下标越界，则输出匹配位置，若下标越界，则结束匹配动作。本发明专利技术所述方法与字符串匹配的具体实现无关，是现有各种字符串匹配问题的通用改进方法。由于在整个串匹配过程中模式匹配后的输出动作是串匹配过程中所有动作中出现频率最低的动作，本发明专利技术所述方法可以将检查下标越界操作的总数降至最低。

全部详细技术资料下载

【技术实现步骤摘要】
(一)
本专利技术涉及的是一种信息处理方法，具体地说是一种用于信息处理领域中的字符串匹配方法。(二)
技术介绍
字符串匹配可以理解为从给定的符号序列中找出一个或若干具有某种性质的模式。字符串匹配问题应用范围极其广泛，几乎所有涉及文本处理的应用中都会涉及到字符串匹配操作，该问题是网络安全、信息检索、计算生物学等重要领域的核心问题。目前随着网络安全问题的凸显，以及超大型数据库、高速搜索引擎、人类基因图谱计划等应用的出现，对高速匹配算法的需求非常强烈。字符串匹配可根据待处理文本在进行匹配操作时是否已知来进行分类。若进行匹配时文本已知的匹配应用为离线文本匹配，如在文本文件中进行匹配或者在socket缓冲区中进行匹配等应用；当匹配时文本未知并在不断更新的匹配应用则为在线文本匹配，匹配时文本仍在不断更新。目前各种匹配应用以离线文本匹配为主。在处理离线文本时，现有字符串匹配算法至少在每发生一次跳跃时判定是否出现待读入字符超出文本边界的事件(或称下标越界，其中KMP类算法在每读入一个字符时均需检查是否下标越界)。由于字符串匹配所处理的文本长度一般远大于模式的长度，实际的操作中下标越界的出现概率很低，这样频繁的检查是否下标越界降低了匹配应用的实际性能。为降低下标越界检查的开销，HUME A.与SUNDAY D.M.提出的tunedBoyer-Moore算法(简称tuned BM算法，HUME，A.，SUNDAY，D.M.，Fast stringsearching，Software-Practice&Experience，1991，21(11)，1721-1248)中...

【技术保护点】
一种利用越界保护机制对字符串匹配进行加速的方法，其特征是：　　　　ａ）根据待匹配文本长度，得到文本尾位置，假定文本最末字符位于ｌｏｃ位置；　　　　ｂ）在ｌｏｃ＋１位置设置１个字符的隔离字，该隔离字是任意在模式中没有出现的字符；　　　　ｃ）拷贝模式串至文本的ｌｏｃ＋２位置；　　　　ｄ）进行正常的字符串匹配，在输出模式匹配位置前进行是否下标越界的判断，若没有下标越界，则输出匹配位置，若下标越界，则结束匹配动作。

【技术特征摘要】
1、一种利用越界保护机制对字符串匹配进行加速的方法，其特征是：a)根据待匹配文本长度，得到文本尾位置，假定文本最末字符位于loc位置；b)在loc+1位置设置1个字符的隔离字，该隔离字是任意在模式中没有出现的字符；c)拷贝模式串至文本的loc+2位置；d)进行正常的字符串匹配，在输出模式匹配位置前进行是...

【专利技术属性】
技术研发人员：范洪博，姚念民，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：93[中国|哈尔滨]

全部详细技术资料下载我是这个专利的主人