一种最小距离字符串计算查找方法技术

技术编号:13620947 阅读:65 留言:0更新日期:2016-08-31 13:51
本发明专利技术公开了一种最小距离字符串计算查找方法。本方法为:1)判断判断字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,得到加速索引;2)从该字符串集合中找到与待计算字符串t最相似的字符串t’并计算两者之间的距离D(t,t’);然后根据该加速索引判断该字符串集合中的字符串是否满足D(t’,r)≥2D(t,t’);如果满足,则淘汰字符串r;3)根据步骤2)处理结果,确定出与该字符串t距离最小的字符串。本方法大大提高了查找效率。

【技术实现步骤摘要】

本专利技术涉及字符串匹配领域,尤其涉及一种最小距离字符串计算查找方法,该专利技术考虑了大数据给字符串匹配带来的性能挑战问题,提出可以明显提升字符串距离计算速度的加速方法。
技术介绍
字符串距离的计算一直以来都是各个领域研究的重点,由于重复内容普遍存在,且表现出一定的复杂性,对各类领域的研究都起到了很大的影响。字符串距离通常被用来计算字符串的相似性,通过字符串相似性计算,可以用于数据清洗、数据分析等各个方面。互联网的高速发展产生了海量的数据内容,大数据分析引起了各个领域专家人士的注意。提高大数据环境下的字符串距离计算速度,对于各个业务的支撑都起到了重要的作用。字符串距离计算的优化对于恶意域名检测系统、抄袭检测系统、搜索引擎等领域都有着重大的影响。字符串的距离计算方法有多种,例如编辑距离算法(Levenshtein Distance),最长公共子串算法(Longest Common Subsequences,LCS)等。所以,如何对相应的算法进行加速,使之适应于海量数据处理的场景,仍有很大的研究价值。目前有各种各样的字符串距离计算方法,但是这些方法大多工作在实验环境之下,缺乏对海量数据场景的支持。如果将其移植到海量数据中,计算速度将成为分析的瓶颈。本专利技术,一种最小字符串距离计算的加速方法,考虑了海量数据处理的情况,提出了一种加速最小字符串距离计算的方法,对于指定的字符串,可以从待计算的数据集合中快速寻找出与之距离最小的字符串。
技术实现思路
本专利技术的目的在于提供一种最小距离字符串计算查找方法,考虑了海量数据处理的情况,对于指定的字符串,可以从待计算的数据集合中寻找出与之距离最小的字符串,并且使计算速度较之前的算法有很大程度的提高。本专利技术的技术关键点在于:1.构建字符串集合对于一个已有的字符串集合,加速算法将从中快速计算出与待计算字符串最相似的字符串所对应的最小距离值。比如,需要进行加速的字符串集合为{aaa,aaa,ccc,ddd,eee本文档来自技高网...

【技术保护点】
一种最小距离字符串计算查找方法,其步骤为:1)对于一字符串集合,判断判断该字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,将得到的结果作为加速索引;2)对于待计算的字符串t,从该字符串集合中找到与字符串t最相似的字符串t’并计算两者之间的距离D(t,t’);然后根据该加速索引判断该字符串集合中的字符串是否满足D(t’,r)≥2D(t,t’);如果满足,则淘汰字符串r;3)根据步骤2)处理结果,确定出与该字符串t距离最小的字符串:如果淘汰后仅剩字符串t’,则t’为与该字符串t距离最小的字符串,如果剩余多个字符串,则分别计算字符串t与每一剩余的字符串的距离,选取距离最小的字符串。

【技术特征摘要】
1.一种最小距离字符串计算查找方法,其步骤为:1)对于一字符串集合,判断判断该字符串集合是否满足加速条件,如果满足,则计算该字符串集合中任意两字符串之间的距离,将得到的结果作为加速索引;2)对于待计算的字符串t,从该字符串集合中找到与字符串t最相似的字符串t’并计算两者之间的距离D(t,t’);然后根据该加速索引判断该字符串集合中的字符串是否满足D(t’,r)≥2D(t,t’);如果满足,则淘汰字符串r;3)根据步骤2)处理结果,确定出与该字符串t距离最小的字符串:如果淘汰后仅剩...

【专利技术属性】
技术研发人员:柳厅文张洋亚静李全刚时金桥郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1