一种存储系统中关联块的快速挖掘方法技术方案

技术编号:17812830 阅读:30 留言:0更新日期:2018-04-28 05:33
本发明专利技术公开了一种存储系统中关联块的快速挖掘方法,属于计算机信息存储领域。本发明专利技术首先将被频繁顺序访问的连续数据块识别出来,然后被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区,简化原始的数据访问记录,采用关联数据块挖掘算法对简化后的数据访问记录进行挖掘,将挖掘出的频繁序列中的顺序访问连续数据区域替换为其所对应的各数据块,得到最终的关联块挖掘结果,通过大量减少关联数据块挖掘过程中顺序访问的频繁连续数据所需的时间和空间开销,本方法可以大幅提高存储系统中关联块的挖掘效率。

【技术实现步骤摘要】
一种存储系统中关联块的快速挖掘方法
本专利技术属于计算机信息存储领域,更具体地,涉及一种存储系统中关联块的快速挖掘方法。
技术介绍
关联数据块在存储系统中有很大的研究价值,例如在预取一个数据块是将关联访问的数据块一起预取,后续请求的数据在缓存中命中则会提高响应速度,又例如将关联访问的数据块存放在存储设备的同一区域,访问这些关联的数据块时能达到更快的速度。经典的关联块挖掘算法要消耗大量的计算和存储资源,现有方法在存储系统中往往以较低的频率进行关联块挖掘,对负载的变化响应不及时。尤其在大数据时代随着数据量的急剧增长,关联数据块挖掘的开销问题变得尤为明显。采用高效快速的关联块挖掘算法,是存储系统适应负载变化的关键,也是提高存储效率的关键。存储系统中有很大部分的关联访问是由顺序访问请求产生的,例如一些较大的文件包含的多个数据块,这些数据块存放在一片连续的区域;或者多个连续访问的文件,它们的数据块存放在一片连续的空间。当这些文件被访问时,它们所包含的数据块也被顺序访问。现有关联块挖掘算法在历史访问记录中挖掘这些顺序访问的关联块时,需要消耗大量的计算时间和存储空间。减少关联块挖掘过程中对顺序访问数据块的挖掘开销,能够有效减少挖掘的整体开销,提高效率。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种存储系统中关联块的快速挖掘方法,其目的在于首先将频繁顺序访问数据区识别出来,之后将每个频繁顺序访问数据区当作一个整体,简化访问记录,再采用关联数据块挖掘算法对简化后的访问记录进行挖掘,得到最终挖掘结果,由此解决现有的关联块挖掘算法效率不高的技术问题。为实现上述目的,本专利技术提供了一种存储系统中关联块的快速挖掘方法,所述方法包括一下步骤:(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;(2)为每个频繁顺序访问数据区指定一个代号;(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;所述关联数据块挖掘算法可采用prefixspan算法或clospan算法,优选clospan算法;(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。进一步地,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。进一步地,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值范围为[8~1024],优选32,访问阈值根据具体应用场景设定。进一步地,所述步骤(1)具体包括一下步骤:(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;(12)若数据块被访问次数大于访问阈值,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区。进一步地,所述为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有以下技术特征及有益效果:(1)采用了基于频繁顺序访问数据区的历史记录约简方法,能够大幅减少关联块挖掘过程中的时间和空间开销;(2)采用了顺序访问计数与访问计数比对的方法,能够快速识别频繁顺序访问数据区。附图说明图1是本专利技术方法实施例的实施流程图;图2是本专利技术方法实施例中识别频繁顺序访问数据区的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。如图1所示,本专利技术方法实施例包括以下步骤:(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;(2)为每个频繁顺序访问数据区指定一个代号;(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;(4)对替换访问记录使用clospan算法挖掘关联数据块;(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。其中,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。其中,所述被频繁顺序访问的连续数据块是地址上连续的多个数据块,且所述多个数据块被顺序访问,访问次数大于访问阈值;所述访问阈值取值32。其中,实施例中识别频繁顺序访问数据区如图2所示,具体包括一下步骤:(11)遍历访问记录,记录每个数据块的访问次数和顺序访问次数,有请求访问数据块时,当前请求所访问的数据块的访问次数加1,并判断当前请求与上一个请求所访问的数据块地址是否连续,若连续,则将当前请求所访问的数据块的顺序访问次数加1,否则不增加;(12)若数据块被访问次数大于32,并且它的访问次数与顺序访问次数相等,则将该数据块标记为被频繁顺序访问的数据块;(13)将地址上连续的被频繁顺序访问的数据块组成频繁顺序访问数据区,如图2中频繁顺序访问数据区1和频繁顺序访问数据区2。其中,为每个频繁顺序访问数据区指定的代号要选择存储系统所有数据块的地址空间之外的值,且每个代号各不相同。以上内容本领域的技术人员容易理解,以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
一种存储系统中关联块的快速挖掘方法

【技术保护点】
一种存储系统中关联块的快速挖掘方法,其特征在于,所述方法包括一下步骤:(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;(2)为每个频繁顺序访问数据区指定一个代号;(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。

【技术特征摘要】
1.一种存储系统中关联块的快速挖掘方法,其特征在于,所述方法包括一下步骤:(1)根据访问记录识别出所有被频繁顺序访问的连续数据块,所述被频繁顺序访问的连续数据块组成一个频繁顺序访问数据区;(2)为每个频繁顺序访问数据区指定一个代号;(3)在访问记录中,用所述代号替换对应频繁顺序访问数据区中的数据块,生成一个替换访问记录;(4)对替换访问记录使用关联数据块挖掘算法挖掘关联数据块;(5)在挖掘结果中,将代号替换回对应频繁顺序访问数据区的数据块,得到最终挖掘结果。2.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述访问记录记录了一段时间内存储系统收到的访问请求,每一个访问请求按时间先后顺序对应一条记录信息,记录信息包括但不限于被请求访问的数据块的地址。3.根据权利要求1所述的一种关联块的快速挖掘方法,其特征在于,所述被频繁顺序访问的连续数据块...

【专利技术属性】
技术研发人员:谭支鹏周炜冯丹徐高翔张鑫
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1