当前位置: 首页 > 专利查询>深圳大学专利>正文

一种面向大数据的索引优化方法技术

技术编号:27975410 阅读:61 留言:0更新日期:2021-04-06 14:09
本发明专利技术提供了一种面向大数据的索引优化方法,所述方法包括:获取历史索引和数据访问信息,根据历史索引和数据访问信息确定多个候选数据索引结构;根据多个候选数据索引结构中各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围,从多个候选数据索引结构中确定目标数据索引结构;根据目标数据索引结构对树索引结构进行优化。本发明专利技术根据各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围确定目标数据索引结构,并根据目标数据索引结构对树索引结构进行优化,从而为快速数据检索提供了均衡的索引结构,加速了地理空间大数据的检索,提高了从大数据中探索价值的能力。

【技术实现步骤摘要】
一种面向大数据的索引优化方法
本专利技术涉及数据索引
,尤其涉及的是一种面向大数据的索引优化方法。
技术介绍
索引是一种辅助数据的结构,可加快针对大数据集的数据检索速度。空间索引或时空索引通过利用数据之间的空间关系显著改善地理空间大数据检索性能,并支持各种时空运算符,这些基本的时空运算符对于在大数据集中快速定位所需的数据记录至关重要。由于可扩展性有限,传统的独立计算机索引方法已成为索引爆炸式增长数据的主要瓶颈。在大数据时代,分布式和并行式是处理大数据的两个基本策略,在这两个基本策略中,大数据问题被划分为较小的子问题,这些子问题可以由可伸缩计算机集群并行处理,从而显著提高空间大数据的可访问性和可扩展性。现有的分布式计算环境虽然有多种数据索引结构可供使用,但由于缺乏关键索引优化方法,导致其无法满足空间大数据价值挖掘的要求。因此,现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处,本专利技术的目的在于提供一种面向大数据的索引优化方法,克服现有的分布式计算环境由于缺乏关键索引优化方法,导致其无法满足空间大数据价值挖掘的要求的问题。本专利技术所公开的第一实施例为一种面向大数据的索引优化方法,其中,包括以下步骤:获取历史索引和数据访问信息,根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构;其中,各个所述候选数据索引结构均包括若干计算节点及与各个所述计算节点对应的若干数据节点;获取多个所述候选数据索引结构中各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围;根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,从多个所述候选数据索引结构中确定目标数据索引结构;根据所述目标数据索引结构对所述树索引结构进行优化。所述的面向大数据的索引优化方法,其中,所述根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构的步骤具体包括:根据所述历史索引和数据访问记录,以最小化所述数据节点数、所述数据节点访问概率和所述数据空间覆盖范围为目标,采用启发式贪婪算法确定预先构建的树索引结构对应的多个候选数据索引结构。所述的面向大数据的索引优化方法,其中,所述获取多个所述候选数据索引结构中各计算节点对应的数据访问概率的步骤包括:根据所述历史索引和数据访问记录确定多个所述候选数据索引结构中各数据节点的访问概率;根据各数据节点的访问概率及各计算节点对应的数据节点,确定各计算节点对应的数据访问概率。所述的面向大数据的索引优化方法,其中,所述获取多个所述候选数据索引结构中各计算节点对应的数据空间覆盖范围的步骤包括:获取多个所述候选数据索引结构中各计算节点对应的最小外接矩形;其中,各计算节点对应的数据节点位于各计算节点对应的最小外接矩形内;计算各计算节点对应的最小外接矩形的面积,并将所述面积作为各计算节点对应的数据空间覆盖范围。所述的面向大数据的索引优化方法,其中,所述根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,从多个所述候选数据索引结构中确定目标数据索引结构的步骤包括:根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,确定各个所述候选数据索引结构对应的索引罚分值;根据所述索引罚分值从多个所述候选数据索引结构中确定目标数据索引结构。所述的面向大数据的索引优化方法,其中,所述根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,确定各个所述候选数据索引结构对应的索引罚分值的步骤包括:根据所述数据节点数,确定数据罚分值;根据所述数据访问概率,确定访问罚分值;根据所述数据空间覆盖范围,确定拓扑罚分值;根据所述数据罚分值、所述访问罚分值以及所述拓扑罚分值,确定各个所述候选数据索引结构对应的索引罚分值。所述的面向大数据的索引优化方法,其中,所述数据罚分值、所述访问罚分值和所述拓扑罚分值的计算公式为:其中,Penalty为数据罚分值、访问罚分值或拓扑罚分值,N为各个候选数据索引结构对应的计算节点数,xi为数据节点数、数据访问概率或数据空间覆盖范围,μ为xi的平均值。所述的面向大数据的索引优化方法,其中,所述根据所述索引罚分值从多个所述候选数据索引结构中确定目标数据索引结构的步骤包括:将多个所述候选数据索引结构对应的索引罚分值进行比较,从多个所述候选数据索引结构中获取索引罚分值最小的候选数据索引结构;将索引罚分值最小的候选数据索引结构确定为目标数据索引结构。有益效果,本专利技术提供了一种面向大数据的索引优化方法,首先获取历史索引和数据访问信息,根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构,然后,获取多个所述候选数据索引结构中各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围,随后,根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,从多个所述候选数据索引结构中确定目标数据索引结构,然后,根据所述目标数据索引结构对所述树索引结构进行优化,通过各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围确定目标数据索引结构,并根据目标数据索引结构对树索引结构进行优化,从而为快速数据检索提供了均衡的索引结构,加速了地理空间大数据的检索,提高了从大数据中探索价值的能力。附图说明图1是本专利技术实施例中提供的一种面向大数据的索引优化方法的一个实施例的流程图;图2是专利技术实施例中提供的一种分布式访问模式的R树索引结构的结构示意图;图3是专利技术实施例中提供的一种数据索引结构的结构示意图;图4是图3中的数据索引结构中各计算节点对应的数据空间覆盖范围的结构示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供的一种面向大数据的索引优化方法,可以应用于终端中。其中,终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。本专利技术的终端采用多核处理器。其中,终端的处理器可以为中央处理器(CentralProcessingUnit,CPU),图形处理器(GraphicsProcessingUnit,GPU)、视频处理单元(VideoProcessingUnit,VPU)等中的至少一种。随着地球观测系统的快速发展,卫星,机载和地面遥感系统可提供具有高空间,时间和辐射分辨率的地球观测数据,地理空间数据在全球范围内以前所未有的速度收集和积累,这种爆炸式增长的数据被称为大数据。而从“大数据”中快速产生“大价值”已成为整个科学领域最重要的科学问题之一,为了应对这方面的挑战,关键在于大数据分析方法,而大数据索引是大数据与大数据分析之间的桥梁。索引是一种辅助数本文档来自技高网...

【技术保护点】
1.一种面向大数据的索引优化方法,其特征在于,包括以下步骤:/n获取历史索引和数据访问信息,根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构;其中,各个所述候选数据索引结构均包括若干计算节点及与各个所述计算节点对应的若干数据节点;/n获取多个所述候选数据索引结构中各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围;/n根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,从多个所述候选数据索引结构中确定目标数据索引结构;/n根据所述目标数据索引结构对所述树索引结构进行优化。/n

【技术特征摘要】
1.一种面向大数据的索引优化方法,其特征在于,包括以下步骤:
获取历史索引和数据访问信息,根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构;其中,各个所述候选数据索引结构均包括若干计算节点及与各个所述计算节点对应的若干数据节点;
获取多个所述候选数据索引结构中各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围;
根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,从多个所述候选数据索引结构中确定目标数据索引结构;
根据所述目标数据索引结构对所述树索引结构进行优化。


2.根据权利要求1所述的面向大数据的索引优化方法,其特征在于,所述根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构的步骤具体包括:
根据所述历史索引和数据访问记录,以最小化所述数据节点数、所述数据节点访问概率和所述数据空间覆盖范围为目标,采用启发式贪婪算法确定预先构建的树索引结构对应的多个候选数据索引结构。


3.根据权利要求1所述的面向大数据的索引优化方法,其特征在于,所述获取多个所述候选数据索引结构中各计算节点对应的数据访问概率的步骤包括:
根据所述历史索引和数据访问记录确定多个所述候选数据索引结构中各数据节点的访问概率;
根据各数据节点的访问概率及各计算节点对应的数据节点,确定各计算节点对应的数据访问概率。


4.根据权利要求1所述的面向大数据的索引优化方法,其特征在于,所述获取多个所述候选数据索引结构中各计算节点对应的数据空间覆盖范围的步骤包括:
获取多个所述候选数据索引结构中各计算节点对应的最小外接矩形;其中,各计算节点对应的数据节点位于各计算节点对应的最小外接矩形内;
计算各计算节点对应的最小外接矩形的面积,并将所...

【专利技术属性】
技术研发人员:夏吉喆涂伟乐阳罗纬
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1