面向高通量数据流的分布式索引结构及负载均衡方法技术

技术编号:30536615 阅读:18 留言:0更新日期:2021-10-30 13:11
一种面向高通量数据流的分布式索引结构及负载均衡方法,所述方法包括以下过程:高通量数据流的接收,底层索引构建和发布,顶层索引构建和发布,数据流和分布式索引的高效存储,查询处理,集群负载均衡,提供高并发的近实时查询服务。本发明专利技术提出一种面向多源、高通量大数据流的分布式索引结构及负载均衡方法,实现多源、高通量大数据流的接收,对海量数据流快速构建索引并高效存储,提供高并发的近实时查询服务,对分布式集群各节点实现负载均衡。对分布式集群各节点实现负载均衡。对分布式集群各节点实现负载均衡。

【技术实现步骤摘要】
面向高通量数据流的分布式索引结构及负载均衡方法


[0001]本专利技术涉及高通量数据流分布式存储、索引构建与查询技术,涉及一种以高通量数据流为背景的负载均衡方法。

技术介绍

[0002]近年来,流式数据广泛存在于互联网、工业物联网和个人健康监测等各种应用场景中。流式数据即为数据流元组(简称流元组)的无序序列,即为数据流。本专利技术中涉及对数据流的分布式存储和查询,流元组形式为<stts,st>,其中“stts”指流元组的时间戳,“st”指流元组具体代表的内容,并涉及数据流分布式存储和查询过程中的分布式节点间的负载均衡。
[0003]数据流具有实时性、突发性、无限性和易失性,使得数据流实时存储问题对于数据流管理来说仍是一大难题。同时,对数据流构建合适的索引至关重要,方便对海量数据流的后续的即时查询以及深度分析。现有研究人员针对传感器网络中异构数据流构建位图索引,但是其应用场景具有一定的局限性。基于时间窗口的数据流管理和分析处理是重要的应用场景之一,如高铁列车数据流。一辆高铁列车上装有一千多个传感器实时监测列车的运行状态,其数据流呈现无限性,因此需要对每个时间段的数据进行存储、管理、处理和分析,本专利技术可以处理该场景下的数据流的存储和查询。
[0004]在多源、高通量数据流背景下,单台机器无法完成数据流接收、索引构建、数据存储、查询请求实时响应,所以本专利技术提出分布式场景下的解决方案以及集群负载均衡策略。负载均衡,其含义就是指将负载(工作任务)进行均衡分摊到多个操作单元上,协同完成工作任务。负载均衡可以通过软件或者硬件来实现,分别称为软件负载均衡和硬件负载均衡。根据负载均衡实现的位置,又可以分为本地负载均衡和全局负载均衡,用以确定负载均衡覆盖的服务器的范围。本专利技术可以处理分布式场景下的数据流接收节点、索引构建节点、数据存储节点和查询请求响应节点的负载均衡。

技术实现思路

[0005]针对以上问题,本专利技术提出一种面向多源、高通量大数据流的分布式索引结构及负载均衡方法,实现多源、高通量大数据流的接收,对海量数据流快速构建索引并高效存储,提供高并发的近实时查询服务,对分布式集群各节点实现负载均衡。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种面向高通量数据流的分布式索引结构及负载均衡方法,所述方法包括以下过程:高通量数据流的接收,底层索引构建和发布,顶层索引构建和发布,数据流和分布式索引的高效存储,查询处理,集群负载均衡,提供高并发的近实时查询服务。
[0008]进一步,采用了两层的分布式索引结构,最底层是基于流元组的B+树索引,顶层是基于数据源时间窗口的索引。
[0009]再进一步,分布式集群包括数据流接收节点、一级协调结点、二级协调结点、查询
节点、存储节点五种节点,所述数据流接收节点负责数据流的接收和排序;一级协调结点负责数据流接收节点、查询节点、存储节点、二级协调节点的负载均衡,顶层索引的构建及发布,查询请求的发布;二级协调节点负责数据流指针的接收,底层索引的构建及分发;查询节点负责底层索引和顶层索引的存储,查询处理;存储节点负责数据流、底层索引和顶层索引的持久化存储。
[0010]更进一步,分布式索引的构建步骤包括:
[0011]1)根据负载均衡策略由指定的数据流接收节点实时接收和缓存流元组,并对流元组进行归并排序;
[0012]2)数据流接受节点将数据流指针发布至负载均衡策略指定的二级协调节点;
[0013]3)二级协调节点构建底层索引,并将其发布到负载均衡策略指定的查询节点;
[0014]4)一级协调节点根据本地存储的底层索引对应的时间及存储位置完成顶层索引的插入构建,并以广播的形式将顶层索引分发到所有查询节点;
[0015]5)数据流元组初始缓存在数据流接收节点,在特定条件下将数据迁移到指定的存储节点上,数据迁移结束后,修改二级协调结点和查询节点上底层索引中指向流元组的指针,底层索引初始缓存在查询节点,在特定条件下将底层索引迁移到指定的存储节点上,底层索引迁移结束后,修改一级协调节点和查询节点上顶层索引中指向底层索引根节点的指针。
[0016]流元组查询的步骤包括:
[0017]1)一级协调节点根据负载均衡策略将查询请求转发到相应的查询节点;
[0018]2)查询节点响应查询请求,利用分布式索引定位流元组,若流元组不存在,则直接返回;若存在,到流元组所在节点的相应位置获取数据并返回。
[0019]为了提高分布式索引构建和分发效率,且集群各种节点存储和处理能力有限,无法应对快速增长的数据流应用场景,数据流和分布式索引初始分别缓存在数据流接收节点和查询节点中,在数据流流速较快、节点内存紧张、节点数据处理能力不够条件下触发数据迁移,将数据流和分布式索引从数据流接收节点和查询节点迁移到存储节点中。
[0020]为了实现数据流接收和排序的负载均衡、底层索引构建和发布的负载均衡、数据流和分布式索引持久化存储的负载均衡、以及查询处理的负载均衡,即实现数据流接受节点间的负载均衡、二级协调节点间的负载均衡、查询节点间的负载均衡和存储节点间的负载均衡,本方案选取数据流接收节点的十四个参数作为性能评价指标,选取二级协调节点的十一个参数作为性能评价指标,选取查询节点的十九个参数作为性能评价指标,选取存储节点的十三个参数作为性能评价指标。
[0021]负载均衡的步骤包括:
[0022]1)一级协调节点通过从各个节点收到的所有参数值乘以当前参数权重并求和得出数据流接收节点、二级协调结点、查询节点和存储节点的最终权重值,参数的权重通过层次分析法适配;
[0023]2)一级协调节点根据所有数据流接受节点、二级协调节点、查询结点和存储节点IP地址辅以KETAMA_HASH映射函数分别构建四个哈希环,并依据节点的最终权重值扩充虚拟结点;
[0024]3)一级协调节点接收数据流接收请求、底层索引构建请求、查询请求、持久化存储
请求,根据其IP地址辅以KETAMA_HASH映射函数映射在上述四个哈希环上,映射成功后沿哈希环顺时针寻找到第一个低负载结点进行任务发布。
[0025]在分布式集群中,一级协调节点维护着所有节点的信息,在实现各种任务负载均衡的同时,若发现集群中的任何一类节点负载过大时,就可以动态增加该类节点,增加节点后,一级协调节点动态调整该类节点集群的负载使得该类节点正常运行。
[0026]本专利技术的有益效果主要表现在:实现多源、高通量大数据流的接收,对海量数据流快速构建索引并高效存储,提供高并发的近实时查询服务,对分布式集群各节点实现负载均衡。
附图说明
[0027]图1是本专利技术的分布式索引架构示意及数据流动图;
[0028]图2是本专利技术的两层分布式索引结构示意图;
[0029]图3是本专利技术的两层索引结构中的底层索引结构示意图;
[0030]图4是本专利技术的两层索引结构中的顶层索引本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向高通量数据流的分布式索引结构及负载均衡方法,其特征在于,所述方法包括以下过程:高通量数据流的接收,底层索引构建和发布,顶层索引构建和发布,数据流和分布式索引的高效存储,查询处理,集群负载均衡,提供高并发的近实时查询服务。2.如权利要求1所述的面向高通量数据流的分布式索引结构及负载均衡方法,其特征在于:采用了两层的分布式索引结构,最底层是基于流元组的B+树索引,顶层是基于数据源时间窗口的索引。3.如权利要求1或2所述的面向高通量数据流的分布式索引结构及负载均衡方法,其特征在于:分布式集群包括数据流接收节点、一级协调结点、二级协调结点、查询节点、存储节点五种节点,所述数据流接收节点负责数据流的接收和排序;一级协调结点负责数据流接收节点、查询节点、存储节点、二级协调节点的负载均衡,顶层索引的构建及发布,查询请求的发布;二级协调节点负责数据流指针的接收,底层索引的构建及分发;查询节点负责底层索引和顶层索引的存储,查询处理;存储节点负责数据流、底层索引和顶层索引的持久化存储。4.如权利要求3所述的面向高通量数据流的分布式索引结构及负载均衡方法,其特征在于:分布式索引的构建步骤包括:1)根据负载均衡策略由指定的数据流接收节点实时接收和缓存流元组,并对流元组进行归并排序;2)数据流接受节点将数据流指针发布至负载均衡策略指定的二级协调节点;3)二级协调节点构建底层索引,并将其发布到负载均衡策略指定的查询节点;4)一级协调节点根据本地存储的底层索引对应的时间及存储位置完成顶层索引的插入构建,并以广播的形式将顶层索引分发到所有查询节点;5)数据流元组初始缓存在数据流接收节点,在特定条件下将数据迁移到指定的存储节点上,数据迁移结束后,修改二级协调结点和查询节点上底层索引中指向流元组的指针,底层索引初始缓存在查询节点,在特定条件下将底层索引迁移到指定的存储节点上,底层索引迁移结束后,修改一级协调节点和查询节点上顶层索引中指向底层索引根节点的指针。5.如权利要求3所述的面向高通量数据流的分布式索引结构及负载均衡方法,其特征在于:流元组查询的步骤包括:1)一级协调节点根据负载均衡策略将查询请求转发到相应的查询节点;2)查询节点响应查询请求,利用分布式索引定位流元组,若流元组不存在,则直接返回;...

【专利技术属性】
技术研发人员:范玉雷赵懂佳许铃冰王俊凯周郑杰周科宇
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1