基于高频数据处理进行数据并行查询加速的方法和设备技术

技术编号:36902957 阅读:18 留言:0更新日期:2023-03-18 09:22
本发明专利技术涉及大数据处理相关领域,具体为基于高频数据处理进行数据并行查询加速的方法和设备,本发明专利技术通过设置接收模块和判断推送模块,用于接收和处理用户的发出的数据查询请求,其中数据查询请求生成执行计划,并由判断推送模块完成执行计划对第一从属节点中高频数据查询,而数据调整模块对原始数据进行实时调整分类,访问频率大于数据调整模块中的预设频率阈值的数据为高频率数据,再由用户查看模块将第一主节点中查询结果展示给用户,以此实现对高频数据并行查询性能、响应速度和大数据处理能力的提升,同时减少数据规模增长对高频数据处理性能的影响,进而提供良好的扩展性、稳定性、灵活性和结果准确性。灵活性和结果准确性。灵活性和结果准确性。

【技术实现步骤摘要】
基于高频数据处理进行数据并行查询加速的方法和设备


[0001]本专利技术涉及大数据处理相关领域,具体为基于高频数据处理进行数据并行查询加速的方法和设备。

技术介绍

[0002]大规模静态数据是指数据达到一定量的数据集合,能够为精准决策提供支撑,是互联网、终端智能设备等兴起和普及的产物,数据量级别也有不同划分,如TB级、PB级或ZB级。在大数据时代,其数据量级仍在快速增加。为满足这种大规模数据存储和处理需求,目前行业中广泛采用分布式系统,将数据分散存储在多台独立的数据节点(服务器设备)上。同时在此基础上,引入了全内存计算技术,实现了内存既能处理数据,也能存储数据,并基于内存计算技术将最初分布式系统采用的物理介质由磁盘替换成内存,推出了面向大规模规模的分布式全内存数据库管理系统。
[0003]现有技术中分布式全内存数据库管理系统具备非常灵活的扩展性和高效的数据处理能力,通过灵活扩展及多台服务器设备共同分担存储和计算负荷,满足大规模数据存储的要求,保障系统具备更好的可靠性、可用性和可扩展性;凭借内存计算,该系统提供了最快的数据存取效率。
[0004]分布式全内存数据库管理系统运行通过部署分布式集群来支撑,集群中有多个数据存储节点和至少一个负责任务调度和资源管理的主节点。在处理数据查询请求时,主节点负责接收用户请求,并将任务分解下推至各个数据存储节点上获取数据块,然后将数据块合并成结果数据反馈给用户。尽管相比单机处理和基于磁盘分布式系统,该系统已经在扩展性、处理性能、响应速度等方面均已得到极大改善和提升,但在数据量越来越大且增长迅速的应用场景中,在数据超过一定规模,在大规模数据中找到符合查询条件的数据仍然需要消耗较长的时间,使得系统的查询性能受到较大影响,响应效率也愈加偏离实时性。
[0005]由此可见,如何最大化保证大数据并行处理和查询效率不受数据增长的影响,进而提升大数据并行处理和查询效率,成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0006]本专利技术的目的在于提供基于高频数据处理进行数据并行查询加速的方法和设备,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于高频数据处理进行数据并行查询加速的方法,其特征在于,包括以下步骤:步骤S1、基于云端服务器模块搭建第一集群、第二集群和第三集群,其中第一集群包括一个第一主节点和若干个第一从属节点,第二集群包括一个第二主节点和若干个第二从属节点,第三集群包括一个第三主节点和若干个第三从属节点;步骤S2、对步骤S1中的第一从属节点、第二从属节点和第三从属节点建立分布式数据库,其中第一从属节点用于储存高频数据,第二从属节点用于储存低频率数据,第三从
属节点用于储存大规模静态数据;步骤S3、用户向接收模块发送数据查询请求,接收模块将查询请求发送给判断推送模块,判断推送模块将数据查询请求发送给第一主节点,第一主节点中不存在匹配数据,判断推送模块将数据查询请求推送给第二主节点,第二主节点中不存在匹配数据,判断推送模块将数据查询请求推送给第三主节点,直至查询结果反馈给用户查看模块;步骤S4、当步骤S3中第一主节点接收判断推送模块发送的数据查询请求并生成执行计划,同时执行计划分成若干份,分别发送给不同的第一从属节点进行查询,然后将各个第一从属节点将查询结果汇总到第一主节点;当第一从属节点没有查询到结果时,判断推送模块将数据查询请求发送给第二主节点并生成执行计划,同时执行计划分成若干份,分别发送给不同的第二从属节点进行查询,然后将各个第二从属节点将查询结果汇总到第二主节点;当第二从属节点没有查询到结果时,判断推送模块将数据查询请求发送给第三主节点并生成执行计划,同时执行计划分成若干份,分别发送给不同的第三从属节点进行查询,然后将各个第三从属节点将查询结果汇总到第三主节点。
[0008]优选的,所述步骤S1中第三从属节点按负载均衡均匀存储存放原始数据。
[0009]优选的,所述步骤S2中高频数据为访问频率大于数据调整模块中的预设频率阈值的数据,低频率数据为访问频率大于零且小于数据调整模块中的预设频率阈值的数据,大规模静态数据为访问频率为零的数据。
[0010]优选的,所述数据调整模块根据原始数据访问频率,将相应的原始数据按负载均衡进行分组后自动分配调整到对应的第一从属节点、第二从属节点和第三从属节点。
[0011]优选的,所述数据调整模块中的预设频率阀值通过用户或员工进行认为设定。
[0012]优选的,所述判断推送模块的数据查询请求利用RMI方法送至第一集群、第二集群和第三集群中的各个节点进行分布式查询。
[0013]优选的,一种基于高频数据处理进行数据并行查询加速的设备,包括云端服务器模块、接收模块、判断推送模块、数据调整模块和用户查看模块,其特征在于:所述云端服务器模块用于搭建第一集群、第二集群和第三集群,且第一集群、第二集群和第三集群每个都包含一个主控节点和若干个从属节点;所述接收模块用于接收用户发送的数据查询请求,其中查询请求中携带查询条件;所述判断推送模块用于接收接收模块中的数据查询请求,并根据查询请求生成执行计划,再将执行计划分成若干份,并依次判断执行计划在第一从属节点、第二从属节点和第三从属节点中是否查询到结果;所述数据调整模块用于对原始数据进行实时调整分类,其中访问频率大于数据调整模块中的预设频率阈值的数据为高频率数据,访问频率大于零且小于预设频率阈值的数据为低频率数据,大规模静态数据为访问频率为零的数据;所述用户查看模块用于用户查看第一主节点、第二主节点或第三主节点中满足查询条件的查询结果。
[0014]与现有技术相比,本专利技术的有益效果是:本专利技术通过设置接收模块和判断推送模块,用于接收和处理用户的发出的数据查询请求,其中数据查询请求生成执行计划,并由判断推送模块完成执行计划对第一从属节点中高频数据查询,而数据调整模块对原始数据进
行实时调整分类,访问频率大于数据调整模块中的预设频率阈值的数据为高频率数据,再由用户查看模块将第一主节点中查询结果展示给用户,以此实现对高频数据并行查询性能、响应速度和大数据处理能力的提升,同时减少数据规模增长对高频数据处理性能的影响,进而提供良好的扩展性、稳定性、灵活性和结果准确性。
附图说明
[0015]图1为本专利技术的方法流程示意框图;图2为本专利技术的设备结构示意图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]请参阅图1

2,本专利技术提供一种技术方案:一种基于高频数据处理进行数据并行查询加速的方法,其特征在于,包括以下步骤:步骤S1、基于云端服务器模块搭建第一集群、第二集群和第三集群,其中第一集群包括一个第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高频数据处理进行数据并行查询加速的方法,其特征在于,包括以下步骤:步骤S1、基于云端服务器模块搭建第一集群、第二集群和第三集群,其中第一集群包括一个第一主节点和若干个第一从属节点,第二集群包括一个第二主节点和若干个第二从属节点,第三集群包括一个第三主节点和若干个第三从属节点;步骤S2、对步骤S1中的第一从属节点、第二从属节点和第三从属节点建立分布式数据库,其中第一从属节点用于储存高频数据,第二从属节点用于储存低频率数据,第三从属节点用于储存大规模静态数据;步骤S3、用户向接收模块发送数据查询请求,接收模块将查询请求发送给判断推送模块,判断推送模块将数据查询请求发送给第一主节点,第一主节点中不存在匹配数据,判断推送模块将数据查询请求推送给第二主节点,第二主节点中不存在匹配数据,判断推送模块将数据查询请求推送给第三主节点,直至查询结果反馈给用户查看模块;步骤S4、当步骤S3中第一主节点接收判断推送模块发送的数据查询请求并生成执行计划,同时执行计划分成若干份,分别发送给不同的第一从属节点进行查询,然后将各个第一从属节点将查询结果汇总到第一主节点;当第一从属节点没有查询到结果时,判断推送模块将数据查询请求发送给第二主节点并生成执行计划,同时执行计划分成若干份,分别发送给不同的第二从属节点进行查询,然后将各个第二从属节点将查询结果汇总到第二主节点;当第二从属节点没有查询到结果时,判断推送模块将数据查询请求发送给第三主节点并生成执行计划,同时执行计划分成若干份,分别发送给不同的第三从属节点进行查询,然后将各个第三从属节点将查询结果汇总到第三主节点。2.根据权利要求1所述的一种基于高频数据处理进行数据并行查询加速的方法,其特征在于:所述步骤S1中第三从属节点按负载均衡均匀存储存放原始数据。3.根据权利要求1所述的一种基于高频数据处理进行数据并行查询加速...

【专利技术属性】
技术研发人员:王硕亢瑞卿杜国超苏鹏李达亢志邦
申请(专利权)人:北京开运联合信息技术集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1