数据的实时汇总以及区间汇总的方法和装置制造方法及图纸

技术编号:31229576 阅读:13 留言:0更新日期:2021-12-08 09:58
本发明专利技术公开了数据的实时汇总以及区间汇总的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:经由HDFS部署基于HBase的预定数目的RegionServer;RegionServer各自按预定字段并行地进行数据汇总,以及将RegionServer的各自的汇总后的数据发送至客户端,用于进行数据的二次汇总。该实施方式降低了完全实时处理和存储;使存储和计算资源放在同一台机器上,最小化数据网络传输从而降低汇总时间;实现对程序无感知的资源扩展;提供对SQL的支持,使可读性更好;以及提供实时汇总和区间汇总两种方式来解决不同数据量场景。据量场景。据量场景。

【技术实现步骤摘要】
数据的实时汇总以及区间汇总的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种数据的实时汇总以及区间汇总的方法和装置。

技术介绍

[0002]当前大量业务数据背景下,对海量实时数据的关联汇总一直是领域内的难题。目前采用的解决方案主要步骤为:将每个业务表实时产生的数据汇总至Kafka的Topic中;采用一个消费应用程序组,将关联字段通过缓存或者回读ElasticSearch方式,将两个业务表程序关联后存入ElasticSearch创建的宽表中去;周期性启动汇总应用程序组读取要汇总时段的宽表数据进行汇总加工并存储到缓存或者关系数据库中。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]‑
ElasticSearch只是准实时存储导致阶段汇总时会丢失数据写入到磁盘的时间间隔内少量数据;
[0005]‑
消费应该程序组和汇总应用程序组独立部署占用大量的机器资源,使整个系统复杂度和风险点剧增;
[0006]‑
计算和数据在不同的机器上,由于数据量巨大导致大量的网络传输,从而导致阶段汇总阶段占用大量网络资源,同时也增加了汇总耗时;
[0007]‑
无论计算资源还是存储资源扩展性都较差;以及
[0008]‑
ElasticSearch API编码可读性差且入门难度高。

技术实现思路

[0009]有鉴于此,本专利技术实施例提供一种数据的实时汇总方法和区间汇总方法及其装置,能够实现:
[0010]‑
完全实时处理和存储;
[0011]‑
使存储和计算资源放在同一台机器上,最小化数据网络传输从而降低汇总时间;
[0012]‑
实现对程序无感知的资源扩展;
[0013]‑
提供对SQL的支持,使可读性更好;以及
[0014]‑
提供实时汇总和区间汇总两种方式来解决不同数据量场景。
[0015]为实现上述目的,根据本专利技术实施例的第一方面,提供了一种数据的实时汇总方法,包括:
[0016]经由HDFS部署基于HBase的预定数目的RegionServer;
[0017]RegionServer各自按预定字段并行进行数据汇总,以及
[0018]将RegionServer的各自的汇总后的数据发送至客户端,用于进行数据的二次汇总。
[0019]优选地,根据第一方面的数据的实时汇总方法,其中,RegionSer ver各自按预定字段进行数据汇总包括如下步骤:
[0020]HBase服务器端接收由客户端发送的SQL查询语句;
[0021]HBase服务器端的所述预定数目的RegionServer按照预定字段解析所接收到的SQL查询语句,以将该SQL查询语句转换为API;以及
[0022]通过API对预先存储的数据表中的数据进行插入或读取处理,将处理操作之后的所述数据表中的数据在各RegionServer进行数据汇总。
[0023]优选地,根据第一方面的数据的实时汇总方法,还包括:所述Reg ionServer的协处理器中预先嵌入有协处理器程序,该协处理器程序根据预先维护好的元数据中的表数据类型将对应的字段数据转为字符流存入到HBase的表中。
[0024]优选地,根据第一方面的数据的实时汇总方法,所述协处理器程序还将所述字段的数据类型和HBase表的主键形成规则记录到所述元数据中存储。
[0025]优选地,根据第一方面的数据的实时汇总方法,其中,在HDFS中进行通过API对预先存储的数据表中的数据进行插入或读取处理,并且返回至所述协处理器。
[0026]优选地,根据第一方面的数据的实时汇总方法,其中,在所述插入或读取处理时,进行对应的所述数据类型和主键转换并返回给客户端。
[0027]优选地,根据第一方面的数据的实时汇总方法,其中,明细数据并通过大规模并行处理进行一次汇总,并且该一次汇总的结果集被返回至客户端。
[0028]根据本专利技术实施例的第二方面,提供了一种数据的区间汇总方法,包括:预先设定调度表达式;以及
[0029]在满足所述调度表达式的状态下,通过调用接口,循环执行根据第一方面所述的数据的实时汇总方法,以得到数据的区间阶段结果。
[0030]优选地,在所述第二方面的数据的区间汇总方法中,还包括:将所述区间阶段结果保存到关系型数据库或者缓存中。
[0031]根据本专利技术实施例的第三方面,提供了一种数据的实时汇总装置,包括:
[0032]扩展模块,该扩展模块经由HDFS部署基于HBase的预定数目的Re gionServer;
[0033]并行汇总模块,该并行汇总模块使RegionServer各自按预定字段并行进行数据汇总;以及
[0034]发送模块,该发送模块将RegionServer的各自的汇总后的数据发送至客户端,用于进行数据的二次汇总。
[0035]根据本专利技术实施例的第四方面,提供了一种数据的区间汇总装置,包括:
[0036]扩展模块,该扩展模块经由HDFS部署基于HBase的预定数目的Re gionServer;
[0037]并行汇总模块,该并行汇总模块使RegionServer各自按预定字段并行进行数据汇总;
[0038]发送模块,该发送模块将RegionServer的各自的汇总后的数据发送至客户端,用于进行数据的二次汇总;以及
[0039]调用模块,在满足预先设定的调度表达式的状态下,该调用模块通过调用接口循环调用所述扩展模块、所述并行汇总模块和所述发送模块,以得到数据的区间阶段结果。
[0040]本实施例的第四方面还提供了一种数据的实时汇总电子设备,其包括:
[0041]一个或多个处理器;
[0042]存储装置,用于存储一个或多个程序,
[0043]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面和第二方面所述的方法。
[0044]本实施例第五方面提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现第一方面和第二方面所述的方法。
[0045]上述专利技术中的一个实施例具有如下优点或有益效果:因为采用HD FS(分布式文件系统)保证存储的扩展性,基于数据节点上的计算程序保证了计算能力随着存储资源线性扩展;另外由于数据在HBase的预定数目的RegionServer处并行地进行一次汇总,能够实现完全实时处理和存储,使存储和计算资源放在同一台机器(服务器端)上,最小化数据网络传输从而降低汇总时间,实现对程序无感知的资源扩展。更近一步地,由于本实施例的方法将SQL转换为API,因此在后续操作中,不需要另外进行ElasticSearch API编码,提供对SQL的支持,使可读性更好。另外,通过按照调度表达式进行调用,提供了实时汇总和区间汇总本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据的实时汇总方法,其特征在于,包括:经由HDFS部署基于HBase的预定数目的RegionServer;RegionServer各自按预定字段并行地进行数据汇总,以及将RegionServer的各自的汇总后的数据发送至客户端,用于进行数据的二次汇总。2.根据权利要求1所述的数据的实时汇总方法,其特征在于,RegionServer各自按预定字段进行数据汇总包括如下步骤:HBase服务器端接收由客户端发送的SQL查询语句;HBase服务器端的所述预定数目的RegionServer按照预定字段解析所接收到的SQL查询语句,以将该SQL查询语句转换为API;以及通过API对预先存储的数据表中的数据进行插入或读取处理,将处理操作之后的所述数据表中的数据在各RegionServer进行数据汇总。3.根据权利要求2所述的数据的实时汇总方法,其特征在于,还包括:所述RegionServer的协处理器中预先嵌入有协处理器程序,该协处理器程序根据预先维护好的元数据中的表数据类型将对应的字段数据转为字符流存入到HBase的表中。4.根据权利要求3所述的数据的实时汇总方法,其特征在于,所述协处理器程序还将所述字段的数据类型和HBase表的主键形成规则记录到所述元数据中。5.根据权利要求4所述的数据的实时汇总方法,其特征在于,在HDFS中进行通过API对预先存储的数据表中的数据进行插入或读取处理,并且返回至所述协处理器。6.根据权利要求5所述的数据的实时汇总方法,其特征在于,在所述插入或读取处理时,进行对应的所述数据类型和主键转换并返回给客户端。7.根据权利要求3所述的数据的实时汇总方法,其特征在于,所述协处理服务程序通过RegionServer获取所有符合预定条件的明细数据并通过大规模并行处理进行一次汇总,并且该一次汇总的结果集被返回至客户端。8....

【专利技术属性】
技术研发人员:许奎
申请(专利权)人:西安京迅递供应链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1