数据的实时汇总以及区间汇总的方法和装置制造方法及图纸

技术编号：31229576 阅读：13 留言：0更新日期：2021-12-08 09:58

本发明专利技术公开了数据的实时汇总以及区间汇总的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：经由HDFS部署基于HBase的预定数目的RegionServer；RegionServer各自按预定字段并行地进行数据汇总，以及将RegionServer的各自的汇总后的数据发送至客户端，用于进行数据的二次汇总。该实施方式降低了完全实时处理和存储；使存储和计算资源放在同一台机器上，最小化数据网络传输从而降低汇总时间；实现对程序无感知的资源扩展；提供对SQL的支持，使可读性更好；以及提供实时汇总和区间汇总两种方式来解决不同数据量场景。据量场景。据量场景。

全部详细技术资料下载

【技术实现步骤摘要】
数据的实时汇总以及区间汇总的方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种数据的实时汇总以及区间汇总的方法和装置。

技术介绍

[0002]当前大量业务数据背景下，对海量实时数据的关联汇总一直是领域内的难题。目前采用的解决方案主要步骤为：将每个业务表实时产生的数据汇总至Kafka的Topic中；采用一个消费应用程序组，将关联字段通过缓存或者回读ElasticSearch方式，将两个业务表程序关联后存入ElasticSearch创建的宽表中去；周期性启动汇总应用程序组读取要汇总时段的宽表数据进行汇总加工并存储到缓存或者关系数据库中。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：
[0004]‑
ElasticSearch只是准实时存储导致阶段汇总时会丢失数据写入到磁盘的时间间隔内少量数据；
[0005]‑
消费应该程序组和汇总应用程序组独立部署占用大量的机器资源，使整个系统复杂度和风险点剧增；
[0006]‑
计算和数据在不同的机器上，由于数据量巨大导致大量的网络传输，从而导致阶段汇总阶段占用大量网络资源，同时也增加了汇总耗时；
[0007]‑
无论计算资源还是存储资源扩展性都较差；以及
[0008]‑
ElasticSearch API编码可读性差且入门难度高。

技术实现思路

[0009]有鉴于此，本专利技术实施例提供一种数据的实时汇总方法和区间汇总方法及其装置，...

【技术保护点】

【技术特征摘要】
1.一种数据的实时汇总方法，其特征在于，包括：经由HDFS部署基于HBase的预定数目的RegionServer；RegionServer各自按预定字段并行地进行数据汇总，以及将RegionServer的各自的汇总后的数据发送至客户端，用于进行数据的二次汇总。2.根据权利要求1所述的数据的实时汇总方法，其特征在于，RegionServer各自按预定字段进行数据汇总包括如下步骤：HBase服务器端接收由客户端发送的SQL查询语句；HBase服务器端的所述预定数目的RegionServer按照预定字段解析所接收到的SQL查询语句，以将该SQL查询语句转换为API；以及通过API对预先存储的数据表中的数据进行插入或读取处理，将处理操作之后的所述数据表中的数据在各RegionServer进行数据汇总。3.根据权利要求2所述的数据的实时汇总方法，其特征在于，还包括：所述RegionServer的协处理器中预先嵌入有协处理器程序，该协处理器程序根据预先维护好的元数据中的表数据类型将对应的字段数据转为字符流存入到HBase的表中。4.根据权利要求3所述的数据的实时汇总方法，其特征在于，所述协处理器程序还将所述字段的数据类型和HBase表的主键形成规则记录到所述元数据中。5.根据权利要求4所述的数据的实时汇总方法，其特征在于，在HDFS中进行通过API对预先存储的数据表中的数据进行插入或读取处理，并且返回至所述协处理器。6.根据权利要求5所述的数据的实时汇总方法，其特征在于，在所述插入或读取处理时，进行对应的所述数据类型和主键转换并返回给客户端。7.根据权利要求3所述的数据的实时汇总方法，其特征在于，所述协处理服务程序通过RegionServer获取所有符合预定条件的明细数据并通过大规模并行处理进行一次汇总，并且该一次汇总的结果集被返回至客户端。8....

【专利技术属性】
技术研发人员：许奎，
申请(专利权)人：西安京迅递供应链科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人