一种海量数据的汇聚方法、装置以及处理设备制造方法及图纸

技术编号:38762893 阅读:17 留言:0更新日期:2023-09-10 10:36
本申请提供了一种海量数据的汇聚方法、装置以及处理设备,用于以时间以外的元素来促进更为稳定且高效的汇聚处理,由此有助于保障数据处理的数据安全还有处理效率。本申请提供的海量数据的汇聚方法,包括:获取当前等待执行汇聚处理的初始数据表,初始数据表中的不同数据按照日分表的格式存储;基于初始数据表在日分表格式下所指示的时间戳,将初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID,ID指的是排序得到的编号;确定下一个汇聚处理环节的起始ID以及终止ID;按照下一个汇聚处理环节的起始ID以及终止ID构成的ID范围,定位初始数据表中的对应数据,并执行汇聚处理。处理。处理。

【技术实现步骤摘要】
一种海量数据的汇聚方法、装置以及处理设备


[0001]本申请涉及数据汇聚领域,具体涉及一种海量数据的汇聚方法、装置以及处理设备。

技术介绍

[0002]在网络技术快速发展的背景下,对于各种应用服务而言,普遍存在一个情况,即,数据不仅繁杂多变,而且都具有海量原始数据,而在相关的数据分析工作中,则并不需要对所有数据逐一分析,往往是通过一些筛选条件,对原始数据按照某种方式展开汇聚处理,达到简化数据、筛选数据的目的,然后再对汇聚得到的数据进行二次加工,生成所需要的报表。
[0003]而本申请专利技术人发现,现有技术在对数据库的原始数据表进行汇聚处理时,尽管可以涉及到相关的筛选条件,但是在后台进行的具体处理中,是默认采用时间来执行的,而在面临海量数据表时,若根据时间粗暴地进行汇聚操作,则可能导致设备异常重启,产生网络故障,给公司或者客户造成巨大的损失,或者说,单次汇聚的数据量越大,则消耗的系统资源就越多,从而设备异常的概率也就越大。
[0004]显然在面临海量的原始数据表时,现有技术中基于时间的汇聚方案可能引起一系列的故障问题,会影响到设备的正常运行。

技术实现思路

[0005]本申请提供了一种海量数据的汇聚方法、装置以及处理设备,用于以时间以外的元素来促进更为稳定且高效的汇聚处理,由此有助于保障数据处理的数据安全还有处理效率。
[0006]第一方面,本申请提供了一种海量数据的汇聚方法,方法包括:
[0007]获取当前等待执行汇聚处理的初始数据表,初始数据表中的不同数据按照日分表的格式存储;
[0008]基于初始数据表在日分表格式下所指示的时间戳,将初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID,ID指的是排序得到的编号;
[0009]确定下一个汇聚处理环节的起始ID以及终止ID;
[0010]按照下一个汇聚处理环节的起始ID以及终止ID构成的ID范围,定位初始数据表中的对应数据,并执行汇聚处理。
[0011]结合本申请第一方面,在本申请第一方面第一种可能的实现方式中,基于初始数据表在日分表格式下所指示的时间戳,将初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID,包括:
[0012]基于初始数据表在日分表格式下所指示的时间戳,将初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID;
[0013]将每条数据对应的ID形成汇聚索引表,其中,汇聚索引表标识有每条数据对应的
ID、当前汇聚处理环节的数据中的最大ID、原始表名称、当前汇聚处理环节的数据中的最大ID对应数据的创造时间和当前汇聚处理环节的结束时间;
[0014]确定下一个汇聚处理环节的起始ID以及终止ID,包括:
[0015]确定下一个汇聚处理环节的起始时间以及终止时间;
[0016]在下一个汇聚处理环节的起始时间以及终止时间的基础上,结合汇聚索引表中每条数据对应的ID和当前处理环节的结束时间,确定下一个处理环节的起始ID以及终止ID。
[0017]结合本申请第一方面第一种可能的实现方式,在本申请第一方面第二种可能的实现方式中,在下一个汇聚处理环节的起始时间以及终止时间的基础上,结合汇聚索引表中每条数据对应的ID和当前汇聚处理环节的结束时间,确定下一个处理环节的起始ID以及终止ID之前,方法还包括:
[0018]基于下一个汇聚处理环节的起始时间以及终止时间构成的时间范围,确定初始数据表中的数据量;
[0019]若数据量大于阈值,则触发在下一个汇聚处理环节的起始时间以及终止时间的基础上,结合汇聚索引表中每条数据对应的ID和当前汇聚处理环节的结束时间,确定下一个汇聚处理环节的起始ID以及终止ID;
[0020]若数据量小于阈值,则触发直接以下一个汇聚处理环节的起始时间以及终止时间构成的时间范围,在初始数据表中拉取对应数据执行汇聚处理。
[0021]结合本申请第一方面第二种可能的实现方式,在本申请第一方面第三种可能的实现方式中,在下一个汇聚处理环节的起始时间以及终止时间的基础上,结合汇聚索引表中每条数据对应的ID和当前汇聚处理环节的结束时间,确定下汇聚一个处理环节的起始ID以及终止ID,包括:
[0022]在下一个汇聚处理环节的起始时间以及终止时间的基础上,结合汇聚索引表中每条数据对应的ID和当前汇聚处理环节的结束时间,确定下一个汇聚处理环节初始的起始ID以及终止ID;
[0023]将下一个汇聚处理环节初始的起始ID以及终止ID之间的差值与预设的计算承载能力值进行比较;
[0024]若下一个汇聚处理环节初始的起始ID以及终止ID之间的差值大于预设的计算承载能力值,则对下一个汇聚处理环节初始的起始ID以及终止ID之间的ID进行分批处理,以使得下一个汇聚处理环节所处理的ID数量小于预设的计算承载能力值,并更新下一个汇聚处理环节的起始ID以及终止ID。
[0025]结合本申请第一方面第三种可能的实现方式,在本申请第一方面第四种可能的实现方式中,分批处理以预设的计算承载能力值作为下一个汇聚处理环节所处理的ID数量来执行;
[0026]或者,分批处理以均分不同汇聚处理环节所处理的ID数量来执行。
[0027]结合本申请第一方面第一种可能的实现方式,在本申请第一方面第五种可能的实现方式中,将每条数据对应的ID形成汇聚索引表,包括:
[0028]以预设的不同汇聚处理环节为基础,将每条数据对应的ID形成汇聚索引表。
[0029]结合本申请第一方面,在本申请第一方面第六种可能的实现方式中,每一个汇聚处理环节是由1小时的汇聚周期确定的。
[0030]第二方面,本申请提供了一种海量数据的汇聚装置,装置包括:
[0031]获取单元,用于获取当前等待执行汇聚处理的初始数据表,初始数据表中的不同数据按照日分表的格式存储;
[0032]排序单元,用于基于初始数据表在日分表格式下所指示的时间戳,将初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID,ID指的是排序得到的编号;
[0033]确定单元,用于确定下一个汇聚处理环节的起始ID以及终止ID;
[0034]汇聚单元,用于按照下一个汇聚处理环节的起始ID以及终止ID构成的ID范围,定位初始数据表中的对应数据,并执行汇聚处理。
[0035]结合本申请第二方面,在本申请第二方面第一种可能的实现方式中,排序单元,具体用于:
[0036]基于初始数据表在日分表格式下所指示的时间戳,将初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID;
[0037]将每条数据对应的ID形成汇聚索引表,其中,汇聚索引表标识有每条数据对应的ID、当前汇聚处理环节的数据中的最大ID、原始表名称、当前汇聚处理环节的数据中的最大ID对应数据的创造时间和当前汇聚处理环节的结束时间;
[0038]确定单元,具体用于:
[0039]确定下一个汇聚处理环节的起本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种海量数据的汇聚方法,其特征在于,所述方法包括:获取当前等待执行汇聚处理的初始数据表,所述初始数据表中的不同数据按照日分表的格式存储;基于所述初始数据表在所述日分表格式下所指示的时间戳,将所述初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID,所述ID指的是排序得到的编号;确定下一个汇聚处理环节的起始ID以及终止ID;按照所述下一个汇聚处理环节的起始ID以及终止ID构成的ID范围,定位所述初始数据表中的对应数据,并执行所述汇聚处理。2.根据权利要求1所述的方法,其特征在于,所述基于所述初始数据表在所述日分表格式下所指示的时间戳,将所述初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID,包括:基于所述初始数据表在所述日分表格式下所指示的时间戳,将所述初始数据表中的不同数据按照时间进行排序,并得到每条数据对应的ID;将所述每条数据对应的ID形成汇聚索引表,其中,所述汇聚索引表标识有所述每条数据对应的ID、当前汇聚处理环节的数据中的最大ID、原始表名称、所述当前汇聚处理环节的数据中的最大ID对应数据的创造时间和所述当前汇聚处理环节的结束时间;所述确定下一个汇聚处理环节的起始ID以及终止ID,包括:确定所述下一个汇聚处理环节的起始时间以及终止时间;在所述下一个汇聚处理环节的起始时间以及终止时间的基础上,结合所述汇聚索引表中所述每条数据对应的ID和所述当前处理环节的结束时间,确定所述下一个处理环节的起始ID以及终止ID。3.根据权利要求2所述的方法,其特征在于,所述在所述下一个汇聚处理环节的起始时间以及终止时间的基础上,结合所述汇聚索引表中所述每条数据对应的ID和所述当前汇聚处理环节的结束时间,确定下一个处理环节的起始ID以及终止ID之前,所述方法还包括:基于所述下一个汇聚处理环节的起始时间以及终止时间构成的时间范围,确定所述初始数据表中的数据量;若所述数据量大于阈值,则触发在所述下一个汇聚处理环节的起始时间以及终止时间的基础上,结合所述汇聚索引表中所述每条数据对应的ID和所述当前汇聚处理环节的结束时间,确定所述下一个汇聚处理环节的起始ID以及终止ID;若所述数据量小于阈值,则触发直接以下一个汇聚处理环节的起始时间以及终止时间构成的时间范围,在所述初始数据表中拉取对应数据执行所述汇聚处理。4.根据权利要求3所述的方法,其特征在于,所述在所述下一个汇聚处理环节的...

【专利技术属性】
技术研发人员:张贵昌
申请(专利权)人:上海安博通信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1