System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及分布式计量,特别是涉及一种对数据集进行分布式计量的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、由于计算环境的复杂性与动态变化的需求,出现了分布式计量技术。分布式计量是一种在分布式系统中进行数据收集和处理的方法,可以高效、实时地收集和处理数据。
2、在对数据集进行分布式计量时,可以借助多个计算节点完成对数据集计量任务,不过,传统的处理方式难以兼顾计量的可扩展性以及计量效率。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种对数据集进行分布式计量的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种对数据集进行分布式计量的方法,包括:
3、对各计量要素进行封装处理,得到所述各计量要素对应的计量算子;
4、选取相应的计量算子进行组合,得到每一计量工具并部署在多个计算节点上;
5、将数据集平均划分为多个数据子集;
6、将所述多个数据子集发送不同计算节点,以使各计算节点根据相应计量工具对所述数据子集进行计量。
7、在其中一个实施例中,所述将数据集平均划分为多个数据子集,包括:
8、获取所述数据集的总量;
9、根据所述计算节点的计算能力,得到所述计算节点的可处理数据量;
10、根据所述总量和所述可处理数据量,将所述数据集平均划分为多个数据子集。
11、在其中一个实施例中,所
12、根据所述总量和所述计算节点的数量,得到数据均分量;
13、当所述数据均分量小于所述可处理数据量时,根据所述数据均分量,将所述数据集平均划分为多个数据子集;
14、当所述数据均分量大于所述可处理数据量时,根据所述可处理数据量和所述计算节点的数量,将所述数据集划分为多批数据集,并根据所述可处理数据量和所述计算节点的数量将各批数据集划分为相应的数据子集。
15、在其中一个实施例中,所述根据所述数据均分量,将所述数据集平均划分为多个数据子集,包括:
16、获取所述数据集中每笔数据的处理时间等级;
17、根据所述数据集中每笔数据的处理时间等级,对所述数据集进行划分,得到不同处理时间等级对应的第一类数据集;
18、按所述计算节点的数量,对每个处理时间等级对应的第一类数据集进行平均划分,得到相应的多个第二类数据集;
19、根据不同处理时间等级各自对应的多个第二类数据集,得到多个数据子集。
20、在其中一个实施例中,所述获取所述数据集中每笔数据的处理时间等级,包括:
21、根据每笔数据进行计量所需的计量工具,得到每笔数据对应的处理预估时间;
22、根据处理预估时间与处理时间等级之间的对应关系,确定每笔数据对应的处理时间等级。
23、在其中一个实施例中,所述根据不同处理时间等级各自对应的多个第二类数据集,得到多个数据子集,包括:
24、分别从不同处理时间等级各自对应的多个第二类数据集中任选一个第二类数据集;
25、根据选出的第二类数据集,形成单个数据子集,以得到多个数据子集。
26、在其中一个实施例中,所述方法还包括:
27、获取每一数据子集中每笔数据的计量结果;
28、根据每笔数据关联的账户册,对不同数据子集中每笔数据的计量结果进行汇总。
29、第二方面,本申请还提供了一种对数据集进行分布式计量的装置,包括:
30、计量算子获取模块,用于对各计量要素进行封装处理,得到所述各计量要素对应的计量算子;
31、计算单元部署模块,用于选取相应的计量算子进行组合,得到每一计量工具并部署在多个计算节点上;
32、数据子集获取模块,用于将数据集平均划分为多个数据子集;
33、数据子集计量模块,用于将所述多个数据子集发送不同计算节点,以使各计算节点根据相应计量工具对所述数据子集进行计量。
34、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述方法。
35、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述方法。
36、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行上述方法。
37、上述对数据集进行分布式计量的方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,对各计量要素进行封装处理,得到各计量要素对应的计量算子;选取相应的计量算子进行组合,得到每一计量工具并部署在多个计算节点上;将数据集划分为多个数据子集;将多个数据子集发送不同计算节点,以使各计算节点根据相应计量工具对数据子集进行计量。本申请对各计量要素进行封装处理,得到各计量要素对应的计量算子,选取相应的计量算子进行组合,得到每一计量工具,降低计量要素之间的耦合度;当需要生成新的计量工具时,可以根据需求选取相应的计量算子进行组合,从而得到新的计量工具,提高了计量的可扩展性;将数据集平均划分为多个数据子集,将所述多个数据子集发送不同计算节点,使每个计算节点的数据处理量相同,充分利用运算资源,提高了计量效率。
本文档来自技高网...【技术保护点】
1.一种对数据集进行分布式计量的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将数据集平均划分为多个数据子集,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述总量和所述可处理数据量,将所述数据集平均划分为多个数据子集,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据均分量,将所述数据集平均划分为多个数据子集,包括:
5.根据权利要求4所述的方法,其特征在于,所述获取所述数据集中每笔数据的处理时间等级,包括:
6.根据权利要求4所述的方法,其特征在于,所述根据不同处理时间等级各自对应的多个第二类数据集,得到多个数据子集,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种对数据集进行分布式计量的装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.
...【技术特征摘要】
1.一种对数据集进行分布式计量的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将数据集平均划分为多个数据子集,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述总量和所述可处理数据量,将所述数据集平均划分为多个数据子集,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据均分量,将所述数据集平均划分为多个数据子集,包括:
5.根据权利要求4所述的方法,其特征在于,所述获取所述数据集中每笔数据的处理时间等级,包括:
6.根据权利要求4所述的...
【专利技术属性】
技术研发人员:张行行,赵提,
申请(专利权)人:中电金信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。