数据分片方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35279249 阅读:10 留言:0更新日期:2022-10-22 12:21
本申请公开了一种数据分片方法、装置、电子设备和存储介质。该方法包括:获取初始哈希环上的多个待存储数据;对各待存储数据进行聚类,得到各待存储数据的目标聚类结果;对于每个目标聚类结果,计算目标聚类结果中各特征向量的均值;针对各目标聚类结果,基于均值,以及目标聚类结果的预设权重,确定各待存储数据的资源占用指标;基于各待存储数据的资源占用指标,更新初始哈希环上各待存储数据的存储位置。采用本申请的数据分片方法,可实现将数据均衡的分配到每个数据存储节点,保证每个数据存储节点的系统资源相对均衡,解决传统算法在数据分片过程中数据移动量过大、评估维度单一造成数据倾斜的问题,从而提升数据分片效率及系统性能。系统性能。系统性能。

【技术实现步骤摘要】
数据分片方法、装置、电子设备和存储介质


[0001]本申请涉及数据处理技术,具体涉及一种数据分片方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网时代的高速发展,运营商时时刻刻都产生海量的数据,对这些数据的存储基本是利用分布式的存储方式,具体的是将数据进行分片,然后将数据存储在各个存储节点上。利用数据分片的方式将数据存储在各个存储节点上,大多采用哈希表方式(即hash方式)和一致性哈希表方式(即一致性hash方式)。
[0003]目前,利用hash方式对数据进行存储是根据记录的数据的关键值将记录映射到表中的一个槽(slot)。hash数据分片方式按照数据的某一特征(key)来计算哈希值,并将哈希值与系统中的存储节点建立映射关系,从而将哈希值不同的数据分布到不同的存储节点上。利用一致性hash方式对数据进行存储是将数据按照特征值映射到一个首尾相接的hash环上,同时也将存储节点映射到这个环上。对于数据,从数据在环上的位置开始,顺时针找到的第一个存储节点即为数据的存储节点。
[0004]上述基于hash方式对数据进行分片存储的方式,当加入或删除一个存储节点的时候,大量的数据需要移动,原始数据的特征值分布不均匀,导致大量的数据可能集中到一个存储节点上,导致存储节点之间的负载不均衡。基于一致性hash方式,在增加存储节点的时候,只能分摊一个已存在存储节点的压力;同样,在其中一个存储节点无法使用的时候,该存储节点的压力也会被全部转移到下一个存储节点,会出现数据倾斜的现象,即个别存储节点数据存储量过大,个别存储节点数据存储量过小,存储节点之间的负载不均衡的问题,影响系统性能。

技术实现思路

[0005]本申请实施例的目的是提供一种数据分片方法、装置、电子设备和存储介质,以实现将数据自适配均衡的分配到每个数据存储节点,保证每个数据存储节点的系统资源相对均衡,解决传统算法在数据分片过程中数据移动量过大、评估维度单一造成数据倾斜的问题,从而提升数据分片效率及系统性能。
[0006]本申请的技术方案如下:
[0007]第一方面,提供了一种数据分片方法,该方法包括:
[0008]获取初始哈希环上的多个待存储数据;
[0009]对各所述待存储数据进行聚类,得到各所述待存储数据的目标聚类结果;
[0010]对于每个目标聚类结果,计算所述目标聚类结果中各特征向量的均值;
[0011]针对各目标聚类结果,基于所述均值,以及所述目标聚类结果中各特征向量的预设权重,确定各所述待存储数据的资源占用指标;
[0012]基于各所述待存储数据的资源占用指标,更新所述初始哈希环上各所述待存储数
据的存储位置。
[0013]第二方面,提供了一种数据分片装置,该装置包括:
[0014]信息获取模块,用于获取初始哈希环上多个待存储数据,以及各所述待存储数据所对应的各特征向量;
[0015]目标聚类结果确定模块,用于对各所述待存储数据进行聚类,得到各所述待存储数据的目标聚类结果;
[0016]均值确定模块,用于针对每个目标聚类结果,计算所述目标聚类结果中各特征向量的均值;
[0017]资源占用指标确定模块,用于针对各目标聚类结果,基于所述均值,以及所述目标聚类结果中各特征向量的预设权重,确定各所述待存储数据的资源占用指标;
[0018]数据分片存储模块,用于基于各所述待存储数据的资源占用指标,更新所述初始哈希环上各所述待存储数据的存储位置。
[0019]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现本申请任一实施例所述的数据分片方法的步骤。
[0020]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现本申请任一实施例所述的数据分片方法的步骤。
[0021]本申请的实施例提供的技术方案至少带来以下有益效果:
[0022]本申请实施例提供的数据分片方法,通过对获取初始哈希环上的多个待存储数据进行聚类,得到目标聚类结果,针对各目标聚类结果,以及各目标聚类结果中各待存储数据的特征向量,计算各目标聚类结果中各特征向量的均值,对各待存储数据的特征向量进行综合评估,综合权衡系统资源,解决现有技术中评估维度单一的问题。此外,本申请基于各待存储数据的资源占用指标,更新初始哈希环上各待存储数据的存储位置。如此将待存储数据根据其自身的资源占用指标自适配均衡的分配到每个存储节点,保证每个存储节点的系统资源相对均衡,通过更新初始哈希环上各待存储数据的存储位置,解决了传统算法在数据分片过程中数据移动量过大、评估维度单一造成数据倾斜、存储节点之间的负载不均衡的问题,从而提升数据分片效率及系统性能。
[0023]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0024]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
[0025]图1是现有技术提供的利用hash方式进行数据分片的方式示意图
[0026]图2是现有技术提供的利用hash方式进行数据分片时,增加一个存储节点,各待存储数据的迁移示意图;
[0027]图3是现有技术提供的利用一致性hash方式进行数据分片的方式示意图;
[0028]图4是本申请实施例提供的一种数据分片方法的流程示意图一;
[0029]图5是本申请实施例提供的一种数据分片方法的流程示意图二;
[0030]图6是本申请实施例提供的对各待存储数据进行聚类的流程示意图;
[0031]图7是本申请实施例提供的计算各待存储数据的资源占用指标的流程示意图;
[0032]图8是本申请实施例提供的一种数据分片装置的结构示意图;
[0033]图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0034]为了使本领域普通人员更好地理解本申请的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0035]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分片方法,其特征在于,所述方法包括:获取初始哈希环上的多个待存储数据;对各所述待存储数据进行聚类,得到各所述待存储数据的目标聚类结果;对于每个目标聚类结果,计算所述目标聚类结果中各特征向量的均值;针对各目标聚类结果,基于所述均值,以及所述目标聚类结果中各特征向量的预设权重,确定各所述待存储数据的资源占用指标;基于各所述待存储数据的资源占用指标,更新所述初始哈希环上各所述待存储数据的存储位置。2.根据权利要求1所述的方法,其特征在于,所述对各所述待存储数据进行聚类,得到各待存储数据的目标聚类结果,包括:基于各所述待存储数据、各所述待存储数据的数量和预设聚类数量,确定多个聚类节点;计算各所述待存储数据到各聚类节点的第一欧式距离;将各所述待存储数据放入该待存储数据所对应的所述第一欧式距离最小的聚类中,得到各待存储数据的初始聚类结果;重复执行以下步骤,直至各所述待存储数据所属的聚类不发生变化,得到各待存储数据的目标聚类结果:针对每个初始聚类结果,计算所述初始聚类结果中的各所述待存储数据到各初始聚类结果的中心点的第二欧式距离,将各所述待存储数据放入该待存储数据所对应的所述第二欧式距离最小的聚类中。3.根据权利要求2所述的方法,其特征在于,所述针对每个初始聚类结果,计算所述初始聚类结果中的各所述待存储数据到各初始聚类结果的中心点的第二欧式距离,将各所述待存储数据放入该待存储数据所对应的所述第二欧式距离最小的聚类中,包括:针对每个初始聚类结果,基于所述初始聚类结果中各所述待存储数据对应的特征向量,以及所述初始聚类结果中各所述待存储数据的数量,确定所述初始聚类结果的中心点;分别计算各所述待存储数据到各初始聚类结果的中心点的第二欧式距离;将各所述待存储数据放入该待存储数据所对应的所述第二欧式距离最小的聚类中。4.根据权利要求1所述的方法,其特征在于,针对各目标聚类结果中的每个所述待存储数据,每个所述待存储数据均具有预设数量的特征向量;所述针对各目标聚类结果,计算所述目标聚类结果中各特征向量的均值,包括:针对每个当前目标聚类结果,基于所述当前目标聚类结果中各所述待存储数据的特征向量所对应的特征向量值,确定所述当前目标聚类结果中各特征向量的均值。5.根据权利要求1所述的方法,其特征在于,所述针对各目标聚类结果,基于所述均值,以及所述目标聚类结果中各特征向量的预设权重...

【专利技术属性】
技术研发人员:杨猛肖昕璐宋蕾
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1