分布式数据处理方法、电子设备、可读存储介质及产品技术

技术编号：38372459 阅读：15 留言：0更新日期：2023-08-05 17:35

本申请提供了一种分布式数据处理方法、电子设备、计算机可读存储介质以及计算机程序产品。分布式数据处理方法包括：根据流经待测集群中各节点的数据包，确定各节点中的任一个在不同时间的工作量；基于待测集群的数据分析策略和待测集群中各节点的工作量，生成待测集群的预测工作量分析结果；以及根据预测工作量分析结果，确定待测集群中的预期超负荷节点，其中数据包包括多个数据、每个数据的流经节点标识以及每个数据的流经节点时间。本申请提供的分布式数据处理方法，可实时统计各个节点的工作量，并可及时预测待测集群中的预期超负荷节点，避免分布式数据系统崩溃。避免分布式数据系统崩溃。避免分布式数据系统崩溃。

全部详细技术资料下载

【技术实现步骤摘要】
分布式数据处理方法、电子设备、可读存储介质及产品

[0001]本申请涉及分布式系统
，更具体地，涉及一种分布式数据处理方法、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。

技术介绍

[0002]数据倾斜是指分布式系统在执行大数据任务过程中，某些节点(或包括多个节点的分区)处理的数据，显著高于其他节点，从而使得这些节点的处理速度低于平均的处理速度，拖慢整个任务的执行过程。进一步地，若倾斜数据超过节点本身设置的内存上限，还会使该节点宕掉，甚至出现分布式数据系统崩溃的情况。
[0003]此外，随着分布式系统技术的发展，日益增长的海量数据还进一步加剧了上述数据倾斜的问题。
[0004]常规的处理方法通常为在分布式系统发生数据倾斜后，通过例如Web UI(Website User Interface，网络产品界面设计)主动查看当前运行的阶段中各个任务分配的数据量以及确认已发生数据倾斜的节点位置。
[0005]因而，上述常规的处理方法无法预先判断可能发生数据倾斜的节点，并规避可能诱发数据倾斜的数据问题。

技术实现思路

[0006]本申请至少一个实施方式提供了一种可至少部分解决相关技术中存在的上述问题的分布式数据处理方法、电子设备、计算机可读存储介质和计算机程序产品。
[0007]根据本申请至少一个实施方式提供的分布式数据处理方法、电子设备、计算机可读存储介质和计算机程序产品，通过对流经待测集群中各节点的数据添加其所流经节点的标识和流经上述节点的时间，实现了通过较...

【技术保护点】

【技术特征摘要】
1.一种分布式数据处理方法，其特征在于，所述方法包括：根据流经待测集群中各节点的数据包，确定所述各节点中的任一个在不同时间的工作量；基于所述待测集群的数据分析策略和所述待测集群中所述各节点的工作量，生成所述待测集群的预测工作量分析结果；以及根据所述预测工作量分析结果，确定所述待测集群中的预期超负荷节点，其中，所述数据包包括多个数据、每个所述数据的流经节点标识以及每个所述数据的流经节点时间。2.根据权利要求1所述的方法，其中，基于所述待测集群的数据分析策略和所述待测集群中所述各节点的所述工作量，生成所述待测集群的预测工作量分析结果包括：将所述各节点中的任一个在不同时间的所述工作量，按照时间顺序排列，以形成所述各节点中的任一个的时序数据集；基于所述数据分析策略处理所述时序数据集，以获得所述各节点中的任一个的工作量变化趋势；以及将所述待测集群中所述各节点的工作量变化趋势汇总，以获得所述预测工作量分析结果。3.根据权利要求2所述的方法，其特征在于，基于所述数据分析策略处理所述时序数据集，以获得所述各节点中的任一个的工作量变化趋势包括：对所述时序数据集中各数据进行线性拟合，以获得与所述时序数据集对应的节点的工作量变化趋势，其中所述各数据为已按照时间顺序排列的、与所述时序数据集对应的节点在不同时间的所述工作量。4.根据权利要求3所述的方法，其特征在于，对所述时序数据集中各数据进行线性拟合，以获得与所述时序数据集对应的节点的工作量变化趋势包括：计算线性拟合曲线的斜率值；以及通过所述斜率值，确定与所述时序数据集对应的节点的工作量变化趋势，其中，如果所述斜率值大于零，则确定与所述时序数据集对应的节点的所述工作量变化趋势为上升趋势；以及如果所述斜率值小于零，则确定与所述时序数据集对应的节点的所述工作量变化趋势为下降趋势。5.根据权利要求3所述的方法，其特征在于，对所述时序数据集中各数据进行线性拟合包括：采用最小二乘法对所述时序数据集中各数据进行线性拟合。6.根据权利要求2所述的方法，其特征在于，基于所述数据分析策略处理所述时序数据集，以获得所述各节点中的任一个的工作量变化趋势包括：将所述时序数据集中具有预定间隔的两个数据设置为一个数据组，并比较所述数据组中两个数据的大小，其中所述两个数据为已按照时间顺序排列的、与所述时序数据集对应的节点在不同时间的所述工作量；以及将所述时序数据集中各数据组的比较结果汇总，以获得与所述时序数据集对应的节点的工作量变化趋势。
7.根据权利要求6所述的方法，其特征在于，将所述时序数据集中各数据组的比较结果汇总，以获得与所述时序数据集对应的节点的工作量变化趋势包括：将...

【专利技术属性】
技术研发人员：杨乐，
申请(专利权)人：沈阳精一智驾科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人