一种基于分布式异步架构的数据转存方法技术

技术编号：44507991 阅读：5 留言：0更新日期：2025-03-07 13:05

本发明专利技术公开了一种基于分布式异步架构的数据转存方法，一种基于分布式异步架构的数据转存方法，包括如下步骤：S1：建立多个计算机节点；S2：在源节点向目标节点转存时，使用机器学习模型监控数据一致性，检测异常模式和潜在的数据错误；S3：将需要转存的数据分片，并在源节点中创建副本，启动异步复制过程，将数据从源节点复制到目标节点中；S4：在数据转存完成后，对目标节点中的数据进行校验，再次确保数据的完整性和一致性。本发明专利技术通过异步通信和监控系统，提高了数据转存的效率和可靠性，并通过机器学习模型监控数据一致性，增强了数据转存过程中的异常检测和错误纠正能力，确保数据的完整性和一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据转存领域，尤其涉及一种基于分布式异步架构的数据转存方法。

技术介绍

1、在大规模分布式系统中，数据的转存是一个关键且复杂的任务。现有技术在数据转存方面存在以下问题；

2、传统的数据转存方法通常依赖于同步通信，这限制了数据处理的速度和效率，特别是在网络延迟高或带宽有限的环境中。同步通信还可能导致源节点和目标节点之间的资源竞争，影响系统的整体性能，且在数据转存过程中缺乏有效的数据一致性监控机制。这可能导致数据在转存过程中出现不一致性，增加数据错误和异常的风险，从而影响数据的完整性和可靠性，另外现有的数据分片和搬运工具往往效率不高，特别是在处理大规模数据时。这些工具可能无法适应不同节点的负载能力，导致数据转存过程中的延迟和瓶颈。

技术实现思路

1、本专利技术目的在于提供一种基于分布式异步架构的数据转存方法，以解决上述问题。

2、本专利技术通过下述技术方案实现：

3、一种基于分布式异步架构的数据转存方法，包括如下步骤：

4、s1：建立多个计算机节点，每个节点之间通过网络进行异步通信，明确源节点和每个节点之间的配置和接口，设置监控系统以跟踪数据转存的进度和性能；

5、s2：在源节点向目标节点转存时，使用机器学习模型监控数据一致性，检测异常模式和潜在的数据错误；

6、s3：将需要转存的数据分片，并在源节点中创建副本，启动异步复制过程，将数据从源节点复制到目标节点中，配置消息队列异步处理转存任务，在数据复制

7、s4：在数据转存完成后，对目标节点中的数据进行校验，再次确保数据的完整性和一致性，数据校验通过后，源节点向目标节点发送确认消息，完成转存流程。

8、本专利技术通过异步通信和监控系统，提高了数据转存的效率和可靠性，并通过机器学习模型监控数据一致性，增强了数据转存过程中的异常检测和错误纠正能力，确保数据的完整性和一致性。

9、优选的，在s2中，具体包括如下步骤：

10、s2.1：建立自动编码器模型；

11、自动编码器包括编码器和解码器，其中所述的编码器用于将输入数据压缩成低维表示，解码器用于从低维表示重建原始数据；

12、s2.2：参数设置；

13、输入层：根据数据的特征数量确定输入层的维度；

14、隐藏层：设置为16、8、8、16的层次结构；

15、激活函数：在编码器中使用tanh函数，在解码器找那个使用relu函数；

16、优化器：使用adam优化器，自适应调整学习率；

17、损失函数：使用均方误差函数；

18、s2.3：模型训练；

19、使用adam优化器，自适应调整学习率，并进行多次迭代；

20、s2.4：异常检测，对于新数据，使用训练好的模型进行重构，并计算重构误差，如果重构误差超过设定的阈值，则认为数据可能存在异常。

21、本专利技术通过建立自动编码器模型，实现了对数据一致性的高级监控，提高了数据转存过程中的异常检测能力，其中参数设置的优化使得模型能够更好地适应不同的数据特征，提高了模型的泛化能力和检测准确性。

22、优选的，在s2.3中，其中每次迭代执行以下步骤：

23、s2.3.1：使用dataloader批量加载数据；

24、s2.3.2：将输入数据通过自动编码器进行前向传播，得到重构输出；

25、s2.3.3：使用mse损失函数计算重构输出与原始输入之间的差异；

26、s2.3.4：根据损失函数计算梯度，并进行反向传播；

27、s2.3.5：根据梯度更新模型的权重。

28、本专利技术通过详细的模型训练步骤，确保了模型能够通过多次迭代学习到更准确的数据表示，提高了异常检测的准确性，每次迭代的详细步骤确保了模型训练的系统性和有效性，使得模型能够更好地适应新数据，提高了数据转存的安全性。

29、优选的，tanh函数的表达式为：

30、

31、其中为输入值，为预处理后的数据特征值；

32、是自然对数的底数，是一个数学常数；

33、tanh函数的输出值域为（-1, 1）。

34、本专利技术提供了tanh函数的具体表达式，使得模型能够在数据压缩和重建过程中保持数据的非线性特性，提高了数据重构的准确性。

35、优选的，relu函数的表达式为：

36、

37、其中为输入值，为预处理后的数据特征值；

38、relu函数的输出值是非负的，如果输入值x为负，则输出为0；如果x为正，则输出为x本身。

39、本专利技术提供了relu函数的具体表达式，使得模型在处理非负数据时更加高效，同时保持了数据的非线性特性，有助于提高模型的表达能力。

40、优选的，mse损失函数的表达式为：

41、

42、其中，表示模型的前向传播过程；

43、表示编码器和解码器中的权重和偏置；

44、是转存数据的数量；

45、是第个数据的原始输入值；

46、是第个数据重构值，即模型的输出；

47、是第个样本的原始输入值与预测值之间的差的平方；

48、通过最小化这个mse损失函数，自编码器模型学习到如何调整其参数，以便使得预测值尽可能地接近实际值，从而提高数据重构的准确性。

49、本专利技术提供了mse损失函数的具体表达式，使得模型训练过程中能够明确目标，即最小化预测值与实际值之间的差异，提高了数据重构的准确性。

50、优选的，在输入层中，原始数据输入到自动编码器之前，需要提取或构造特征，其具体包括如下：

51、对于统计属性的数据，提取其平均值、中位数、最大值、最小值、标准差等作为特征输入到自动编码器中；

52、对于具有业务含义的数据，提取时间戳、数据版本号、校验和等作为特征输入到自动编码器中；

53、本专利技术通过提取或构造特征，使得模型能够更好地理解和处理不同类型的数据，提高了数据转存过程中的异常检测和错误纠正能力。

54、优选的，在s3中，其具体包括如下步骤：

55、s3.1：通过哈希函数将数据划分为多个小块，得到分片数据，并在多个目标节点存储设备上存储；

56、s3.2：在多个目标节点上保存数据分片的副本；

57、s3.3：设置一个主节点负责接收客户端请求，并将数据同步到多个备节点上，当主节点宕机时，备节点接替主节点，保证系统可用，其具体步骤流程为：

58、s3.3.1：当客户端发送请求时，请求首先发送到主节点；

59、s3.3.2：主节点本文档来自技高网...

【技术保护点】

1.一种基于分布式异步架构的数据转存方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于分布式异步架构的数据转存方法，其特征在于：在S2中，具体包括如下步骤：

3.根据权利要求2所述的一种基于分布式异步架构的数据转存方法，其特征在于：在S2.3中，其中每次迭代执行以下步骤：

4.根据权利要求3所述的一种基于分布式异步架构的数据转存方法，其特征在于：tanh函数的表达式为：

5.根据权利要求3所述的一种基于分布式异步架构的数据转存方法，其特征在于：relu函数的表达式为：

6.根据权利要求3所述的一种基于分布式异步架构的数据转存方法，其特征在于：MSE损失函数的表达式为：

7.根据权利要求3所述的一种基于分布式异步架构的数据转存方法，其特征在于：在输入层中，原始数据输入到自动编码器之前，需要提取或构造特征，其具体包括如下：

8.根据权利要求1所述的一种基于分布式异步架构的数据转存方法，其特征在于：在S3中，其具体包括如下步骤：

9.根据权利要求8所述的一种基于分布式异步架构

10.根据权利要求9所述的一种基于分布式异步架构的数据转存方法，其特征在于：哈希函数具体包括如下：

...

【技术特征摘要】

1.一种基于分布式异步架构的数据转存方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于分布式异步架构的数据转存方法，其特征在于：在s2中，具体包括如下步骤：

3.根据权利要求2所述的一种基于分布式异步架构的数据转存方法，其特征在于：在s2.3中，其中每次迭代执行以下步骤：

4.根据权利要求3所述的一种基于分布式异步架构的数据转存方法，其特征在于：tanh函数的表达式为：

5.根据权利要求3所述的一种基于分布式异步架构的数据转存方法，其特征在于：relu函数的表达式为：

6.根据权利要求3所述的一种基于分布式异步架构的数据转存方法，其特征在于：mse损失函数的表...

【专利技术属性】
技术研发人员：余宇宏，邹小波，冯伯成，闫力，
申请(专利权)人：成都中微达信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人