System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种自适应的数据接入对账方法、装置和介质制造方法及图纸_技高网

一种自适应的数据接入对账方法、装置和介质制造方法及图纸

技术编号:43926116 阅读:61 留言:0更新日期:2025-01-03 13:31
本发明专利技术提供了一种自适应的数据接入对账方法、装置和介质,属于计算机信息处理技术领域。所述方法包括:选定对账的源数据库及源数据表、目标数据库及目标数据表,选择源数据表和目标数据表的主键作为数据比对的基础,并设定初始对账频率;通过Spark SQL读取源数据库和目标数据库的数据,并对源数据库的数据进行分布式预处理;通过MD5算法为源数据表和目标数据表中的每一行数据生成MD5摘要,将生成的MD5摘要作为新列添加至数据表;根据主键对比查找MD5摘要,确定差异数据行,根据差异数据行查找问题数据,并记录对账结果;通过Q‑learning算法根据当前数据对账结果调整对账频率。本发明专利技术提升了对账速度和准确性,更高效地利用计算资源,减少了硬件资源消耗。

【技术实现步骤摘要】

本专利技术涉及一种自适应的数据接入对账方法、装置和介质,属于计算机信息处理。


技术介绍

1、在当前数据接入过程中,尤其是在分布式系统中进行数据同步时,数据一致性是一个至关重要的问题。然而,由于网络延迟、并发写入等多种原因,数据不一致现象时有发生。传统的对账方法,如通过主键比对、事务日志追踪等手段,虽然在一定程度上能够解决数据不一致的问题,但在面对海量高并发数据场景时,却显得力不从心。

2、具体来说,传统的对账方法存在以下主要缺陷:

3、对账效率低:传统方法在大规模数据集上的对账过程耗时长,无法满足实时性需求。在数据量庞大的情况下,对账过程可能需要花费数小时甚至数天的时间,严重影响了业务运营效率。

4、数据完整性难以保障:在网络传输不稳定或数据更新频繁的情况下,单纯依赖数据库本身的事务机制难以确保数据的一致性和完整性。数据丢失、重复或错误更新等问题时有发生,给业务运营带来了极大的风险。

5、资源消耗大:随着数据量的指数级增长,传统对账方法需要大量数据的重复计算和存储,导致了严重的资源浪费。这不仅增加了硬件资源的消耗,还提高了运营成本。

6、因此,针对传统对账方法存在的上述问题,业界迫切需要一种高效、准确且自适应的数据接入对账方法,以适应不断增长的数据量和并发访问需求,确保数据一致性和业务运营效率。


技术实现思路

1、本专利技术目的是提供了一种自适应的数据接入对账方法、装置和介质,以解决上述问题,提供高效、准确且自适应的数据接入对账方法。

2、本专利技术为实现上述目的,通过以下技术方案实现:

3、一种自适应的数据接入对账方法,包括以下步骤:

4、选定对账的源数据库及源数据表、目标数据库及目标数据表,选择源数据表和目标数据表的主键作为数据比对的基础,并设定初始对账频率;

5、通过spark sql读取源数据库和目标数据库的数据,并对源数据库的数据进行分布式预处理;

6、通过md5算法为源数据表和目标数据表中的每一行数据生成md5摘要,将生成的md5摘要作为新列添加至数据表;

7、根据主键对比查找md5摘要,确定差异数据行,根据差异数据行查找问题数据,并记录对账结果;

8、通过q-learning算法根据当前数据对账结果调整对账频率。

9、优选的,所述根据主键对比查找md5摘要不一致数据行,具体方式如下:

10、创建spark的弹性分布式数据集,基于主键字段将源数据表与目标数据表进行内连接,对比源数据表与目标数据表中的md5摘要列,定位md5摘要不一致的数据行作为差异数据行。

11、优选的,所述根据差异数据行查找问题数据,具体方式如下:

12、针对差异数据行,逐列生成md5摘要,比较源数据表与目标数据表中对应列的md5摘要,标记出md5摘要不一致的列作为有问题列;

13、对每一个有问题的数据行,比对有问题列,找到每行数据的具体问题列,计算字段内容的正确率,并记录异常数据列表,包括源数据和目标数据。

14、优选的,记录对账结果包括执行时间、正确率、数据条数、yarn队列负载。

15、优选的,所述q-learning 算法根据当前数据对账结果通过调整定时执行的 cron表达式调整对账频率;

16、所述q-learning算法状态空间包括正确率、执行时间和yarn队列负载;

17、所述q-learning算法奖励函数如下:

18、,

19、,

20、,

21、,

22、其中,表示奖励值,表示当前正确率,表示单位数据量偏差带来的奖励变化率,表示当前数据条数,表示设置的期望每次对账数据条数,表示yarn队列负载。

23、优选的,单位数据量偏差带来的奖励变化率计算公式如下:

24、。

25、优选的,所述分布式预处理包括数据清洗、转换、聚合。

26、一种自适应的数据接入对账装置,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行所述的自适应的数据接入对账方法。

27、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的自适应的数据接入对账方法。

28、本专利技术的优点在于:借助spark平台的分布式计算能力和md5算法的高效性,本专利技术极大地提升了对账速度和准确性。通过对行与列的两次md5摘要比对,优化了计算过程,进一步提高了效率。

29、本专利技术的方法能够灵活应对不断增长的数据量和并发访问需求。支持大规模分布式部署和横向扩展,满足未来业务发展的需求。

30、根据环境的变化自动调整策略,如数据量的增长、系统性能的波动等。通过q-learning算法自动调整对账频率,避免了人工不断调整参数或策略的繁琐过程。

31、引入基于时间戳的数据变化感知机制,仅对新增或更新的数据项进行对账,减少了不必要的数据处理与计算开销。自动调整对账频率,避免了无谓的数据比对,可以更高效地利用计算资源,减少了硬件资源消耗。

本文档来自技高网...

【技术保护点】

1.一种自适应的数据接入对账方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的自适应的数据接入对账方法,其特征在于,所述根据主键对比查找MD5摘要不一致数据行,具体方式如下:

3.根据权利要求2所述的自适应的数据接入对账方法,其特征在于,所述根据差异数据行查找问题数据,具体方式如下:

4.根据权利要求1所述的自适应的数据接入对账方法,其特征在于,记录对账结果包括执行时间、正确率、数据条数、YARN队列负载。

5.根据权利要求4所述的自适应的数据接入对账方法,其特征在于,所述Q-learning算法根据当前数据对账结果通过调整定时执行的 cron 表达式调整对账频率;

6.根据权利要求5所述的自适应的数据接入对账方法,其特征在于,单位数据量偏差带来的奖励变化率计算公式如下:

7.根据权利要求1所述的自适应的数据接入对账方法,其特征在于,所述分布式预处理包括数据清洗、转换、聚合。

8.根据权利要求1所述的自适应的数据接入对账方法,其特征在于,依据数据的插入和更新时间戳来筛选增量数据,仅对自上次对账后的变动数据进行比对。

9.一种自适应的数据接入对账装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1-8任一所述的自适应的数据接入对账方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如上述权利要求1-8任一所述的自适应的数据接入对账方法。

...

【技术特征摘要】

1.一种自适应的数据接入对账方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的自适应的数据接入对账方法,其特征在于,所述根据主键对比查找md5摘要不一致数据行,具体方式如下:

3.根据权利要求2所述的自适应的数据接入对账方法,其特征在于,所述根据差异数据行查找问题数据,具体方式如下:

4.根据权利要求1所述的自适应的数据接入对账方法,其特征在于,记录对账结果包括执行时间、正确率、数据条数、yarn队列负载。

5.根据权利要求4所述的自适应的数据接入对账方法,其特征在于,所述q-learning算法根据当前数据对账结果通过调整定时执行的 cron 表达式调整对账频率;

6.根据权利要求5所述的自适应的数据接入对账...

【专利技术属性】
技术研发人员:崔振兴王恒军李克学李宁宁
申请(专利权)人:山东未来网络研究院紫金山实验室工业互联网创新应用基地
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1