海量数据表批量替换数据项值的方法、设备和存储介质技术

技术编号：37152306 阅读：15 留言：0更新日期：2023-04-06 22:09

本申请提供一种海量数据表批量替换数据项值的方法、设备和存储介质，所述方法包括将原数据表中的要被替换的数据项的原值取出，并将所述原值及其基于替换规则替换后的新值分别作为原主键值和对应的新主键值存入缓存中间件。将所述原数据表中的数据项值导入至分布式数据库中，利用各个Map任务，从各个分片中逐个读取原数据表中的要被替换的原值，再从所述缓存中间件中查询对应的新值，并将所述原值替换为新值以得到各个更新分片。利用各个Reduce任务，将各个更新分片中的数据插入SQL脚本，执行各个SQL脚本，以将各个更新分片中的数据插入到与所述原数据表结构相同的新数据表中。如此，能够降低替换海量数据的处理时间，提高替换效率。换效率。换效率。

全部详细技术资料下载

【技术实现步骤摘要】
海量数据表批量替换数据项值的方法、设备和存储介质

[0001]本申请涉及数据处理
，具体涉及海量数据表批量替换数据项值的方法、设备和存储介质。

技术介绍

[0002]在数据处理过程中，经常会对数据表中的某些数据项进行批量替换。然而，现有的替换方法在对海量数据进行批量替换的过程中，耗时较长。比如，采用现有的替换方法对3000万个数据进行批量替换，耗时约60min，这明显降低了数据处理的效率。

技术实现思路

[0003]本申请提供一种海量数据表批量替换数据项值的方法、设备和存储介质，其能够降低对海量数据进行批量替换的处理时间，以实现快速、高效的对海量数据进行批量替换。
[0004]根据本申请的第一方案，提供一种海量数据表批量替换数据项值的方法，包括将原数据表中的要被替换的数据项的原值取出，并将所述原值及其基于替换规则替换后的新值分别作为原主键值和对应的新主键值存入缓存中间件；将所述原数据表中的数据项值导入至分布式数据库中，所述分布式数据库具有不低于第一阈值数量的分片；利用与各个分片对应的各个Map任务，从各个分片中逐个读取原数据表中的要被替换的原值，再以所述原值为原主键值从所述缓存中间件中查询对应的新主键值作为新值，并将所述原值替换为新值以得到各个更新分片；利用与各个更新分片对应的各个Reduce任务，将各个更新分片中的数据插入与各个更新分片对应的SQL脚本；执行各个SQL脚本，以将各个更新分片中的数据插入到与所述原数据表结构相同的新数据表中。
[0005]根据本申请的第二方案，提供...

【技术保护点】

【技术特征摘要】
1.一种海量数据表批量替换数据项值的方法，其特征在于，包括：将原数据表中的要被替换的数据项的原值取出，并将所述原值及其基于替换规则替换后的新值分别作为原主键值和对应的新主键值存入缓存中间件；将所述原数据表中的数据项值导入至分布式数据库中，所述分布式数据库具有不低于第一阈值数量的分片；利用与各个分片对应的各个Map任务，从各个分片中逐个读取原数据表中的要被替换的原值，再以所述原值为原主键值从所述缓存中间件中查询对应的新主键值作为新值，并将所述原值替换为新值以得到各个更新分片；利用与各个更新分片对应的各个Reduce任务，将各个更新分片中的数据插入与各个更新分片对应的SQL脚本；执行各个SQL脚本，以将各个更新分片中的数据插入到与所述原数据表结构相同的新数据表中。2.根据权利要求1所述的方法，其特征在于，将原数据表中的要被替换的数据项的原值取出进一步包括：将具有相同数值的数据项的多个原值仅取出一次。3.根据权利要求1所述的方法，其特征在于，利用与各个更新分片对应的各个Reduce任务，将各个更新分片中的数据插入与各个更新分片对应的SQL脚本具体包括：在所述更新分片中替换了新值的数据组中数据的数量不小于第二阈值的情况下，利用对应的所述Reduce任务将所述替换了新值的数据组中的数据插入与各个更新分片对应的SQL脚本中。4.根据权利要求1或3所述的方法，其特征在于，利用与各个更新分片对应的各个Reduce任务，将各个更新分片中的数据插入与各个更新分片对应的SQ...

【专利技术属性】
技术研发人员：董明，
申请(专利权)人：雄安智评云数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人