一种基于国产CPU环境的MMT数据迁移方法技术

技术编号:31373773 阅读:21 留言:0更新日期:2021-12-15 11:04
本发明专利技术公开了一种基于国产CPU环境的MMT数据迁移方法,属于数据迁移技术领域,包括映射、迁移和测试,并进行迭代演化,逐步将旧系统的数据迁移到新系统中;建立数据映射模型,在业务层建立旧系统到新系统的模块功能映射,同时在新旧两个系统维度分别建立业务层模块到数据层表字段的映射,前两层映射推出数据层新旧表字段的映射;通过数据处理策略对源数据库迁移至目标数据库的迁移数据进行数据处理,包括清洗策略、补齐策略和字段映射字典,实现字段的映射和数据补齐;测试包括数据验证性测试、程序适配和线上应急预案。本发明专利技术让旧系统的历史数据平稳地迁移到新系统,从而使新系统进行二次使用,让历史数据同新系统的原生数据一样被使用。一样被使用。一样被使用。

【技术实现步骤摘要】
一种基于国产CPU环境的MMT数据迁移方法


[0001]本专利技术涉及数据迁移
,具体涉及一种基于国产CPU环境的MMT数据迁移方法。

技术介绍

[0002]近年来,国家大力扶持具有自主知识产权的全国产软硬件的发展,涌现了以国产操作系统和CPU为代表的众多具有自主知识产权的基础软硬件产品。中标麒麟系统、深度操作系统等国产操作系统生态环境日趋完善,龙芯、飞腾等具有自主知识产权的高端通用芯片蓬勃发展,技术水平达到或接近同类产品的世界先进水平。
[0003]随着国产基础软硬件的蓬勃发展,国产基础软硬件的推广和使用带来了前所未有的机遇。数据库作为生态环境中重要的一环,基于国产操作系统和CPU的环境下涌现出了多种国产数据库。在国产化环境下,通过更新换代实现信息化系统的功能升级已成为当前企业和政府部门信息化建设的重要方向,如何把旧系统的数据迁移到新系统中二次使用,成为当前政府部门使用系统过程中面临的主要问题,以公文系统为例,由于国产化替代工作的需要,原有的旧系统不再使用,取而代之的是新的建设厂商研发的新系统,但旧系统中存在大量的历史数据,这些数据时间跨度大,数据量大,数据种类多,数据存储结构存在很大差异。在研发新系统的过程中,新系统的建设会参考旧系统,但在产品设计上不应该受原系统的局限,新系统在业务层面和旧系统差距大,这给数据迁移带来了挑战。并且新旧系统替换场景的数据迁移不等同于生产系统到数据仓库的数据ETL,而是将需要的历史数据一次或者是几次转换到新的系统中,形成新系统中的业务数据。显然常用的ETL工具不能满足实际工作的需要,仍然需要结合实际情况,按照ETL的思路,进行历史数据或归档数据的迁移工作。

技术实现思路

[0004]本专利技术的技术任务是提供一种基于国产CPU环境的MMT数据迁移方法,让旧系统的历史数据平稳地迁移到新系统,从而使新系统进行二次使用,让历史数据同新系统的原生数据一样被使用。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种基于国产CPU环境的MMT(map、migrate、test)数据迁移方法,包括映射、迁移和测试,并进行迭代演化,逐步将旧系统的数据迁移到新系统中;
[0007]建立数据映射模型,在业务层建立旧系统到新系统的模块功能映射,同时在新旧两个系统维度分别建立业务层模块到数据层表字段的映射,前两层映射推出数据层新旧表字段的映射;
[0008]通过数据处理策略对源数据库迁移至目标数据库的迁移数据进行数据处理,包括清洗策略、补齐策略和字段映射字典,实现字段的映射和数据补齐;
[0009]测试包括数据验证性测试、程序适配和线上应急预案。
[0010]该MMT数据迁移方法针对新旧系统替换场景中的数据迁移,映射(map)完成新旧系统在业务层和数据层的映射,新系统的设计会在旧系统的基础上升级改造,业务层的功能点、业务逻辑等都发生了变化,进而数据层存在较大差异,在映射阶段将研究数据迁移映射模型、数据补齐等内容;
[0011]迁移(migrate)通过现有DMS(data migration system)工具或自建工具,完成把数据从源数据库迁移到目标数据库的过程,这个阶段完成数据类型的转换,实现数据补齐;
[0012]测试(test):数据能够真正使用起来,往往要做程序方面的适配,比如添加历史数据标识和支持历史数据的特有数据等,在这个阶段要充分考虑数据测试,必要时用户也要参与其中反馈问题,做必要的数据补齐。
[0013]该MMT数据迁移方法更加强调迭代,根据实际情况按业务模块和历史数据的时间维度等迭代演化,逐步将旧系统的数据迁移到新系统中。
[0014]优选的,所述建立数据映射模型:
[0015]1)、完成新旧系统业务层的映射,若有新系统A'替换旧系统A,A系统有功能M1、M2

Mn,新系统A'有功能M'1、M'2

M'm,则建立旧系统到新系统的功能映射包括:A到A'业务模块的一一映射、A系统中的多个模块映射到A'的一个业务模块、A系统中的多个模块映射到A'的多个业务模块、A系统中没有模块,用Null表示,A'新增全新的业务模块,其实现方式如下:
[0016][0017]2)、分别完成A和A'业务层到数据层的字段映射,若以T和T'分别表示数据层的字段集,C和C'分别代表系统的字段,则建立模块到数据字段的映射方式如下:
[0018][0019]3)、建立A到A'数据层的映射,由上述步骤1)和2)建立好的映射可推导出C到C'的映射,从而建立起新旧系统的数据层字段映射。
[0020]进一步的,由所述的数据映射建立起旧系统的字段和新系统的字段以及底层数据库字段的映射关系,进而进行数据补齐,数据补齐策略包括:
[0021]丢弃具有缺失数据的记录;
[0022]进行缺失数据的填补,包括默认值方式和关联值推导方式;
[0023]采用模型对缺失数据进行预测,这种方式往往是针对于连续数值的预测补齐工作,常用的方法包括基于决策表的补齐策略,基于不完备数据聚类的缺失数据填补方法。
[0024]这些方法之间并不是相互排斥的,不同的方法之间在具体的实现算法上可能存在着紧密的联系。
[0025]优选的,通过数据迁移平台实现数据迁移,所述数据迁移平台包括数据流水线、数据处理策略、数据库驱动集合和中间库;
[0026]数据流水线是数据从源数据库到目标数据库的通道,包括加载模块、清洗模块、补齐模块和写入模块,加载模块从源数据库加载数据,清洗模块根据可配置的清洗策略对数据进行清洗,补齐模块根据补齐策略对数据进行补齐,写入模块根据字段映射字典负责类型转换以及写入到指定的目标数据库;
[0027]中间库用于中间数据的暂存,数据流水线要整合多个表的数据,中间数据库可以暂存这些中间结果数据,直接使用中间库加工好的数据,减少源数据库的访问,提高数据整合的效率;
[0028]数据库驱动集合存储数据库的JDBC驱动,要连接上对应的数据库,就需要正确选择相应数据库驱动,填写数据库的各种连接相关的信息,一般情况下包含服务器的主机名或者所在IP地址、数据库产品名称、端口号、用户名和密码。在正确地填好这些相关连接信息后就可以连接上对应的数据库。
[0029]优选的,所述清洗策略,制定详细的数据清洗策略,每个模块根据清洗策略对本模块数据进行遍历分析,找出重复数据和废除的垃圾数据,分析原因,做好数据的存档,合理地剔除多余数据;
[0030]所述补齐策略,整理出每个模块缺失字段的补齐策略,对于无法通过表单更新的模块,梳理出外键的关联关系;根据补齐方案和表外键关联关系,通过数据库脚本的统一更新,以及多表关联查询,将缺失字段合理地补充到模块数据中,保证数据的完整性,确保数据能够适配新系统;
[0031]所述字段映射字典,制定源数据库和目标数据每个模块的字段映射关系,将数据进行格式加工处理后,存入目标数据库中;对于不匹配的字典项本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于国产CPU环境的MMT数据迁移方法,其特征在于包括映射、迁移和测试,并进行迭代演化,逐步将旧系统的数据迁移到新系统中;建立数据映射模型,在业务层建立旧系统到新系统的模块功能映射,同时在新旧两个系统维度分别建立业务层模块到数据层表字段的映射,前两层映射推出数据层新旧表字段的映射;通过数据处理策略对源数据库迁移至目标数据库的迁移数据进行数据处理,包括清洗策略、补齐策略和字段映射字典,实现字段的映射和数据补齐;测试包括数据验证性测试、程序适配和线上应急预案。2.根据权利要求1所述的一种基于国产CPU环境的MMT数据迁移方法,其特征在于所述建立数据映射模型:1)、完成新旧系统业务层的映射,若有新系统A'替换旧系统A,A系统有功能M1、M2

Mn,新系统A'有功能M'1、M'2

M'm,则建立旧系统到新系统的功能映射包括:A到A'业务模块的一一映射、A系统中的多个模块映射到A'的一个业务模块、A系统中的多个模块映射到A'的多个业务模块、A系统中没有模块,用Null表示,A'新增全新的业务模块,其实现方式如下:2)、分别完成A和A'业务层到数据层的字段映射,若以T和T'分别表示数据层的字段集,C和C'分别代表系统的字段,则建立模块到数据字段的映射方式如下:3)、建立A到A'数据层的映射,由上述步骤1)和2)建立好的映射可推导出C到C'的映射,从而建立起新旧系统的数据层字段映射。3.根据权利要求2所述的一种基于国产CPU环境的MMT数据迁移方法,其特征在于由所述的数据映射建立起旧系统的字段和新系统的字段以及底层数据库字段的映射关系,进而进行数据补齐,数据补齐策略包括:丢弃具有缺失数据的记录;进行缺失数据的填补,包括默认值方式和关联值推导方式;采用模型对缺失数据进行预测。4.根据权利要求1所述的一种基于国产CPU环境的MMT数据迁移方法,其特征在于通过数据迁移平台实现数据迁移,所述数据迁移平台包括数据流水线、数据处理策略、数据库驱动集合和中间库;数据流水线是数据从源数据库到目标数据库的通道,包括加载模块、清洗模块、补齐模块和写入模块,加载模块从源数据库加载数据,清洗模块根据可配置的清洗策略对数据进行清洗,补齐模块根据补齐策略对数据进行补齐,写入模块根据字段映射字典负责类型转换以及写入到指定的目标数据库;
中间库用于中间数据的暂存;数据库驱动集合存储数据库的JDBC驱动。5...

【专利技术属性】
技术研发人员:张浩宋晓琳李春龙
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1