数据迁移工具及相应计算机设备和存储介质制造技术

技术编号：36183827 阅读：40 留言：0更新日期：2022-12-31 20:43

本申请公开了数据迁移工具及相应计算机设备和存储介质，其中所述数据迁移工具用于配置源数据库和目标数据库的连接信息、设置一个或多个基于开源Debezium的数据同步自动任务的信息、设置一个或多个第一调用式任务的信息、调用嵌入的开源Debezium将所述数据同步自动任务相应的源数据库的相应源表的数据全量同步到相应目标数据库的相应目标表并自动监测和同步相应源表的变化、调用第一调用式任务根据设置的数据筛选条件从相应源数据库抽取数据并导入到相应目标数据库。本发明专利技术使能既利用CDC工具捕获数据变化进行同步又解决CDC工具不适合对数据筛选后再迁移的问题，避免了同时使用CDC工具和ETL工具的冗余，同时降低开发人员的学习成本。人员的学习成本。人员的学习成本。

全部详细技术资料下载

【技术实现步骤摘要】
数据迁移工具及相应计算机设备和存储介质

[0001]本申请涉及电数字数据处理领域，尤其涉及数据迁移工具及相应计算机设备和计算机可读存储介质。

技术介绍

[0002]成本费率法是国家卫健委发布的《公立医院成本核算规范》中的自下而上法核算DRG组/病种成本的一种实现方法，其核算流程包含以下5个步骤：
[0003]1)建立病组价值链模型；
[0004]2)归集各个作业中心的收入；
[0005]3)计算各作业中心成本费率；
[0006]4)计算患者成本；
[0007]5)计算DRG组/病种成本。
[0008]其中第4)步的计算要使用患者病例的收入明细根据作业中心的配置分别汇总收入金额，再乘以作业中心成本费率，然后再汇总来计算。由于收入明细数据量大，计算起来非常慢，甚至会因为数据量巨大而内存溢出，导致结果计算不出来。
[0009]一种解决方案是根据患者病例分批计算，每次只计算1000个患者病例，这样可以保证计算过程中不会内存溢出，计算流程可以顺利进行。但是不能解决计算速度慢的问题。
[0010]另一种解决方案是在分批计算的基础上，启动多线程并行计算，这样可以在一定程度上提升计算速度。但是这样会导致计算的时候占用大量的数据库连接，同时会占用数据库服务器的大量内存和CPU，严重影响系统其他功能的使用。
[0011]即使使用了以上两种方案，计算速度仍然不能让人满意。例如，一年的病例数量可能在10万以上，计算患者成本需要半小时乃至更久，极大地影响了用户体验。/>[0012]使用ETL工具将计算的输入数据迁移到分布式数据库例如Greenplum(简称GP)中去计算，利用GP数据库的特性，可使计算效率提升70％以上。然而，收入明细数据量大，使用ETL工具迁移数据速度慢，反而适合使用CDC工具做数据同步。而CDC工具是针对数据变化捕获的，又不适合对数据筛选后再迁移的场景。如果同时使用ETL工具和CDC工具又显得冗余，增加开发人员的学习成本。
[0013]因此，提供一款新的数据迁移工具是使用GP数据库优化患者成本计算的关键。

技术实现思路

[0014]本专利技术提供一种数据迁移工具及相应计算机设备和存储介质，其在利用CDC工具捕获数据变化进行同步的同时解决了CDC工具不适合对数据筛选后再迁移的问题，解决了ETL工具和CDC工具同时使用冗余问题。
[0015]在本专利技术的第一方面，提供一种数据迁移工具，该数据迁移工具包括：
[0016]数据库配置模块，用于配置源数据库和目标数据库的连接信息；
[0017]自动任务信息设置模块，用于设置一个或多个基于开源Debezium的数据同步自动
任务的信息，所述信息包括源数据库名称、源表名称、目标数据库名称、目标表名称；
[0018]第一调用式任务信息设置模块，用于设置一个或多个第一调用式任务的信息，所述一个或多个第一调用式任务的信息包括源数据库名称、源数据库数据筛选条件、目标数据库名称、目标表名称和导入模式；
[0019]第一数据迁移模块，用于调用所述数据迁移工具中嵌入的开源Debezium将所述数据同步自动任务相应的源数据库的相应源表的数据全量同步到相应目标数据库的相应目标表并自动监测和同步相应源表的变化；
[0020]第二数据迁移模块，用于调用所述第一调用式任务根据设置的数据筛选条件从相应源数据库抽取数据并导入到相应目标数据库。
[0021]在本专利技术的第二方面，提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现根据本专利技术的第一方面的数据迁移工具的功能。
[0022]根据本专利技术的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据本专利技术的第一方面的数据迁移工具的功能。
[0023]按照本专利技术，通过配置源数据库和目标数据库的连接信息、设置一个或多个基于开源Debezium的数据同步自动任务的信息、设置一个或多个第一调用式任务的信息、调用嵌入的开源Debezium将数据同步自动任务相应的源数据库的相应源表的数据全量同步到相应目标数据库的相应目标表并自动监测和同步相应源表的变化、调用第一调用式任务根据设置的数据筛选条件从相应源数据库抽取数据并导入到相应目标数据库，使得既利用CDC工具捕获数据变化而同步又解决CDC工具不适合对数据筛选后再迁移的问题，避免了ETL工具和CDC工具同时冗余使用，简化了数据迁移解决方案，降低了开发人员的学习成本进而可提高开发效率。
[0024]在涉及大量数据的计算应用例如患者成本计算中，通过利用本专利技术的数据迁移工具将数据迁移到分布式数据库例如Greenplum数据库，使得相应计算可利用Greenplum数据库的特性，计算效率提升可达70％以上。
[0025]结合附图阅读本专利技术实施方式的详细描述后，本专利技术的其它特点和优点将变得更加清楚。
附图说明
[0026]图1为根据本专利技术的数据迁移工具的一实施例的框图。
[0027]为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本专利技术所必要的细节，而省略其他细节。
具体实施方式
[0028]下面参照附图对本专利技术的实施方式和实施例进行详细说明。
[0029]通过下面给出的详细描述，本专利技术的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本专利技术优选实施例的同时，它们仅为说明目的给出。
[0030]图1示出了根据本专利技术的数据迁移工具的一优选实施例的框图。
[0031]数据库配置模块102用于配置源数据库和目标数据库的连接信息。源数据库和目
标数据库可以分别为SQL Server、Oracle、Greenplum、或其它(分布式)数据库。源数据库类型和目标数据库类型可以相同，也可以不同。在优选实施例中，源数据库为非分布式数据库类型，目标数据库为分布式数据库类型。在此结合源数据库为SQL Server及目标数据库为Greenplum的例子进行说明。配置的连接信息例如包括数据库名称、数据库描述名称(如SQL源库)、数据源类型(如SQL Server)、主机名称(IP)、端口号、用户名、密码等。该模块可用于分别新增一个或多个源数据库和/或一个或多个目标数据库的连接信息，也可用于修改或删除先前配置的源数据库和/或目标数据库的连接信息。
[0032]自动任务信息设置模块104用于设置一个或多个基于Debezium的数据同步自动任务的信息。基于Debezium的数据同步自动任务的配置信息可包括源数据库名称(如SQL源库)、源表名称、目标数据库名称(如GP目标库)、目标表名称。自动任务信息设置模块104还可用于修改或删除先前配置的数据同步自动任务，及可用于管理先前配置的数据同步自动任务的启动状态(启动或停止)。
[0033]第一调用式任务信息设置模块106用于设置一个或多个第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据迁移工具，其特征在于，所述数据迁移工具包括：数据库配置模块，用于配置源数据库和目标数据库的连接信息；自动任务信息设置模块，用于设置一个或多个基于开源Debezium的数据同步自动任务的信息，所述信息包括源数据库名称、源表名称、目标数据库名称、目标表名称；第一调用式任务信息设置模块，用于设置一个或多个第一调用式任务的信息，所述一个或多个第一调用式任务的信息包括源数据库名称、源数据库数据筛选条件、目标数据库名称、目标表名称和导入模式；第一数据迁移模块，用于调用所述数据迁移工具中嵌入的开源Debezium将所述数据同步自动任务相应的源数据库的相应源表的数据全量同步到相应目标数据库的相应目标表并自动监测和同步相应源表的变化；第二数据迁移模块，用于调用所述第一调用式任务根据设置的数据筛选条件从相应源数据库抽取数据并导入到相应目标数据库。2.根据权利要求1所述的数据迁移工具，其特征在于，所述数据迁移工具还包括：第二调用式任务信息设置模块，用于设置一个或多个第二调用式任务的信息；第三数据迁移模块，用于调用所述第二调用式任务并根据相应第二调用式任务设置的信息将相应数据从目标数据库导回到源数据库。3.根据权利要求1所述的数据迁移工具，其特征在于，所述导入模式包括：追加、覆盖和先删再写。4.根据权利要求1所述的数...

【专利技术属性】
技术研发人员：李庆超，张亚平，赵曦子，张志昌，
申请(专利权)人：望海康信北京科技股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人