医疗数据ETL任务中的数据核查方法及装置制造方法及图纸

技术编号:33072965 阅读:12 留言:0更新日期:2022-04-15 10:07
本申请实施例提供了一种医疗数据ETL任务中的数据核查方法及装置,包括:在配置医疗数据ETL任务的任务流程过程中,确定至少一个需要进行数据核查的目标数据抽取组件;对于每一目标数据抽取组件,在该目标数据抽取组件之后添加数据核查点标志;执行医疗数据ETL任务的任务流程,在执行完每一目标数据抽取组件之后,基于该数据抽取组件对应的数据核查配置信息对该数据抽取组件进行数据核查得到核查结果。该方案在确定需要进行数据核查的数据抽取组件时,在配置任务流程的过程中对各数据抽取组件进行数据核查,节约了核查时间,提高了核查效率,考虑了各数据抽取组件的业务类型和所需处理的数据量,数据核查的适用性更强,且映射关系调整的难度更低。射关系调整的难度更低。射关系调整的难度更低。

【技术实现步骤摘要】
医疗数据ETL任务中的数据核查方法及装置


[0001]本申请涉及计算机
,具体而言,本申请涉及一种医疗数据ETL任务中的数据核查方法及装置。

技术介绍

[0002]医疗数据的ETL(Extract

Transform

Load,抽取

转换

加载)任务中,数据抽取任务是指通过预先配置的数据映射关系将医疗数据从源端抽取到目标端。由于原始医疗数据的质量不高,且业务口径较多导致数据的规范性无法得到保证,另外使用之后由后续业务层面再来反馈ETL任务的配置问题,耗时多反馈链路较长,因此通常在使用之前需要对ETL中数据抽取的数据的规范性进行核查,从而确定数据抽取过程中预先配置的数据映射关系是否满足医疗数据ETL任务的需要,然后对数据映射关系进行调整。
[0003]现有技术中核查方式通常是在所有数据抽取到目标端后,再对目标端的医疗数据进行核查。然而医疗数据的ETL任务涉及的抽取数据量非常大,抽取完所有任务需要的数据后再做核查耗费的时间非常长,严重影响了数据映射关系的确定效率。同时,医疗数据的ETL任务类型以及所抽取的数据量表现出较强的多样性,因此亟需提出一种适应不同医疗数据ETL任务场景下的高效数据核查方法。

技术实现思路

[0004]本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:第一方面,本申请实施例提供了一种医疗数据ETL任务中的数据核查方法,包括:在配置医疗数据ETL任务的任务流程过程中,基于各数据抽取组件的数据量级别和业务类型,确定至少一个需要进行数据核查的目标数据抽取组件;对于每一目标数据抽取组件,在该目标数据抽取组件之后添加数据核查点标志,数据核查点标志用于指示该目标数据抽取组件对应的数据核查配置信息;执行医疗数据ETL任务的任务流程,在执行至每一目标数据抽取组件时,基于该目标数据抽取组件对应的数据核查配置信息,对该数据抽取组件抽取的数据进行数据核查得到核查结果。
[0005]在本申请的一种可选实施例中,在确定至少一个需要进行数据核查的目标数据抽取组件之前,该方法还包括:在配置医疗数据ETL任务的任务流程过程中,基于ETL任务的业务需求,确定ETL任务中所包含的至少一对源端和目标端,并为每对源端和目标端配置对应的数据抽取组件。
[0006]在本申请的一种可选实施例中,为每对源端和目标端配置对应的数据抽取组件,包括:基于每对源端和目标端中源端的数据结构和目标端的数据结构、以及业务需求,确定由源端数据到目标端数据的映射关系,并基于映射关系确定该对源端和目标端对应的
数据抽取组件。
[0007]在本申请的一种可选实施例中,基于各数据抽取组件的数据量级别和业务类型,确定至少一个需要进行数据核查的目标数据抽取组件,包括:对于每一数据抽取组件,若该数据抽取组件对应的数据量级别达到预设数据量级别、和/或该数据抽取组件对应的业务类型为预设业务类型,则确定该数据抽取组件为目标数据抽取组件。
[0008]在本申请的一种可选实施例中,在确定至少一个需要进行数据核查的目标数据抽取组件的同时的同时,该方法还包括:从目标数据抽取组件的映射关系所包含的目标端数据字段,确定出需要核查的目标端数据字段和对应的核查规则,并将需要核查的目标端数据字段和对应的核查规则作为数据核查配置信息按存储路径进行存储。
[0009]在本申请的一种可选实施例中,执行医疗数据ETL任务的任务流程,在执行至每一目标数据抽取组件时,基于该目标数据抽取组件对应的数据核查配置信息,对该数据抽取组件抽取的数据进行数据核查得到核查结果,包括:在执行至每一目标数据抽取组件时,将该目标数据抽取组件抽取到的数据存入预设临时表中,并基于数据核查点标志获取该目标数据抽取组件对应的数据核查配置信息;对于每一目标数据抽取组件,基于该目标数据抽取组件对应的数据核查配置信息,对预设临时表中的数据进行数据核查得到核查结果。
[0010]在本申请的一种可选实施例中,在得到核查结果后,该方法还包括:若核查结果指示核查不通过,则基于核查结果修改目标数据抽取组件的映射关系,并再次执行ETL任务的任务流程,获取对应的核查结果;重复执行若核查结果指示核查不通过,则基于核查结果修改目标数据抽取组件的映射关系,并再次执行ETL任务的任务流程的步骤,直至核查结果指示核查通过。
[0011]第二方面,本申请实施例提供了一种医疗数据ETL任务中的数据核查装置,包括:目标数据抽取组件确定模块,用于在配置医疗数据ETL任务的任务流程过程中,基于各数据抽取组件的数据量级别和业务类型,确定至少一个需要进行数据核查的目标数据抽取组件;数据核查点标志添加模块,用于对于每一目标数据抽取组件,在该目标数据抽取组件之后添加数据核查点标志,数据核查点标志用于指示该目标数据抽取组件对应的数据核查配置信息;数据核查模块,用于执行医疗数据ETL任务的任务流程,在执行至每一目标数据抽取组件时,基于该目标数据抽取组件对应的数据核查配置信息,对该数据抽取组件抽取的数据进行数据核查得到核查结果。
[0012]在本申请的一种可选实施例中,该装置还包括数据抽取组件配置模块,用于:在确定至少一个需要进行数据核查的目标数据抽取组件之前,在配置医疗数据ETL任务的任务流程过程中,基于ETL任务的业务需求,确定ETL任务中所包含的至少一对源端和目标端,并为每对源端和目标端配置对应的数据抽取组件。
[0013]在本申请的一种可选实施例中,数据抽取组件配置模块具体用于:基于每对源端和目标端中源端的数据结构和目标端的数据结构、以及业务需求,
确定由源端数据到目标端数据的映射关系,并基于映射关系确定该对源端和目标端对应的数据抽取组件。
[0014]在本申请的一种可选实施例中,目标数据抽取组件确定模块具体用于:对于每一数据抽取组件,若该数据抽取组件对应的数据量级别达到预设数据量级别、和/或该数据抽取组件对应的业务类型为预设业务类型,则确定该数据抽取组件为目标数据抽取组件。
[0015]在本申请的一种可选实施例中,该装置还包括数据核查配置信息获取模块,用于:在确定至少一个需要进行数据核查的目标数据抽取组件的同时,从目标数据抽取组件的映射关系所包含的目标端数据字段,确定出需要核查的目标端数据字段和对应的核查规则,并将需要核查的目标端数据字段和对应的核查规则作为数据核查配置信息按存储路径进行存储。
[0016]在本申请的一种可选实施例中,数据核查模块具体用于:在执行至每一目标数据抽取组件时,将该目标数据抽取组件抽取到的数据存入预设临时表中,并基于数据核查点标志获取该目标数据抽取组件对应的数据核查配置信息;对于每一目标数据抽取组件,基于该目标数据抽取组件对应的数据核查配置信息,对预设临时表中的数据进行数据核查得到核查结果。
[0017]在本申请的一种可选实施例中,该装置还包括映射关系调整模块,用于:在得到核查结果后,若核查结果指示核查不通过,则基于核查结果修改目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗数据ETL任务中的数据核查方法,其特征在于,包括:在配置医疗数据ETL任务的任务流程过程中,基于各数据抽取组件的数据量级别和业务类型,确定至少一个需要进行数据核查的目标数据抽取组件;对于每一目标数据抽取组件,在该目标数据抽取组件之后添加数据核查点标志,所述数据核查点标志用于指示该目标数据抽取组件对应的数据核查配置信息;执行所述医疗数据ETL任务的任务流程,在执行至每一目标数据抽取组件时,基于该目标数据抽取组件对应的数据核查配置信息,对该数据抽取组件抽取的数据进行数据核查得到核查结果。2.根据权利要求1所述的方法,其特征在于,在确定至少一个需要进行数据核查的目标数据抽取组件之前,所述方法还包括:在配置所述医疗数据ETL任务的任务流程过程中,基于所述ETL任务的业务需求,确定所述ETL任务中所包含的至少一对源端和目标端,并为每对源端和目标端配置对应的数据抽取组件。3.根据权利要求2所述的方法,其特征在于,所述为每对源端和目标端配置对应的数据抽取组件,包括:基于每对源端和目标端中源端的数据结构和目标端的数据结构、以及所述业务需求,确定由源端数据到目标端数据的映射关系,并基于所述映射关系确定该对源端和目标端对应的数据抽取组件。4.根据权利要求1所述的方法,其特征在于,所述基于各数据抽取组件的数据量级别和业务类型,确定至少一个需要进行数据核查的目标数据抽取组件,包括:对于每一数据抽取组件,若该数据抽取组件对应的数据量级别达到预设数据量级别、和/或该数据抽取组件对应的业务类型为预设业务类型,则确定该数据抽取组件为所述目标数据抽取组件。5.根据权利要求1所述的方法,其特征在于,在确定至少一个需要进行数据核查的目标数据抽取组件的同时,所述方法还包括:从所述目标数据抽取组件的映射关系所包含的目标端数据字段,确定出需要核查的目标端数据字段和对应的核查规则,并将所述需要核查的目标端数据字段和对应的核查规则作为数据核查配置信息按存储路径进行存储。6.根据权利要求1所述的方法,其特征在于,所述执行所述医疗数据...

【专利技术属性】
技术研发人员:秦晓宏黄主斌
申请(专利权)人:上海柯林布瑞信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1