用于医疗大数据的数据标准化治理方法及系统技术方案

技术编号:38362242 阅读:11 留言:0更新日期:2023-08-05 17:30
本发明专利技术涉及数据治理技术领域,具体涉及了一种用于医疗大数据的数据标准化治理方法及系统。包括以下步骤:S100:通过不同的数据采集方式,从数据源处获取各类型的原始医疗数据,并将原始医疗数据存储至医疗原始数据库中;S200:对原始医疗数据进行标准化处理,得到标准医疗数据,将标准医疗数据存储至医疗标准数据库;S300:确定医疗主题对象及其关联维度,生成医疗主题对象表,从医疗标准数据库中调取医疗主题对象关联维度的标准医疗数据填入医疗主题对象表;S400:获取数据服务的医疗专题场景,生成医疗专题表,并根据医疗专题场景,确定需要关注的医疗主题对象,并从医疗主题对象表中调取关联的标准医疗数据进行数据融合后添加至医疗专题表。加至医疗专题表。加至医疗专题表。

【技术实现步骤摘要】
用于医疗大数据的数据标准化治理方法及系统


[0001]本专利技术涉及数据治理
,具体涉及了一种用于医疗大数据的数据标准化治理方法及系统。

技术介绍

[0002]对于医疗领域的数据资源分类,具体包括影像类数据、表格类数据、文本类数据、系列类数据、填报类数据、穿戴类数据和数据库数据等。这些医疗数据不仅分散存储在医院内部各个信息孤岛上,还面临着数据种类多样化,数据质量层次不齐、数据标准不规范和数据缺乏关联性等问题。
[0003]而在医疗领域中的专题应用场景中,需要使用到来自不同数据源的不同数据,而由于医疗数据以多种来源、多种类型、多种格式存储于各医疗卫生机构,加之医疗卫生机构之间不互联、不互通的因素,导致医疗数据不连续、不完整等碎片化的问题。现有技术中,虽然有将各个医疗卫生机构的数据进行整合,但对于数据整合后的处理只是简单归类,例如按照数据的类型、数据的来源时间、数据的来源方进行简单的归类,然而在具体的应用场景需要使用到医疗数据时,需要使用到多方数据,例如某个患者的历史病历、CT影像、身体指标数据,这些数据类型不同,来源时间不同,因此,在需要使用时,还需要从海量数据中进行检索。

技术实现思路

[0004]本专利技术意在提供一种用于医疗大数据的数据标准化治理方法,能够对医疗数据进行采集整合,提高医疗数据使用效率。
[0005]本专利技术提供的基础方案:用于医疗大数据的数据标准化方法,包括以下步骤:S100:通过不同的数据采集方式,从数据源处获取各类型的原始医疗数据,并将原始医疗数据存储至医疗原始数据库中;S200:对原始医疗数据进行标准化处理,得到标准医疗数据,将标准医疗数据存储至医疗标准数据库;S300:确定医疗主题对象及其关联维度,生成医疗主题对象表,从医疗标准数据库中调取医疗主题对象关联维度的标准医疗数据填入医疗主题对象表,并将医疗主题对象表存储至医疗主题数据库中;S400:获取数据服务的医疗专题场景,生成医疗专题表,并根据医疗专题场景,确定需要关注的医疗主题对象,并从医疗主题对象表中调取关联的标准医疗数据进行数据融合后添加至医疗专题表;S500:确定医疗专题表中的标准医疗数据的数据源,所述数据源包括信赖等级依次降低的一级数据源、二级数据源以及三级数据源;S501:将标准医疗数据添加至医疗专题表后,分别确定一级数据源、二级数据源、三级数据源的标准医疗数据在该医疗专题表中的数据占比;
S502:当一级数据源的标准医疗数据在该医疗专题表中的占比低于二级数据源,或三级数据源中任意一个的标准医疗数据时,获取该二级数据源或三级数据源的标准医疗数据,出现在其他医疗专题表中的次数,并根据该二级数据源或三级数据源的标准医疗数据出现在其他医疗专题表中的次数,判断该二级数据源或三级数据源的数据可信度,出现的次数越多,数据可信度越高;S503:当该二级数据源或三级数据源的数据可信度高时,保留该二级数据源或三级数据源的标准医疗数据,当该二级数据源或三级数据源的数据可信度低时,从标准医疗数据库中的一级数据源,或其他数据可信度高的二级数据源或三级数据源处,调取来自该二级数据源或三级数据源相同关联维度的标准医疗数据,添加至医疗专题表。
[0006]本专利技术的原理及优点在于:首先,通过各类的数据采集方式,从医疗数据的数据源处获取到原始医疗数据。原始医疗数据指从存放医疗数据的数据源处直接得到的数据,数据的结构与内容均与数据源处一致。得到原始医疗数据后,由于原始医疗数据中数据本身可能存在缺陷,以及不同数据源处获取到的原始医疗数据类型、格式不一,因此需要对原始医疗数据进行规范处理,将原始医疗数据通过标准化处理过后,得到标准医疗数据,将标准医疗数据存在医疗标准数据库中。在得到标准医疗数据的同时,通过医疗原始数据库保存原始数据,便于对数据进行溯源。之后根据医疗标准数据库中的标准医疗数据,建立医疗主题数据库。通过确定医疗主题对象及其关联维度,医疗主题对象指在医疗大数据领域,数据归集的主题,如患者主题、医院主题等,患者主题下的关联维度可以有患者的历史病历、患者的体检报告等。根据医疗主题对象所关联的维度,从医疗标准数据库中提取医疗主题对象所需求的数据,以主题的形式完成数据的汇集,得到各个主题下的各类数据。之后根据医疗专题场景,确定出医疗专题场景所需要的医疗主题对象,将医疗主体对象表中与专题场景有关联的医疗数据填入到医疗专题表中。
[0007]相比于现有技术,通过不同的维度对医疗数据进行归集。以医疗主体对象体现个体的医疗数据关联维度,以医疗专题对象体现整体的医疗数据关联维度。将医疗数据进行归集,服务于具体的医疗场景,完成海量数据的整理及应用。
[0008]进一步,所述S200包括以下步骤:S210:对原始医疗数据进行元数据设计、字段规范设计、字段映射设计、雪花型架构设计,得到标准医疗数据;S220:对标准医疗数据进行缺陷识别,对识别出的具有缺陷的标准医疗数据进行修复后存储至医疗标准数据库。
[0009]对原始医疗数据进行元数据设计、字段规范设计、字段映射设计以及雪花型架构设计。元数据设计,是定义表结构字段的数据信息,可以作为表结构信息的摘要,具体包括元数据录入和管理。构建完成后,可以用于医疗数据目录检索、医疗数据溯源和医疗数据资产统计。字段规范设计,是由一组属性规定其定义、标识、表示和运行值的数据单元,其作用一方面是规范字段所存储的数据信息,另一方面标识符、数据类型、标识格式、值域是数据交换的基础。字段映射设计,是针对原始表对于同一业务属性的描述不统一场景,需要通过标准规范命名规则去统一映射替换原始表数据值。雪花型架构设计,指当有一个或多个医疗领域维度表没有直接联系到医疗事实表上,而是通过其他医疗维度表连接到医疗事实表上,成为雪花型架构。通过四种设计方法,得到标准医疗数据,之后对标准医疗数据进行缺
陷识别及处理,对具有缺陷的数据进行修复后存储至医疗标准数据库中。
[0010]进一步,所述S300包括以下步骤:S301:确定医疗主题对象的分类维度,并构建各个分类维度的标签体系;S302:根据标签体系从医疗标准数据库中获取到标准医疗数据,并按照标签体系预设好的计算逻辑,对标准医疗数据进行计算后填入医疗主题对象表。
[0011]不同医疗主题对象下有不同的分类维度,例如患者主题下的分类维度可包括检验检查记录、入院记录、医学影像报告、门诊急诊病历、睡眠数据、血氧数据、运动数据等。标签提取至各个分类维度下的数据的具体表示,根据标签体系从医疗标准数据库中提取到标准医疗数据,并通过标签体系预设好的计算逻辑,对标准医疗数据极性计算后再填入医疗主体对象表。不同标签体系的医疗数据具有不同的计算逻辑,例如取一个月内的均值,或者是取最新的数据,或者是取数据源为三甲医院的数据。以各类型主题对象对医疗数据进行归集,完成数据融合。
[0012]进一步,所述S400包括以下步骤:S401:确定医疗业务场景的关联的主题对象;S402:根据业务场景关联的主题对象,获取关联主题对象的医疗主题对象表中与医疗业务场景相关的标准医疗数据填入医疗专题表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于医疗大数据的数据标准化治理方法,其特征在于:包括以下步骤:S100:通过不同的数据采集方式,从数据源处获取各类型的原始医疗数据,并将原始医疗数据存储至医疗原始数据库中;S200:对原始医疗数据进行标准化处理,得到标准医疗数据,将标准医疗数据存储至医疗标准数据库;S300:确定医疗主题对象及其关联维度,生成医疗主题对象表,从医疗标准数据库中调取医疗主题对象关联维度的标准医疗数据填入医疗主题对象表,并将医疗主题对象表存储至医疗主题数据库中;S400:获取数据服务的医疗专题场景,生成医疗专题表,并根据医疗专题场景,确定需要关注的医疗主题对象,并从医疗主题对象表中调取关联的标准医疗数据进行数据融合后添加至医疗专题表;S500:确定医疗专题表中的标准医疗数据的数据源,所述数据源包括信赖等级依次降低的一级数据源、二级数据源以及三级数据源;S501:将标准医疗数据添加至医疗专题表后,分别确定一级数据源、二级数据源、三级数据源的标准医疗数据在该医疗专题表中的数据占比;S502:当一级数据源的标准医疗数据在该医疗专题表中的占比低于二级数据源,或三级数据源中任意一个的标准医疗数据时,获取该二级数据源或三级数据源的标准医疗数据,出现在其他医疗专题表中的次数,并根据该二级数据源或三级数据源的标准医疗数据出现在其他医疗专题表中的次数,判断该二级数据源或三级数据源的数据可信度,出现的次数越多,数据可信度越高;S503:当该二级数据源或三级数据源的数据可信度高时,保留该二级数据源或三级数据源的标准医疗数据,当该二级数据源或三级数据源的数据可信度低时,从标准医疗数据库中的一级数据源,或其他数据可信度高的二级数据源或三级数据源处,调取来自该二级数据源或三级数据源相同关联维度的标准医疗数据,添加至医疗专题表。2.根据权利要求1所述的用于医疗大数据的数据标准化治理方法,其特征在于:所述S200包括以下步骤:S210:对原始医疗数据进行元数据设计、字段规范设计、字段映射设计、雪花型架构设计,得到标准医疗数据;S220:对标准医疗数据进行缺陷识别,对识别出的具有缺陷的标准医疗数据进行修复后存储至医疗标准数据库。3.根据权利要求1所述的用于医疗大数据的数据标准化治理方法,其特征在于:所述S300包括以下步骤:S301:确定医疗主题对象的分类维度,并构建各个分类维度的标签体系;S302:根据标签体系从医疗标准数据库中获取到标准医疗数据,并按照标签体系预设好的计算逻辑,对标准医疗数据进行计算后填入医疗主题对象表。4.根据权利要求1所述的用于医疗大数据的数据标准化治理方法,其特征在于:所述S400包括以下步骤:S401:确定医疗业务场景的关联的主题对象;S402:根据业务场景关联的主题对象,获取关联主题对象的医疗主题对象表中与医疗
业务场景相关的标准医疗数据填入医疗专题表。5.根据权利要求1所述的用于医疗大数据的数据标准化治理方法,其特征在于:还包括以下步骤:S600:当获取到的原始医疗数据更新时,对医疗原始数据库、医疗标准数据库、医疗主体数据库以及医疗专题数据库中的数据进行更新。6.用于医疗大数据的数据...

【专利技术属性】
技术研发人员:汪榕高山简义鹏胡丹丹
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1