一种用于人群队列研究数据的数据质控方法及装置制造方法及图纸

技术编号：42530617 阅读：26 留言：0更新日期：2024-08-27 19:38

本发明专利技术公开了一种用于人群队列研究数据的数据质控方法，包括以下步骤，步骤S1，队列数据获取，步骤S2，基础数据质控,对队列数据进行必要的数据质控，排查完整性和唯一性问题；步骤S3，基础数据质控结果返回；步骤S4，变量类型识别，构建一种基于BERT的队列变量类型识别模型，用于自动识别队列变量类型；步骤S5，高级数据质控,进一步对队列数据进行数据质控，排查出准确性和逻辑性问题；步骤S6，高级数据质控结果返回。采用本方法，对采集的队列数据进行自动化智能核查，排查并发现队列数据存在完整性、唯一性、准确性以及逻辑性问题，从而促进队列数据质量的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，尤其涉及一种用于人群队列研究数据的数据质控方法及装置。

技术介绍

1、队列研究一类重要的观察性医学研究方法，旨在通过暴露一些可疑因素，持续随访跟踪，采集关于疾病发生、发展和转归的详细信息，最终分析这些因素与目标结局之间有无因果关系及关联程度。队列研究在医学、公共卫生和流行病学等领域具有广泛的应用价值，对于揭示疾病发生机制和预防控制具有重要意义。当前，我国已开展多个大型队列研究，如中国慢性病前瞻性研究项目，泰州人群健康跟踪调查等。

2、人群队列研究的数据质量非常重要，若数据质量不高，可能会导致结果不准确，乃至出现误导性的结论。此外，如果研究结果基于低质量的数据，那么这些结果可能无法推广到其他人群或情境中，从而无法为公共卫生决策提供可靠的依据。因此，为了保证队列研究数据准确、完整和可靠，有必要采取一系列的数据质量控制措施对数据进行核查。当前，针对人群队列进行数据质控的方法较少，且绝大多数主要适用于医疗信息化数据而非队列研究数据，仍有如下诸多不足之处：(1)与广义上的医疗信息化数据不同，队列研究数据的采集是一个主动过程，对数据的准确性、完整性、及时性要求更高，当前具有普适性的医疗数据质控方法未充分考虑这些因素，难以满足这些要求。

3、(2)队列研究数据具有一些特性，如长期性、动态性、因果性等，当前缺乏适应队列研究特性的数据质控方法，如随访及时性质控。(3)缺乏针对具体的队列研究数据类型，进行准确性和逻辑性的一整套质控方法。

技术实现思路

2、为实现上述专利技术目的，本专利技术的一个方面提供一种用于人群队列研究数据的数据质控方法，包括以下步骤，

3、步骤s1，队列数据获取，即从队列数据源获取数据，队列数据字段包括调查对象唯一标识码、采集时间、变量名称、变量编码、是否随访变量、是否关键变量、结果、结果单位；

4、步骤s2，基础数据质控，即对队列数据进行必要的数据质控，排查完整性和唯一性问题，包括完整性检查和唯一性检查，得到基础数据质控结果；

5、步骤s3，基础数据质控结果返回，即返回基础数据质控结果，包括调查对象唯一标识码、采集时间、变量名称、变量编码和问题类型；

6、步骤s4，变量类型识别，构建一种基于bert(bidirectional encoderrepresentation from transformers)的队列变量类型识别模型，用于自动识别队列变量类型，所述队列变量类型包括：时间型变量、分类型变量、数值型变量、存储路径变量和文本型变量，然后返回变量类型识别结果，包括变量名称、变量编码、变量类型；

7、步骤s5，高级数据质控，即进一步对队列数据进行数据质控，排查出准确性和逻辑性问题，从规则队列质控算子库和智能队列质控算子库中选择任意个质控算子进行配置，分别填写配置项，计算得到高级数据质控结果；

8、步骤s6，高级数据质控结果返回，返回高级数据质控的结果，包括患者唯一标识码、采集时间、变量名称、变量编码、算子id、算子名称、问题类型，问题类型包括错误和异常。

9、进一步的，所述步骤s1中的队列数据字段，其中：

10、所述调查对象唯一标识码，包括但不限于居民身份证、医保卡号、empi(患者主索引,enterprise master patient index)等能够唯一表示调查对象的标识；

11、所述采集时间用于表示变量数据的采集时间，包括但不限于问卷采集时间、样本采集时间；

12、所述变量名称是队列采集项目的具体名称，具有唯一性；

13、所述变量编码是队列采集项目具体名称对应的编码，根据变量名称自动生成，具有唯一性；

14、所述是否随访变量是队列采集项目是否具有随访属性；

15、所述是否关键变量是队列采集项目是否为队列研究必须采集的内容；

16、所述结果是队列采集项目的数据采集结果；

17、所述结果单位是队列采集项目结果对应的单位。

18、进一步的，步骤s2中的所述基础数据质控中的完整性检查，针对每个变量，遍历发现存在空值的数据，返回问题类型为普通缺失；针对每个调查对象，若不满足所有关键变量均存在结果且不为空，返回问题类型为关键缺失；所述唯一性检查，针对每个变量，遍历发现采集时间和结果完全一样的数据，返回问题类型为重复。

19、进一步的，所述步骤s4中变量类型识别中的基于bert的队列变量类型识别方法，包括模型构建和模型识别，其中：

20、模型构建包括以下步骤：

21、步骤s401，标注数据变量类型，即获取多个队列研究、医疗专病数据集，将采集数据的每个字段标注为5种队列变量类型中的一种，形成5组字段数据。

22、步骤s402，训练数据集生成，对于每组变量数据，每次随机获取一个字段，并随机指定顺序为i(i＝1,2,…n,其中n为该变量数据的长度)的数据作为开始，对其后面的数据进行合并，用“；”进行分隔并转换为字符串，直到该字符串长度达到512(若达不到，则中止)，则进行截断，形成1个训练文本x。1个训练文本x，以及该组变量类型作为样本标签y(时间型变量为1、分类型变量为2、数值型变量为3、存储路径变量为4、文本型变量为5)，共同构成一个训练样本。重复上述步骤，对5组字段数据，每组均生成1万个训练样本，作为训练数据集。

23、步骤s403，模型训练和保存，即使用训练数据集，对bert分类模型进行模型微调训练，并存储训练后的模型结构，形成队列变量类型识别模型。其中，该模型输入的文本长度为512，输出为5种队列变量类型中的1种。

24、模型识别包括以下步骤：

25、步骤s411，单个变量预测样本生成，对于单个变量，随机指定顺序为i(i＝1,2,…n,其中n为该变量数据的长度)的数据作为开始，对其后面的数据进行合并，用“；”进行分隔并转换为字符串，直到该字符串长度达到512(若达不到，则中止)，则进行截断，形成1个预测样本。重复上述步骤7次，生成该变量的预测样本集。

26、步骤s412，单个变量类型识别，即将所述变量的预测样本集，依次输入已保存的队列变量类型识别模型中，得到7个预测标签，取出现次数最多的预测标签，作为该变量数据的识别类型。若出现次数最多的预测标签有多个，按照如下优先级顺序，选择排序靠前的作为识别结果：1、2、3、4、5。

27、步骤s413，多个变量类型识别，重复步骤s411和步骤s412，对每个队列变量进行识别，返回识别结果；

28、步骤s414，多个变量类型确认，人工确认步骤s413的识别结果，对人工核对发现识别错误的识别结果进行纠正，并最终生成变量类型识别结果，包括变量名称、变量编码、识别变量类型。

29、进一步的，所述队列变本文档来自技高网...

【技术保护点】

1.一种用于人群队列研究数据的数据质控方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，所述步骤S1中的队列数据字段，其中：

3.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，步骤S2中的所述基础数据质控中的完整性检查，针对每个变量，遍历发现存在空值的数据，返回问题类型为普通缺失；针对每个调查对象，若不满足所有关键变量均存在结果且不为空，返回问题类型为关键缺失；所述唯一性检查，针对每个变量，遍历发现采集时间和结果完全一样的数据，返回问题类型为重复。

4.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，所述步骤S4中变量类型识别中的基于BERT的队列变量类型识别方法，包括模型构建和模型识别，其中：

5.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，所述队列变量类型，其中：

6.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，所述规则队列质控算子库包括表达式算子、正则

7.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，智能队列质控算子库主要针对数值型变量以及随访变量，基于统计学方法智能发现异常值，包括单变量异常值检测算子、双变量异常值检测算子、随访及时性检测算子共3个质控算子，其中：

8.一种用于人群队列研究数据的数据质控装置，其特征在于，包括队列数据获取模块，基础数据质控模块，基础数据质控结果返回模块，变量类型识别模块，高级数据质控模块，高级数据质控结果返回模块，其中：

...

【技术特征摘要】

1.一种用于人群队列研究数据的数据质控方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，所述步骤s1中的队列数据字段，其中：

3.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，步骤s2中的所述基础数据质控中的完整性检查，针对每个变量，遍历发现存在空值的数据，返回问题类型为普通缺失；针对每个调查对象，若不满足所有关键变量均存在结果且不为空，返回问题类型为关键缺失；所述唯一性检查，针对每个变量，遍历发现采集时间和结果完全一样的数据，返回问题类型为重复。

4.根据权利要求1所述的一种用于人群队列研究数据的数据质控方法，其特征在于，所述步骤s4中变量类型识别中的基于bert的队列变量类型识别方法，包括模型构建和模型识别，其...

【专利技术属性】
技术研发人员：赵丹丹，何萍，夏寒，李晓洁，徐博，李泽宇，姚华彦，钟臻，胡佳迎，魏明月，
申请(专利权)人：上海申康医院发展中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人