System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据治理的肿瘤专病数据库系统及其构建方法技术方案_技高网

一种基于数据治理的肿瘤专病数据库系统及其构建方法技术方案

技术编号:41722581 阅读:5 留言:0更新日期:2024-06-19 12:47
本发明专利技术公开了一种基于数据治理的肿瘤专病数据库系统及其构建方法,包括使用通信连接的临床数据采集模块、数据清洗模块、数据治理模块和数据利用模块。本发明专利技术运用大语言模型实时采集非结构化的异源原始临床数据,输出结构化原始数据并对结构化原始数据进行数据清洗。通过构建各类癌症特异性的结构化术语表,设计新型肿瘤电子病历存储系统,基于合成数据算法对临床数据进行加密和脱敏处理,构建基于数据治理的肿瘤专病数据库系统。设计了队列发现单元,可用做临床试验的合成对照臂;嵌入了患者相似性网络,基于患者相似性推荐治疗方案和预测临床结局。总体上,本发明专利技术构建的肿瘤专病数据库系统,提高了临床数据管理的效率和可利用价值。

【技术实现步骤摘要】

本专利技术涉及医学信息,具体为一种肿瘤专病数据库系统,尤其涉及一种基于数据治理的肿瘤专病数据库系统及其构建方法


技术介绍

1、近年来,随着信息化的不断深入和广泛开展,医院的信息系统积累了大量珍贵的临床诊疗数据。这催生一个新的领域——真实世界研究,即可以在医院的患者治疗过程中获得就诊数据,以产生真实世界数据,从过去的大量病例中通过分析挖掘学习到新的知识,进而可以在整个医疗系统中进行传播并影响临床实践。

2、通常基于真实世界的临床研究,首先需要面临医学表达规范性的问题,医学术语存在多义性、表达差异性、复合词等复杂性。为了解决这些问题,一些组织和机构开始制定医学术语集,如who的国际疾病分类(icd)、美国病理协会的snomed-ct,以及药物词表rxnorm、医学主题词表mesh、基因变异hgvs命名规则等,用于对收集的医疗数据进行格式统一、字段映射、语义标准化等处理。

3、观察性健康医疗数据科学与信息学组织(ohdsi)通过对术语集进行整合,旨在推动真实世界领域的进展。ohdsi还进行方法学研究,通过利用观察性医疗数据,设计通用数据模型、开发开源分析软件,并将这些工具和实践应用于临床问题。但是ohdsi致力于整合全球的医疗数据,兼顾多方相关者利益,涉及各种疾病和健康问题,特别是对肿瘤临床数据的关注和深入不够。而肿瘤专病库正是其中的一种补充形式,用于提供针对肿瘤疾病的详细数据及其分析挖掘框架。肿瘤专病库将推动基于真实世界的肿瘤临床研究,从每一位患者身上汲取治疗洞见,并基于临床大数据为未来患者做出更好的决策。

4、目前,现有的肿瘤专病库的构建方法仍存在如下问题:

5、1、肿瘤与其他疾病相比,肿瘤的诊疗过程较为复杂且肿瘤本身异质性很强,涉及病理数据和分子数据。

6、2、数据质量问题,临床数据的质量可能会存在缺失、异构、良莠不齐的情况,并且数据格式和存储方式也存在差异,概念标准不统一,数据分散、业务数据大多数成为数据孤岛,难以整合和进一步转化利用。

7、3、临床数据涉及到患者的隐私,需要确保数据的安全性和隐私保护。

8、因此,有必要提供一种基于数据治理的肿瘤专病数据库系统及其构建方法,以解决上述技术问题。


技术实现思路

1、本专利技术克服了现有技术的不足,提供一种基于数据治理的肿瘤专病数据库系统及其构建方法。

2、为达到上述目的,本专利技术采用的技术方案为:一种基于数据治理的肿瘤专病数据库系统,包括:使用通信连接的临床数据采集模块、数据清洗模块、数据治理模块和数据利用模块;

3、所述临床数据采集模块,用于对接医院的信息系统、电子病历系统、电子医嘱录入系统和护理信息系统,实时采集肿瘤患者的相关原始数据,并输出结构化原始数据;

4、所述数据清洗模块,用于对结构化原始数据进行数据清洗;

5、所述数据治理模块包括:数据标准化单元、新型电子病历生成单元和合成数据(synthetic data)单元;

6、所述数据标准化单元,根据癌种的诊疗特性设计并构建各个癌种的结构化术语表,以术语表中的术语为键,从经过数据清洗后的结构化原始数据中抽取对应的临床数据值形成结构化的标准数据表;

7、所述电子病历生成单元,依据标准数据表,以患者为单位构建直角坐标系电子病历,采用键值对形式呈现标准数据表内容;

8、所述合成数据单元,采用变分自编码器(vae)合成数据技术对临床数据进行加密和脱敏处理。

9、所述数据利用模块包括:队列发现与队列构建单元、患者相似性网络(psn)构建单元;

10、所述队列发现与队列构建单元,基于使用者的键值对组合对标准数据表进行复杂检索,筛选符合条件的患者;

11、所述患者相似性网络构建单元,将一组患者在高维空间中基于特征相似性计算构建患者关系网络。

12、本专利技术一个较佳实施例中,所述临床数据采集模块包括:get_raw_data接口和format_data接口;

13、所述get_raw_data接口从医院的系统中获取文本类原始数据,接口设置监听器来监听系统更新;

14、所述临床数据采集模块调用openai.api进行结构化;所述format_data接口,对结构化原始数据进行输出。

15、本专利技术一个较佳实施例中,所述数据清洗步骤依次包括:相同内涵的表达一致化、删除同名相斥值、冗余数据合并、值域校验和删除人工审查发现的错误值。

16、本专利技术一个较佳实施例中,所述电子病历样式为直角坐标系,横坐标为诊断与检测、治疗、疗效评估三个刻度,纵坐标为治疗顺序;

17、所述治疗顺序包括:新辅助治疗、手术、辅助治疗、系统治疗和一线治疗。

18、本专利技术一个较佳实施例中,所述数据治理模块还包括有数据映射单元,所述数据映射单元用于将形成的标准数据表映射到ohdsi标准数据模型;

19、所述ohdsi标准数据模型包括:若干标准化元数据表、临床事件表、术语表、卫生系统数据表、卫生经济学数据表、派生元素表和结果模式表。

20、本专利技术一个较佳实施例中,所述数据利用模块还包括有基于javascript设计的用户交互界面,所述用户交互界面实现包括:队列发现与队列构建、病例管理、流行病学分析、随访管理、检索比对和可视化呈现功能;所述用户交互界面使用mysql.createconnection()函数连接数据库。

21、基于上述任一项所述的一种基于数据治理的肿瘤专病数据库系统的构建方法,包括以下步骤:

22、s1、数据采集和对接:通过临床数据采集模块的数据接口对接医院的信息系统、电子病历系统、电子医嘱录入系统和护理信息系统并全库镜像,实时采集肿瘤患者相关原始数据,若干来源不同的原始数据建立取数优先级机制,并调用openai.api进行结构化并输出;

23、s2、数据清洗:对结构化原始数据进行数据清洗;

24、s3、数据标准化:根据癌种的诊疗特性设计并构建各个癌种的结构化术语表,以术语表中的术语为键,从经过数据清洗后的结构化原始数据中抽取对应的临床数据值形成结构化的标准数据表;

25、s4、数据存储:依据标准数据表,以患者为单位构建电子病历,采用键值对形式呈现标准数据表内容;

26、s5、数据利用:基于使用者的键值对组合对标准数据表进行复杂检索,筛选符合条件的患者,构建临床队列以及构建患者相似性网络;

27、s6、数据共享及其隐私安全:用于临床队列中的临床数据进行合成数据处理并输出与临床数据相似的新数据样本。

28、本专利技术一个较佳实施例中,在所述s1中,所述原始数据包括:患者基本信息、门诊病历、实验室检验、基因检测、影像数据总结报告、手术记录、出院小结、治疗史记录和随访记录。

29、本专利技术一个较佳实施例中,所述电子病历的底层存储数据库采用mysql关系型数据库本文档来自技高网...

【技术保护点】

1.一种基于数据治理的肿瘤专病数据库系统,包括:使用通信连接的临床数据采集模块、数据清洗模块、数据治理模块和数据利用模块,其特征在于:

2.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统,其特征在于:所述临床数据采集模块包括:get_raw_data接口和format_data接口;

3.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统,其特征在于:所述数据清洗步骤依次包括:相同内涵的表达一致化、删除同名相斥值、冗余数据合并、值域校验和删除人工审查发现的错误值。

4.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统,其特征在于:所述电子病历样式为直角坐标系,横坐标为诊断与检测、治疗、疗效评估三个刻度,纵坐标为治疗顺序;

5.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统及其构建方法,其特征在于:所述数据治理模块还包括有数据映射单元,所述数据映射单元用于将形成的标准数据表映射到OHDSI标准数据模型;

6.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统及其构建方法,其特征在于:所述数据利用模块还包括有基于JavaScript设计的用户交互界面,所述用户交互界面实现包括:队列发现与队列构建、患者相似性网络构建、病例管理、流行病学分析、随访管理、检索比对和可视化呈现功能。

7.基于权利要求1-6中任一项所述的一种基于数据治理的肿瘤专病数据库系统的构建方法,其特征在于,包括以下步骤:

8.根据权利要求7所述的一种基于数据治理的肿瘤专病数据库系统的构建方法,其特征在于:在所述S1中,所述原始数据包括:患者基本信息、门诊病历、实验室检验、基因检测、影像数据总结报告、手术记录、出院小结、治疗史记录和随访记录。

9.根据权利要求7所述的一种基于数据治理的肿瘤专病数据库系统的构建方法,其特征在于:所述电子病历的底层存储数据库采用MySQL关系型数据库,通过执行MySQL语句来实现数据库操作。

10.根据权利要求7所述的一种基于数据治理的肿瘤专病数据库系统的构建方法,其特征在于:所述的合成数据处理过程运用了变分自编码器对临床数据进行处理:

...

【技术特征摘要】

1.一种基于数据治理的肿瘤专病数据库系统,包括:使用通信连接的临床数据采集模块、数据清洗模块、数据治理模块和数据利用模块,其特征在于:

2.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统,其特征在于:所述临床数据采集模块包括:get_raw_data接口和format_data接口;

3.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统,其特征在于:所述数据清洗步骤依次包括:相同内涵的表达一致化、删除同名相斥值、冗余数据合并、值域校验和删除人工审查发现的错误值。

4.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统,其特征在于:所述电子病历样式为直角坐标系,横坐标为诊断与检测、治疗、疗效评估三个刻度,纵坐标为治疗顺序;

5.根据权利要求1所述的一种基于数据治理的肿瘤专病数据库系统及其构建方法,其特征在于:所述数据治理模块还包括有数据映射单元,所述数据映射单元用于将形成的标准数据表映射到ohdsi标准数据模型;

6.根据权利要求1所述的一种基于数据治理的肿...

【专利技术属性】
技术研发人员:张如奎刘兆瑞
申请(专利权)人:苏州顺赛生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1