一种原发性肺癌风险预测模型的构建方法、系统及装置制造方法及图纸

技术编号：40990005 阅读：18 留言：0更新日期：2024-04-18 21:32

本发明专利技术提出的一种原发性肺癌风险预测模型的构建方法、系统及装置，属于医疗数据分析技术领域。所述方法包括：抽取肺癌数据，建立队列研究数据中台系统；根据抽取的数据归纳肺癌危险因素，建立数据标准模型；使用加密算法对肺癌数据进行数据脱敏；对肺癌数据进行结构化数据映射，并利用数据过滤规则建立肺癌中间数据库；对肺癌中间数据库进行数据预处理、利用机器学习变量生成模型进行变量提取，并进行数据标准化处理，生成肺癌队列研究数据库；对肺癌队列研究数据库进行特性筛选、危险因素预测和交叉验证，以完成预测模型的数据分析；封装预测模型，并进行预测模型发布。本发明专利技术能够有效提高原发性肺癌风险预测模型的生产效率和预测精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医疗数据分析，更具体的说是涉及一种原发性肺癌风险预测模型的构建方法、系统及装置。

技术介绍

1、随着医疗技术的发展，对某一疾病患者的资料进行分析,更深入地了解该疾病的特征、发病机制和病程变化规律,可以为疾病的治疗、研究和教育提供更为准确的资料，这就使设计多层次的疾病队列研究具有非常重要的战略意义。

2、原发性肺癌是世界上恶性肿瘤的头号杀手，如果能够实现原发性肺癌风险的预测，不但能够有效提高肺癌早期筛查、预防和干预的效果，还能够提高疾病的治愈率。当前，进行风险预测研究，普遍通过构建风险预测模型来实现。但是，原发性肺癌风险预测模型在构建过程中，由于相关病理数据整合难度大、数据生产质量不高等原因，导致模型生产效率不高，预测精度较低。

3、具体来说，目前原发性肺癌风险预测模型的生产存在以下问题：

4、1、数据标准和术语标准不一致，院内数据系统来自不同医疗信息化厂家，数据结构不一致，医生对于医学术语使用习惯也不一致，仅以“肺癌”举例，临床中有“肺ca”“肺部恶性肿瘤”“肺癌”“支气管肺癌”等多种同义词。医学研究要求统一的标准格式，现有标准不一致的问题影响队列数据高效应用。

5、2、非结构化数据生产效率低，目前电子病历、影像、组学数据转换不成熟、提取效率不高。

6、3、医疗机构、研究机构的肺癌相关医疗数据无法实现有效整合，存在缺失队列研究结局资料、数据零散、难以直接利用等问题；跨机构、机构内跨系统数据抽取方式和质控规则不一致，随着研究开展，增量数据和存量数据合并难度大。

7、4、传统数据分析方法依赖医生专业经验制定分析方法和逻辑评价规则，这一过程中受医生主观判断影响；另一种常用的分析方式是绘制列线图分析模型，但列线图在处理复杂因素时效率较低。

8、5、在模型生产中存在安全和隐私保护问题。患者的隐私数据在生产过程中存在数据泄露的风险。

技术实现思路

1、针对以上问题，本专利技术的目的在于提供一种原发性肺癌风险预测模型的构建方法、系统及装置，能够有效提高原发性肺癌风险预测模型的生产效率和预测精度。

2、本专利技术为实现上述目的，通过以下技术方案实现：一种原发性肺癌风险预测模型的构建方法，包括：

3、抽取肺癌数据，建立队列研究数据中台系统；

4、根据抽取的肺癌数据归纳肺癌危险因素，建立数据标准模型；

5、使用加密算法对肺癌数据中的隐私内容进行数据脱敏；

6、对肺癌数据进行结构化数据映射，并利用数据过滤规则建立肺癌中间数据库；

7、对肺癌中间数据库进行数据预处理、利用机器学习变量生成模型进行变量提取，并进行数据标准化处理，生成肺癌队列研究数据库；

8、对肺癌队列研究数据库进行特性筛选、危险因素预测和交叉验证，以完成预测模型的数据分析；

9、封装预测模型，并进行预测模型发布。

10、进一步，所述抽取肺癌数据，建立队列研究数据中台系统包括：

11、利用爬虫算法从文献数据库、开放医学知识库、医疗机构和研究机构数据库中抽取肺癌数据，并建立队列研究数据中台系统。

12、进一步，所述数据标准模型，包括：

13、患者个人信息数据组模块、就诊信息数据组模块、医嘱信息数据组模块、门急诊信息数据组模块、住院信息数据组模块、实验室检查信息数据组模块、影像检查信息数据组模块、病理信息数据组模块、手麻信息数据组模块、治疗信息数据组模块和基因检测信息数据组模块。

14、进一步，所述使用加密算法对肺癌数据中的隐私内容进行数据脱敏，包括：

15、使用加密算法对肺癌数据中的患者身份信息、医生信息、机构信息进行数据脱敏处理，将原数据用预定义字符进行替换。

16、进一步，所述对肺癌数据进行结构化数据映射，并利用数据过滤规则建立肺癌中间数据库，包括：

17、设置数据过滤规则、数据映射规则、模型预处理规则、术语标准化规则和质控规则；

18、根据数据过滤规则、数据映射规则和模型预处理规则进行肺癌数据的过滤和结构化数据映射，得到肺癌中间数据库。

19、进一步，所述对肺癌中间数据库进行数据预处理、利用机器学习变量生成模型进行变量提取，并进行数据标准化处理，生成肺癌队列研究数据库，包括：

20、通过预处理模型对肺癌中间数据库中的非结构化数据进行自动解析，将其中的原始电子病历数据、影像组学数据、基因组学数据转换成特定json格式数据；

21、利用肺癌术语集和术语标准化规则编制术语集规则脚本；

22、采用机器学习算法模型和术语集规则脚本对json格式数据进行肺癌队列自动化变量提取；

23、采用术语标准化算法模型，对提取内容进行结构化、标准化、归一化转换，生成肺癌队列研究数据库。

24、进一步，所述对肺癌队列研究数据库进行特性筛选、危险因素预测和交叉验证，以完成预测模型的数据分析，包括：

25、利用极端梯度提升算法对肺癌队列研究数据库进行特征筛选，计算每个特征的分数，并进行根据分数排序，按照排序结果将特征放入特征集合中；

26、使用分类器进行危险因素预测，根据预测结果构建危险因素特征集。

27、进一步，所述对肺癌队列研究数据库进行特性筛选、危险因素预测和交叉验证，以完成预测模型的数据分析，还包括：

28、使用k折交叉验证方法，将肺癌队列研究数据库数据集划分成多个亚组，选择任一亚组进行测试，剩余的亚组用于模型的训练；

29、根据预测模型的准确率和 f1 分值评估模型性能。

30、相应的，本专利技术公开了一种原发性肺癌风险预测模型的构建系统，包括：

31、数据抽取模块，配置用于抽取肺癌数据，建立队列研究数据中台系统；

32、数据标准化模块，配置用于根据抽取的肺癌数据归纳肺癌危险因素，建立数据标准模型；

33、数据脱敏模块，配置用于使用加密算法对肺癌数据中的隐私内容进行数据脱敏；

34、数据映射提取模块，配置用于对肺癌数据进行结构化数据映射，并利用数据过滤规则建立肺癌中间数据库；

35、数据转换模块，配置用于对肺癌中间数据库进行数据预处理、利用机器学习变量生成模型进行变量提取，并进行数据标准化处理，生成肺癌队列研究数据库；

36、数据分析模块，配置用于对肺癌队列研究数据库进行特性筛选、危险因素预测和交叉验证，以完成预测模型的数据分析；

37、发布模块，配置用于封装预测模型，并进行预测模型发布。

38、相应的，本专利技术公开了一种原发性肺癌风险预测模型的构建装置，包括：

39、存储器，用于存储原发性肺癌风险预测模型的构建程序；

40、处理器，用于执行所述原发性肺癌风险预测模型的构建程序时实现如上文任一项所述原发性肺癌风险预测模型的构建方法的步骤。

<本文档来自技高网...

【技术保护点】

1.一种原发性肺癌风险预测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述抽取肺癌数据，建立队列研究数据中台系统包括：

3.根据权利要求1所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述数据标准模型，包括：

4.根据权利要求1所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述使用加密算法对肺癌数据中的隐私内容进行数据脱敏，包括：

5.根据权利要求1所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述对肺癌数据进行结构化数据映射，并利用数据过滤规则建立肺癌中间数据库，包括：

6.根据权利要求5所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述对肺癌中间数据库进行数据预处理、利用机器学习变量生成模型进行变量提取，并进行数据标准化处理，生成肺癌队列研究数据库，包括：

7.根据权利要求6所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述对肺癌队列研究数据库进行特性筛选、危险因素预测和交叉验证，以完成预测模型的数据分析，包括：</p>

8.根据权利要求6所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述对肺癌队列研究数据库进行特性筛选、危险因素预测和交叉验证，以完成预测模型的数据分析，还包括：

9.一种原发性肺癌风险预测模型的构建系统，其特征在于，包括：

10.一种原发性肺癌风险预测模型的构建装置，其特征在于，包括：

...

【技术特征摘要】

1.一种原发性肺癌风险预测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述抽取肺癌数据，建立队列研究数据中台系统包括：

3.根据权利要求1所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述数据标准模型，包括：

4.根据权利要求1所述的原发性肺癌风险预测模型的构建方法，其特征在于，所述使用加密算法对肺癌数据中的隐私内容进行数据脱敏，包括：

6.根据权利要求5所述的原发性肺癌风险预测模...

【专利技术属性】
技术研发人员：史浩田，蔡卓人，李涛，郭鹏，蒋昕，张海音，浦飞飞，唐倩，
申请(专利权)人：北方健康医疗大数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人