基于SHAP的心血管疾病预测模型的可解释方法技术

技术编号：44949174 阅读：5 留言：0更新日期：2025-04-12 01:22

本发明专利技术公开了一种基于SHAP的心血管疾病预测模型的可解释方法，旨在通过结合多源医疗数据，构建精准的心血管疾病预测模型并提供可解释性分析。该方法包括以下步骤：获取心血管疾病相关的医疗数据，进行数据预处理和特征工程编码，建立心血管疾病数据集；使用Boruta算法对特征进行重要性评估，结合随机森林筛选出对心血管疾病预测具有重要作用的特征，并完成训练集和测试集的划分；采用网格搜索算法调优超参数，优化模型的性能；利用XGBoost算法对训练集数据进行训练，建立心血管疾病预测模型，并输出特征重要性；将数据集输入训练好的模型中，输出每位患者的预测结果，并利用SHAP解释工具对预测结果进行可视化，分析特征变量的交互效应及单一特征的贡献。本发明专利技术的技术方法能够为临床提供精准的预测与分析支持，帮助医生制定有效的预防措施，从而提高心血管疾病的早期诊断与治疗效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于医学数据分析与疾病预测领域，更具体地说，涉及一种基于shap的心血管疾病预测模型的可解释方法，旨在通过机器学习和可解释性分析，提高心血管疾病预测的准确性和可解释方法。

技术介绍

0、技术背景

1、心血管疾病(cvd)是全球主要的健康威胁之一，早期有效预测并采取预防措施可以显著减少其发病率和死亡率。随着大数据技术的发展，越来越多的医疗数据被用于心血管疾病的预测。然而，现有的机器学习方法在疾病预测中存在“黑箱”问题，即无法提供足够的解释能力，使得临床医生在使用这些模型时缺乏足够的信任。为了克服这一问题，基于解释性人工智能(xai)的方法，特别是shap(shapley additive explanations)算法，成为了解释模型输出的重要工具。shap通过量化每个特征对模型预测结果的贡献，能够为每位患者的预测结果提供透明、可理解的解释。基于此，结合shap算法的心血管疾病预测模型，能够帮助医生理解不同特征对疾病预测的影响，从而提高诊疗决策的可信度。

技术实现思路

1、本专利技术所要解决的问题是克服现有技术中机器学习模型的可解释性不足的问题，提供一种结合shap算法的心血管疾病预测模型的可解释方法，能够量化和可视化各个特征变量对心血管疾病预测结果的影响，并探索特征之间的交互效应，以提高模型的透明度和可信度。

2、为了解决上述技术问题，至少根据本专利技术的一方面，提供了基于shap的心血管疾病预测模型的可解释方法，包括如下步骤：

3、s

4、s2、通过boruta算法对数据特征重要性进行评估，利用随机森林构建特征选择模型，筛选出对心血管疾病预测最重要的变量，保留与目标变量相关性较强的特征，最终划分训练集和测试集。boruta算法通过引入影子变量进行特征重要性评估，将每个特征与影子变量进行比较，保留特征重要性显著高于影子变量的特征，同时通过随机森林中的gini指数量化特征的重要性(式1)，并确保最终保留的特征集具有较好的预测能力。将数据集划分为训练集和测试集，其中训练集用于模型训练，测试集用于模型评估。

5、

6、其中，δginit(j)表示第t棵树中因特征j而引起的gini不纯度的减少量，t为随机森林的树的总数。

7、s3、利用网格搜索算法原理调试超参数(式2)，获取相对优的算法超参组合。网格搜索通过对超参数的每一种可能组合进行全面搜索，评估每一组合的模型性能，最终选择性能最优的超参数组合。这一过程通过计算分类模型的性能指标，选择最优的参数组合，并用于后续的模型训练。网格搜索方法能够有效提高模型的精度，并避免手动调试超参数的繁琐过程。

8、

9、其中，f(x)通常为分类误差或均方误差。

10、s4、利用xgboost算法对训练集数据进行训练，构建心血管疾病预测模型。xgboost模型基于加法模型累加多个弱分类器，公式3为损失函数：

11、

12、yi为真实标签，为预测值，k为弱分类器数目。

13、构建回归树时，采用贪心算法计算分裂点的增益：

14、

15、其中，gl，gr分别表示分裂后左、右子节点的梯度和，hl，为相应的二阶导数和，λ，γ为正则化参数。

16、将训练好的心血管疾病预测模型应用于心血管疾病预测与分析数据集，输出每位患者的预测结果。利用shap解释工具对模型输出结果进行转化，计算并可视化shap值，以便揭示每个特征变量对预测结果的贡献。shap值的计算公式5：

17、

18、其中，n表示特征全集，s为特征子集，f(s)为子集s的模型预测值；

19、交互效应shap的计算公式6：

20、

21、其中，φi,j表示i和特征j的交互效应值。

22、根据本专利技术的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当程序被处理器执行时，能够实现权利要求1至5中任意一项所述的基于shap的心血管疾病预测模型的可解释方法中的步骤。

23、根据本专利技术的又一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，能够实现权利要求1至5中任意一项所述的基于shap的心血管疾病预测模型的可解释方法中的步骤。

24、相比于现有技术，本专利技术至少具有如下有益效果：

25、本专利技术的基于shap的心血管疾病预测模型的可解释方法，通过获取多源医疗数据并结合boruta算法、xgboost算法与shap值分析，建立了一种高效且可解释的心血管疾病预测模型。该方法通过筛选出与心血管疾病风险最相关的特征变量，量化了各特征对预测结果的影响，并深入探讨了特征之间的交互效应。通过shap值的可视化分析，能够清晰展示各个特征在个体预测结果中的贡献，帮助临床医生理解不同因素对患者心血管健康的影响。此方法不仅提升了心血管疾病预测模型的准确性与透明度，还为患者提供了更有针对性的治疗方案，有助于早期诊断和风险评估，为公共健康管理和个性化医疗提供科学依据。

26、为了更清楚地说明本专利技术实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本专利技术的一些实施例，而非对本专利技术的限制。

27、图1示出了本专利技术方法流程图。

28、具体实施步骤

29、为使本专利技术实施例的目的、技术方案和优点更加清楚，下面将结合本专利技术实施例的附图，对本专利技术实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本专利技术的一部分实施例，而不是全部的实施例。

30、除非另作定义，此处使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。

31、实施例1：

32、基于shap的心血管疾病预测模型的可解释方法，如图1所示，包括以下步骤：

33、s1、心血管疾病相关数据采集，收集来自医院、健康体检中心和公共卫生数据的多源健康数据d1。通过2015年1月至2023年12月期间，采集了超过5000名患者的健康数据，包括年龄、性别、体重、饮食习惯、运动情况等基本信息，进一步采集与心血管疾病相关的生活方式、遗传因素和临床检查数据d2，结合血压、血糖、血脂等指标，建立心血管疾病分析数据集d3。对这些多源数据进行联合处理，利用患者id进行数据融合，确保本文档来自技高网...

【技术保护点】

1.基于SHAP的心血管疾病预测模型的可解释方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S2中Boruta算法的特征重要性筛选包括以下计算过程：

3.根据权利要求1所述的方法，其特征在于，步骤S3中网格搜索算法的实现如下：

4.根据权利要求1所述的方法，其特征在于，步骤S4中XGBoost模型的训练过程包括以下步骤：

5.根据权利要求1所述的方法，其特征在于，步骤S5中SHAP解释工具的计算公式如下：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1～5中任一项所述的基于SHAP的心血管疾病预测模型的可解释方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～5中任一项所述的基于SHAP的心血管疾病预测模型的可解释方法中的步骤。

【技术特征摘要】

1.基于shap的心血管疾病预测模型的可解释方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤s2中boruta算法的特征重要性筛选包括以下计算过程：

3.根据权利要求1所述的方法，其特征在于，步骤s3中网格搜索算法的实现如下：

4.根据权利要求1所述的方法，其特征在于，步骤s4中xgboost模型的训练过程包括以下步骤：

5.根据权利要求1所述的方法，其特征在于，步...

【专利技术属性】
技术研发人员：李锦涛，王博宇，吴宇炜，赵智贤，柴文锦，
申请(专利权)人：李锦涛，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人