一种烟雾病风险预测模型构建方法技术

技术编号:37150215 阅读:17 留言:0更新日期:2023-04-06 22:05
本发明专利技术提供一种烟雾病风险预测模型构建方法,涉及疾病预测技术领域。该烟雾病风险预测模型构建方法,具体包括以下步骤:S101.数据进行预处理,S102.外部验证数据选出,S103.模型建立。本发明专利技术提供一种烟雾病风险预测模型构建方法,本方法通过采取2565例烟雾病患者的临床基本信息和实验室检查检验结果,并从7万多例对照组中进行1:2倾向性匹配筛选对照组,此后,随机选取20%的烟雾病患者及2倍数量的非烟雾病患者数据组成外部测试数据从而实现模型的构建,通过本发明专利技术的模型,能够不需要使用大型仪器即可对患者的烟雾病进行风险预测,评估预测简单且效率高。估预测简单且效率高。估预测简单且效率高。

【技术实现步骤摘要】
一种烟雾病风险预测模型构建方法


[0001]本专利技术涉及疾病预测
,具体为一种烟雾病风险预测模型构建方法。

技术介绍

[0002]目前,烟雾病是以脑血管造影发现双侧颈内动脉虹吸部及大脑前、中动脉起始部严重狭窄或闭塞,颅底软脑膜、穿通动脉等小血管代偿增生,形成脑底异常血管网为特征的一种慢性脑血管闭塞性疾病。因在血管造影中,脑底的异常血管形状酷似吸烟时吐出的烟雾,故称为烟雾病。烟雾病在东亚国家高发,且有一定的家族聚集性,而中国南方特别是江西地区存在烟雾病高风险区域,遗传因素可能参与发病,在女性多发,有儿童和青壮年2个高峰发病年龄,脑缺血和颅内出血是该病的2种主要危害,总体上儿童和成年患者均以脑缺血为主,而颅内出血多见于成年患者。目前烟雾病的诊断标准非常复杂,依赖于影像学和医生对疾病的认知程度,包括:1.数字减影脑血管造影(DSA)的表现:(1)颈内动脉(ICA)末端和(或)大脑前动脉(ACA)和(或)大脑中动脉(MCA)起始段狭窄或闭塞。(2)动脉相出现颅底异常血管网。(3)上述表现为双侧性,但双侧的病变分期可能不同;2.MRI和MRA的表现:(1)ICA末端和(或)ACA和(或)MCA起始段狭窄或闭塞。(2)基底节区出现异常血管网(在1个扫描层面上发现基底节区有2个以上明显的血管流空影时,提示存在异常血管网)。(3)上述表现为双侧性,但双侧的病变分期可能不同;3.确诊烟雾病需排除的合并疾病:动脉粥样硬化、自身免疫性疾病(如系统性红斑狼疮、抗磷脂抗体综合征、结节性周围动脉炎、干燥综合征)等等。
[0003]新型大数据机器学习方法已广泛用于疾病的诊断,特别在影像学和肿瘤领域。大数据机器学习是采用机器模拟学习的能力,在广泛的数据中筛选出有意义的指标,并对这些指标进行重新赋值,最终建立评分模型,有助于优化及简化疾病的诊断及风险预测。而在烟雾病中,尚无机器学习建立的诊断及风险预测评分模型。通过上述分析,现有技术存在的问题及缺陷为:(1)烟雾病疾病分布具有区域性,及家族性特点,国际上对该病的诊断率低下;(2)目前对烟雾病的诊断依赖于大型仪器设备的检查以及专业医生对影像学的评估,过于复杂。缺乏一套简易的烟雾病风险预测模型。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种烟雾病风险预测模型构建方法,解决了烟雾病诊断效率低,并且大多是依赖大型仪器设备进行诊断,偏远地区难以诊断的问题。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:一种烟雾病风险预测模型构建方法,具体包括以下步骤:
[0008]S101.数据进行预处理
[0009]剔除烟雾病和样本中非烟雾病的病例,采用随机森林方法对缺失值进行填补,再
进行随机森林填补剔除数据;所有疾病因子大于0的归为1,其余为0。
[0010]S102.外部验证数据选出
[0011]外部验证数据选出,通过最优模型对外部测试集进行测试;
[0012]S103.模型建立
[0013]在模型建立过程中,进行因子筛选,模型选择,最优模型建立。
[0014]优选的,所述S101中,剔除烟雾病病例具体过程为:剔除烟雾病为0且出院诊断中含有:颅内动脉瘤、动脉粥样硬化、自身免疫性疾病、脑膜炎、脑瘤、唐氏综合征、雷克林豪森病、头部损伤、头部照射后的脑血管病变。
[0015]优选的,所述S101中,剔除样本中非烟雾病具体过程为:剔除样本中非烟雾病的缺失率为5%,采用随机森林方法对缺失值进行填补,之后补剔除体重、身高偏离比例都达到1.5倍以上的数据,再进行随机森林填补剔除数据。
[0016]优选的,所述S101中,所有疾病因子大于0的归为1,其余为0具体过程为:所有疾病因子大于0的归为1,其余为0;剔除因子:舒张压首次、收缩压首次、LDL

C中为0的数据并进行随机森林填补;剔除收缩压首次异常值410并和舒张压首次一起的数值删除,及收缩压首次90以下的并和舒张压首次一起全部删除,再对缺失数据进行随机森林填补;对数据按1:2对性别,年龄,是否吸烟,是否饮酒进行PSM匹配;新建并计算因子BMI、中性粒细胞与淋巴比值、血小板和淋巴细胞比值、Lpa>30归为1其他为0;剔除年龄小于18的数据。
[0017]优选的,所述S102中,外部验证数据选出具体过程为:将原始数据进行预处理,PSM,建立训练集;根据训练集,进行变量筛选,因子重要度排序,建立韦恩图;通过多模型建模,多模型评价,确定最优模型;通过最优模型对外部测试集进行测试。
[0018]优选的,所述S103中,因子筛选具体过程为:采用极端梯度提升树进行变量重要度分析,采用Random Forrest Classifier进行变量重要度分析,采用朴素贝叶斯分类算法进行变量重要度分析,利用韦恩图找出三个模型中共有因子如下:韦恩图中3组共有元素为:LDL

C、non

HDL、血糖、脑梗、血中性粒细胞计数、白蛋白、TG、ApoA、TC、Lpa、ApoB、HDL。
[0019]优选的,所述S103中,模型选择具体过程为:采用多种机器学习模型尝试完成数据样本分类任务,其重复采样次数为5次,每一次重采样训练的验证集总体训练样本的20.000%,内部训练集占80.000%,模型中的变量包括LDL

C、non

HDL、血糖、脑梗、血中性粒细胞计数、白蛋白、TG、ApoA、TC、Lpa、ApoB、HDL。XGBoost是针对此数据集的最佳模型选择。
[0020]优选的,所述S103中,最优模型建立具体过程为:采用XGBoost机器学习方法进行分类,分类变量为烟雾病,模型中的变量包括LDL

C、non

HDL、血糖、脑梗、血中性粒细胞计数、白蛋白、TG、ApoA、TC、Lpa、ApoB、HDL。
[0021](三)有益效果
[0022]本专利技术提供了一种烟雾病风险预测模型构建方法。具备以下有益效果:
[0023]本专利技术提供了一种烟雾病风险预测模型构建方法,本专利技术的技术方案转化后可为疑似烟雾病的患者进行初步筛查,特别是在贫苦地区,缺少磁共振等大型设备的地方,该技术采用大数据分析方法,最后对临床上的基本患者特征及基础实验室检查结果作为评分标准,制定了一套简单的烟雾病评估方法,为将来临床大范围的筛查烟雾病带来了良好的经济效应。
[0024]本专利技术提供了一种烟雾病风险预测模型构建方法,本专利技术的技术方案填补了国内外对烟雾病繁杂诊断简单化的技术空白,通过简单的临床特征和基础的检验指标即可诊断烟雾病。
[0025]本专利技术提供了一种烟雾病风险预测模型构建方法,目前烟雾病的诊断依赖于复杂的影像学和基因检测,不适用推广到全球烟雾病的筛查,本专利技术对基本的临床检验指标进行大数据分析,组成最优的评分模型,可简单有效的筛查本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种烟雾病风险预测模型构建方法,其特征在于,具体包括以下步骤:S101.数据进行预处理剔除烟雾病和样本中非烟雾病的病例,采用随机森林方法对缺失值进行填补,再进行随机森林填补剔除数据;所有疾病因子大于0的归为1,其余为0。S102.外部验证数据选出外部验证数据选出,通过最优模型对外部测试集进行测试;S103.模型建立在模型建立过程中,进行因子筛选,模型选择,最优模型建立。2.根据权利要求1所述的一种烟雾病风险预测模型构建方法,其特征在于:所述S101中,剔除烟雾病病例具体过程为:剔除烟雾病为0且出院诊断中含有:颅内动脉瘤、动脉粥样硬化、自身免疫性疾病、脑膜炎、脑瘤、唐氏综合征、雷克林豪森病、头部损伤、头部照射后的脑血管病变。3.根据权利要求1所述的一种烟雾病风险预测模型构建方法,其特征在于:所述S101中,剔除样本中非烟雾病具体过程为:剔除样本中非烟雾病的缺失率为5%,采用随机森林方法对缺失值进行填补,之后补剔除体重、身高偏离比例都达到1.5倍以上的数据,再进行随机森林填补剔除数据。4.根据权利要求1所述的一种烟雾病风险预测模型构建方法,其特征在于:所述S101中,所有疾病因子大于0的归为1,其余为0具体过程为:所有疾病因子大于0的归为1,其余为0;剔除因子:舒张压首次、收缩压首次、LDL

C中为0的数据并进行随机森林填补;剔除收缩压首次异常值410并和舒张压首次一起的数值删除,及收缩压首次90以下的并和舒张压首次一起全部删除,再对缺失数据进行随机森林填补;对数据按1:2对性别,年龄,是否吸烟,是否饮酒进行PSM匹配;新建并计算因子BMI、中性粒细胞与淋巴比值、血小板和淋巴细胞比值、Lpa>30归为1其他为0;剔除年龄小于18的数据。5.根据权利要求1所述的一种烟雾病风险预测模型构建方法,其特征在于:...

【专利技术属性】
技术研发人员:江龙杨新雷祝新根许源
申请(专利权)人:南昌大学第二附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1