System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于临床数据与集成特征选择的煤工尘肺分期预测方法技术_技高网

基于临床数据与集成特征选择的煤工尘肺分期预测方法技术

技术编号:44814066 阅读:1 留言:0更新日期:2025-03-28 20:00
本发明专利技术公开了一种基于临床数据与集成特征选择的煤工尘肺分期预测方法,包括以下步骤:采集CWP患者与健康人群的生化检查指标数据;采用SMOTE算法进行过采样处理;选择基础预测模型、并进行优化;利用集成式特征选择方法进行特征选择、并构建新的特征子集;将新的特征子集输入预测模型进行CWP分期预测。本发明专利技术利用集成式特征选择方法进行特征选择,可显著提升预测模型的分类性能和泛化能力;本发明专利技术基于常规生化检查数据,可显著降低检测成本,且操作简便,能够更加精准、快速地对CWP患者进行分期诊断,帮助医生制定更有效的治疗和预防策略,尤其适用于资源有限的医疗环境下矿区工人的CWP早期筛查与诊断。

【技术实现步骤摘要】

本专利技术涉及一种煤工尘肺分期预测方法,具体是一种基于小样本临床数据与集成特征选择的煤工尘肺分期预测方法,属于机器学习。


技术介绍

1、煤工尘肺(coal worker’s pneumoconiosis,cwp)是指煤矿工人长期吸入生产环境中粉尘所引起的肺部病变的总称,是一种由于长期吸入生产环境中的粉尘颗粒而导致粉尘颗粒在肺部潴留所引起的以肺组织纤维化为主的职业性疾病,该疾病具有一定的迟发性、致死率高且会对肺部产生不可逆的巨大损伤。根据疾病严重程度,cwp通常分为ⅰ、ⅱ、ⅲ期。而到目前为止,cwp并无有效的治疗手段,故其早期筛查与诊断对阻止患者病情进一步恶化的治疗起着至关重要的作用。现有的cwp诊断和分期主要依靠高千伏x线胸片,由专业医生根据图像阴影的密集度和分布特征进行人工分析和分期,但这种方法耗时长,且易受主观因素影响,可能导致误诊。此外,影像学诊断方法的成本较高,这也给患者带来一定的经济压力。

2、近年来,随着人工智能和机器学习技术的发展,临床数据分析和疾病诊断的自动化技术得到广泛应用。尤其在小样本数据集的情况下,机器学习能够通过模型的构建,对疾病的分期和诊断进行有效预测。例如,公开号为cn117954094a的中国专利技术专利公开了一种煤矿尘肺病发病率预测方法、装置、电子设备及存储介质,该方法将煤矿内如粉尘浓度、粉尘成分等的粉尘信息输入预先训练好的som-bp神经网络,使som-bp神经网络根据粉尘信息输出指定时长内的尘肺病发病率,但该方法所涉及的粉尘信息获取难度较大,所涉时间范围广,调研较为困难。再如授权公告号为cn117315378b的中国专利技术专利公开了一种尘肺病的分级判定方法及相关设备,该方法通过预处理和标注训练样本,训练稳定扩散模型,然后对dr胸片图像进行归一化和模型处理、获取分割后的影像,并将其加入训练集进行分类,然而,该专利技术所涉及的dr影像成本高,且深度学习模型的性能很大程度上依赖于训练数据dr影像的质量和数量,当训练数据不足或者质量不高时,模型的预测准确性会受到影响。因此,如何实现更准确、更方便且更低成本的cwp分期预测,是业内亟待解决的问题。


技术实现思路

1、针对上述现有技术存在的问题,本专利技术提供一种基于临床数据与集成特征选择的煤工尘肺分期预测方法,能够解决现有的cwp分期预测存在的数据分布不均衡、判断结果受主观性因素影响以及费用昂贵等问题,实现准确、方便且低成本的cwp分期预测。

2、为实现上述目的,本基于临床数据与集成特征选择的煤工尘肺分期预测方法具体包括以下步骤:

3、step1,数据采集:采集cwp患者的临床生化检查数据和健康人群的对照生化检查数据;

4、step2,数据预处理:采用smote算法对step1获取的数据进行过采样处理;

5、step3,构建预测模型:选择基础预测模型,并进行优化;

6、step4,特征选择:通过集成式特征选择方法对step2获得的过采样处理后的数据中的临床生化检查数据进行特征选择、并构建新的特征子集,具体如下:

7、a.通过随机森林算法对step2获得的过采样处理后的数据中的临床生化检查数据进行多次特征重要性评估,将多次随机森林重要性评估后的值进行平均,得到每一个特征的重要性值;

8、b.通过相关性分析算法对step2获得的过采样处理后的数据中的临床生化检查数据进行相关性分析,获得不同特征间的相关系数,将每一个特征与其他特征的相关系数相加求平均值,得到每一个特征的独立性值;

9、c.构建综合考虑特征重要性与相关性的如下线性关系模型:

10、y=ω1x1+ω2(-x2)

11、式中:y为每个特征的综合评价值;ω1、ω2分别为特征重要性权重和特征独立性权重,且ω1+ω2=1;x1为重要性值;x2为独立性值;

12、d.分别为ω1、ω2赋值、获得权重组合,并将步骤a得到的重要性值与步骤b得到的独立性值代入线性关系模型,得到每一个特征变量的综合评价值y,然后分别在权重组合下对综合评价值y进行降维排序,根据排序结果顺序选取位于设定百分数范围内的特征构建新的特征子集;

13、step5,cwp分期预测:将step4获得的新的特征子集输入step3构建的预测模型进行cwp分期预测。

14、进一步的,step4的步骤d中,为ω1、ω2赋值时,ω1:ω2=4:6。

15、进一步的,step4的步骤b中,相关性分析算法是spearman相关性分析算法。

16、进一步的,step3中,选择的基础预测模型是svm模型,并通过pso算法对svm模型进行优化生成svm-pso预测模型。

17、进一步的,step1中,临床生化检查数据来源于血常规、肝功能、肾功能、血脂的常规生化检查。

18、与现有技术相比,本基于临床数据与集成特征选择的煤工尘肺分期预测方法利用集成式特征选择方法进行特征选择,可显著提升预测模型的分类性能和泛化能力,尤其适用于医疗数据样本量少、类别不平衡的场景;相比传统的基于影像学诊断的cwp分期预测方法,本专利技术基于常规生化检查数据,可显著降低检测成本,且操作简便,可以为cwp的早期筛查和诊断中提供理论依据和数据支持,能够更加精准、快速地对cwp患者进行分期诊断,帮助医生制定更有效的治疗和预防策略,尤其适用于资源有限的医疗环境下矿区工人的cwp早期筛查与诊断。

本文档来自技高网...

【技术保护点】

1.一种基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,Step4的步骤d中,为ω1、ω2赋值时,ω1:ω2=4:6。

3.根据权利要求1所述的基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,Step4的步骤b中,相关性分析算法是Spearman相关性分析算法。

4.根据权利要求1所述的基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,Step3中,选择的基础预测模型是SVM模型,并通过PSO算法对SVM模型进行优化生成SVM-PSO预测模型。

5.根据权利要求1所述的基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,Step1中,临床生化检查数据来源于血常规、肝功能、肾功能、血脂的常规生化检查。

【技术特征摘要】

1.一种基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,step4的步骤d中,为ω1、ω2赋值时,ω1:ω2=4:6。

3.根据权利要求1所述的基于临床数据与集成特征选择的煤工尘肺分期预测方法,其特征在于,step4的步骤b中,相关性分析算法是spearman相...

【专利技术属性】
技术研发人员:王崧全贾嘉琦杭文璐崔玉明杨道龙李海泉张德坤
申请(专利权)人:江苏师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1