一种改进随机森林相似性度量的患病风险预测方法技术

技术编号:32463218 阅读:14 留言:0更新日期:2022-02-26 08:56
本发明专利技术涉及一种改进随机森林相似性度量的患病风险预测方法,属于医学健康分析和机器学习领域;解决了随机森林算法基于复杂医学数据进行患病风险预测时准确率低的问题;其技术方案是:构建基于原始随机森林算法的患病风险预测模型;保留AUC值高的部分决策树;将决策路径分组后得到所有病症特征的值域;提出三层交并比法计算决策树之间的相似度;删减冗余决策树后得到最终的患病风险预测模型;本发明专利技术提出了一种新的度量随机森林模型中决策树相似性的方法,保证原始医学数据完整性的同时提高了对患病风险的预测精度,为辅助医学健康分析提供了新思路。供了新思路。供了新思路。

【技术实现步骤摘要】
一种改进随机森林相似性度量的患病风险预测方法


[0001]本专利技术涉及医学健康分析和机器学习领域,尤其涉及一种改进随机森林相似性度量的患病风险预测方法。

技术介绍

[0002]随机森林作为集成学习bagging分支中最具代表性的算法,以其优异的性能和极具灵活性的特点,被广泛应用于医学健康分析领域。从医学数据中挖掘有效信息并进行分类预测,可以实现对人类患病情况的辅助诊断。但由于医学数据普遍存在的样本类别不平衡和特征维度高的特点,使得传统随机森林算法在分类任务中的能力被严重削弱。对此,研究人员常用SMOTE及其拓展算法对医学数据进行聚类,使数据更趋于平衡;同时进行特征选择与参数优化,以便从高维特征中选择出与预测结果相关度更高的特征。但是这些方法会对原始数据进行修改,可能会删掉部分病症特征甚至是多条样本,丢失了数据的原始性与完整性。并且由于医学数据针对某种病症的特征都是高度相似的,通过大量类似样本所构建的随机森林模型很容易生成大量冗余的高相似决策树,对模型的分类精度和训练速度造成影响。
[0003]针对上述问题,有研究者提出可以不改变数据本身,而是针对随机森林模型的内部结构,选择高精度低相似的决策树重组森林,用新的随机森林模型训练医学数据,达到优化效果。对于分类精度通常是从原始随机森林中选出高精度子森林,对于相似度则是基于某种度量方法计算决策树之间的相似程度。度量方法主要有两大类:一类是基于病情预测决策树自身结构的相似性,如朱瑛利用分支节点间的最高匹配代价来评估决策树之间的相似程度,但这种方法大大增加了节点信息的计算时长,提高了算法的复杂度;另一类是基于患病预测结果的一致性,如王诚基于Kappa统计量选出高精度低相似的子森林,但这种方法对测试集会更敏感,预测结果容易随着样本分布的变化而发生变动。
[0004]总体而言,目前的随机森林算法在复杂医学数据下分类的准确度还存在着很大的局限和不足,难以确保患病预测的准确性和高效性。对此,本专利技术在尽可能保证原始医学数据完整性的前提下,基于语义分割任务中的交并比指标,提出了一种新的度量随机森林模型中决策树相似性的方法,三层交并比法(TIOUSIM,three intersection over union similarity),通过特征相似度和路径相似度的迭代计算得到决策树的相似度,从而提出了一种改进随机森林相似性度量的患病风险预测方法。该方法准确且灵活地计算了决策树之间的相似程度,同时联合相似度和AUC值对其进行删减,保证了随机森林多样性的同时减少了有效决策树的丢失,也加快了模型的预测速度,提高了对患病风险预测的准确率,从而辅助医生对患者进行早期诊断与及时治疗,为智能诊断和患病预防做出了贡献,也为辅助医学健康分析提供了新思路。

技术实现思路

[0005]为了解决随机森林算法基于复杂医学数据对患病风险预测准确率低的问题。本发
明在尽可能保证原始医学数据完整性的前提下,提出了一种改进随机森林相似性度量的患病风险预测方法:利用三层交并比法计算决策树之间相似度,以准确且灵活地度量随机森林模型中决策树的相似性,进而根据相似度和AUC值选择有价值的决策树,最后基于改进相似性度量的随机森林算法构建最终的患病风险预测模型,这样在保证森林多样性的同时减少了有效决策树的丢失,加快了模型的预测速度并提高了对患病风险的预测精度,可以帮助医生对患者进行早期诊断与及时治疗,为智能诊断和患病预防做出了贡献,给辅助医学健康分析提供了新思路。
[0006]为了解决上述问题,本专利技术所采取的技术方案是:1)对获取的医学数据进行预处理,构建基于原始随机森林算法的患病风险预测模型;2)计算模型中每棵决策树的AUC值,仅保留AUC值高的前80%决策树;3)将每棵决策树中的路径进行分组,得到每条路径中所有病症特征的值域;4)提出三层交并比法计算每两棵决策树的相似度;5)根据相似度和AUC值删减冗余决策树,得到最终的患病风险预测模型。
[0007]优选地,步骤1)获取来自UCI(university of California Irvine)数据集中的医学公共数据集,将医学数据中的类别变量通过one

hot编码转换为数值变量,并对缺失的数值变量采用平均值进行填充,根据预处理后的医学数据构建基于原始随机森林算法的患病风险预测模型。
[0008]优选地,步骤3)的详细步骤包括:3.1)遍历所有决策树,根据叶节点的患病输出类别对决策路径进行分组,输出类别相同的属于同一分组;3.2)对于每条决策路径,遍历所有节点后得到其分裂特征的取值范围,对于相同的病症特征,定义其取值的交集为该病症特征的值域。
[0009]优选地,步骤4)TIOUSIM方法的详细步骤包括:4.1)计算病症特征相似度,定义在决策树I和决策树J中,同一分组下的决策路径分别为路径K和路径M,则病症特征A的相似度为其取值范围的交并集之比:式中:IoU
A
为病症特征A在路径K和路径M上的相似度,(X
min
,X
max
)为病症特征A在路径K中的值域,(Y
min
,Y
max
)为病症特征A在路径M中的值域,若IoU
A
值不小于相似阈值,则判定两条路径上的病症特征A相似,从而得到同一分组下的两条决策路径中病症相似特征的个数;4.2)通过步骤4.1)中计病症相似特征个数与病症特征总个数之比来计算两条决策路径的相似度:式中:IoU
KM
为路径K和路径M的相似度,Sim_KM为两条路径中病症相似特征个数,k为路径K中的病症特征总个数,m为路径M中的病症特征总个数,若IoU
KM
值不小于相似阈值,
则判定路径K和路径M相似,从而得到相似路径的条数;4.3)通过步骤4.2)中相似路径条数与总路径条数之比来计算两棵决策树的相似度:式中:IoU
IJ
为决策树I和决策树J的相似度,Sim_IJ为两棵决策树中相似路径条数,i为决策树I中的总路径条数,j为决策树J中的总路径条数,若IoU
IJ
值不小于相似阈值,则判定决策树I和决策树J相似;优选地,步骤5)根据相似度和AUC值联合判断从而删减冗余决策树,得到最终患病风险预测模型,详细步骤包括:5.1)若决策树I和决策树J不相似,则同时保留两棵决策树,否则执行下一步;5.2)比较决策树I和决策树J的AUC值,若决策树I的AUC值更低,则判断决策树I的AUC值是否为前30%,若是,则同时保留两棵决策树,若不是,则保留决策树J的同时删除决策树I;5.3)用剩下的决策树构成最终的患病风险预测模型。
[0010]采用上述技术方案所产生的有益效果在于:针对医学健康分析中的患病风险预测,提出了一种新的度量随机森林模型中决策树相似性的方法,在保证原始医学数据完整性的前提下选择低相似高精度的决策树重组模型,提高了对患病风险的预测精度,为辅助医学健康分析提供了新思路。相较于在医学分类任务中常用的改进随机森林算法,保证了医学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进随机森林相似性度量的患病风险预测方法,其特征在于,包括以下步骤:S100、对获取的医学数据进行预处理,构建基于原始随机森林算法的患病风险预测模型;S200、计算模型中每棵决策树的AUC值,仅保留AUC值高的前80%决策树;S300、将每棵决策树中的路径进行分组,得到每条路径中所有病症特征的值域;S400、提出三层交并比法计算每两棵决策树的相似度;S500、根据相似度和AUC值删减冗余决策树,得到最终的患病风险预测模型。2.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法,其特征在于,所述的步骤S100中,将医学数据中的类别变量通过one

hot编码转换为数值变量,并对缺失的数值变量采用平均值进行填充。3.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法,其特征在于,步骤S300包括以下步骤:S301、遍历所有决策树,根据叶节点的患病输出类别对决策路径进行分组,输出类别相同的属于同一分组;S302、对于每条决策路径,遍历所有节点后得到其分裂特征的取值范围,对于相同的病症特征,定义其取值的交集为该病症特征的值域。4.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法,其特征在于,步骤S400包括以下步骤:S401、计算病症特征相似度,定义在决策树I和决策树J中,同一分组下的决策路径分别为路径K和路径M,则病症特征A的相似度为其取值范围的交并集之比:式中:IoU
A
为病症特征A在路径K和路径M上的相似度,(X
min
,X
max
)为病症特征A在...

【专利技术属性】
技术研发人员:王杨庞兰苏翟仕佶黄青松肖衡张舒黄大帅
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1