一种改进随机森林相似性度量的患病风险预测方法技术

技术编号：32463218 阅读：14 留言：0更新日期：2022-02-26 08:56

本发明专利技术涉及一种改进随机森林相似性度量的患病风险预测方法，属于医学健康分析和机器学习领域；解决了随机森林算法基于复杂医学数据进行患病风险预测时准确率低的问题；其技术方案是：构建基于原始随机森林算法的患病风险预测模型；保留AUC值高的部分决策树；将决策路径分组后得到所有病症特征的值域；提出三层交并比法计算决策树之间的相似度；删减冗余决策树后得到最终的患病风险预测模型；本发明专利技术提出了一种新的度量随机森林模型中决策树相似性的方法，保证原始医学数据完整性的同时提高了对患病风险的预测精度，为辅助医学健康分析提供了新思路。供了新思路。供了新思路。

全部详细技术资料下载

【技术实现步骤摘要】
一种改进随机森林相似性度量的患病风险预测方法

[0001]本专利技术涉及医学健康分析和机器学习领域，尤其涉及一种改进随机森林相似性度量的患病风险预测方法。

技术介绍

[0002]随机森林作为集成学习bagging分支中最具代表性的算法，以其优异的性能和极具灵活性的特点，被广泛应用于医学健康分析领域。从医学数据中挖掘有效信息并进行分类预测，可以实现对人类患病情况的辅助诊断。但由于医学数据普遍存在的样本类别不平衡和特征维度高的特点，使得传统随机森林算法在分类任务中的能力被严重削弱。对此，研究人员常用SMOTE及其拓展算法对医学数据进行聚类，使数据更趋于平衡；同时进行特征选择与参数优化，以便从高维特征中选择出与预测结果相关度更高的特征。但是这些方法会对原始数据进行修改，可能会删掉部分病症特征甚至是多条样本，丢失了数据的原始性与完整性。并且由于医学数据针对某种病症的特征都是高度相似的，通过大量类似样本所构建的随机森林模型很容易生成大量冗余的高相似决策树，对模型的分类精度和训练速度造成影响。
[0003]针对上述问题，有研究者提出可以不改变数据本身，而是针对随机森林模型的内部结构，选择高精度低相似的决策树重组森林，用新的随机森林模型训练医学数据，达到优化效果。对于分类精度通常是从原始随机森林中选出高精度子森林，对于相似度则是基于某种度量方法计算决策树之间的相似程度。度量方法主要有两大类：一类是基于病情预测决策树自身结构的相似性，如朱瑛利用分支节点间的最高匹配代价来评估决策树之间的相似程度，但这种方法大大增加了节点信息的...

【技术保护点】

【技术特征摘要】
1.一种改进随机森林相似性度量的患病风险预测方法，其特征在于，包括以下步骤：S100、对获取的医学数据进行预处理，构建基于原始随机森林算法的患病风险预测模型；S200、计算模型中每棵决策树的AUC值，仅保留AUC值高的前80%决策树；S300、将每棵决策树中的路径进行分组，得到每条路径中所有病症特征的值域；S400、提出三层交并比法计算每两棵决策树的相似度；S500、根据相似度和AUC值删减冗余决策树，得到最终的患病风险预测模型。2.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法，其特征在于，所述的步骤S100中，将医学数据中的类别变量通过one
‑
hot编码转换为数值变量，并对缺失的数值变量采用平均值进行填充。3.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法，其特征在于，步骤S300包括以下步骤：S301、遍历所有决策树，根据叶节点的患病输出类别对决策路径进行分组，输出类别相同的属于同一分组；S302、对于每条决策路径，遍历所有节点后得到其分裂特征的取值范围，对于相同的病症特征，定义其取值的交集为该病症特征的值域。4.根据权利要求1所述的一种改进随机森林相似性度量的患病风险预测方法，其特征在于，步骤S400包括以下步骤：S401、计算病症特征相似度，定义在决策树I和决策树J中，同一分组下的决策路径分别为路径K和路径M，则病症特征A的相似度为其取值范围的交并集之比：式中：IoU
A
为病症特征A在路径K和路径M上的相似度，（X
min
，X
max
）为病症特征A在...

【专利技术属性】
技术研发人员：王杨，庞兰苏，翟仕佶，黄青松，肖衡，张舒，黄大帅，
申请(专利权)人：西南石油大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人