医学预测模型的不平衡数据处理方法、装置及设备制造方法及图纸

技术编号：39282962 阅读：29 留言：0更新日期：2023-11-07 10:55

本发明专利技术公开了一种医学预测模型的不平衡数据处理方法、装置及设备，涉及医学数据处理领域，包括获取少数类样本；根据所述少数类样本之间的相似性，将所述少数类样本划分为多个样本簇；根据所述样本簇的聚类中心，确定所述样本簇的表面点，其中，所述表面点为所述样本簇中与聚类中心距离值最小的样本；根据所述样本簇的聚类中心和表面点的距离值，确定样本生成区域；基于预设生成量，根据所述样本生成区域内的的少数类样本，生成处理样本。本发明专利技术解决了罕见疾病的样本数量较少，导致疾病预测模型对于罕见疾病的准确性低的技术问题，进而实现了在疾病预测模型对于罕见疾病的预测准确性的提升。性的提升。性的提升。

全部详细技术资料下载

【技术实现步骤摘要】
医学预测模型的不平衡数据处理方法、装置及设备

[0001]本专利技术涉及医学数据处理领域，尤其涉及一种医学预测模型的不平衡数据处理方法、装置及设备。

技术介绍

[0002]随着医院信息化的普及，越来越多的数据以电力病历的方式呈现。在医学研究中，发病率低的疾病是需要重点关注和研究的，在基于电子病历的疾病预测模型的一个核心问题是样本不均衡，比如，常见疾病的样本数量较多，而罕见疾病的样本数量较少，在上述样本不均衡的数据集上构建的疾病预测模型，降低了疾病预测模型对于罕见疾病的预测准确性。

技术实现思路

[0003]本专利技术的主要目的在于：提供一种医学预测模型的不平衡数据处理方法、装置及设备，旨在解决现有技术中罕见疾病的样本数量较少，导致疾病预测模型对于罕见疾病的准确性低的技术问题。
[0004]为实现上述目的，本专利技术采用如下技术方案：
[0005]第一方面，本专利技术提供了一种医学预测模型的不平衡数据处理方法，所述方法包括：
[0006]获取少数类样本；
[0007]根据所述少数类样本之间的相似性，将所述少数类样本划分为多个样本簇；
[0008]根据所述样本簇的聚类中心，确定所述样本簇的表面点，其中，所述表面点为所述样本簇中与聚类中心距离值最小的样本；
[0009]根据所述样本簇的聚类中心和表面点的距离值，确定样本生成区域；
[0010]基于预设生成量，根据所述样本生成区域内的的少数类样本，生成处理样本。
[0011]可选地，上述医学预测模...

【技术保护点】

【技术特征摘要】
1.一种医学预测模型的不平衡数据处理方法，其特征在于，所述方法包括：获取少数类样本；根据所述少数类样本之间的相似性，将所述少数类样本划分为多个样本簇；根据所述样本簇的聚类中心，确定所述样本簇的表面点，其中，所述表面点为所述样本簇中与聚类中心距离值最小的样本；根据所述样本簇的聚类中心和表面点的距离值，确定样本生成区域；基于预设生成量，根据所述样本生成区域内的的少数类样本，生成处理样本。2.如权利要求1所述的医学预测模型的不平衡数据处理方法，其特征在于，在所述根据所述样本簇的聚类中心，确定所述样本簇的表面点的步骤之后，所述方法还包括，根据每个所述样本簇的聚类中心和表面点的距离值，确定目标样本簇；所述根据所述样本簇的聚类中心和表面点的距离值，确定样本生成区域，包括，根据所述目标样本簇的聚类中心和表面点的距离值，确定目标样本生成区域；所述基于预设生成量，根据所述样本生成区域内的的少数类样本，生成处理样本，包括，基于预设生成量，在所述目标样本生成区域，生成处理样本。3.如权利要求1所述的医学预测模型的不平衡数据处理方法，其特征在于，所述基于预设生成量，根据所述样本生成区域内的的少数类样本，生成处理样本的步骤之后，所述方法还包括，将所述处理样本和原始样本合并，得到目标学习样本。4.如权利要求2所述的医学预测模型的不平衡数据处理方法，其特征在于，所述根据每个所述样本簇的聚类中心和表面点的距离值，确定目标样本簇，包括，对每个所述样本簇的聚类中心和表面点的距离值进行排序，得到距离值序列；基于预设的目标数量，在所述距离值序列中，选取最小的K个距离值为距离阈值；将和每个所述距离阈值对应的所述样本簇，...

【专利技术属性】
技术研发人员：谭婧，孙鑫，朱枭，刘兴会，李好，熊益权，刘春容，陈锰，任燕，赵芃，贾玉龙，
申请(专利权)人：四川大学华西医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人