医学预测模型的不平衡数据处理方法、装置及设备制造方法及图纸

技术编号:39282962 阅读:12 留言:0更新日期:2023-11-07 10:55
本发明专利技术公开了一种医学预测模型的不平衡数据处理方法、装置及设备,涉及医学数据处理领域,包括获取少数类样本;根据所述少数类样本之间的相似性,将所述少数类样本划分为多个样本簇;根据所述样本簇的聚类中心,确定所述样本簇的表面点,其中,所述表面点为所述样本簇中与聚类中心距离值最小的样本;根据所述样本簇的聚类中心和表面点的距离值,确定样本生成区域;基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本。本发明专利技术解决了罕见疾病的样本数量较少,导致疾病预测模型对于罕见疾病的准确性低的技术问题,进而实现了在疾病预测模型对于罕见疾病的预测准确性的提升。性的提升。性的提升。

【技术实现步骤摘要】
医学预测模型的不平衡数据处理方法、装置及设备


[0001]本专利技术涉及医学数据处理领域,尤其涉及一种医学预测模型的不平衡数据处理方法、装置及设备。

技术介绍

[0002]随着医院信息化的普及,越来越多的数据以电力病历的方式呈现。在医学研究中,发病率低的疾病是需要重点关注和研究的,在基于电子病历的疾病预测模型的一个核心问题是样本不均衡,比如,常见疾病的样本数量较多,而罕见疾病的样本数量较少,在上述样本不均衡的数据集上构建的疾病预测模型,降低了疾病预测模型对于罕见疾病的预测准确性。

技术实现思路

[0003]本专利技术的主要目的在于:提供一种医学预测模型的不平衡数据处理方法、装置及设备,旨在解决现有技术中罕见疾病的样本数量较少,导致疾病预测模型对于罕见疾病的准确性低的技术问题。
[0004]为实现上述目的,本专利技术采用如下技术方案:
[0005]第一方面,本专利技术提供了一种医学预测模型的不平衡数据处理方法,所述方法包括:
[0006]获取少数类样本;
[0007]根据所述少数类样本之间的相似性,将所述少数类样本划分为多个样本簇;
[0008]根据所述样本簇的聚类中心,确定所述样本簇的表面点,其中,所述表面点为所述样本簇中与聚类中心距离值最小的样本;
[0009]根据所述样本簇的聚类中心和表面点的距离值,确定样本生成区域;
[0010]基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本。
[0011]可选地,上述医学预测模型的不平衡数据处理方法中,在所述根据所述样本簇的聚类中心,确定所述样本簇的表面点的步骤之后,所述方法还包括,
[0012]根据每个所述样本簇的聚类中心和表面点的距离值,确定目标样本簇;
[0013]所述根据所述样本簇的聚类中心和表面点的距离值,确定样本生成区域,包括,
[0014]根据所述目标样本簇的聚类中心和表面点的距离值,确定目标样本生成区域;
[0015]所述基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本,包括,
[0016]基于预设生成量,在所述目标样本生成区域,生成处理样本。
[0017]可选地,上述医学预测模型的不平衡数据处理方法中,所述基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本的步骤之后,所述方法还包括,
[0018]将所述处理样本和原始样本合并,得到目标学习样本。
[0019]可选地,上述医学预测模型的不平衡数据处理方法中,所述根据每个所述样本簇
的聚类中心和表面点的距离值,确定目标样本簇,包括,
[0020]对每个所述样本簇的聚类中心和表面点的距离值进行排序,得到距离值序列;
[0021]基于预设的目标数量,在所述距离值序列中,选取最小的K个距离值为距离阈值;
[0022]将和每个所述距离阈值对应的所述样本簇,确定为目标样本簇。
[0023]可选地,上述医学预测模型的不平衡数据处理方法中,所述根据所述少数类样本之间的相似性,将所述少数类样本划分为多个样本簇,包括,
[0024]利用K

medoids聚类算法将所述少数类样本划分为多个样本簇。
[0025]可选地,上述医学预测模型的不平衡数据处理方法中,所述基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本,包括,
[0026]利用GeometricSMOTE算法,在所述样本生成区域中,生成处理样本。
[0027]可选地,上述医学预测模型的不平衡数据处理方法中,所述基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本,包括,
[0028]获取所述处理样本的数量;
[0029]当所述处理样本的数量小于生成阈值时,基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本。
[0030]第二方面,本专利技术提供了一种医学预测模型的不平衡数据处理装置,所述装置包括:
[0031]数据获取模块,用于获取少数类样本;
[0032]数据处理模块,用于根据所述少数类样本之间的相似性,将所述少数类样本划分为多个样本簇;根据所述样本簇的聚类中心,确定所述样本簇的表面点,其中,所述表面点为所述样本簇中与聚类中心距离值最小的样本;根据所述样本簇的聚类中心和表面点的距离值,确定样本生成区域;
[0033]样本生成模块,用于基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本。
[0034]第三方面,本专利技术提供了一种医学预测模型的不平衡数据处理设备,所述设备包括处理器和存储器,所述存储器中存储有样本处理程序,所述样本处理程序被所述处理器执行时,实现如上述的医学预测模型的不平衡数据处理方法。
[0035]第四方面,本专利技术提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如上述的医学预测模型的不平衡数据处理方法。
[0036]本专利技术提供的上述一个或多个技术方案,可以具有如下优点或至少实现了如下技术效果:
[0037]本专利技术提出的一种医学预测模型的不平衡数据处理方法、装置及设备,通过获取少数类样本;根据所述少数类样本之间的相似性,将所述少数类样本划分为多个样本簇;根据所述样本簇的聚类中心,确定所述样本簇的表面点,其中,所述表面点为所述样本簇中与聚类中心距离值最小的样本;根据所述样本簇的聚类中心和表面点的距离值,确定样本生成区域,对样本生成区域进行了限制;基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本,提升少数类样本生成的准确性,本专利技术解决了罕见疾病的样本数量较少,导致疾病预测模型对于罕见疾病的准确性低的技术问题,进而实现了在疾病预测模
型对于罕见疾病的预测准确性的提升。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的这些附图获得其他的附图。
[0039]图1为本专利技术医学预测模型的不平衡数据处理方法第一实施例的流程示意图;
[0040]图2为本专利技术涉及的医学预测模型的不平衡数据处理设备的硬件结构示意图;
[0041]图3为本专利技术医学预测模型的不平衡数据处理方法第二实施例的流程示意图;
[0042]图4为本专利技术医学预测模型的不平衡数据处理装置第一实施例的功能模块示意图。
[0043]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0044]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本专利技术的一部分实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学预测模型的不平衡数据处理方法,其特征在于,所述方法包括:获取少数类样本;根据所述少数类样本之间的相似性,将所述少数类样本划分为多个样本簇;根据所述样本簇的聚类中心,确定所述样本簇的表面点,其中,所述表面点为所述样本簇中与聚类中心距离值最小的样本;根据所述样本簇的聚类中心和表面点的距离值,确定样本生成区域;基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本。2.如权利要求1所述的医学预测模型的不平衡数据处理方法,其特征在于,在所述根据所述样本簇的聚类中心,确定所述样本簇的表面点的步骤之后,所述方法还包括,根据每个所述样本簇的聚类中心和表面点的距离值,确定目标样本簇;所述根据所述样本簇的聚类中心和表面点的距离值,确定样本生成区域,包括,根据所述目标样本簇的聚类中心和表面点的距离值,确定目标样本生成区域;所述基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本,包括,基于预设生成量,在所述目标样本生成区域,生成处理样本。3.如权利要求1所述的医学预测模型的不平衡数据处理方法,其特征在于,所述基于预设生成量,根据所述样本生成区域内的的少数类样本,生成处理样本的步骤之后,所述方法还包括,将所述处理样本和原始样本合并,得到目标学习样本。4.如权利要求2所述的医学预测模型的不平衡数据处理方法,其特征在于,所述根据每个所述样本簇的聚类中心和表面点的距离值,确定目标样本簇,包括,对每个所述样本簇的聚类中心和表面点的距离值进行排序,得到距离值序列;基于预设的目标数量,在所述距离值序列中,选取最小的K个距离值为距离阈值;将和每个所述距离阈值对应的所述样本簇,...

【专利技术属性】
技术研发人员:谭婧孙鑫朱枭刘兴会李好熊益权刘春容陈锰任燕赵芃贾玉龙
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1