基于组内组间优化的多重插补的乳腺癌缺失数据插补模型制造技术

技术编号:35079283 阅读:10 留言:0更新日期:2022-09-28 11:46
本发明专利技术是涉及基于组内组间优化的多重插补的乳腺癌缺失数据插补模型。该插补模型由组内优化插补和组间优化插补组成,将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法,并结合医学特征的参考阈值进行综合插补。得到组内最优插补数据集,最后以均方根误差作为组间最优插补的评判标准。在插补过程中,加入临床特征阈值判别有利于增强医学数据特征的结构分布,让数据更具真实性。在组内优化中考虑到不同特征间的差异以及特征缺失值的不确定性,组间优化中考虑各插补方法的横向比较,让缺失数据的插补更具稳健性。让缺失数据的插补更具稳健性。

【技术实现步骤摘要】
基于组内组间优化的多重插补的乳腺癌缺失数据插补模型


[0001]本专利技术涉及数据清洗技术,尤其涉及到一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型,该模型在数据插补方面有着很好的应用效果。

技术介绍

[0002]对于乳腺癌临床数据集的研究可以有效的预测和开发早期干预治疗手段。由于客观或主观因素的限制,经常会出现临床数据的缺失,给后期数据处理以及疾病预测带来不确定性。
[0003]数据集获取后,数据预处理的质量能影响后续数据建模的准确度,一个较为完整和接近真实分布的数据集是验证模型好坏的前提。数据预处理得当能使模型充分挖掘数据所隐含的信息。在数据预处理阶段最为重要的就是对数据缺失值的处理。在以往的数据缺失值处理中,采用插补方式对数据的处理是目前最为普遍的,也是尽可能的在不改变数据分布的情况下保留完整数据信息的方法。
[0004]对于乳腺癌样本数据的缺失值处理上,传统的插补方法大多基于两类,一类是基于统计学的插补方法,另一类是基于机器学习的插补方法。然而前者是基于数据集本身做出假设,然后利用原数据集对缺失数据进行相应的插补,这类方法没有考虑数据对象本身的类别,插补值往往受其他类别对象的影响,插补结果的准确性较差。后者大多是先对缺失数据集进行分类或聚类,然后进行插补,但在缺失属性较多时容易导致所分类别较多。上述两种类别的插补方法都是单一插补方法,这种方式即没有考虑插补过程中的不确定性和偶然性,也没有考虑到不同特征间的差异性,对插补后数据分布产生的结论偏差也没有进行相应的处理,缺少数据分布矫正。同时也缺乏领域知识对插补结果的约束。
[0005]在医学诊断领域医学数据量会逐年增加,且不同疾病数据有着较大的差异,对于特定的缺失数据需要有特定的领域知识介入。数据的缺失增加的临床预测的难度可能会导致结果出现偏差。为解决这一问题,本专利技术采用一种基于组内组间优化的多重插补的乳腺癌缺失数据插补模型来增强数据的完整性与真实性。

技术实现思路

[0006]为了解决数据缺失的问题,本专利技术公开了一种基于内组间优化的多重插补方模型。
[0007]为此,本专利技术提供了如下技术方案:
[0008]1.基于组内组间优化的多重插补模型,其特征在于,该方法包括以下步骤:
[0009]步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D


[0010]步骤2:在数据集D

中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D


[0011]步骤3:对数据集D

利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补
过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号。遍历插补数据集D

中的各个特征,得到组内最优插补数据集D
″′

[0012]步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。
[0013]步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集D
c

[0014]步骤6:插补性能的稳定性验证,对单一插补方法和本专利技术方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。
[0015]2.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤1中,实验的完整数据集准备,具体步骤为:
[0016]步骤1

1遍历数据集D中各特征属性,记录各特征的缺失比例。对含有缺失属性的样本个例进行删除,以获得完整数据集D


[0017]3.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤2中,实验的缺失数据集准备,具体步骤为:
[0018]步骤2

1按步骤1

1记录的各特征缺失比例对完整数据集D

进行设空,以完成缺失数据集的准备。
[0019]4.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤3中,缺失数据集的组内插补,具体步骤为:
[0020]步骤3

1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。
[0021]步骤3

2对插补的每个临床特征进行阈值判别,计算出其阈值外的插补值个数。计算过程如下:
[0022][0023]其中QL
k
为第k个特征的下四分位数,QU
k
为第k个特征的上四分位数,IQR
k
=QU
k

QL
k
,k=1,2,3,

,K;j=1,2,3,

,M;K为数据集特征个数,M为插补重数;
[0024]步骤3

3对阈值的左侧范围进行调整,小于0的阈值范围缩小到0;
[0025]步骤3

4计算阈值判别分数,计算公式如下:
[0026][0027]其中x
kj
为第j重插补的第k个特征的阈值外插补值个数,k=1,2,3,

,K;j=1,2,3,

,M;K为数据集特征个数,M为插补重数;
[0028]步骤3

5对每列特征进行归一化均方根误差计算,计算公式如下:
[0029][0030]X
true,kj
为第j重插补的第k个原完整特征属性集合,X
imp,kj
为第j重插补的第k个插补后的完整特征属性集合;
[0031]步骤3

6整合组内插补的评价指标,形成综合评价指标,计算公式如下:
[0032][0033]其中y
kj
是阈值判别分数,NRMSE
kj
是特征插补的误差衡量指标,为综合评价指标;
[0034]步骤3

7选择综合评价指标最小的多重插补方式作为组内特征的最优插补重数,并记录各个特征最优插补重数的序号;
[0035]步骤3

8遍历插补数据集D

中的各个特征,得到组内最优插补数据集D
″′

[0036]5.根据权利要求1所述的基于组内组间的多重本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于组内组间优化的多重插补模型,其特征在于,该方法包括以下步骤:步骤1:记录原始数据集D中各缺失特征的缺失比例。数据集D中删除含有缺失属性的样本个例,获取完整的数据集合D

。步骤2:在数据集D

中按步骤1中记录的特征缺失比例对各特征进行等比例设空,生成新数据集D

。步骤3:对数据集D

利用N(N=5)种插补方法进行多重估算插补M(M=10)次,插补过程中将每列特征得到的M(M=10)个结果按照综合评价指标进行排序,选择综合指标最小的多重插补方式作为特征的最优插补重数,并记录各个特征最优插补重数的序号。遍历插补数据集D

中的各个特征,得到组内最优插补数据集D
″′
。步骤4:对N(N=5)个插补方法得到的组内最优数据集选择综合指标最小的按整体均方根误差进行排序,选择误差最小的作为组间最优插补数据集。步骤5:遍历数据集D中各缺失特征,按步骤3中记录的各特征的最优插补方式进行组内插补。按步骤4对数据集D进行组间插补,最终得到完整数据集D
c
。步骤6:插补性能的稳定性验证,对单一插补方法和本发明方法进行50次重复实验,得到每组插补方法的50组均方根误差结果。2.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤1中,实验的完整数据集准备,具体步骤为:步骤1

1遍历数据集D中各特征属性,记录各特征的缺失比例。对含有缺失属性的样本个例进行删除,以获得完整数据集D

。3.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤2中,实验的缺失数据集准备,具体步骤为:步骤2

1按步骤1

1记录的各特征缺失比例对完整数据集D

进行设空,以完成缺失数据集的准备。4.根据权利要求1所述的基于组内组间的多重插补的乳腺癌缺失数据插补模型,其特征在于,所述步骤3中,缺失数据集的组内插补,具体步骤为:步骤3

1将均值插补、随机森林插补、贝叶斯线性回归插补、分类回归树插补和线性回归插补五种方法作为多重插补的基础方法。插补过程中将每列特征得到的十个结果按照综合评价指标进行排序。步骤3

2对插补的每个临床特征进行阈值判别,计算出其阈值外的插补值个数。计算过程如下:其中QL
k
为第k个特征的下四分位数,QU
k
为第k个特征的上四分位数,IQR
k
=QU
k

QL
k
,k=1,2,3,

,K;j=1,2,3,

,M;K为数据...

【专利技术属性】
技术研发人员:程可苗世迪贾浩波
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1