System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 真实世界研究中多个协变量缺失数据填补方法及系统技术方案_技高网

真实世界研究中多个协变量缺失数据填补方法及系统技术方案

技术编号:40416331 阅读:8 留言:0更新日期:2024-02-20 22:33
本发明专利技术提供一种真实世界研究中多个协变量缺失数据填补方法及系统。多个协变量缺失数据填补方法包括:步骤S1:输入原始数据集,得到数据集中的含缺失数据的变量的具体信息;步骤S2:根据原始数据集的数据缺失信息,以及Little检验和Liu’s Score检验自动判断数据的缺失机制;步骤S3:若判断出缺失机制为完全随机缺失或随机缺失时,则使用MCMC进行填补,得到若干填补后的完整数据集;若判断出缺失机制为非随机缺失时,则使用GEM进行填补,得到若干二次填补后的完整数据集;步骤S4:输出填补后的完整数据集。本申请的缺失数据填补方法可方便快捷地生成填补后的完整的且可供统计分析的真实世界研究的数据集,从而提高含多个协变量缺失数据的填补效率和准确性。

【技术实现步骤摘要】

本专利技术涉及医疗信息领域,具体涉及一种真实世界医学研究中多个协变量缺失数据的填补方法及系统。


技术介绍

1、真实世界研究是医学领域重要的组成部分,因其数据大多来自于日常医疗卫生工作积累的常规数据,因此数据缺失是真实世界医学研究中无法避免的问题。数据缺失不仅会给统计分析和结果解释带来挑战,还可能使研究结论发生偏倚,影响其代表性和真实性。直接删除或忽略缺失数据则会造成选择偏倚、信息利用不充分等问题。数据的缺失机制包括完全随机缺失(missing completely at random,mcar)、随机缺失(missing at random,mar)和非随机缺失(missing not at random,mnar)。由于真实世界数据异质性强,混杂和干扰因素多,其数据缺失多表现为多个协变量含有缺失数据的非单调的混合缺失模式。因此,常规的均数填补、回归填补和末次观测结转法等单一填补方法不再适用。

2、多重填补(multiple imputation,mi)和生成对抗填补网络(generativeadversarial imputation nets,gain)是两种可填补多个协变量缺失数据的方法,但各具优缺点。多重填补充分考虑了缺失数据的变异性,通过假定变量间存在多元正态分布或联合分布来进行填补,并可根据专业知识预设填补值范围。但多重填补的假定不一定总能成立,可能造成估计偏差。生成对抗填补网络无需监督和预先训练,可填补多个协变量的缺失数据。但生成对抗填补网络为每个缺失数据填补的也是单个数值,并未考虑缺失数据的变异性,且初始填补值是0,无先验信息。因此,现有技术中尚无良好的填补方法解决非随机缺失机制下的数据缺失问题。


技术实现思路

1、为了克服上述技术问题,本专利技术的第一个方面提供一种真实世界研究中多个协变量缺失数据填补方法,其包括:

2、步骤s1:输入原始数据集,得到数据集中的含缺失数据的多个变量的具体信息;

3、步骤s2:根据原始数据集的数据缺失信息,以及little检验和liu’s score检验自动判断数据的缺失机制,缺失机制分为完全随机缺失、随机缺失或非随机缺失;

4、步骤s3:根据判断出的数据缺失机制,选择不同的方法进行填补,若判断出缺失机制为完全随机缺失或随机缺失时,则使用多重填补中的马尔科夫链蒙特卡罗法(markovchain monte carlo,mcmc)进行填补,得到若干填补后的完整数据集;若判断出缺失机制为非随机缺失时,则使用gem进行填补,首先使用mcmc进行初始填补,然后分别对mcmc初始填补后得到的若干完整数据集使用gain进行二次填补,得到若干二次填补后的完整数据集;

5、步骤s4:输出填补后的完整数据集。

6、进一步地,若判断出缺失机制为完全随机缺失或随机缺失时,对基于步骤s1的含缺失值的数据集,进行mcmc填补,可设置mcmc的填补次数为m,m为≥2的正整数,得到m个填补后的完整数据集。

7、进一步地,若判断出缺失机制为非随机缺失时,首先,使用mcmc对原始数据集多个存在缺失数据的协变量进行填补,可设置mcmc的填补次数m,得到m个初始填补后的完整数据集,同时,保留原始数据集中每一个观测的缺失信息,如观测缺失,则记为0,未缺失,则记为1;其次,根据mcmc提供的先验信息和缺失信息,分别对mcmc初始填补后得到的m个完整数据集使用gain进行二次填补,得到m个二次填补后的完整数据集。

8、进一步地,gain的参数设置如下:生成器和判别器的深度可设为3~5层,默认为3层,输出层使用sigmoid激活函数,其他层使用relu激活函数,每次迭代1000~10000次,默认为10000次,迭代过程中的batch size可设为32、64或128,默认为128。

9、进一步地,真实世界研究中多个协变量缺失数据填补方法进一步包括:对输出的所述若干完整数据集分别进行统计分析,如线性回归分析,并根据rubin法则合并得到最终统计分析结果。

10、本专利技术的第二个方面提供一种真实世界研究中多个协变量缺失数据填补系统,其包括:

11、输入模块,所述输入模块用于输入原始数据集,得到数据集中的含缺失数据的多个变量的具体信息;

12、数据缺失机制判断模块,所述数据缺失机制判断模块用于根据原始数据集的数据缺失信息,以及little检验和liu’s score检验自动判断数据的缺失机制,缺失机制分为完全随机缺失、随机缺失或非随机缺失;

13、填补模块,所述填补模块用于根据判断出的数据缺失机制,选择不同的方法进行填补,若判断出缺失机制为完全随机缺失或随机缺失时,则使用mcmc进行填补,得到若干填补后的完整数据集;若判断出缺失机制为非随机缺失时,则使用gem进行填补,首先使用mcmc进行初始填补,然后分别对mcmc初始填补后得到的若干完整数据集使用gain进行二次填补,得到若干二次填补后的完整数据集;

14、输出模块,所述输出模块用于输出填补后的完整数据集。

15、进一步地,所述填补模块用于若判断出缺失机制为完全随机缺失或随机缺失时,基于含缺失值的数据集,进行mcmc填补,可设置mcmc的填补次数为m,得到m个填补后的完整数据集;还用于若判断出缺失机制为非随机缺失时,首先,使用mcmc对原始数据集多个存在缺失数据的协变量进行填补,可设置mcmc的填补次数m,得到m个初始填补后的完整数据集,同时,保留原始数据集中每一个观测的缺失信息,如观测缺失,则记为0,未缺失,则记为1;其次,根据mcmc提供的先验信息和缺失信息,分别对mcmc初始填补后得到的m个完整数据集使用gain进行二次填补,得到m个二次填补后的完整数据集。

16、进一步地,真实世界研究中多个协变量缺失数据填补系统进一步包括统计分析模块,所述统计分析模块用于对输出的所述若干完整数据集分别进行统计分析,如线性回归分析,并根据rubin法则合并得到最终统计分析结果。

17、本专利技术的第三个方面提供一种电子设备,其包括:存储器、处理器以及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述真实世界研究中多个协变量缺失数据填补方法中的步骤。

18、本专利技术的第四个方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述真实世界研究中多个协变量缺失数据填补方法中的步骤。

19、采用了上述技术方案后,与现有技术相比,具有以下有益效果:

20、本专利技术提出了一种真实世界研究中多个协变量缺失数据填补方法,即生成对抗网络增强的多重填补方法(gain enhanced mi,gem),可根据原始数据信息自动判断含缺失数据的变量和缺失机制,并根据缺失机制自动选择合适的数据填补方法,处理后,可方便快捷地生成填补后的完整的且可供统计分析的真实世界研究的数据集,并进本文档来自技高网...

【技术保护点】

1.一种真实世界研究中多个协变量缺失数据填补方法,其特征在于,包括:

2.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为完全随机缺失或随机缺失时,对基于步骤S1的含缺失值的数据集,进行MCMC填补,可设置MCMC的填补次数为m,m为≥2的正整数,得到m个填补后的完整数据集。

3.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为非随机缺失时,首先,使用MCMC对原始数据集多个存在缺失数据的协变量进行填补,可设置MCMC的填补次数m,得到m个初始填补后的完整数据集,同时,保留原始数据集中每一个观测的缺失信息,若观测缺失,则记为0,未缺失,则记为1;其次,根据MCMC提供的信息先验和缺失信息,分别对MCMC初始填补后得到的m个完整数据集使用GAIN进行二次填补,得到m个二次填补后的完整数据集。

4.如权利要求3所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,GAIN的参数设置如下:生成器和判别器的深度设为3~5层,输出层使用sigmoid激活函数,其他层使用relu激活函数,每次迭代1000~10000次,迭代过程中的batch size可设为32、64或128。

5.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,进一步包括:对输出的所述若干完整数据集分别进行统计分析,如线性回归分析,并根据Rubin法则合并得到最终统计分析结果。

6.一种真实世界研究中多个协变量缺失数据填补系统,其特征在于,包括:

7.如权利要求6所述的真实世界研究中多个协变量缺失数据填补系统,其特征在于,所述填补模块用于若判断出缺失机制为完全随机缺失或随机缺失时,基于含缺失值的数据集,进行MCMC填补,可设置MCMC的填补次数为m,得到m个填补后的完整数据集;还用于若判断出缺失机制为非随机缺失时,首先,使用MCMC对原始数据集多个存在缺失数据的协变量进行填补,可设置MCMC的填补次数m,得到m个初始填补后的完整数据集,同时,保留原始数据集中每一个观测的缺失信息,如观测缺失,则记为0,未缺失,则记为1;其次,根据MCMC提供的信息先验和缺失信息,分别对MCMC初始填补后得到的m个完整数据集使用GAIN进行二次填补,得到m个二次填补后的完整数据集。

8.如权利要求6所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,进一步包括统计分析模块,所述统计分析模块用于对输出的所述若干完整数据集分别进行统计分析,并根据Rubin法则合并得到最终统计分析结果。

9.一种电子设备,其特征在于,包括:存储器、处理器以及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的真实世界研究中多个协变量缺失数据填补方法中的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的真实世界研究中多个协变量缺失数据填补方法中的步骤。

...

【技术特征摘要】

1.一种真实世界研究中多个协变量缺失数据填补方法,其特征在于,包括:

2.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为完全随机缺失或随机缺失时,对基于步骤s1的含缺失值的数据集,进行mcmc填补,可设置mcmc的填补次数为m,m为≥2的正整数,得到m个填补后的完整数据集。

3.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,若判断出缺失机制为非随机缺失时,首先,使用mcmc对原始数据集多个存在缺失数据的协变量进行填补,可设置mcmc的填补次数m,得到m个初始填补后的完整数据集,同时,保留原始数据集中每一个观测的缺失信息,若观测缺失,则记为0,未缺失,则记为1;其次,根据mcmc提供的信息先验和缺失信息,分别对mcmc初始填补后得到的m个完整数据集使用gain进行二次填补,得到m个二次填补后的完整数据集。

4.如权利要求3所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,gain的参数设置如下:生成器和判别器的深度设为3~5层,输出层使用sigmoid激活函数,其他层使用relu激活函数,每次迭代1000~10000次,迭代过程中的batch size可设为32、64或128。

5.如权利要求1所述的真实世界研究中多个协变量缺失数据填补方法,其特征在于,进一步包括:对输出的所述若干完整数据集分别进行统计分析,如线性回归分析,并根据rubin法则合并得到最终统计分析结果。

6.一种真实世界研究中多个...

【专利技术属性】
技术研发人员:吴骋朱荣慧秦婴逸王睿何倩武胜勇
申请(专利权)人:中国人民解放军海军军医大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1