疾病预测模型的交叉验证方法、装置及电子设备制造方法及图纸

技术编号:34046477 阅读:14 留言:0更新日期:2022-07-06 14:45
本申请提供了一种疾病预测模型的交叉验证方法、装置及电子设备,基于获取的两地区的原始医疗数据,确定两地区的原始特征样本集和公共特征样本集;基于原始特征样本集和公共特征样本集中的训练样本集,构建两地区分别对应的疾病预测原始模型和疾病预测公共模型;应用原始特征样本集和公共特征样本集中的测试样本集对两地区的模型进行对应测试和交叉测试,得到多个测试结果;根据多个测试结果进行交叉验证,确定两地区模型间的可替代性。本申请能够基于两地采集的医疗数据和构建的模型进行交叉验证,确定模型间的可替代性,从而为其它地区的模型构建提供数据支持和参考,以辅助其它地区快速构建疾病预测模型。它地区快速构建疾病预测模型。它地区快速构建疾病预测模型。

Cross validation method, device and electronic equipment of disease prediction model

【技术实现步骤摘要】
疾病预测模型的交叉验证方法、装置及电子设备


[0001]本申请涉及核保
,尤其是涉及一种疾病预测模型的交叉验证方法、装置及电子设备。

技术介绍

[0002]核保是保险公司风控过程中一个十分重要的环节,而医学核保又是其中最为严格、最有价值的,这个过程通常是由核保人员针对被保险人的医疗健康数据(包括年龄、性别、体征、病史等)综合评判其身体健康状况。近些年来,随着互联网以及信息化技术的快速发展,医疗领域的信息化、电子化逐渐完善,各类医疗数据急剧增加,数据维度也更加丰富。因此借助机器学习、大数据模型,能够有效提升医疗健康数据分析的效率和质量,更加科学地评判被保险人的健康风险,为保险核保提供有力的数据支持。
[0003]但是,建立一套完善的机器学习模型耗时耗力,一是需要足够多的样本用来训练,二是建模思路需要科学合理(包括数据选择、特征选择、数据预处理等),三是模型调参繁琐耗时,四是训练模型需要一定的硬件支持,整个流程下来通常需要数个月。而在一个新的区域拓展业务时,如何借鉴其他区域数据实验室已有的数据成果和经验,在新区域简便、快速地搭建起数据模型,提供数据支持是目前面临的重要问题。

技术实现思路

[0004]本申请的目的在于提供一种疾病预测模型的交叉验证方法、装置及电子设备,基于两地采集的医疗数据进行原始模型和公共模型建模,再利用各个测试样本集对两地的四个模型进行对应测试和交叉测试,根据测试结果进行交叉验证,确定四个模型间的可替代性,从而为其它地区的模型构建提供数据支持和参考,以辅助其它地区快速构建疾病预测模型。
[0005]第一方面,本申请实施例提供一种疾病预测模型的交叉验证方法,方法包括:获取第一地区的第一原始医疗数据,及第二地区的第二原始医疗数据;基于第一原始医疗数据和第二原始医疗数据,确定第一地区对应的第一原始特征样本集和第一公共特征样本集,及第二地区对应的第二原始特征样本集和第二公共特征样本集;每个样本集中均包括训练样本集和测试样本集;基于第一原始特征样本集和第一公共特征样本集中的训练样本集,构建第一地区分别对应的第一疾病预测原始模型和第一疾病预测公共模型;基于第二原始特征样本集和第二公共特征样本集中的训练样本集,构建第二地区分别对应的第二疾病预测原始模型和第二疾病预测公共模型;应用第一原始特征样本集、第一公共特征样本集、第二原始特征样本集和第二公共特征样本集中的测试样本集,对第一疾病预测原始模型、第一疾病预测公共模型、第二疾病预测原始模型和第二疾病预测公共模型进行对应测试和交叉测试,得到多个测试结果;根据多个测试结果进行交叉验证,确定第一疾病预测原始模型、第一疾病预测公共模型、第二疾病预测原始模型和第二疾病预测公共模型间的可替代性。
[0006]进一步地,上述基于第一原始医疗数据和第二原始医疗数据,确定第一地区对应的第一原始特征样本集和第一公共特征样本集,及第二地区对应的第二原始特征样本集和第二公共特征样本集的步骤,包括:确定第一原始医疗数据和第二原始医疗数据中对应的公共特征;将第一原始医疗数据和第二原始医疗数据分别作为当前医疗数据,均执行以下步骤:对当前医疗数据进行预处理,并按照指定比例将当前医疗数据划分为训练样本集和测试样本集,得到当前医疗数据对应的原始特征样本集;基于公共特征,从当前医疗数据中提取对应的样本数据,并按照指定比例将样本数据划分为训练样本集和测试样本集,得到当前医疗数据对应的公共特征样本集。
[0007]进一步地,上述基于第一原始特征样本集和第一公共特征样本集中的训练样本集,构建第一地区分别对应的第一疾病预测原始模型和第一疾病预测公共模型;基于第二原始特征样本集和第二公共特征样本集中的训练样本集,构建第二地区分别对应的第二疾病预测原始模型和第二疾病预测公共模型的步骤,包括:分别以第一原始特征样本集、第一公共特征样本集、第二原始特征样本集和第二公共特征样本集中的训练样本集作为当前训练样本集,均执行以下操作:基于当前训练样本集和预设算法进行模型训练;预设算法包括以下之一:CatBoost算法、LightGBM算法、XGBoost算法;对训练后的模型进行模型调参处理,得到当前训练样本集对应的疾病预测模型;模型调参处理至少包括以下之一:调整迭代次数、调整学习率、调整树的深度、调整L2正则化系数。
[0008]进一步地,上述应用第一原始特征样本集、第一公共特征样本集、第二原始特征样本集和第二公共特征样本集中的测试样本集,对第一疾病预测原始模型、第一疾病预测公共模型、第二疾病预测原始模型和第二疾病预测公共模型进行对应测试和交叉测试,得到多个测试结果的步骤,包括:应用第一原始特征样本集中的测试样本集对第一疾病预测原始模型进行测试,得到第一测试结果;应用第一公共特征样本集中的测试样本集对第一疾病预测公共模型进行测试,得到第二测试结果;应用第二公共特征样本集中的测试样本集对第一疾病预测公共模型进行测试,得到第三测试结果;应用第一公共特征样本集中的测试样本集对第二疾病预测公共模型进行测试,得到第四测试结果;应用第二公共特征样本集中的测试样本集对第二疾病预测公共模型进行测试,得到第五测试结果;应用第二原始特征样本集中的测试样本集对第二疾病预测原始模型进行测试,得到第六测试结果;其中,每个测试结果包括AUC和提升度。
[0009]进一步地,上述根据多个测试结果进行交叉验证,确定第一疾病预测原始模型、第一疾病预测公共模型、第二疾病预测原始模型和第二疾病预测公共模型间的可替代性的步骤,包括:将第二测试结果与第一测试结果进行比对,如果对应的AUC和提升度的下降幅度均小于第一预设阈值,则确定第一疾病预测公共模型可替代第一疾病预测原始模型;将第五测试结果与第六测试结果比对,如果对应的AUC和提升度的下降幅度均小于第二预设阈值,则确定第二疾病预测公共模型可替代第二疾病预测原始模型;将第四测试结果与第一测试结果比对,如果对应的AUC和提升度的下降幅度均小于第三预设阈值,则确定第二疾病预测公共模型可替代第一疾病预测原始模型;将第三测试结果与第六测试结果比对,如果对应的AUC和提升度的下降幅度均小于第四预设阈值,则确定第一疾病预测公共模型可替代第二疾病预测原始模型。
[0010]进一步地,上述方法还包括:如果第三地区的数据样本充足,基于公共特征,获取
第三地区的第三公共特征样本集;应用第三公共特征样本集进行模型训练,得到第三地区对应的目标疾病预测模型。
[0011]进一步地,上述如果第三地区的数据样本不充足,将第一疾病预测公共模型和第二疾病预测公共模型中,模型精准度较高的模型作为第三地区对应的目标疾病预测模型。
[0012]第二方面,本申请实施例还提供一种疾病预测模型的交叉验证装置,装置包括:数据获取模块,用于获取第一地区的第一原始医疗数据,及第二地区的第二原始医疗数据;样本集确定模块,用于基于第一原始医疗数据和第二原始医疗数据,确定第一地区对应的第一原始特征样本集和第一公共特征样本集,及第二地区对应的第二原始特征样本集和第二公共特征样本集;每个样本集中包括训练样本集和测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种疾病预测模型的交叉验证方法,其特征在于,所述方法包括:获取第一地区的第一原始医疗数据,及第二地区的第二原始医疗数据;基于所述第一原始医疗数据和所述第二原始医疗数据,确定第一地区对应的第一原始特征样本集和第一公共特征样本集,及第二地区对应的第二原始特征样本集和第二公共特征样本集;每个样本集中均包括训练样本集和测试样本集;基于所述第一原始特征样本集和所述第一公共特征样本集中的训练样本集,构建所述第一地区分别对应的第一疾病预测原始模型和第一疾病预测公共模型;基于所述第二原始特征样本集和所述第二公共特征样本集中的训练样本集,构建所述第二地区分别对应的第二疾病预测原始模型和第二疾病预测公共模型;应用所述第一原始特征样本集、所述第一公共特征样本集、所述第二原始特征样本集和所述第二公共特征样本集中的测试样本集,对所述第一疾病预测原始模型、所述第一疾病预测公共模型、所述第二疾病预测原始模型和所述第二疾病预测公共模型进行对应测试和交叉测试,得到多个测试结果;根据所述多个测试结果进行交叉验证,确定所述第一疾病预测原始模型、所述第一疾病预测公共模型、所述第二疾病预测原始模型和所述第二疾病预测公共模型间的可替代性。2.根据权利要求1所述的方法,其特征在于,基于所述第一原始医疗数据和所述第二原始医疗数据,确定第一地区对应的第一原始特征样本集和第一公共特征样本集,及第二地区对应的第二原始特征样本集和第二公共特征样本集的步骤,包括:确定所述第一原始医疗数据和所述第二原始医疗数据中对应的公共特征;将所述第一原始医疗数据和所述第二原始医疗数据分别作为当前医疗数据,均执行以下步骤:对所述当前医疗数据进行预处理,并按照指定比例将所述当前医疗数据划分为训练样本集和测试样本集,得到所述当前医疗数据对应的原始特征样本集;基于所述公共特征,从所述当前医疗数据中提取对应的样本数据,并按照指定比例将所述样本数据划分为训练样本集和测试样本集,得到所述当前医疗数据对应的公共特征样本集。3.根据权利要求1所述的方法,其特征在于,基于所述第一原始特征样本集和所述第一公共特征样本集中的训练样本集,构建所述第一地区分别对应的第一疾病预测原始模型和第一疾病预测公共模型;基于所述第二原始特征样本集和所述第二公共特征样本集中的训练样本集,构建所述第二地区分别对应的第二疾病预测原始模型和第二疾病预测公共模型的步骤,包括:分别以所述第一原始特征样本集、所述第一公共特征样本集、所述第二原始特征样本集和所述第二公共特征样本集中的训练样本集作为当前训练样本集,均执行以下操作:基于所述当前训练样本集和预设算法进行模型训练;所述预设算法包括以下之一:CatBoost算法、LightGBM算法、XGBoost算法;对训练后的模型进行模型调参处理,得到所述当前训练样本集对应的疾病预测模型;所述模型调参处理至少包括以下之一:调整迭代次数、调整学习率、调整树的深度、调整L2正则化系数。
4.根据权利要求1所述的方法,其特征在于,应用所述第一原始特征样本集、所述第一公共特征样本集、所述第二原始特征样本集和所述第二公共特征样本集中的测试样本集,对所述第一疾病预测原始模型、所述第一疾病预测公共模型、所述第二疾病预测原始模型和所述第二疾病预测公共模型进行对应测试和交叉测试,得到多个测试结果的步骤,包括:应用所述第一原始特征样本集中的测试样本集对所述第一疾病预测原始模型进行测试,得到第一测试结果;应用所述第一公共特征样本集中的测试样本集对所述第一疾病预测公共模型进行测试,得到第二测试结果;应用所述第二公共特征样本集中的测试样本集对所述第一疾病预测公共模型进行测试,得到第三测试结果...

【专利技术属性】
技术研发人员:李任重郭小川高惠庭李春萌王睿
申请(专利权)人:阳光人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1