疾病预测模型的交叉验证方法、装置及电子设备制造方法及图纸

技术编号：34046477 阅读：14 留言：0更新日期：2022-07-06 14:45

本申请提供了一种疾病预测模型的交叉验证方法、装置及电子设备，基于获取的两地区的原始医疗数据，确定两地区的原始特征样本集和公共特征样本集；基于原始特征样本集和公共特征样本集中的训练样本集，构建两地区分别对应的疾病预测原始模型和疾病预测公共模型；应用原始特征样本集和公共特征样本集中的测试样本集对两地区的模型进行对应测试和交叉测试，得到多个测试结果；根据多个测试结果进行交叉验证，确定两地区模型间的可替代性。本申请能够基于两地采集的医疗数据和构建的模型进行交叉验证，确定模型间的可替代性，从而为其它地区的模型构建提供数据支持和参考，以辅助其它地区快速构建疾病预测模型。它地区快速构建疾病预测模型。它地区快速构建疾病预测模型。

Cross validation method, device and electronic equipment of disease prediction model

全部详细技术资料下载

【技术实现步骤摘要】
疾病预测模型的交叉验证方法、装置及电子设备

[0001]本申请涉及核保
，尤其是涉及一种疾病预测模型的交叉验证方法、装置及电子设备。

技术介绍

[0002]核保是保险公司风控过程中一个十分重要的环节，而医学核保又是其中最为严格、最有价值的，这个过程通常是由核保人员针对被保险人的医疗健康数据(包括年龄、性别、体征、病史等)综合评判其身体健康状况。近些年来，随着互联网以及信息化技术的快速发展，医疗领域的信息化、电子化逐渐完善，各类医疗数据急剧增加，数据维度也更加丰富。因此借助机器学习、大数据模型，能够有效提升医疗健康数据分析的效率和质量，更加科学地评判被保险人的健康风险，为保险核保提供有力的数据支持。
[0003]但是，建立一套完善的机器学习模型耗时耗力，一是需要足够多的样本用来训练，二是建模思路需要科学合理(包括数据选择、特征选择、数据预处理等)，三是模型调参繁琐耗时，四是训练模型需要一定的硬件支持，整个流程下来通常需要数个月。而在一个新的区域拓展业务时，如何借鉴其他区域数据实验室已有的数据成果和经验，在新区域简便、快速地搭建起数据模型，提供数据支持是目前面临的重要问题。

技术实现思路

[0004]本申请的目的在于提供一种疾病预测模型的交叉验证方法、装置及电子设备，基于两地采集的医疗数据进行原始模型和公共模型建模，再利用各个测试样本集对两地的四个模型进行对应测试和交叉测试，根据测试结果进行交叉验证，确定四个模型间的可替代性，从而为其它地区的模型构建提供数据支持和参考，以辅助其它地区快速构建...

【技术保护点】

【技术特征摘要】
1.一种疾病预测模型的交叉验证方法，其特征在于，所述方法包括：获取第一地区的第一原始医疗数据，及第二地区的第二原始医疗数据；基于所述第一原始医疗数据和所述第二原始医疗数据，确定第一地区对应的第一原始特征样本集和第一公共特征样本集，及第二地区对应的第二原始特征样本集和第二公共特征样本集；每个样本集中均包括训练样本集和测试样本集；基于所述第一原始特征样本集和所述第一公共特征样本集中的训练样本集，构建所述第一地区分别对应的第一疾病预测原始模型和第一疾病预测公共模型；基于所述第二原始特征样本集和所述第二公共特征样本集中的训练样本集，构建所述第二地区分别对应的第二疾病预测原始模型和第二疾病预测公共模型；应用所述第一原始特征样本集、所述第一公共特征样本集、所述第二原始特征样本集和所述第二公共特征样本集中的测试样本集，对所述第一疾病预测原始模型、所述第一疾病预测公共模型、所述第二疾病预测原始模型和所述第二疾病预测公共模型进行对应测试和交叉测试，得到多个测试结果；根据所述多个测试结果进行交叉验证，确定所述第一疾病预测原始模型、所述第一疾病预测公共模型、所述第二疾病预测原始模型和所述第二疾病预测公共模型间的可替代性。2.根据权利要求1所述的方法，其特征在于，基于所述第一原始医疗数据和所述第二原始医疗数据，确定第一地区对应的第一原始特征样本集和第一公共特征样本集，及第二地区对应的第二原始特征样本集和第二公共特征样本集的步骤，包括：确定所述第一原始医疗数据和所述第二原始医疗数据中对应的公共特征；将所述第一原始医疗数据和所述第二原始医疗数据分别作为当前医疗数据，均执行以下步骤：对所述当前医疗数据进行预处理，并按照指定比例将所述当前医疗数据划分为训练样本集和测试样本集，得到所述当前医疗数据对应的原始特征样本集；基于所述公共特征，从所述当前医疗数据中提取对应的样本数据，并按照指定比例将所述样本数据划分为训练样本集和测试样本集，得到所述当前医疗数据对应的公共特征样本集。3.根据权利要求1所述的方法，其特征在于，基于所述第一原始特征样本集和所述第一公共特征样本集中的训练样本集，构建所述第一地区分别对应的第一疾病预测原始模型和第一疾病预测公共模型；基于所述第二原始特征样本集和所述第二公共特征样本集中的训练样本集，构建所述第二地区分别对应的第二疾病预测原始模型和第二疾病预测公共模型的步骤，包括：分别以所述第一原始特征样本集、所述第一公共特征样本集、所述第二原始特征样本集和所述第二公共特征样本集中的训练样本集作为当前训练样本集，均执行以下操作：基于所述当前训练样本集和预设算法进行模型训练；所述预设算法包括以下之一：CatBoost算法、LightGBM算法、XGBoost算法；对训练后的模型进行模型调参处理，得到所述当前训练样本集对应的疾病预测模型；所述模型调参处理至少包括以下之一：调整迭代次数、调整学习率、调整树的深度、调整L2正则化系数。
4.根据权利要求1所述的方法，其特征在于，应用所述第一原始特征样本集、所述第一公共特征样本集、所述第二原始特征样本集和所述第二公共特征样本集中的测试样本集，对所述第一疾病预测原始模型、所述第一疾病预测公共模型、所述第二疾病预测原始模型和所述第二疾病预测公共模型进行对应测试和交叉测试，得到多个测试结果的步骤，包括：应用所述第一原始特征样本集中的测试样本集对所述第一疾病预测原始模型进行测试，得到第一测试结果；应用所述第一公共特征样本集中的测试样本集对所述第一疾病预测公共模型进行测试，得到第二测试结果；应用所述第二公共特征样本集中的测试样本集对所述第一疾病预测公共模型进行测试，得到第三测试结果...

【专利技术属性】
技术研发人员：李任重，郭小川，高惠庭，李春萌，王睿，
申请(专利权)人：阳光人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人