当前位置: 首页 > 专利查询>之江实验室专利>正文

基于目标与外源数据多重适配增强的疾病风险预测系统技术方案

技术编号:38385574 阅读:8 留言:0更新日期:2023-08-05 17:41
本发明专利技术公开了一种基于目标与外源数据多重适配增强的疾病风险预测系统,该系统包括数据输入及预处理模块、预测模型设置及预训练网络构建模块、预训练网络参数计算模块、目标疾病风险预测模型训练模块、疾病风险预测模块;本发明专利技术通过多重适配外源数据和目标数据,使外源数据中可共享的有用信息得到充分提取,并通过迁移预训练网络参数实现目标疾病风险预测模型构建的信息增强,提升目标疾病风险预测性能,解决样本量少对模型构建的限制,缓解收集大量目标疾病样本的压力。大量目标疾病样本的压力。大量目标疾病样本的压力。

【技术实现步骤摘要】
基于目标与外源数据多重适配增强的疾病风险预测系统


[0001]本专利技术属于医疗健康信息
,尤其涉及一种基于目标与外源数据多重适配增强的疾病风险预测系统。

技术介绍

[0002]随着信息技术的快速发展及其在医学上的普及应用,大量临床数据得以电子化记录和存储。利用机器学习算法,数据驱动的临床预测模型能从电子病历中挖掘疾病相关有用信息以预警患者状况,辅助医护人员的临床决策,对提升临床诊疗水平和效率具有重要作用。然而,很多疾病的样本量较少,容易导致构建的预测模型过拟合,预测性能不佳。针对这一问题,目前方法是通过分析已有数据的特点进行样本生成扩增,该方法仅用到已有数据,即利用的信息量有限,因而对预测模型的性能提升作用受限。

技术实现思路

[0003]本专利技术的目的是提供一种基于目标与外源数据多重适配增强的疾病风险预测系统,解决了疾病样本量少的情况下现有技术构建的预测模型预测性能差的问题。
[0004]本专利技术的目的是通过以下技术方案实现的:一种基于目标与外源数据多重适配增强的疾病风险预测系统,包括:
[0005](1)数据输入及预处理模块,输入用于训练的目标数据及目标数据以外、起辅助建模作用的外源数据,进行数据预处理后得到目标训练数据集和外源数据集;
[0006](2)预测模型设置及预训练网络构建模块,用于设置目标疾病风险预测模型结构,建立目标数据与外源数据多重适配的预训练网络;
[0007]所述目标疾病风险预测模型包括动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层;
[0008]所述预训练网络包括针对外源数据部分的动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层,以及针对目标数据部分的动态变量归一化单元、时序特征提取单元和特征融合归一化单元;所述预训练网络的损失函数包括外源数据分类损失,以及目标数据与外源数据适配损失;
[0009]所述时序特征提取单元包括若干LSTM模块,用于提取归一化后的动态变量的时序特征;
[0010](3)预训练网络参数计算模块,用于利用外源数据集和目标变量集,计算适配损失、分类损失和综合损失,以综合损失最小化为优化目标,得到共性建模导向的预训练网络最优参数;
[0011](4)目标疾病风险预测模型训练模块,利用预训练网络最优参数对目标疾病风险预测模型参数进行初始化,并基于目标训练数据集训练得到个性建模导向的目标疾病风险预测模型;
[0012](5)疾病风险预测模块,将新的目标样本输入训练好的目标疾病风险预测模型,得
到疾病风险预测结果。
[0013]进一步地,所述外源数据集包含若干外源样本,所述目标训练数据集包含若干目标样本,每个外源样本/目标样本包括静态变量集、动态变量集和疾病风险标签,所述目标样本的静态变量集和动态变量集构成目标变量集。
[0014]进一步地,所述预训练网络参数计算模块包括如下子模块:
[0015]适配损失计算子模块,用于计算目标数据与外源数据的适配损失;
[0016]分类损失计算子模块,用于计算外源数据的分类损失;
[0017]综合损失计算子模块,用于根据适配损失和分类损失计算预训练网络的综合损失;
[0018]最优参数求解子模块,用于求解预训练网络最优参数,使综合损失尽可能小。
[0019]进一步地,所述适配损失计算子模块包括:
[0020]通过动态变量归一化单元计算外源数据部分和目标数据部分动态变量归一化后的输出;
[0021]通过时序特征提取单元计算归一化后的动态变量经过LSTM模块提取的时序特征;
[0022]通过特征融合归一化单元计算外源数据部分和目标数据部分的静态变量和时序特征经过融合归一化后的输出,得到外源复合特征和目标复合特征;
[0023]利用最大均值差异距离度量经过预训练网络得到的外源复合特征与目标复合特征之间的分布差异,取所述分布差异的平方为适配损失。
[0024]进一步地,所述适配损失的计算过程中,采用再生核希尔伯特空间的单位球函数作为非线性变换函数,利用核函数性质拆分适配损失的计算公式,采用高斯核作为核函数,建立适配损失与外源数据集、目标变量集的关系式。
[0025]进一步地,所述分类损失计算子模块包括:
[0026]通过动态变量归一化单元计算外源数据动态变量归一化后的输出;
[0027]通过时序特征提取单元计算归一化后的动态变量经过LSTM模块提取的时序特征;
[0028]通过特征融合归一化单元计算外源数据的静态变量和时序特征经过融合归一化后输出的外源复合特征,将所述外源复合特征经过一层全连接层处理后得到外源样本的预测值;
[0029]计算所有外源样本的真实标签与预测值的交叉熵,作为外源数据的分类损失。
[0030]进一步地,所述目标疾病风险预测模型的训练过程如下:
[0031]计算目标样本经过目标疾病风险预测模型处理后的预测值;
[0032]计算所有目标样本的真实标签与预测值的交叉熵,作为目标损失;
[0033]根据预训练网络最优参数进行目标疾病风险预测模型参数初始化;
[0034]以目标损失最小化为优化目标,求解目标疾病风险预测模型最优参数,完成训练。
[0035]进一步地,所述计算目标样本经过目标疾病风险预测模型处理后的预测值,包括:
[0036]通过动态变量归一化单元获取目标数据动态变量归一化后的输出;
[0037]通过时序特征提取单元计算归一化后的动态变量经过LSTM模块提取的时序特征;
[0038]通过特征融合归一化单元计算目标数据的静态变量和时序特征经过融合归一化后输出的目标复合特征,将所述目标复合特征经过一层全连接层处理后得到目标样本的预测值。
[0039]进一步地,所述根据预训练网络最优参数进行目标疾病风险预测模型参数初始化,包括:
[0040]将目标疾病风险预测模型的LSTM模块参数初始值设置为预训练网络最优参数;
[0041]将目标疾病风险预测模型的全连接层参数随机初始化。
[0042]进一步地,所述疾病风险预测模块包括:
[0043]通过动态变量归一化单元,根据目标训练数据集中所有目标样本所有时刻的动态变量均值和方差,计算新的目标样本动态变量归一化后的输出;
[0044]通过时序特征提取单元计算归一化后的动态变量经过LSTM模块提取的时序特征;
[0045]通过特征融合归一化单元,根据目标训练数据集中所有目标样本的复合特征均值和方差,计算新的目标样本的静态变量和时序特征经过融合归一化后输出的复合特征,将所述复合特征输入全连接层处理后得到新的目标样本的预测值。
[0046]本专利技术的有益效果是:本专利技术通过多重适配外源数据和目标数据,使外源数据中可共享的有用信息得到充分提取,并通过迁移预训练网络参数实现目标疾病风险预测模型构建的信息增强,提升目标疾病风险预测性能,解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标与外源数据多重适配增强的疾病风险预测系统,其特征在于,包括:(1)数据输入及预处理模块,输入用于训练的目标数据及目标数据以外、起辅助建模作用的外源数据,进行数据预处理后得到目标训练数据集和外源数据集;(2)预测模型设置及预训练网络构建模块,用于设置目标疾病风险预测模型结构,建立目标数据与外源数据多重适配的预训练网络;所述目标疾病风险预测模型包括动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层;所述预训练网络包括针对外源数据部分的动态变量归一化单元、时序特征提取单元、特征融合归一化单元和全连接层,以及针对目标数据部分的动态变量归一化单元、时序特征提取单元和特征融合归一化单元;所述预训练网络的损失函数包括外源数据分类损失,以及目标数据与外源数据适配损失;所述时序特征提取单元包括若干LSTM模块,用于提取归一化后的动态变量的时序特征;(3)预训练网络参数计算模块,用于利用外源数据集和目标变量集,计算适配损失、分类损失和综合损失,以综合损失最小化为优化目标,得到共性建模导向的预训练网络最优参数;(4)目标疾病风险预测模型训练模块,利用预训练网络最优参数对目标疾病风险预测模型参数进行初始化,并基于目标训练数据集训练得到个性建模导向的目标疾病风险预测模型;(5)疾病风险预测模块,将新的目标样本输入训练好的目标疾病风险预测模型,得到疾病风险预测结果。2.根据权利要求1所述的基于目标与外源数据多重适配增强的疾病风险预测系统,其特征在于,所述外源数据集包含若干外源样本,所述目标训练数据集包含若干目标样本,每个外源样本/目标样本包括静态变量集、动态变量集和疾病风险标签,所述目标样本的静态变量集和动态变量集构成目标变量集。3.根据权利要求1所述的基于目标与外源数据多重适配增强的疾病风险预测系统,其特征在于,所述预训练网络参数计算模块包括如下子模块:适配损失计算子模块,用于计算目标数据与外源数据的适配损失;分类损失计算子模块,用于计算外源数据的分类损失;综合损失计算子模块,用于根据适配损失和分类损失计算预训练网络的综合损失;最优参数求解子模块,用于求解预训练网络最优参数,使综合损失尽可能小。4.根据权利要求3所述的基于目标与外源数据多重适配增强的疾病风险预测系统,其特征在于,所述适配损失计算子模块包括:通过动态变量归一化单元计算外源数据部分和目标数据部分动态变量归一化后的输出;通过时序特征提取单元计算归一化后的动态变量经过LSTM模块提取的时序特征;通过特征融合归一化单元计算外源数据部分和目标数据部分的静态变量和时序特征经过融合归一化后的输出,得到外源复合特征和目标复合特征;利用最大均值差异距离度量经过预训练网络得到的外源复合特征与目标复合特征之
间的分布差异,取所述分布差异的平方为适...

【专利技术属性】
技术研发人员:夏静李劲松田雨周天舒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1