一种信息瓶颈图压缩的医疗指标缺失数据补全方法技术

技术编号:38615414 阅读:14 留言:0更新日期:2023-08-26 23:42
本发明专利技术公开了一种信息瓶颈图压缩的医疗指标缺失数据补全方法,其特点是采用将同类型病人的所有属性建模为一个无向完全图的方法,根据诊断需求与信息瓶颈原则不断对其进行植剪、压缩,以保证子图与下游任务目标一致的条件下,精简缺失插补与诊断预测所用到的信息总量,具体包括:原始数据的预处理、构建无向完全图初始完全图的植剪与压缩,补全子图和节点特征和最小化子图和补全子图等步骤。本发明专利技术与现有技术相比具有保证与任务目标一致的条件下,尽可能地精简缺失插补与诊断预测所用到的信息总量,方法简便,解决了处理电子健康记录的缺失数据问题,实验结果令人满意,具有良好的应用前景和商业价值。具有良好的应用前景和商业价值。具有良好的应用前景和商业价值。

【技术实现步骤摘要】
一种信息瓶颈图压缩的医疗指标缺失数据补全方法


[0001]本专利技术涉及数据处理
,尤其是一种信息论指导下采用信息瓶颈图压缩的医疗指标缺失数据补全方法。

技术介绍

[0002]近年来,人们对患者电子健康记录(EHR)数据分析的兴趣激增。全球卫生保健系统正在迅速普及电子健康记录,这积累了大量的电子健康记录数据。因此,数据驱动的医疗产业应运而生,即利用现有的大规模医疗数据,提供最好、最个性化的医疗服务。由于患者的电子健康记录是数据驱动的卫生保健研究的主要载体。因此,理解电子健康记录中包含的信息至关重要,电子健康记录数据包括人口统计信息、诊断、实验室测试和结果、处方、放射图像、临床记录等。
[0003]然而,电子健康记录数据中普遍存在的数据缺失问题极大的限制了许多主流数据分析方法对于电子健康记录数据的建模研究。另外,电子健康记录数据是住院患者的身体测量指标,由于一些客观性原因导致电子健康记录数据缺失值较多且分布不均匀。如果删除所有缺失值的数据样本,将导致许多样本被删除,丢失太多的信息;如果不处理这些数据,将很难在传统的机器模型算法中使用。因此,有必要采用预测方法对缺失的数据进行处理。
[0004]在现有的研究中,Tang等人使用一套从临床经验总结的规则,使用患者正常范围的中值指标或平均值来填补缺失值,取得了良好的成果。但当数据的时间间隔较短和缺失值量很大时,该方法的实现将变得更加困难。Dempster等人研究的期望极大化方法(EM),根据所得观测数据建立模型,并用观测数据的边缘分布对未知参数估计的一种方法,该方法的缺点是容易陷入局部极小,且收敛速度较慢。
[0005]随着人工智能领域的高速发展,医学领域也逐渐开始引入机器学习方法来完成对数据的处理。但由于医学数据中包含庞杂的病人信息,包括病史、检测结果、用药等,使得用于训练的数据的维度特别高,其中也包含许多噪音特征,造成最终的实验结果很难令人满意。因此,采用一种新的方法来处理电子健康记录的缺失数据具有重要的意义。

技术实现思路

[0006]本专利技术的目的是针对现有技术的不足而提供的一种信息瓶颈图压缩的医疗指标缺失数据补全方法,采用灵活可扩展的插补框架,将同类型病人的所有属性建模成一个无向完全图,并输入到数层前馈图神经网络中,对所得到的节点特征进行筛选并生成一个子图,所得到的子图参与计算交叉熵损失以及一个连通性损失,根据诊断需求与信息瓶颈原则不断对其进行植剪、压缩,以保证子图与下游任务目标一致的同时尽可能简洁,插补框架具有可学习的估算器,输入为子图与其对应的完全图所对应的特征,输出则为两者之间的互信息估算,通过最小化这项互信息,亦能压缩子图所包含的信息总量,使其过滤掉对下游任务帮助不大的次要属性,尽可能地精简缺失插补与诊断预测所用到的信息总量。本专利技术
引入因果推理的方法,挖掘特征之间的因果关系,找出最优特征子集,同时完成对子集的可视化,生成特征因果关系图,方法简便,具有良好的应用前景和商业价值。
[0007]本专利技术的目的是这样实现的:一种信息瓶颈图压缩的医疗指标缺失数据补全方法,其特点是采用将同类型病人的所有属性建模为一个无向完全图的方法,根据诊断需求与信息瓶颈原则不断对其进行植剪、压缩,以保证子图与下游任务目标一致的条件下,尽可能地精简缺失插补与诊断预测所用到的信息总量,具体缺失数据的补全包括以下步骤:
[0008]步骤1,对输入数据进行预处理
[0009]步骤2,以同类型病人的所有属性为节点,在其之上建立一个无向完全图
[0010]步骤3,将初始的完全图前馈至图神经网络得到一系列节点特征X,并将其传递至子图生成器进行植剪与压缩,得到子图与其包含的节点特征X
sub

[0011]步骤4,利用READOUT函数与可训练估计器,计算并最小化子图与完全图之间的互信息
[0012]步骤5,根据缺失数所在的子图,融合其邻接点特征并进行插补,得到补全子图与其节点特征
[0013]步骤6,对与分别施加连通性约束和分类损失,以保证子图的生成过程满足任务所需的最小信息量。
[0014]所述步骤1具体包括:
[0015]步骤S101,通过删除有效信息较少的无关特征以及冗余特征,选出不同类型的老年慢病数据中的重要特征,并对包含多个类别的特征进行one

hot编码。
[0016]步骤S102,针对医疗数据中常见但十分严重的不平很问题,对输入样本进行基于Tomek

slinks的欠采样。
[0017]步骤S103,对缺失数据采用MissForest的插补策略方式进行初始化填充。
[0018]所述步骤3具体包括:
[0019]步骤S301,初始化以graph attention network为骨架的图神经网络θ1,以及隐藏单元为为[32,64,128]多层感知机θ2。
[0020]步骤S302,将前馈至θ1得到对应的节点特征X,再利用θ2根据以及其对应的邻接矩阵A筛选出子图及其包含的节点特征X
sub

[0021]所述步骤4具体包括:
[0022]步骤S4,利用READOUT函数得到与的全局特征,并采用DONSKER

VARADHAN特征建模与分布之间的相对熵,利用估计器φ2估算两者之间的互信息其具体目标由下述(a)式定义为:
[0023][0024]其中,代表可训练的互信息估计器,输入为与其对应子图与分别代表与之间的联合分布以及两者各自的边缘分布。
[0025]所述步骤5具体包括:利用瓶口结构的组件θ3融合中包含的缺失数据邻接点的
特征信息并进行插补,得到与其对应的节点特征
[0026]所述步骤6具体包括:
[0027]步骤S601,为保证子图筛选以及插补策略与下游任务的一致性,使用分类损失函数约束
[0028]约束其中p
φ
代表分类器,y
gt
代表真实标签,y代表根据补全节点特征做出的分类预测。
[0029]步骤S602,为促进子图划分的有效性,采用连通性损失约束X
sub
结构,其中Norm(
·
)代表逐行标准化;代表中节点被划分到子图的概率分布,N代表中节点总数;为单位矩阵,||
·
||
F
代表Frobenius范数。注意的本质是促进每个节点被划分到子图与否的概率呈现one

hot分布,减少模棱两可的判断和潜在的冗余节点。
[0030]本专利技术与现有技术相比具有保证与任务目标一致的条件下,尽可能地精简缺失插补与诊断预测所用到的信息总量,方法简便,较好的解决了处理电子健康记录的缺失数据问题,实验结果令人满意,具有良好的应用前景和商业价值。
附图说明
[0031]图1为本专利技术流程示意图。
具体实施方式
[0032]本专利技术针对医疗诊断中常见的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息瓶颈图压缩的医疗指标缺失数据补全方法,其特征在于:采用将同类型病人的所有属性建模为一个无向完全图的方法,根据诊断需求与信息瓶颈原则不断对其进行植剪、压缩,以保证子图与下游任务目标一致的条件下,精简缺失插补与诊断预测所用到的信息总量,具体缺失数据的补全包括以下步骤:步骤1:对输入的原始数据进行预处理;步骤2:以同类型病人的所有属性为节点,并在节点之上建立一个无向完全图步骤3:将初始的完全图前馈至图神经网络,得到一系列节点特征,将其传递至子图生成器进行植剪与压缩,得到子图与其包含的节点特征;步骤4:利用READOUT函数与可训练估计器,计算并最小化子图与完全图之间的互信息步骤5:根据缺失数所在的子图,融合其邻接点特征并进行插补,得到补全子图与其节点特征步骤6:对最小化子图与补全子图分别施加连通性约束和分类损失,以保证子图的生成过程满足任务所需的最小信息量。2.根据权利要求1所述的信息瓶颈图压缩的医疗指标缺失数据补全方法,其特征在于,所述步骤1具体包括:步骤S101:通过删除有效信息较少的无关特征以及冗余特征,选出不同类型的老年慢病数据中的重要特征,并对包含多个类别的特征进行one

hot编码;步骤S102:对输入样本进行基于Tomek

s links的欠采样;步骤S103:对缺失数据采用MissForest的插补方法进行初始化填充。3.根据权利要求1所述的信息瓶颈图压缩的医疗指标缺失数据补全方法,其特征在于,所述步骤2将样本的所有属性建模成节点,并结合同类别病人属性建立一个无向完全图4.根据权利要求1所述的信息瓶颈图压缩的医疗指标缺失数据补全方法,其特征在于,所述步骤3具体包括:步骤S301:初始化以graph attention ...

【专利技术属性】
技术研发人员:田旭东张志忠谢源
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1