一种信息瓶颈图压缩的医疗指标缺失数据补全方法技术

技术编号：38615414 阅读：14 留言：0更新日期：2023-08-26 23:42

本发明专利技术公开了一种信息瓶颈图压缩的医疗指标缺失数据补全方法，其特点是采用将同类型病人的所有属性建模为一个无向完全图的方法，根据诊断需求与信息瓶颈原则不断对其进行植剪、压缩，以保证子图与下游任务目标一致的条件下，精简缺失插补与诊断预测所用到的信息总量，具体包括：原始数据的预处理、构建无向完全图初始完全图的植剪与压缩，补全子图和节点特征和最小化子图和补全子图等步骤。本发明专利技术与现有技术相比具有保证与任务目标一致的条件下，尽可能地精简缺失插补与诊断预测所用到的信息总量，方法简便，解决了处理电子健康记录的缺失数据问题，实验结果令人满意，具有良好的应用前景和商业价值。具有良好的应用前景和商业价值。具有良好的应用前景和商业价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息瓶颈图压缩的医疗指标缺失数据补全方法

[0001]本专利技术涉及数据处理
，尤其是一种信息论指导下采用信息瓶颈图压缩的医疗指标缺失数据补全方法。

技术介绍

[0002]近年来，人们对患者电子健康记录(EHR)数据分析的兴趣激增。全球卫生保健系统正在迅速普及电子健康记录，这积累了大量的电子健康记录数据。因此，数据驱动的医疗产业应运而生，即利用现有的大规模医疗数据，提供最好、最个性化的医疗服务。由于患者的电子健康记录是数据驱动的卫生保健研究的主要载体。因此，理解电子健康记录中包含的信息至关重要，电子健康记录数据包括人口统计信息、诊断、实验室测试和结果、处方、放射图像、临床记录等。
[0003]然而，电子健康记录数据中普遍存在的数据缺失问题极大的限制了许多主流数据分析方法对于电子健康记录数据的建模研究。另外，电子健康记录数据是住院患者的身体测量指标，由于一些客观性原因导致电子健康记录数据缺失值较多且分布不均匀。如果删除所有缺失值的数据样本，将导致许多样本被删除，丢失太多的信息；如果不处理这些数据，将很难在传统的机器模型算法中使用。因此，有必要采用预测方法对缺失的数据进行处理。
[0004]在现有的研究中，Tang等人使用一套从临床经验总结的规则，使用患者正常范围的中值指标或平均值来填补缺失值，取得了良好的成果。但当数据的时间间隔较短和缺失值量很大时，该方法的实现将变得更加困难。Dempster等人研究的期望极大化方法(EM)，根据所得观测数据建立模型，并用观测数据的边缘分布对未知参数估计的一种...

【技术保护点】

【技术特征摘要】
1.一种信息瓶颈图压缩的医疗指标缺失数据补全方法，其特征在于：采用将同类型病人的所有属性建模为一个无向完全图的方法，根据诊断需求与信息瓶颈原则不断对其进行植剪、压缩，以保证子图与下游任务目标一致的条件下，精简缺失插补与诊断预测所用到的信息总量，具体缺失数据的补全包括以下步骤：步骤1：对输入的原始数据进行预处理；步骤2：以同类型病人的所有属性为节点，并在节点之上建立一个无向完全图步骤3：将初始的完全图前馈至图神经网络，得到一系列节点特征，将其传递至子图生成器进行植剪与压缩，得到子图与其包含的节点特征；步骤4：利用READOUT函数与可训练估计器，计算并最小化子图与完全图之间的互信息步骤5：根据缺失数所在的子图，融合其邻接点特征并进行插补，得到补全子图与其节点特征步骤6：对最小化子图与补全子图分别施加连通性约束和分类损失，以保证子图的生成过程满足任务所需的最小信息量。2.根据权利要求1所述的信息瓶颈图压缩的医疗指标缺失数据补全方法，其特征在于，所述步骤1具体包括：步骤S101：通过删除有效信息较少的无关特征以及冗余特征，选出不同类型的老年慢病数据中的重要特征，并对包含多个类别的特征进行one
‑
hot编码；步骤S102：对输入样本进行基于Tomek
’
s links的欠采样；步骤S103：对缺失数据采用MissForest的插补方法进行初始化填充。3.根据权利要求1所述的信息瓶颈图压缩的医疗指标缺失数据补全方法，其特征在于，所述步骤2将样本的所有属性建模成节点，并结合同类别病人属性建立一个无向完全图4.根据权利要求1所述的信息瓶颈图压缩的医疗指标缺失数据补全方法，其特征在于，所述步骤3具体包括：步骤S301：初始化以graph attention ...

【专利技术属性】
技术研发人员：田旭东，张志忠，谢源，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人