基于图注意力机制和语言大模型的医疗缺失数据补全方法技术

技术编号：38535440 阅读：14 留言：0更新日期：2023-08-19 17:06

本发明专利技术提供了一种基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特点是该方法包括：数据集预处理、图注意力网络的训练；提取注意力矩阵作为图中各边权重；强相关节点的筛选；遍历整个数据集，当发现有缺失值时，先判断其所属特征，再将其强相关特征名称及特征值，作为文本提示信息输入预训练BERT语言大模型中，获得模型输出后，对输出进行加权平均，获得最终插值结果，完成缺失值插补。本发明专利技术与现有技术相比能够更加快速准确的实现缺失数据补全的功能，通过图注意力网络能够充分挖掘特征之间的相关程度，基于BERT模型强大的拟合能力，有助于更好的建模隐层特征空间，获得更准确的预测效果，方法简便，使用效果好，具有良好的应用前景和商业价值。的应用前景和商业价值。的应用前景和商业价值。

全部详细技术资料下载

【技术实现步骤摘要】
基于图注意力机制和语言大模型的医疗缺失数据补全方法

[0001]本专利技术涉及数据处理
，尤其是一种基于图注意力机制和语言大模型的老年慢病诊断缺失数据的插补方法。

技术介绍

[0002]老年慢病作为老年人常发性疾病而备受关注，有研究指出，及时回访和采集数据，并进行合理的挖掘和分析，能够揭露背后隐藏的信息，有助于医生对老年慢病做出有效的临床预警，从而降低其致死率。然而由于其发病周期较长，且随着回访次数的不断累加，容易导致一些诊断数据(如：生理指标，用药情况等)的记录丢失。因此，如何补全诊断数据中的缺失值是医学领域的一个重要研究方向。
[0003]为了解决上述难题，一些基于统计学特征的方法被提出，如：平均数、中位数、众数等统计特征值通常被研究人员用于缺失值的插补。然而，由于这些缺失值插补方法过于简单直接，且不考虑病人的总体特征结构，导致不同病人的同一缺失特征往往被相同值所替代，严重破坏数据的分布，从而影响医生做出准确的临床预警。
[0004]此外，一些基于传统机器学习的方法也被用于缺失数据插补中，如基于线性插值和多重迭代插值的插值法，基于聚类的插值法，以及基于随机森林的插值法，这些插值法的出现缩小了插值数据与真实数据之间的分布差距，使得插值数据能够更好的拟合真实数据。然而，由于传统机器学习算法对特征隐性空间的建模能力较差，使得插值数据与真实数据之间依然存在不少的出入。
[0005]随着深度学习的兴起，基于神经网络的数据插值方法开始出现。有研究人员使用生成对抗网络(Generative Adv...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特征在于，该补全方法具体包括以下步骤：步骤1：从原始数据中分别收集完整病人数据和有缺失病人数据，其中，原始数据的来源是病人的电子病历；步骤2：对完整病人数据分为特征和标签两部分，去掉和标签预测无关的特征，并保存为Pytorch张量格式，其中行代表每位病人，列代表其电子病历信息中各项生理指标和诊断信息；步骤3：将各项特征作为节点，构建无向完全图神经网络，引入注意力机制，利用注意力矩阵作为各边的权值，衡量相邻节点的特征相关度；所述注意力矩阵的输入是以行代表特征，列代表病人，输出信息是特征种类的置信度，并以特征种类为标签；步骤4：将完整病人数据划分成训练集、验证集和测试集，训练和测试图注意力神经网络，训练结束后提取其中的注意力矩阵，并将其保存成.npy文件；步骤5：分别加载.npy文件中的每一行信息，将每一行中的特征相关度按由大到小进行排序，保留特征相关度较大的k个值，找到它们对应的特征，并保存至.json文件中；步骤6：调用预训练的BERT模型，设置完成数据输入输出的pipeline以及prompt语句格式；步骤7：开始遍历有缺失病人数据，当发现有缺失值时，确定其所属特征，并从.json文件中获取和其特征最为相关的k个特征，然后从同一位病人的电子病历中读取非空缺的对应特征值，利用特征+特征值组成文本提示语句，并输入至BERT模型中，将获得的模型预测结果加权平均，得到最终的插补结果。2.根据权利要求1所述的基于图注意力机制和语言大模型的医疗缺失数据补全方法，其特征在于，所述步骤3基于图注意力网络的计算特征相关度构建的图神经网络结构上属于无向完全图，节点代表各项特征，引入多头注意力机制，利用加权平均后得到的注意力矩阵作为无向边权重，节点值采用下述(a)...

【专利技术属性】
技术研发人员：乔静阳，张志忠，谢源，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人