基于图注意力机制和语言大模型的医疗缺失数据补全方法技术

技术编号:38535440 阅读:14 留言:0更新日期:2023-08-19 17:06
本发明专利技术提供了一种基于图注意力机制和语言大模型的医疗缺失数据补全方法,其特点是该方法包括:数据集预处理、图注意力网络的训练;提取注意力矩阵作为图中各边权重;强相关节点的筛选;遍历整个数据集,当发现有缺失值时,先判断其所属特征,再将其强相关特征名称及特征值,作为文本提示信息输入预训练BERT语言大模型中,获得模型输出后,对输出进行加权平均,获得最终插值结果,完成缺失值插补。本发明专利技术与现有技术相比能够更加快速准确的实现缺失数据补全的功能,通过图注意力网络能够充分挖掘特征之间的相关程度,基于BERT模型强大的拟合能力,有助于更好的建模隐层特征空间,获得更准确的预测效果,方法简便,使用效果好,具有良好的应用前景和商业价值。的应用前景和商业价值。的应用前景和商业价值。

【技术实现步骤摘要】
基于图注意力机制和语言大模型的医疗缺失数据补全方法


[0001]本专利技术涉及数据处理
,尤其是一种基于图注意力机制和语言大模型的老年慢病诊断缺失数据的插补方法。

技术介绍

[0002]老年慢病作为老年人常发性疾病而备受关注,有研究指出,及时回访和采集数据,并进行合理的挖掘和分析,能够揭露背后隐藏的信息,有助于医生对老年慢病做出有效的临床预警,从而降低其致死率。然而由于其发病周期较长,且随着回访次数的不断累加,容易导致一些诊断数据(如:生理指标,用药情况等)的记录丢失。因此,如何补全诊断数据中的缺失值是医学领域的一个重要研究方向。
[0003]为了解决上述难题,一些基于统计学特征的方法被提出,如:平均数、中位数、众数等统计特征值通常被研究人员用于缺失值的插补。然而,由于这些缺失值插补方法过于简单直接,且不考虑病人的总体特征结构,导致不同病人的同一缺失特征往往被相同值所替代,严重破坏数据的分布,从而影响医生做出准确的临床预警。
[0004]此外,一些基于传统机器学习的方法也被用于缺失数据插补中,如基于线性插值和多重迭代插值的插值法,基于聚类的插值法,以及基于随机森林的插值法,这些插值法的出现缩小了插值数据与真实数据之间的分布差距,使得插值数据能够更好的拟合真实数据。然而,由于传统机器学习算法对特征隐性空间的建模能力较差,使得插值数据与真实数据之间依然存在不少的出入。
[0005]随着深度学习的兴起,基于神经网络的数据插值方法开始出现。有研究人员使用生成对抗网络(Generative Adversarial Nets,GANs)生成缺失数据,并指出其方法面对的主要挑战是数据的类别属性。基于GAN的缺失数据生成方案需要利用强化学习算法学习类别标签和真实潜在特征空间之间的双向映射。然而,由于GAN在训练过程中的极不稳定性,导致损失函数很难收敛到纳什均衡状态,使得该方法无法得到大规模推广。还有研究人员基于图神经网络(Graph Neural Network,GNN),将不同特征建模为图中的不同节点,通过节点之间的正向传播,预测各个节点中存在的缺失值。但由于节点之间为无权边,因此在预测结果时,每个参与预测的节点对最终结果的贡献相同。但实际上,不同节点应该根据与预测特征的相关性而具有不同的贡献。因此,普通GNN并不具备较好的插值效果。此外,还有研究人员针对时间依赖的数据,利用长短时间记忆网络(Long Short Time Memory Network,LSTM)来预测缺失值,但实际上,依然存在许多特征是与时间信息无关的。
[0006]综上所述,现有的研究算法都存在各种各样的缺陷,不具有代表性和普适性。此外,老年慢病诊断缺失数据插值方法的准确性仍然有待提高。

技术实现思路

[0007]本专利技术的目的是针对现有技术的不足而提供的一种基于图注意力机制和语言大模型的医疗缺失数据补全方法,采用训练样本对无向完全图注意力网络进行训练,提取图
注意力网络中的注意力矩阵作为图中各边权重,按照权重大小筛选出各节点的强相关节点,遍历整个数据集,当发现有缺失值时,先判断其所属特征,再将其强相关特征名称及特征值作为文本提示信息输入预训练BERT语言大模型中,获得模型输出后,再对输出进行加权平均,获得最终插值结果,完成缺失值插补。方法简便,能够利用电子病历中的部分非缺失数据推断出缺失数据,从而补全诊断信息,实现快速准确的缺失数据补全,通过图注意力网络能够充分挖掘特征之间的相关程度,基于BERT模型强大的拟合能力,有助于更好的建模隐层特征空间,获得更准确的预测效果,方法简便,使用效果好,具有良好的应用前景和商业价值。
[0008]本专利技术的目的是这样实现的:一种基于图注意力机制和语言大模型的医疗缺失数据补全方法,其特点是该方法采用下述三方面的技术方案进行医疗缺失数据补全的:
[0009]第一方面,为了确立有效的插补策略,需要对整个电子病历进行数据预处理,其主要包括:
[0010]1‑
1:将含有缺失数据的电子病历按照每例病人信息中是否存在缺失进行筛选,将不存在缺失数据的病人信息分在一起,将存在缺失数据的病人信息分在一起。此后,将不存在缺失的数据用于图神经网络的训练和测试,存在缺失的数据用BERT语言大模型进行插补。
[0011]1‑
2:对不存在缺失的数据进行数据集划分,确定训练集、验证集和测试集。
[0012]1‑
3:对不存在缺失的数据中的特征进行批标准化的操作,初始化邻接矩阵进行批标准化操作,使用one

hot编码形式编码标签。
[0013]1‑
4:将存在缺失的数据按照每例病人信息中缺失值的数量由小到大进行排列,便于推理时能够更加快速的完成插补任务。
[0014]第二方面,针对于利用哪些数据来推断当前缺失数据的问题,本专利技术将其归结为挖掘诊断数据中不同特征之间的相关性问题。为了度量不同特征之间的相关性,本专利技术采用了一种基于图注意力网络的方法来建模特征之间的隐函数空间,并挖掘特征之间的隐藏联系,该方法具体包括:
[0015]2‑
1:网络输入由特征矩阵,邻接矩阵组成,特征矩阵的每一行代表图中的一个节点信息,邻接矩阵则代表节点与节点之间的连接性。两者皆为Pytorch张量格式。
[0016]2‑
2:特征矩阵由不含缺失值的病人信息组成,其行内容是特征,列内容是病人ID。邻接矩阵则是一个所有元素全为1的方阵,其维度大小为特征数量
×
特征数量,代表一张所有节点之间均有边的完全图。
[0017]2‑
3:本专利技术使用图注意力神经网络包含多头注意力机制,多个注意力头的计算结果共同决定最后的预测值,每个节点通过加权求和的方式根据相邻节点特征更新自身特征,引入注意力机制相当于给每个边赋予了不同的权值,而边的权值的实际含义是节点之间的关联程度,权值越大,关联越紧密。
[0018]2‑
4:在图注意力神经网络训练收敛后,将各注意力头中的注意力矩阵进行提取,再通过加权平均的形式进行融合,得到最后的注意力矩阵,并通过该矩阵进一步获取节点间的相关程度。
[0019]2‑
5:将注意力矩阵中的每一行按照从大到小进行排序,获得其排序后的前k个索引值,相当于获悉与当前行(当前特征)相关程度最大的k个其他特征,并将结果以字典形式
保存到.json文件中,字典的键是当前特征索引,字典的值是一个列表,其中是k个其他特征的索引。
[0020]第三方面,为了进一步根据相关特征预测当前缺失特征,本专利技术利用泛化能力强,可直接用于zero

shot learning的预训练BERT大语言模型,创建了一套用于预测老年慢病诊断缺失数据的方法,具体包括:
[0021]3‑
1:创立一套可用于预训练BERT语言大模型的加载以及数据输入输出的pipeline,确定文本提示语句格式。
[0022]3‑
2:遍历有缺失数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力机制和语言大模型的医疗缺失数据补全方法,其特征在于,该补全方法具体包括以下步骤:步骤1:从原始数据中分别收集完整病人数据和有缺失病人数据,其中,原始数据的来源是病人的电子病历;步骤2:对完整病人数据分为特征和标签两部分,去掉和标签预测无关的特征,并保存为Pytorch张量格式,其中行代表每位病人,列代表其电子病历信息中各项生理指标和诊断信息;步骤3:将各项特征作为节点,构建无向完全图神经网络,引入注意力机制,利用注意力矩阵作为各边的权值,衡量相邻节点的特征相关度;所述注意力矩阵的输入是以行代表特征,列代表病人,输出信息是特征种类的置信度,并以特征种类为标签;步骤4:将完整病人数据划分成训练集、验证集和测试集,训练和测试图注意力神经网络,训练结束后提取其中的注意力矩阵,并将其保存成.npy文件;步骤5:分别加载.npy文件中的每一行信息,将每一行中的特征相关度按由大到小进行排序,保留特征相关度较大的k个值,找到它们对应的特征,并保存至.json文件中;步骤6:调用预训练的BERT模型,设置完成数据输入输出的pipeline以及prompt语句格式;步骤7:开始遍历有缺失病人数据,当发现有缺失值时,确定其所属特征,并从.json文件中获取和其特征最为相关的k个特征,然后从同一位病人的电子病历中读取非空缺的对应特征值,利用特征+特征值组成文本提示语句,并输入至BERT模型中,将获得的模型预测结果加权平均,得到最终的插补结果。2.根据权利要求1所述的基于图注意力机制和语言大模型的医疗缺失数据补全方法,其特征在于,所述步骤3基于图注意力网络的计算特征相关度构建的图神经网络结构上属于无向完全图,节点代表各项特征,引入多头注意力机制,利用加权平均后得到的注意力矩阵作为无向边权重,节点值采用下述(a)...

【专利技术属性】
技术研发人员:乔静阳张志忠谢源
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1