基于关系增强负采样的多模态知识图谱补全方法与系统技术方案

技术编号:34934647 阅读:25 留言:0更新日期:2022-09-15 07:31
本发明专利技术公开了一种基于关系增强负采样的多模态知识图谱补全方法与系统,提出了一种新的知识指导跨模态注意力机制,该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重,并通过相互力注意对关系无关特征进行总结,进而通过嵌入关系指导特征对多模态注意进行双向推理,同时,引入对比损失来训练对比语义采样器,从而得到更合适的采样分布。并且,将masked操作与gumbel

【技术实现步骤摘要】
基于关系增强负采样的多模态知识图谱补全方法与系统


[0001]本专利技术涉及多模态知识图谱
,尤其涉及一种基于关系增强负采样的多模态知识图谱补全方法与系统。

技术介绍

[0002]近年来,多模态知识图谱蓬勃发展,它通过补充多模态数据(如视觉和音频属性)来扩展传统知识图谱(KG),为传统知识图谱的符号提供物理世界意义。各种下游应用,例如多模态命名体识别、视觉问答和推荐系统等都有一些相关研究。然而,由于多模态语料库的累积不足,现有的多模态知识图谱可能会比传统知识图谱遭受更严重的不完整性,这会严重影响其可用性和有效性。在这种情况下,以自动推断缺失事实为目标的多模态场景知识图补全(KGC)解决方案引起了广泛关注。与此同时,以前的KGC方法主要尝试通过均匀采样来构造负样本,在训练的后期会遇到消失梯度问题。因此,迫切需要针对多模态知识图谱专门设计的负采样策略。
[0003]目前为止,已有少许相关的技术方案与研究成果,部分代表性的公开技术方法涉及以下三种类型:一、传统的知识图谱补全方法。
[0004]传统的知识图谱补全方法最具有代表性的是基于翻译的模型,最早的TransE模型假设实体和关系的向量满足“头实体+关系=尾实体”,据此来学习每个实体和关系的向量表示。后续在翻译模型上的方法,如TransD模型,TransH模型和TransR模型则是对TransE模型的优化和改进,进一步考虑到了不同关系的一对多、多对一的特性。另一种技术是基于语义匹配的方法,包括RESCAL(一种双线性模型),DistMult(一种简化的双线性模型),ComplEx(Distmul的改进模型)等等。然而这些方法只注重于构建一个更好的评分函数,而忽略了负采样策略的重要性。
[0005]二、针对知识图谱补全的负采样策略.近年来,一些有效的抽样策略被提出来。例如,TransH模型定义了一个伯努利分布来代替头部或尾部以考虑复杂的关系,如1对多关系等,但它仍然是一个固定的抽样分布,因此缺乏灵活性。此外,IGAN模型和KBGAN模型都引入了生成对抗网络(GAN),以获得高质量的负样本,其中生成器接收正三元组作为输入并生成负采样分布,而鉴别器从生成器接收负三元组以产生回报,并通过策略梯度优化生成器。然而,这种基于GAN的方法更难训练,而且鉴别器产生的回报在训练过程中总是会发生变化,导致性能不稳定。为了解决这些问题,NScaching模型提出了一种高效的采样方案,使用额外的内存来缓存得分较大的负样本,并按权重对负三元组进行采样。此外,RotatE模型提出了一种自我对抗的负抽样,它使用每个负样本的得分函数来产生概率,作为相应负样本的损失权重。SAN考虑在KG中使用结构知识,并认为彼此邻域内的实体更有可能相互关联,因此使用仅限于实体k

hop邻域(k

邻)的实体子集作为困难样本。
[0006]总的来说,前面的方法已经证明了它们的有效性。核心点是利用KG的结构知识或
利用负样本分数的信息来判断困难样本。然而,它们仍然存在两个问题:1)由于KG的不完全性,用结构知识训练的模型只能提供有限的得分信息;2)需要一种更有效的参数优化策略以利用KGC模型的负样本loss(损失)。尽管这些技术在传统知识图谱上取得了不错的性能,但它们还无法应用于多模态知识图谱。
[0007]三、多模态知识图谱。
[0008]近年来,与多模态知识图谱相关的任务越来越多。例如,IKRL模型和RSME模型试图将图像与结构化知识结合起来进行知识嵌入学习。此外,TransAE模型,以及MoussellySergieh等人提出的模型均将TransE扩展到多模态评分函数以整合视觉和文本信息。KBLRN模型还从潜在的、关系的和数字的特征中学习了知识库的表示。尽管它们都具有不错的性能,但仍然缺乏专门设计的针对多模态知识图谱补全的负采样策略,这会导致在训练后期梯度消失的问题。

技术实现思路

[0009]本专利技术的目的是提供一种基于关系增强负采样的多模态知识图谱补全方法与系统,可以采样出多模态知识图谱补全任务所需的高质量负样本,从而有效保障多模态知识图谱的应用质量。
[0010]本专利技术的目的是通过以下技术方案实现的:一种基于关系增强负采样的多模态知识图谱补全方法,包括:构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;训练阶段:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应正负样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel

softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本,gumbel

softmax表示耿贝尔softmax;测试阶段,利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图
谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。
[0011]一种基于关系增强负采样的多模态知识图谱补全系统,包括:模型构建单元,用于构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;训练单元,应用于训练阶段;所述训练阶段包括:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,包括:构建多模态关系增强的负采样模型,包括:对比语义采样器与基于掩码的耿贝尔分布采样计算单元;训练阶段:对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征,并利用尾实体与关系的结构知识获得样本尾实体的结构特征,每一个样本为包含头尾实体及其关系的三元组;使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征;给定当前正样本,利用实体集合构造多个正样本与多个负样本,所有正样本与负样本的头实体及关系相同,尾实体不同;并且,通过知识图谱补全模型采样出多个负样本,根据构造出的负样本是否属于采样出的负样本,为每一构造出的负样本配置相应的权重,为构造出的所有正样本配置相同的权重;对于当前正样本,分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度,知识指导的文本表征之间的相似度,以及结构特征之间的相似度;基于三类相似度与相应正负样本的权重构建对比损失函数,目标是缩小正样本之间的差距,同时扩大正样本和负样本之间的差距;基于掩码的耿贝尔分布采样计算单元的输入为三类相似度,通过集成masked操作的gumbel

softmax重参数化技巧,计算出每一负样本的采样分布,根据采样分布采样出相应的负样本,并结合正样本计算出知识图谱补全模型的损失函数;利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失,对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练,获得训练后的知识图谱补全模型;其中,masked操作表示二值化的掩码操作,用于移除正样本,gumbel

softmax表示耿贝尔softmax;测试阶段,利用给定的正样本与实体集合构造多个样本,并利用训练后的知识图谱补全模型输出每一样本的得分,将所有样本按照得分大小做降序排列,选出排序靠前的若干样本。2.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,所述利用尾实体与关系的结构知识获得样本尾实体的结构特征包括:将尾实体t和关系r拼接后,输入至全连接网络,再结合尾实体t获得结构特征,表示为:其中,表示结构特征,concat表示拼接操作,表示激活函数,与表示全连接网络的权重和偏置参数。3.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,所述使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模,再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算,获得样本尾实体的知识指导的视觉表征与知识指导的文本表征包括:对文本特征和视觉特征的交互进行建模,获得跨模态矩阵;跨模态矩阵输入至四个支路:第一支路中利用跨模态矩阵生成视觉特征的第一注意力权重,结合视觉特征的第一注意力权重与视觉特征生成关系无关的视觉表征,第二支路中使用知识图谱中的关系指导跨模态矩阵生成视觉特征的第二注意力权重,结合视觉特征的
第二注意力权重与视觉特征生成关系指导的视觉表征,结合第一支路与第二支路生成的视觉表征,获得知识指导的视觉表征;第三支路中使用知识图谱中的关系指导跨模态矩阵生成文本特征的第一注意力权重,结合文本特征的第一注意力权重与文本特征生成关系指导的文本表征,第四支路中利用跨模态矩阵生成文本特征的第二注意力权重,结合文本特征的第二注意力权重与文本特征生成关系无关的文本表征,结合第三支路与第四支路生成的文本表征,获得知识指导的文本表征。4.根据权利要求3所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,在第一支路与第二支路中,输入的是转置后的跨模态矩阵;第一支路中,转置后的跨模态矩阵通过softmax函数生成视觉特征的第一注意力权重,第二支路中,将知识图谱中的关系与转置后的跨模态矩阵逐元素相乘生成视觉特征的第二注意力权重;第三支路中,将知识图谱中的关系与跨模态矩阵逐元素相乘生成文本特征的第一注意力权重;第四支路中,跨模态矩阵通过softmax函数生成文本特征的第二注意力权重;其中,应用于第二支路与四支路的知识图谱中的关系是通过两个全连接网络针对同一个关系进行处理,获得的两个不同的关系表征。5.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法,其特征在于,所述对比损失函数表示为:其中,表示对比损失函数,表示视觉表征相似度的对比损失函数,表示文本表征相似度的对比损失函数,表示结构表征相似度的对比损失函数;令相似度的对比损失函数,计算公式表示为:其中,是正样本集合,是负...

【专利技术属性】
技术研发人员:徐童陈恩红许德容吴世伟
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1