一种基于插值法的知识图谱负样本合成方法技术

技术编号:38101765 阅读:18 留言:0更新日期:2023-07-06 09:20
本发明专利技术公开了一种基于插值法的知识图谱负样本合成方法,包括以下步骤:S1:候选集筛选:从负样本中筛选负样本集合cand_il,作为mixup操作的候选集;S2:mixup样本合成:选择cand_il中的负样本进行合成得到cand_im,再将cand_im中的负样本和正样本进行二次mixup合成;S3:训练更新:将得到的负样本集合cand_il、cand_im、cand_ik再筛选得到cand_is,并将其用于模型训练和更新强负样本集合本发明专利技术易于实现,运算速度快,不增加原始嵌入模型的复杂度;能增强虚拟负样本的多样性,提升知识图谱嵌入模型的性能,易于叠加到已有的知识图谱嵌入模型中。图谱嵌入模型中。图谱嵌入模型中。

【技术实现步骤摘要】
一种基于插值法的知识图谱负样本合成方法


[0001]本专利技术属于知识图谱嵌入领域,具体涉及一种基于插值法的知识图谱负样本合成方法。

技术介绍

[0002]知识图谱(Knowledge Graph)是一种大规模的语义网络知识库,他采取符号化的表达方式,通过三元组的形式将知识存储于计算机中,因为知识图谱具有语义丰富、结构友好、易于理解等优势,所以近年来被广泛应用于态势感知、推荐系统、自然语言处理等领域。
[0003]虽然知识图谱具有明显优势,但是知识图谱中的知识是大量缺失的,为了补全知识图谱,目前最常用的技术是知识图谱嵌入。知识图谱嵌入是将知识图谱中的实体和关系嵌入到一个低维连续空间内,在方便计算的同时还保留知识图谱的结构信息。
[0004]知识图谱嵌入的训练过程中,需要提供正样本和负样本,使模型具备识别正、负样本的能力。正样本通常为现有的事实知识,负样本则是通过替换正样本中的头/尾实体而生成,该项技术称之为负采样技术。现有的负采样技术利用多种信息,在大量负样本候选集中进行筛选,得到有利于模型训练的强负样本,比如专利“一种知识图谱嵌入训练方法和相关装置”(CN202110013880.6)使用图谱的拓扑结构辅助筛选负样本。近年来有研究注意到mixup合成样本领域,比如专利“少标记半监督学习中的插值对比学习方法”(CN202210024335.1)利用mixup插值方法在嵌入空间中生成虚拟的正样本对,解决标签数据较少的问题。

技术实现思路

[0005]鉴于现有问题,本专利技术的目的在于提供一种基于插值法的知识图谱负样本合成方法,通过对算法等技术方案的改进,以解决上述技术问题。
[0006]本专利技术提供如下的技术方案:
[0007]一种基于插值法的知识图谱负样本合成方法,包括以下步骤:
[0008]S1:候选集筛选:从负样本中筛选负样本集合cand_il,作为mixup操作的候选集;S2:mixup样本合成:将集合cand_il中的负样本进行mixup混合得到cand_im,再将cand_im中的负样本和正样本进行mixup合成,得到强负样本cand_ik;S3:训练更新:将得到的负样本集合cand_il、cand_im、cand_ik再筛选一次得到cand_is,在模型训练中使用cand_is集合,更新强负样本集合
[0009]步骤S1包括以下步骤:
[0010]S11:在嵌入模型的第(e+1)轮训练过程中,对数量为n的正样本集合和的每一个正样本获取对应的样本数量为s的负样本集合和上一轮模型更新得到的数量为h的强负样本集合
[0011]S12:从实体集合ε中随机挑选实体替换正样本的参数h或t,生成数量
为f的候选负样本集合
[0012]S13:从负样本集合NS
i
中任选n1个负样本,与中的h个合成负样本相加,得到样本数量为n2的负样本集合
[0013]计算负样本集合cand_i中所有负样本和正样本之间的相似度C
i

[0014]S14:将负样本集合cand_i中的样本根据相似度C
i
的数值大小从大到小排序,取前top

l个样本记为负样本集合负样本集合中的负样本数量为l,负样本集合cand_il即为mixup操作的候选集。
[0015]优选地,步骤S13通过以下公式计算相似度C
i

[0016][0017]其中,为正样本的嵌入形式,为负样本集合cand_i中负样本的嵌入形式。
[0018]步骤S2包括以下步骤:
[0019]S21:在负样本集合通过对相似度C
i
进行归一化操作得到每个样本对应的概率P
1i
和候选集cand_il的多项概率分布,依据候选集的多项概率分布和每个样本对应的概率P
1i
对候选集cand_il进行两次抽样,对得到的两个样本和进行mixup合成操作;
[0020]S22:重复以上操作m次,得到负样本集合
[0021]S23:计算cand_im中所有负样本和正样本之间的相似度C
j

[0022]S24:在负样本集合中,根据每个样本的相似度C
j
,通过对的相似度C
j
进行归一化操作计算每个样本对应的概率进行归一化操作计算每个样本对应的概率和候选集cand_im的多项概率分布,通过概率P
2j
和候选集的多项概率分布对候选集cand_im进行一次抽样,将得到的一个负样本与正样本进行mixup合成操作;
[0023]S25:重复以上操作k次,得到负样本集合
[0024]优选地,步骤S21通过公式计算概率P
1i
;通过公式:
[0025][0026][0027]计算mixup合成操作的结果,其中,α
i
为超参数,是样本和经过mixup合成之后的样本,||.||是对样本取L2正则化,其中,L2正则化公式为n为W的维度;步骤S24通过公式n为W的维度;步骤S24通过公式计算概率P
2j
;通
过公式:
[0028][0029][0030]计算mixup合成操作的结果,其中,β
i
为超参数,是正样本和负样本经过mixup合成之后的样本,||
·
||是对样本取L2正则化,L2正则化公式为n为W的维度。
[0031]步骤S23通过以下公式计算相似度C
j

[0032][0033]其中,为正样本的嵌入形式,为cand_im中负样本的嵌入形式。
[0034]步骤S3包括以下步骤:
[0035]S31:将负样本集合cand_il、cand_im、cand_ik中所有负样本汇总,作为正样本对应的负样本集合
[0036][0037]S32:使用第e轮训练得到的嵌入模型Model
e
对cand_is中的所有负样本进行打分,计算得到根据score
i
计算每个负样本对应的权重P
i

[0038]S33:将cand_is中的样本根据权重P
i
的大小,从大到小排序,取前top

h个样本更新强负样本集合
[0039]优选地,步骤S32通过公式:
[0040][0041]计算权重P
i
,其中,ε为超参数,s为cand_is中的样本总数。
[0042]优选地,当训练模型是基于平移距离的知识图谱嵌入模型时,损失函数为:
[0043][0044]其中,margin为超参数,为Model对正样本的打分,为Model对负样本的打分,P
j
的值为步骤S3中计算得到的权重P
i
;当训练模型是基于语义匹配的知识图谱嵌入模型时,损失函数为:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于插值法的知识图谱负样本合成方法,其特征在于,包括以下步骤:S1:候选集筛选:从负样本中筛选负样本集合cand_il,作为mixup操作的候选集;S2:mixup样本合成:将集合cand_il中的负样本进行mixup混合得到cand_im,再将cand_im中的负样本和正样本进行mixup合成,得到强负样本cand_ik;S3:训练更新:将得到的负样本集合cand_il、cand_im、cand_ik再筛选一次得到cand_is,在模型训练中使用cand_is集合,更新强负样本集合2.根据权利要求1所述的基于插值法的知识图谱负样本合成方法,其特征在于,所述步骤S1包括以下步骤:S11:在嵌入模型的第(e+1)轮训练过程中,对数量为n的正样本集合中的每一个正样本获取对应的样本数量为s的负样本集合和上一轮模型更新得到的数量为h的强负样本集合S12:从实体集合ε中随机挑选实体替换正样本的参数h或t,生成数量为f的候选负样本集合S13:从所述负样本集合NS
i
中任选n1个负样本,与中的h个合成负样本相加,得到样本数量为n2的负样本集合计算所述负样本集合cand_i中所有负样本和正样本之间的相似度C
i
;S14:将所述负样本集合cand_i中的样本根据相似度C
i
的数值大小从大到小排序,取前top

l个样本记为负样本集合所述负样本集合中的负样本数量为l,所述负样本集合cand_il即为mixup操作的候选集。3.根据权利要求2所述的基于插值法的知识图谱负样本合成方法,其特征在于,所述步骤S13通过以下公式计算所述相似度C
i
:其中,为正样本的嵌入形式,为所述负样本集合cand_i中负样本的嵌入形式。4.根据权利要求3所述的基于插值法的知识图谱负样本合成方法,其特征在于,所述步骤S2包括以下步骤:S21:在负样本集合通过对相似度C
i
进行归一化操作得到每个样本对应的概率P
1i
和候选集cand_il的多项概率分布,依据候选集的多项概率分布和每个样本对应的概率P
1i
对候选集cand_il进行两次抽样,对得到的两个样本和进行mixup合成操作;S22:重复以上操作m次,得到负样本集合S22:重复以上操作m次,得到负样本集合S23:计算cand_im中所有负样本和正样本之间的相似度C
j
;S24:在负样本集合中,根据每个样本的相似度C
j
,通过
对的相似度C
j
进行归一化操作计算每个样本对应的概率进行归一化操作计算每个样本对应的概率和候选集cand_im的多项概率分布,通过概率...

【专利技术属性】
技术研发人员:谢禹舜顾钊铨方滨兴张小松王乐牛伟纳韩伟红李树栋张登辉谭润楠龙宇
申请(专利权)人:电子科技大学深圳高等研究院广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1