【技术实现步骤摘要】
一种基于插值法的知识图谱负样本合成方法
[0001]本专利技术属于知识图谱嵌入领域,具体涉及一种基于插值法的知识图谱负样本合成方法。
技术介绍
[0002]知识图谱(Knowledge Graph)是一种大规模的语义网络知识库,他采取符号化的表达方式,通过三元组的形式将知识存储于计算机中,因为知识图谱具有语义丰富、结构友好、易于理解等优势,所以近年来被广泛应用于态势感知、推荐系统、自然语言处理等领域。
[0003]虽然知识图谱具有明显优势,但是知识图谱中的知识是大量缺失的,为了补全知识图谱,目前最常用的技术是知识图谱嵌入。知识图谱嵌入是将知识图谱中的实体和关系嵌入到一个低维连续空间内,在方便计算的同时还保留知识图谱的结构信息。
[0004]知识图谱嵌入的训练过程中,需要提供正样本和负样本,使模型具备识别正、负样本的能力。正样本通常为现有的事实知识,负样本则是通过替换正样本中的头/尾实体而生成,该项技术称之为负采样技术。现有的负采样技术利用多种信息,在大量负样本候选集中进行筛选,得到有利于模型训练的强负样本,比如专利“一种知识图谱嵌入训练方法和相关装置”(CN202110013880.6)使用图谱的拓扑结构辅助筛选负样本。近年来有研究注意到mixup合成样本领域,比如专利“少标记半监督学习中的插值对比学习方法”(CN202210024335.1)利用mixup插值方法在嵌入空间中生成虚拟的正样本对,解决标签数据较少的问题。
技术实现思路
[0005]鉴于现有问题,本专利技术的目的在于提供 ...
【技术保护点】
【技术特征摘要】
1.一种基于插值法的知识图谱负样本合成方法,其特征在于,包括以下步骤:S1:候选集筛选:从负样本中筛选负样本集合cand_il,作为mixup操作的候选集;S2:mixup样本合成:将集合cand_il中的负样本进行mixup混合得到cand_im,再将cand_im中的负样本和正样本进行mixup合成,得到强负样本cand_ik;S3:训练更新:将得到的负样本集合cand_il、cand_im、cand_ik再筛选一次得到cand_is,在模型训练中使用cand_is集合,更新强负样本集合2.根据权利要求1所述的基于插值法的知识图谱负样本合成方法,其特征在于,所述步骤S1包括以下步骤:S11:在嵌入模型的第(e+1)轮训练过程中,对数量为n的正样本集合中的每一个正样本获取对应的样本数量为s的负样本集合和上一轮模型更新得到的数量为h的强负样本集合S12:从实体集合ε中随机挑选实体替换正样本的参数h或t,生成数量为f的候选负样本集合S13:从所述负样本集合NS
i
中任选n1个负样本,与中的h个合成负样本相加,得到样本数量为n2的负样本集合计算所述负样本集合cand_i中所有负样本和正样本之间的相似度C
i
;S14:将所述负样本集合cand_i中的样本根据相似度C
i
的数值大小从大到小排序,取前top
‑
l个样本记为负样本集合所述负样本集合中的负样本数量为l,所述负样本集合cand_il即为mixup操作的候选集。3.根据权利要求2所述的基于插值法的知识图谱负样本合成方法,其特征在于,所述步骤S13通过以下公式计算所述相似度C
i
:其中,为正样本的嵌入形式,为所述负样本集合cand_i中负样本的嵌入形式。4.根据权利要求3所述的基于插值法的知识图谱负样本合成方法,其特征在于,所述步骤S2包括以下步骤:S21:在负样本集合通过对相似度C
i
进行归一化操作得到每个样本对应的概率P
1i
和候选集cand_il的多项概率分布,依据候选集的多项概率分布和每个样本对应的概率P
1i
对候选集cand_il进行两次抽样,对得到的两个样本和进行mixup合成操作;S22:重复以上操作m次,得到负样本集合S22:重复以上操作m次,得到负样本集合S23:计算cand_im中所有负样本和正样本之间的相似度C
j
;S24:在负样本集合中,根据每个样本的相似度C
j
,通过
对的相似度C
j
进行归一化操作计算每个样本对应的概率进行归一化操作计算每个样本对应的概率和候选集cand_im的多项概率分布,通过概率...
【专利技术属性】
技术研发人员:谢禹舜,顾钊铨,方滨兴,张小松,王乐,牛伟纳,韩伟红,李树栋,张登辉,谭润楠,龙宇,
申请(专利权)人:电子科技大学深圳高等研究院广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。