基于元学习的少样本知识图谱补全方法技术

技术编号:29614608 阅读:25 留言:0更新日期:2021-08-10 18:28
本发明专利技术公开了一种基于元学习的少样本知识图谱补全方法,包括获取待补全的知识图谱和对应的邻域知识图谱;对待补全的知识图谱中的实体嵌入进行初始化;将待补全的知识图谱的关系集合分为训练关系集合和测试关系集合,并选取一个关系所对应的三元组构建元训练任务或元测试任务;在若干个批次的元训练任务上训练得到少样本知识图谱补全模型;采用训练好的少样本知识图谱补全模型对元测试任务进行补全。本发明专利技术方法能够根据少量三元组就进行知识图谱补全,解决传统的基于嵌入的方法对知识图谱中的少样本关系的补全效果不好的问题,而且对邻域知识图谱的依赖性较低,鲁棒性更好,可靠性更高,效果更好。

【技术实现步骤摘要】
基于元学习的少样本知识图谱补全方法
本专利技术属于机器学习领域,具体涉及一种基于元学习的少样本知识图谱补全方法。
技术介绍
知识图谱是一种包含多种类型关系和实体的多源数据。知识图谱广泛应用于问答系统、搜索引擎、推荐系统等领域。知识图谱由大量的三元组构成,每个三元组都由头实体,关系和尾实体组成,代表现实世界中的知识。虽然知识图谱中有大量的实体、关系和三元组,但是知识图谱普遍存在不完整的问题,因此需要补全。通过捕捉知识图谱中不同类型的关系和实体之间的联系,并汇聚多源数据中的特征,从而自动补全知识图谱,是知识图谱补全的关键问题。知识图谱嵌入方法被广泛研究,并用于知识图谱补全。这类方法通过将知识图谱中的实体和关系映射到低维向量空间来解决这个问题。但是,这类方法依赖大量的训练三元组,然而知识图谱中很大一部分关系是仅已知少量三元组的长尾关系。因此,嵌入方法对长尾关系的效果不好,从而严重影响了知识图谱补全的效果。
技术实现思路
本专利技术的目的在于提供一种能够根据少量三元组就进行知识图谱补全,而且可靠性高、效果好的基于元学习的少样本知识图谱补全方法。本专利技术提供的这种基于元学习的少样本知识图谱补全方法,包括如下步骤:S1.获取待补全的知识图谱和对应的邻域知识图谱;所述邻域知识图谱包括待补全的知识图谱中所有实体的邻域信息;S2.采用步骤S1获取的邻域知识图谱,对待补全的知识图谱中的实体嵌入进行初始化;S3.将待补全的知识图谱的关系集合分为训练关系集合和测试关系集合,并从训练关系集合或测试关系集合中选取一个关系所对应的三元组构建元训练任务或元测试任务;S4.在若干个批次的元训练任务上训练得到少样本知识图谱补全模型;S5.采用训练好的少样本知识图谱补全模型,对元测试任务进行补全。步骤S2所述的采用步骤S1获取的邻域知识图谱,对待补全的知识图谱中的实体嵌入进行初始化,具体为采用嵌入方法,在步骤S1获取的邻域知识图谱上训练得到待补全的知识图谱的实体的嵌入表示;且若邻域知识图谱不存在,则随机初始化待补全的知识图谱的实体的嵌入表示。步骤S3所述的将待补全的知识图谱的关系集合分为训练关系集合和测试关系集合,并从训练关系集合或测试关系集合中选取一个关系所对应的三元组构建元训练任务或元测试任务,具体包括如下步骤:A.将待补全的知识图谱的关系集合R分为训练关系集合Rtrain和测试关系集合Rtest;B.从训练关系集合Rtrain或测试关系集合Rtest中选取一个关系r所对应的三元组构建元训练任务Ttrain或元测试任务Ttest;所述的元训练任务Ttrain和元测试任务Ttest均包括支持集Sr和查询集Qr;C.采用如下步骤得到元训练任务Ttrain的支持集Sr:从元训练任务Ttrain的任务关系r所对应的三元组中随机选取Ns个有效三元组,然后为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;D.采用如下步骤得到元测试任务Ttest的支持集Sr:从元测试任务Ttest的任务关系r所对应的三元组中随机选取Ns个有效三元组,然后为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;E.采用如下步骤得到元训练任务Ttrain的查询集Qr:从剩余的三元组中,随机选取Nq个有效三元组,并为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的查询集Qr;F.采用如下步骤得到元测试任务Ttest的查询集Qr:从剩余的三元组中,选取一个有效三元组(h,r,t)作为待补全三元组,并穷举对应的尾实体候选项集合Ch,r中的尾实体,并替换有效三元组(h,r,t)中的尾实体,从而构建|Ch,r|个候选三元组,最终得到元测试任务Ttest的查询集Qr;其中||为集合中的元素个数;步骤S4所述的在若干个批次的元训练任务上训练得到少样本知识图谱补全模型,具体包括如下步骤:a.将步骤S3构建的元训练任务分成L批次的元训练阶段;b.对于第l批次的元训练阶段,采用未训练完成的少样本知识图谱补全模型对批次内的所有元训练任务进行学习,并对模型参数进行优化更新;c.判断步骤b得到的模型是否收敛:若模型收敛,则得到最终的少样本知识图谱补全模型;本步骤结束;若模型不收敛,则进入步骤d;d.判断元训练阶段的批次数l是否达到设定值L:若批次数l达到设定值L,则令批次数l为1,并返回步骤b再次进行训练和优化;若批次数l未达到设定值L,则令批次数l增加1,并返回步骤b再次进行训练和优化。步骤b所述的对于第l批次的元训练阶段,采用未训练完成的少样本知识图谱补全模型对批次内的所有元训练任务进行学习,并对模型参数进行优化更新,具体包括如下步骤:(1)基于TransE的翻译假设,利用支持集Sr中的有效三元组的头实体和尾实体,得到任务关系的弱表示r=t-h;同时,当Ns大于1时,对Ns个三元组的弱关系表示取平均值为(2)将元学习任务中的每一个三元组的头尾实体对嵌入(h,t)与步骤(1)得到的关系弱表示进行组合,得到元学习任务中的每一个三元组的矩阵表示A=[h,r,t];(3)将步骤(2)得到的元学习任务中所有三元组的矩阵表示A输入到卷积神经网络构成的少样本知识图谱补全模型中,得到三元组模式的向量表示;通过带有残差更新机制的模式学习器,从三元组的矩阵表示中提取模式的向量表示,以矩阵A为输入,对矩阵A进行复制,获得双通道输入;首先采用1×3卷积核对输入进行卷积,然后采用1×1卷积核对输出进行降维,最后输出1×d维的三元组模式向量P;当支持集中包括至少2个三元组时,对Ns为三元组的模型向量取平均值;同时,令模式学习器的参数为θ,Pi=fθ(Ai);式中fθ()为模式学习器的模式提取函数;Ai为第i个三元组对应的矩阵表示;(4)使用包含有效性均衡机制的模式匹配器计算查询三元组的有效性分数,将查询集中的三元组的模式向量Pqry与支持集有效三元组的模式向量Ppos和无效三元组的模式向量Pneg输入模式匹配器,分别计算三元组模式与有效模式的欧式距离d(Ppos,Pqry)(即匹配度)和三元组模式与无效模式的欧氏距离d(Pneg,Pqry)(即匹配度),从而得到查询集三元组的有效性分数scoreqry为scoreqry=d(Ppos,Pqry)-d(Pne本文档来自技高网...

【技术保护点】
1.一种基于元学习的少样本知识图谱补全方法,包括如下步骤:/nS1.获取待补全的知识图谱和对应的邻域知识图谱;所述邻域知识图谱包括待补全的知识图谱中所有实体的邻域信息;/nS2.采用步骤S1获取的邻域知识图谱,对待补全的知识图谱中的实体嵌入进行初始化;/nS3.将待补全的知识图谱的关系集合分为训练关系集合和测试关系集合,并从训练关系集合或测试关系集合中选取一个关系所对应的三元组构建元训练任务或元测试任务;/nS4.在若干个批次的元训练任务上训练得到少样本知识图谱补全模型;/nS5.采用训练好的少样本知识图谱补全模型,对元测试任务进行补全。/n

【技术特征摘要】
1.一种基于元学习的少样本知识图谱补全方法,包括如下步骤:
S1.获取待补全的知识图谱和对应的邻域知识图谱;所述邻域知识图谱包括待补全的知识图谱中所有实体的邻域信息;
S2.采用步骤S1获取的邻域知识图谱,对待补全的知识图谱中的实体嵌入进行初始化;
S3.将待补全的知识图谱的关系集合分为训练关系集合和测试关系集合,并从训练关系集合或测试关系集合中选取一个关系所对应的三元组构建元训练任务或元测试任务;
S4.在若干个批次的元训练任务上训练得到少样本知识图谱补全模型;
S5.采用训练好的少样本知识图谱补全模型,对元测试任务进行补全。


2.根据权利要求1所述的基于元学习的少样本知识图谱补全方法,其特征在于步骤S2所述的采用步骤S1获取的邻域知识图谱,对待补全的知识图谱中的实体嵌入进行初始化,具体为采用嵌入方法,在步骤S1获取的邻域知识图谱上训练得到待补全的知识图谱的实体的嵌入表示;且若邻域知识图谱不存在,则随机初始化待补全的知识图谱的实体的嵌入表示。


3.根据权利要求2所述的基于元学习的少样本知识图谱补全方法,其特征在于步骤S3所述的将待补全的知识图谱的关系集合分为训练关系集合和测试关系集合,并从训练关系集合或测试关系集合中选取一个关系所对应的三元组构建元训练任务或元测试任务,具体包括如下步骤:
A.将待补全的知识图谱的关系集合R分为训练关系集合Rtrain和测试关系集合Rtest;
B.从训练关系集合Rtrain或测试关系集合Rtest中选取一个关系r所对应的三元组构建元训练任务Ttrain或元测试任务Ttest;所述的元训练任务Ttrain和元测试任务Ttest均包括支持集Sr和查询集Qr;
C.采用如下步骤得到元训练任务Ttrain的支持集Sr:
从元训练任务Ttrain的任务关系r所对应的三元组中随机选取Ns个有效三元组,然后为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
D.采用如下步骤得到元测试任务Ttest的支持集Sr:
从元测试任务Ttest的任务关系r所对应的三元组中随机选取Ns个有效三元组,然后为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的支持集Sr;所述的尾实体候选项集合Ch,r为已知h和r的尾实体候选集合;h为一个有效三元组的头实体;
E.采用如下步骤得到元训练任务Ttrain的查询集Qr:
从剩余的三元组中,随机选取Nq个有效三元组,并为每个有效三元组(h,r,t)从对应的尾实体候选项集合Ch,r中随机选取一个错误尾实体t',从而构建对应的无效三元组(h,r,t'),最终得到元训练任务Ttrain的查询集Qr;
F.采用如下步骤得到元测试任务Ttest的查询集Qr:
从剩余的三元组中,选取一个有效三元组(h,r,t)作为待补全三元组,并穷举对应的尾实体候选项集合Ch,r中的尾实体,并替换有效三元组(h,r,t)中的尾实体,从而构建|Ch,r|个候选三元组,最终得到元测试任务Ttest的查询集Qr;其中||为集合中的元素个数。


4.根据权利要求3所述的基于元学习的少样本知识图谱补全方法,其特征在于步骤S4所述的在若干个批次的元训练任务上训练得到少样本知识图谱补全模型,具体包括如下步骤:
a.将步骤S3构建的元训练任务分成L批次的元训练阶段;
b.对于第l批次的元训练阶段,采用未训练完成的少样本知识图谱补全模型对批次内的所有元训练任务进行学习,并对模型参数进行优化更新;
c.判断步骤b得到的模型是否收敛:
若模型收敛,则...

【专利技术属性】
技术研发人员:向行陈毅波蒋志怡黄鑫蒋破荒田建伟朱宏宇祝视吕欣琪高建良
申请(专利权)人:国网湖南省电力有限公司国网湖南省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1