本申请涉及一种基于因果推理的去偏知识图谱补全方法
【技术实现步骤摘要】
一种基于因果推理的去偏知识图谱补全方法、装置及介质
[0001]本专利技术涉及知识图谱补全
,尤其是涉及一种基于因果推理的去偏知识图谱补全方法
、
装置及介质
。
技术介绍
[0002]知识图谱被广泛地应用在许多领域,例如推荐系统,问答系统和信息检索等
。
它们是由三元组构成的集合,其中每个三元组的形式为(头实体,关系,尾实体)
。
虽然常用的知识图谱已经包括了许多已知的三元组,但是知识图谱仍然面临着不完全的问题
。
为了补全知识图谱,知识图谱补全模型定义一个打分函数来度量三元组的可能性
。
[0003]现有的知识图谱补全模型的核心是学习数据之间的相关关系,例如实体
、
关系以及三元组的分数之间的相关关系
。
然而世界是由因果关系驱动的而不是相关关系,相关关系也不意味着因果关系
。
例如,我们观察到打伞的人多了,那么可能是下雨了
。
打伞和下雨有很强的相关关系,但我们不能说打伞导致了下雨
。
基于相关关系的知识图谱补全模型受到混杂因子的影响可能面临着数据偏差的问题
。
例如,由于无视知识图谱中的流行度偏差,知识图谱补全模型会倾向于流行度高的实体和关系
。
而如果直接忽略混杂因子可能会导致学习到实体
、
关系和三元组的分数之间的不正确的相关关系
。
[0004]知识图谱中的数据偏差是指数据不能忠实地反映三元组的可能性
。
许多流行的知识图谱(例如
DBpedia
,
Wikidata
和
YAGO
)是通过使用信息提取算法自动构建的
。
收集的知识图谱数据通常都有数据偏差的问题,例如流行度偏差,一致性偏差和曝光度偏差等
。
例如,常用的基准知识图谱中数据集中实体和关系的流行度分布高度偏斜
。
同时,收集的知识图谱数据还受到信息提取算法的影响,算法有可能只提取简单的知识,而忽略复杂的知识
。
[0005]现有相关性驱动的知识图谱补全模型不仅学习了三元组的可能性,而且还学习了数据偏差,从而导致不正确的相关性
。
技术实现思路
[0006]在本实施例中提供了一种基于因果推理的去偏知识图谱补全方法
、
装置及介质,以解决相关技术中对知识图谱补全时受到混杂因子影响导致的数据偏差的问题
。
[0007]第一个方面,在本专利技术中提供了一种基于因果推理的去偏知识图谱补全方法,包括以下步骤:构建待优化知识图谱补全模型;将样本三元组输入所述待优化知识图谱补全模型,得到三元组分数;根据所述样本三元组确定所述样本三元组的混杂因子,并结合所述三元组分数和所述混杂因子得到结合结果;以最小化所述结合结果的损失函数为优化目标,对所述待优化知识图谱补全模型进行优化,得到目标知识图谱补全模型;利用所述目标知识图谱补全模型对知识图谱进行补全
。
[0008]在其中的一些实施例中,所述样本三元组包括头实体
、
尾实体以及所述头实体与所述尾实体之间的关系;所述样本三元组的混杂因子包括:流行度
、
一致性和曝光度
。
[0009]在其中的一些实施例中,根据所述样本三元组确定所述样本三元组的混杂因子,包括:将所述样本三元组所在的数据集表示为三阶二值张量;根据所述三阶二值张量和所述样本三元组确定所述样本三元组的混杂因子
。
[0010]在其中的一些实施例中,将所述样本三元组所在的数据集表示为三阶二值张量,包括:若所述样本三元组为数据集中已知真实的样本三元组,则所述三阶二值张量的值为1;若所述样本三元组为数据集中未知的样本三元组,则所述三阶二值张量的值为
0。
[0011]在其中的一些实施例中,结合所述三元组分数和所述混杂因子得到结合结果,包括:预设混杂因子权重,通过所述混杂因子权重对所述混杂因子进行加权求和,得到求和结果;根据所述三元组分数和所述求和结果得到结合结果
。
[0012]在其中的一些实施例中,所述混杂因子权重的设定依据包括混杂因子的类型
。
[0013]在其中的一些实施例中,以最小化所述结合结果的损失函数为优化目标,对所述待优化知识图谱补全模型进行优化,得到目标知识图谱补全模型,包括:利用多分类交叉熵损失函数对所述结合结果进行处理,得到损失函数;以最小化所述损失函数为优化目标,对所述待优化知识图谱补全模型进行优化,得到目标知识图谱补全模型
。
[0014]第二个方面,在本专利技术中提供了一种知识图谱补全装置,包括:搭建模块,用于构建待优化知识图谱补全模型;输入模块,用于将样本三元组输入所述待优化知识图谱补全模型,得到三元组分数;确定模块,用于根据所述样本三元组确定所述样本三元组的混杂因子,并结合所述三元组分数和所述混杂因子得到结合结果;优化模块,用于以最小化所述结合结果的损失函数为优化目标,对所述待优化知识图谱补全模型进行优化,得到目标知识图谱补全模型;补全模块,用于利用所述目标知识图谱补全模型对知识图谱进行补全
。
[0015]第三个方面,在本专利技术中提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的去偏知识图谱补全方法
。
[0016]第四个方面,在本专利技术中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的去偏知识图谱补全方法
。
[0017]与相关技术相比,本专利技术在不忽略混杂因子的前提下,构建待优化知识图谱补全模型,并利用样本三元组对以及混杂因子对待优化知识图谱补全模型进行优化,从而得到
目标知识图谱补全模型,最终,利用目标知识图谱补全模型对待处理的知识图谱进行补全,能够去除混杂因子造成的数据偏差,减轻混杂因子造成的数据偏差对数据集中实体和关系的影响,从而使得知识图谱中所表现出的三元组的相关性更加真实和准确
。
[0018]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征
、
目的和优点更加简明易懂
。
附图说明
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定
。
在附图中:图1是执行本专利技术中提供的去偏知识图谱补全方法的终端硬件结构框图
。
[0020]图2是传统知识图谱补全模型的因果图
。
[0021]图3是具有三个混杂因子的因果图
。
[0022]图4是去除混杂因子影响后的因果图
。
[0023]图5是本专利技术提本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于因果推理的去偏知识图谱补全方法,其特征在于,所述方法包括以下步骤:构建待优化知识图谱补全模型;将样本三元组输入所述待优化知识图谱补全模型,得到三元组分数;根据所述样本三元组确定所述样本三元组的混杂因子,并结合所述三元组分数和所述混杂因子得到结合结果;以最小化所述结合结果的损失函数为优化目标,对所述待优化知识图谱补全模型进行优化,得到目标知识图谱补全模型;利用所述目标知识图谱补全模型对知识图谱进行补全
。2.
根据权利要求1所述的基于因果推理的去偏知识图谱补全方法,其特征在于,所述样本三元组包括头实体
、
尾实体以及所述头实体与所述尾实体之间的关系;所述样本三元组的混杂因子包括:流行度
、
一致性和曝光度
。3.
根据权利要求1所述的基于因果推理的去偏知识图谱补全方法,其特征在于,根据所述样本三元组确定所述样本三元组的混杂因子,包括:将所述样本三元组所在的数据集表示为三阶二值张量;根据所述三阶二值张量和所述样本三元组确定所述样本三元组的混杂因子
。4.
根据权利要求3所述的基于因果推理的去偏知识图谱补全方法,其特征在于,将所述样本三元组所在的数据集表示为三阶二值张量,包括:若所述样本三元组为数据集中已知真实的样本三元组,则所述三阶二值张量的值为1;若所述样本三元组为数据集中未知的样本三元组,则所述三阶二值张量的值为
0。5.
根据权利要求1所述的基于因果推理的去偏知识图谱补全方法,其特征在于,结合所述三元组分数和所述混杂因子得到结合结果,包括:预设混杂因子权重,通过所述混杂因子权重对所述混杂因子进行加...
【专利技术属性】
技术研发人员:何向南,肖昌义,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。