当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于隐式翻译模型的知识图谱嵌入方法技术

技术编号:23288692 阅读:34 留言:0更新日期:2020-02-08 18:35
本发明专利技术公开一种基于隐式翻译模型的知识图谱嵌入方法,不同于传统的基于翻译模型的方法,首次将关系表示成为两层全连接前馈神经网络,增强了知识图谱中对于复杂关系的表示能力,可以有效处理其他基于翻译模型方法无法处理的两种复杂情况,包括同实体对之间具有多种不同关系的情况和多个实体之间具有循环关系的情况,有效提高了知识图谱嵌入的效果,最终通过实体链接预测测试和三元组验证测试的测试结果证明了本发明专利技术方法确实优于现有的基于翻译模型的方法。

A knowledge map embedding method based on implicit translation model

【技术实现步骤摘要】
一种基于隐式翻译模型的知识图谱嵌入方法
本专利技术属于自然语言处理和知识图谱领域,涉及知识图谱嵌入技术、知识表示学习技术和神经网络学习技术,尤其是一种基于隐式翻译模型的知识图谱嵌入方法。
技术介绍
目前在相关技术中,知识图谱嵌入技术主要分为两类:一种是基于翻译模型的知识图谱嵌入技术。自从2013年第一个基于翻译模型的方法(TransE)被提出以来,基于翻译的嵌入模型因其知识图补全的简单性和高效性而受到越来越多的关注。基于翻译模型的核心思想是将实体间的关系表示成从头实体到尾实体之间的翻译。然而,现有的基于翻译模型的方法都使用了一个固定的翻译方程,都存在一定的局限性。现有的基于翻译的模型主要有TransE,TransH,TransR,TransD,KG2E,STransE,TranSparse,TransAt等。基于翻译模型的知识图谱嵌入的缺陷在于它对于知识图谱中复杂关系的处理较为无力,例如同实体对之间具有多种不同关系的情况和多个实体之间具有循环关系的情况。对于上述两种情况,大部分基于翻译的模型都会失效。另一类嵌入技术是基于语义匹配模型。基于语义匹配模型的方法利用基于相似性的评分函数。他们通过在相应的向量表示空间中匹配实体和关系的潜在语义来衡量事实的合理性。现有的基于语义匹配模型主要有RESCAL,DistMult,HolE,Complex,ANALOGY,SE,SME,LFM,NTN,MLP以及NAM等。基于语义匹配模型的知识图谱嵌入的缺陷在于他需要大量的参数来拟合较为复杂的神经网络,从而导致训练过程较为困难,训练时间较长,效率较低,并且得到的结果大部分也不如基于翻译模型的效果好。
技术实现思路
本专利技术的目的是为了克服现有技术中的不足,提供一种基于隐式翻译模型的知识图谱嵌入方法。本专利技术的目的是通过以下技术方案实现的:一种基于隐式翻译模型的知识图谱嵌入方法,包括以下步骤:步骤一,利用全连接的思想,构建知识图谱中实体之间的关系表示方法;步骤二,通过关系表示方法得到神经网络的损失函数;步骤三,使用训练集中的事实三元组数据训练神经网络,事实三元组数据由头实体、关系和尾实体组成,是通过对事实语句提取获得的,得到头实体向量、尾实体向量和关系的表示结果;步骤四,使用测试集中的三元组数据测试训练出的神经网络,验证并分析实体和关系的嵌入效果。进一步的,步骤一具体步骤如下:根据万能近似定理(universalapproximationtheorem),一个前馈神经网络如果具有线性输出层和至少一层具有任何一种“挤压”性质的激活函数的隐藏层,只要给予前馈神经网络足够数量的隐藏单元,前馈神经网络能够以任意的精度来近似任何从一个有限维空间到另一个有限维空间的Borel可测函数;步骤一种使用的是一个两层的全连接前馈神经网络,头实体向量经过该神经网络将转换为尾实体向量。进一步的,步骤二具体步骤如下:将存储的头实体向量经过步骤一中的神经网络的转换后得到的尾实体向量与存储的真实尾实体的向量表示的差值的二范数作为损失值,以此来判断和衡量得到的尾实体向量与真实尾实体向量之间的相似性。进一步的,步骤三具体步骤如下:通过步骤一中定义的两层的全连接前馈神经网络与步骤二中定义的损失函数,将训练集中的每个事实三元组的头实体、关系和尾实体表示代入到损失函数中,得到对应的损失值,通过反向求导,利用随机梯度下降的方法降低损失值,不断更新每个头实体、关系和尾实体的向量表示;重复执行这一过程,直到梯度不再下降,达到稳定结果为止。进一步的,步骤四具体步骤如下:测试分为两个方面:第一个方面是实体链接预测测试,实体链接预测测试集中包含大量事实三元组,对于其中的每个三元组,使用训练集中全部实体分别替换尾实体,得到包含一个与事实相符的正确的三元组和与事实不相符的错误的三元组的三元组集合;对于得到的三元组集合中的每个三元组,按照损失函数计算他们的损失值,并按照损失值从小到大进行排序,如果正确的三元组的排名在前10名,则认为测试集中的现在测试的三元组的结果符合要求,对于测试集中的全部三元组进行上述过程,统计符合要求的三元组数量占总体数量的比例,比例越高,证明嵌入效果越好;另一个方面是三元组验证测试,三元组验证测试集中包含成对出现的正确三元组和错误三元组,首先通过验证集中数据设置一个阀值,如果三元组经过损失函数得到的损失值高于阀值,则判定该三元组为错误三元组,否则判定该三元组为正确三元组;统计判定结果的准确率,准确率越高,证明嵌入效果越好。与现有技术相比,本专利技术的技术方案所带来的有益效果是:1.本专利技术方法既能够保证嵌入的高效和简洁,又能够有效地克服现有的基于翻译模型在处理知识图谱中较为复杂关系时失效,从而导致嵌入结果较差的问题。2.本专利技术方法为知识图谱中实体和关系的嵌入提供了一种新的思路,提出并定义一种基于翻译模型的知识图谱嵌入方法,不同于传统的基于翻译模型的方法,首次将关系表示成为两层全连接神经网络,增强了知识图谱中对于复杂关系的表示能力,可以有效处理其他基于翻译模型方法无法处理的两种复杂情况,有效提高了知识图谱嵌入的效果,最终通过实体链接预测测试和三元组验证测试的测试结果证明了本专利技术方法确实优于现有的基于翻译模型的方法。附图说明图1是本专利技术方法的流程示意图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种基于翻译模型的知识图谱嵌入方法,如图1所示,为本专利技术嵌入方法一具体实施例的整体流程示意图,包括:步骤S101:知识图谱嵌入过程中,首先要确定实体之间关系的表示方法,关系的表示方法将严重影响最终的嵌入效果。本专利技术选择使用两层的全连接神经网络来表示从头实体向量到尾实体向量转换的关系,如公式(1)所示。Fr(h)=Mr,2(tanh(Mr,1h+br,1))+br,2(1)其中h是头实体向量,Mr,1和Mr,2是与关系相关的转换矩阵,br,1和br,2是与关系相关的转换向量。通过该方程就可以将头实体向量转化为尾实体向量。步骤S201:本专利技术为神经网络训练过程确定损失函数。对于(头实体,关系,尾实体)三元组,将头实体向量和关系输入到公式(1)中,得到尾实体向量,并与存储的真实的尾实体向量之间的差值的二范数作为神经网络的损失值,如公式(2)所示。其中t为存储的尾实体的向量。步骤S301:本专利技术训练神经网络来获得每个实体的向量表示以及关系的向量和矩阵表示。将训练集中的每个事实三元组的头实体、关系和尾实体表示代入到公式(2)中的损失函数中,从而计算出相应的损失值。步骤S302:通过反向求导机制,利用随机梯度下降的方法降低损失值,在该过程中头实体,关系和尾实体的表示将不断发生变化。步骤S303:重复执行步骤S301和步骤S302,直到损失值不再下降,基本达到稳定本文档来自技高网
...

【技术保护点】
1.一种基于隐式翻译模型的知识图谱嵌入方法,其特征在于,包括以下步骤:/n步骤一,利用全连接的思想,构建知识图谱中实体之间的关系表示方法;/n步骤二,通过关系表示方法得到神经网络的损失函数;/n步骤三,使用训练集中的事实三元组数据训练神经网络,事实三元组数据由头实体、关系和尾实体组成,是通过对事实语句提取获得的,得到头实体向量、尾实体向量和关系的表示结果;/n步骤四,使用测试集中的三元组数据测试训练出的神经网络,验证并分析实体和关系的嵌入效果。/n

【技术特征摘要】
1.一种基于隐式翻译模型的知识图谱嵌入方法,其特征在于,包括以下步骤:
步骤一,利用全连接的思想,构建知识图谱中实体之间的关系表示方法;
步骤二,通过关系表示方法得到神经网络的损失函数;
步骤三,使用训练集中的事实三元组数据训练神经网络,事实三元组数据由头实体、关系和尾实体组成,是通过对事实语句提取获得的,得到头实体向量、尾实体向量和关系的表示结果;
步骤四,使用测试集中的三元组数据测试训练出的神经网络,验证并分析实体和关系的嵌入效果。


2.根据权利要求1所述一种基于隐式翻译模型的知识图谱嵌入方法,其特征在于,步骤一具体步骤如下:根据万能近似定理(universalapproximationtheorem),一个前馈神经网络如果具有线性输出层和至少一层具有任何一种“挤压”性质的激活函数的隐藏层,只要给予前馈神经网络足够数量的隐藏单元,前馈神经网络能够以任意的精度来近似任何从一个有限维空间到另一个有限维空间的Borel可测函数;步骤一种使用的是一个两层的全连接前馈神经网络,头实体向量经过该神经网络将转换为尾实体向量。


3.根据权利要求1所述一种基于隐式翻译模型的知识图谱嵌入方法,其特征在于,步骤二具体步骤如下:将存储的头实体向量经过步骤一中的神经网络的转换后得到的尾实体向量与存储的真实尾实体的向量表示的差值的二范数作为损失值,以此来判断和衡量得到的尾实体向量与真实尾实体向量之间的相似性。


4....

【专利技术属性】
技术研发人员:于健王儒于瑞国李雪威岳远志赵满坤徐天一应翔
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1