一种知识图谱构建方法技术

技术编号:27304912 阅读:26 留言:0更新日期:2021-02-10 09:15
本发明专利技术提供了一种知识图谱构建方法,包括:对待处理的句子进行分词,得到多个单独词;识别所述多个单独词中的实体,得到两个一组的实体对;对于每个所述实体对,获取所述句子的句向量,所述句向量包括多个所述单独词的词

【技术实现步骤摘要】
一种知识图谱构建方法


[0001]本专利技术涉及自然语言处理领域,特别涉及一种知识图谱的构建方法。

技术介绍

[0002]随着信息时代的飞速发展,在互联网上拥有的信息资源越来越丰富,信息数据规模越来越巨大,表现形式也越来越多样。但是,对于海量的信息数据资源来说,其中的绝大部分都只能被人类所理解,机器对于这些信息的理解仍十分困难,特别是数量庞大的文本数据,自然语言理解也一直是非常热门的研究领域。
[0003]为了能够帮助机器更好地理解文本数据,知识图谱技术应运而生。知识图谱本质上是一种语义网络,由代表实体(Entity)的结点和代表实体之间关系的边构成。知识图谱从“关系”出发,具有更全面的实体覆盖率和更复杂的语义关系网,在智能搜索、智能问答等领域具有很好的应用前景。但是,在现有的知识图谱构建过程中,实体之间的关系大多需要人工构建或者依赖固定的逻辑,工作量巨大且难以普遍适用,而且对于实体来说,表示的角度比较单一化,使得最后建立的关系不够准确,进而影响了实际的构建效果。

技术实现思路

[0004]为了解决上述问题,本专利技术提出一种知识图谱的构建方法,以解决实体关系建立复杂且不够准确的问题。具体内容包括:
[0005]一种知识图谱构建方法,包括以下步骤:
[0006]对待处理的句子进行分词,得到多个单独词;
[0007]识别所述多个单独词中的实体,将所述实体两个一组组成实体对;
[0008]对于每个所述实体对,获取所述句子的句向量,所述句向量包括多个所述单独词的词-位置向量,所述单独词的词-位置向量包括所述单独词的词向量,以及所述单独词与所述实体对的相对位置向量;
[0009]根据所述句向量提取所述句子多个方面的表示特征;
[0010]根据所述多个方面的表示特征得到一个融合特征,所述融合特征包括不少于一个特征向量;
[0011]根据所述融合特征预测所述实体对的实体关系;
[0012]根据所述实体对和对应的实体关系构建知识图谱。
[0013]可选地,在所述根据所述多个方面的表示特征得到一个融合特征之后,所述根据所述融合特征预测所述实体对的实体关系之前,还包括步骤:
[0014]对所述融合特征进行特征筛选,屏蔽其中的噪声特征。
[0015]可选地,所述对所述融合特征进行特征筛选,屏蔽其中的噪声特征包括:
[0016]对所述融合特征中包括的所述特征向量进行全局平均池化,得到所述特征向量分别对应的聚合信息;
[0017]利用两个全连接网络对所述聚合信息进行筛选,得到所述特征向量对应的筛选参
数;
[0018]根据所述筛选参数判断所述特征向量是否为噪声特征,若是,则将所述噪声特征屏蔽,更新所述特征向量;
[0019]根据所述更新后的特征向量,更新所述融合特征。
[0020]本专利技术还提供了一种知识图谱构建装置,具体包括:
[0021]句子分词模块,所述句子分词模块用于对待处理的句子进行分词,得到多个单独词;
[0022]实体识别模块,所述实体识别模块用于识别所述多个单独词中的实体,将所述实体两个一组组成实体对;
[0023]向量表示模块,所述向量表示模块用于获取所述句子的句向量,所述句向量包括所述多个单独词的词-位置向量,所述单独词的词-位置向量包括所述单独词的词向量以及所述单独词对于所述实体对的相对位置向量;
[0024]特征提取模块,所述特征提取模块用于根据所述句向量提取所述句子多个方面的表示特征;
[0025]特征融合模块,所述特征融合模块用于根据所述多个方面的表示特征得到一个融合特征,所述融合特征包括不少于一个特征向量;
[0026]关系预测模块,所述关系预测模块用于根据所述融合特征预测所述实体对的实体关系;
[0027]图谱构建模块,所述图谱构建模块用于根据所述实体对和对应的实体关系构建知识图谱。
[0028]本专利技术还提供了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任意一种知识图谱构建方法的步骤。
[0029]本专利技术还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任意一种知识图谱构建方法的步骤。
[0030]本专利技术将句子中单词与实体对之间的相对位置引入实体关系提取的过程,充分体现了词组与实体对之间的关联性,并从多个方面、多角度地挖掘句子与句子中实体关系之间的特征,通过融合手段,能够更加全面地对实体对之间的实体关系进行预测,进而可以更加完备地构建知识图谱。
[0031]在此基础上,本专利技术的知识图谱构建方法还能够对提取的表示特征进行特征筛选,将其中的噪声杂质屏蔽,使得用于实体关系预测的特征更具有针对性,使得实体关系抽取的结果更加准确。
[0032]因此,本专利技术能够更全面、准确地进行知识图谱的构建,方法简单、效率高,具备一定的实用价值。
附图说明
[0033]通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,
相同的参考标号通常代表相同部件或步骤。
[0034]图1为本专利技术实施例一中知识图谱构建方法的流程示意图;
[0035]图2为本专利技术实施例一中获取句向量的流程示意图;
[0036]图3为本专利技术实施例一中实体关系预测的流程示意图;
[0037]图4为本专利技术实施例二中知识图谱构建方法的流程示意图;
[0038]图5为本专利技术实施例二中特征筛选的流程示意图;
[0039]图6为本专利技术实施例三中知识图谱构建方法的流程示意图;
[0040]图7为本专利技术实施例四中知识图谱构建装置的结构示意图;
[0041]图8为本专利技术实施例四中向量表示模块的结构示意图;
[0042]图9为本专利技术实施例四中相对位置向量计算单元的结构示意图;
[0043]图10为本专利技术实施例四中又一相对位置向量计算单元的结构示意图;
[0044]图11为本专利技术实施例四中特征融合模块的结构示意图;
[0045]图12为本专利技术实施例四中关系预测模块的结构示意图;
[0046]图13为本专利技术实施例五中知识图谱构建装置的结构示意图;
[0047]图14为本专利技术实施例五中特征筛选模块的结构示意图;
[0048]图15为本专利技术实施例六中的电子设备结构示意图。
具体实施方式
[0049]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括以下步骤:对待处理的句子进行分词,得到多个单独词;识别所述多个单独词中的实体,将所述实体两个一组组成实体对;对于每个所述实体对,获取所述句子的句向量,所述句向量包括多个所述单独词的词-位置向量,所述单独词的词-位置向量包括所述单独词的词向量,以及所述单独词与所述实体对的相对位置向量;根据所述句向量提取所述句子多个方面的表示特征;根据所述多个方面的表示特征得到一个融合特征,所述融合特征包括不少于一个特征向量;根据所述融合特征预测所述实体对的实体关系;根据所述实体对和对应的实体关系构建知识图谱。2.如权利要求1所述的知识图谱构建方法,其特征在于,所述实体对包括第一实体和第二实体,获取所述单独词与所述实体对的相对位置向量的步骤包括:分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离;根据预设的位置向量矩阵将所述相对距离转换为向量表示。3.如权利要求2所述的知识图谱构建方法,其特征在于,所述分别计算所述单独词相对于所述第一实体以及所述单独词相对于第二实体的相对距离之后,所述根据预设的位置向量矩阵将所述相对距离转换为向量表示之前,还包括步骤:判断所述相对距离是否在预设的最小距离与最大距离的范围之内,若所述相对距离小于所述最小距离,则以所述最小距离替换所述相对距离;若所述相对距离大于所述最大距离,则以所述最大距离替换所述相对距离。4.如权利要求1所述的知识图谱构建方法,其特征在于,所述根据所述句向量提取所述句子多个方面的表示特征包括:根据所述句向量,按照下述公式计算预设次数的所述表示特征,其中,h
i
为第i个方面的所述表示特征,i的取值范围为[1,l],l为所述预设次数,v为所述句向量,d
v
为构成所述句向量的所述单独词的数目,和分别表示第i次计算时的不同的参数矩阵且分别通过神经网络训练获得。5.如权利要求1所述的知识图谱构建方法,其特征在于,所述根据所述多个方面的表示特征得到一个融合特征包括:将每个方面的所述表示特征分别放入卷积神经网络的一个单独通道;对于每一所述单独通道,通过下述公式计算所述融合特征中的特征向量,c
j
=f(w
f
·
h
(i:i+n-1)
+b
f
)其中,j的取值范围为[1,m],c
j
表示所述融合特征中的第j项特征向量,m为卷积核的个数,f为非线性函数,w
f
为参数矩阵,b
f
为偏置参数,h
(i:i+n-1)
由h
i
、h
i+1


、h
i+n-1
依次连接组
成,n为卷积窗口的长度,h
i
表示第i个方面的所述表示特征;根据计算得到的所述m个特征向量生成所述融合特征。6.如权利要求1所述的知识图谱构建方法,其特征在于,在所述根据所述多个方面的表示特征得到一个融合特征之后,所述根据所述融合特征...

【专利技术属性】
技术研发人员:陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1