一种基于查询路径排序的领域知识图谱问答方法及系统技术方案

技术编号:37330006 阅读:16 留言:0更新日期:2023-04-21 23:07
本申请提出一种基于查询路径排序的领域知识图谱问答方法及系统。方法包括:通过意图分类模型预测输入问题的查询意图类别;在实体提及识别失败时,通过向量检索技术对所述输入问题的特征向量进行检索,找到与所述输入问题的特征向量相似度最高的N个向量,将N个向量对应的查询路径作为第一候选查询路径;在实体识别成功时,根据所述查询意图类别选取同类型链接词典,通过字面相似度和语义相似度从链接词典中定位候选实体;对候选实体利用查询路径生成规则与知识图谱,生成第二候选查询路径;对所有候选查询路径进行语义匹配,得到与输入问题相关程度最高的查询路径,用以查询并返回答案。本申请提高了问题处理能力以及问题回答的准确度。准确度。准确度。

【技术实现步骤摘要】
一种基于查询路径排序的领域知识图谱问答方法及系统


[0001]本专利技术涉知识图谱领域,尤其是涉及一种基于查询路径排序的领域知识图谱问答方法及系统。

技术介绍

[0002]现有多数领域知识图谱问答方法存在实体间关系的语义信息利用不足,多跳问题处理能力弱的问题:(1)领域知识图谱覆盖范围小,节点字面相似度较高,同类型节点属性较为一致,造成查询路径区分度不高,易发生歧义;(2)相比于通用知识图谱,领域知识图谱具有关系网络深,推理链条长、复杂度高的特点,随着查询路径的增加,问答模型的答案预测能力变弱。以上问题难以满足用户对专业知识深度查询的需求,导致领域知识图谱多跳问题回答困难。

技术实现思路

[0003]有鉴于此,本申请提出一种基于查询路径排序的领域知识图谱问答方法及系统。
[0004]第一方面,本申请提出一种基于查询路径排序的领域知识图谱问答方法,包括:
[0005]获取输入问题;
[0006]通过意图分类模型预测所述输入问题的查询意图类别;
[0007]利用实体提及识别模型识别所述输入问题中的实体提及;
[0008]在实体提及识别失败的情况下,通过向量检索技术对所述输入问题的特征向量进行检索,找到与所述输入问题的特征向量相似度最高的N个向量,将N个向量对应的查询路径作为第一候选查询路径;
[0009]在实体识别成功的情况下,根据所述查询意图类别选取同类型链接词典,通过字面相似度和语义相似度从所述链接词典中定位候选实体;
[0010]对所述候选实体利用查询路径生成规则与知识图谱,生成第二候选查询路径,所述知识图谱对应于所述查询意图类别的筛选结果;
[0011]对第一候选查询路径以及第二候选查询路径进行语义匹配,对语义匹配结果进行排序,通过对排序结果的融合得到与所述输入问题相关程度最高的查询路径,用以查询并返回答案。
[0012]所述通过意图分类模型预测所述输入问题的查询意图类别,包括:
[0013]将所述输入问题对应的文字向量输入到BERT模型,得到第一输出向量;
[0014]将所述第一输出向量输入到双向长短期记忆网络模型,得到前向特征向量和后向特征向量;
[0015]分别取所述前向特征向量的最后一个向量与所述后向特征向量的最后一个向量进行拼接;
[0016]将拼接后的结果输入到全连接层,并得到全连接层的输出结果;
[0017]根据所述全连接层的输出结果,通过Softmax回归模型得到每个意图类别的概率,
将概率最大的意图类别作为意图预测结果。
[0018]所述利用实体提及识别模型识别所述输入问题中的实体提及,包括:
[0019]将所述输入问题对应的文字向量输入序列标注模型的BERT层,得到预测序列的标签概率矩阵,所述实体提及识别模型包括:序列标注模型以及全局指针网络,所述序列标注模型包括:BERT层以及CRF层;
[0020]以所述标签概率矩阵作为序列标注模型的CRF层的输入,将所述标签概率矩阵映射为标签序列;
[0021]通过将所述标签序列拼接获取所述输入问题的第一实体提及;
[0022]对于任一类型的实体,采用全局指针网络通过线性变换将所述预测序列的标签概率矩阵分别生成头指针序列向量和尾指针序列向量;
[0023]将所述头指针序列向量和尾指针序列向量进行内积,将内积的结果作为内积序列;
[0024]对于任意内积序列,通过定义打分函数判断所述内积序列属于任一类型的所述输入问题的实体提及的概率,将概率最高的内积序列的连续片段作为所述输入问题的第二实体提及;
[0025]将所述输入问题的第一实体提及和第二实体提及,按照预设定规则进行融合,得到候选实体提及集合,作为实体提及的识别结果。
[0026]所述将所述输入问题的第一实体提及和第二实体提及,按照预设定规则进行融合,得到候选实体提及集合,作为实体提及的识别结果,包括:
[0027]若第一实体提及和第二实体提及完全相同,则将第一实体提及或第二实体提及加入到候选实体提及集合中;
[0028]若第一实体提及和第二实体提及部分相同,则将第二实体提及加入到所候选实体提及集合中;
[0029]舍弃第一实体提及和第二实体提及中的单字实体;
[0030]若第一实体提及和第二实体提及完全不同,则舍弃所述第一实体提及和第二实体提及。
[0031]所述根据所述查询意图类别选取同类型链接词典,通过字面相似度和语义相似度从所述链接词典中定位候选实体,包括:
[0032]将实体链接词典按照实体类型分类储存,并使用与所述候选实体提及集合中实体的类型相同类型的实体链接词典;
[0033]利用Jaccard算法分别计算所述候选实体提及集合中每一元素与实体链接词典中任一实体的字面相似度,保留字面相似度前M1个排名的实体,得到实体提及对应的候选实体排序集合。
[0034]通过采用语义匹配模型计算所述选实体提及集合与对应的候选实体排序集合各个实体之间的语义相似度,将语义相似度前M2个排名对应的实体作为最终的候选实体。
[0035]所述对所述候选实体利用查询路径生成规则与知识图谱,生成第二候选查询路径,包括:
[0036]当所述候选实体为单个实体时,以所述单个实体为中心,召回三跳范围内的链式查询路径,所述链式查询路径作为第二候选查询路径;
[0037]当所述候选实体为两个实体时,所述两个实体为第一实体与第二实体,利用Cypher查询语言查询第一实体与第二实体间关系,若所述第一实体与第二实体为父子节点关系则将第一实体与第二实体进行拼接,得到第一拼接结果,将所述第一拼接结果与子节点的三跳范围内对应关系的实体进行拼接,得到第二拼接结果,将得到的第二拼接结果作为第二候选查询路径,若第一实体与第二实体存在共同子节点,则将第一实体与第二实体的共同的子节点进行拼接,得到第三拼接结果,将所述第三拼接结果与所述共同子节点的三跳范围内对应关系的实体进行拼接,得到第四拼接结果,将得到的第四拼接结果作为第二候选查询路径;若所述第一实体与第二实体之间无关系时则将所述第一实体与第二实体记为并列关系,以第一实体或第二实体中的单实体召回三跳范围内的链式查询路径,所述链式查询路径作为第二候选查询路径;
[0038]当所述候选实体为三个实体时,用Cypher查询语言查询第一实体、第二实体以及第三实体之间的关系,若所述第一实体、第二实体、第三实体为链式关系则对所述第一实体、第二实体以及第三实体进行拼接,得到第五拼接结果,将所述第五拼接结果与召回关系链条中尾部实体对应的三跳范围内对应关系的实体进行拼接,得到第六拼接结果,将所述第六拼接结果作为第二候选查询路径;若所述三个实体中的任两个实体同时为另一实体的子节点,则将召回所述两个实体的三跳范围内对应关系的实体进行拼接,得到第七拼接结果,将所述第七拼接结果作为第二候选查询路径;若两个实体皆为另一实体的父节点,则将召回所述父节点的三跳范围内对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于查询路径排序的领域知识图谱问答方法,其特征在于,包括:获取输入问题;通过意图分类模型预测所述输入问题的查询意图类别;利用实体提及识别模型识别所述输入问题中的实体提及;在实体提及识别失败的情况下,通过向量检索技术对所述输入问题的特征向量进行检索,找到与所述输入问题的特征向量相似度最高的N个向量,将N个向量对应的查询路径作为第一候选查询路径;在实体识别成功的情况下,根据所述查询意图类别选取同类型链接词典,通过字面相似度和语义相似度从所述链接词典中定位候选实体;对所述候选实体利用查询路径生成规则与知识图谱,生成第二候选查询路径,所述知识图谱对应于所述查询意图类别的筛选结果;对第一候选查询路径以及第二候选查询路径进行语义匹配,对语义匹配结果进行排序,通过对排序结果的融合得到与所述输入问题相关程度最高的查询路径,用以查询并返回答案。2.根据权利要求1所述的基于查询路径排序的领域知识图谱问答方法,其特征在于,所述通过意图分类模型预测所述输入问题的查询意图类别,包括:将所述输入问题对应的文字向量输入到BERT模型,得到第一输出向量;将所述第一输出向量输入到双向长短期记忆网络模型,得到前向特征向量和后向特征向量;分别取所述前向特征向量的最后一个向量与所述后向特征向量的最后一个向量进行拼接;将拼接后的结果输入到全连接层,并得到全连接层的输出结果;根据所述全连接层的输出结果,通过Softmax回归模型得到每个意图类别的概率,将概率最大的意图类别作为意图预测结果。3.根据权利要求1所述的基于查询路径排序的领域知识图谱问答方法,其特征在于,所述利用实体提及识别模型识别所述输入问题中的实体提及,包括:将所述输入问题对应的文字向量输入序列标注模型的BERT层,得到预测序列的标签概率矩阵,所述实体提及识别模型包括:序列标注模型以及全局指针网络,所述序列标注模型包括:BERT层以及CRF层;以所述标签概率矩阵作为序列标注模型的CRF层的输入,将所述标签概率矩阵映射为标签序列;通过将所述标签序列拼接获取所述输入问题的第一实体提及;对于任一类型的实体,采用全局指针网络通过线性变换将所述预测序列的标签概率矩阵分别生成头指针序列向量和尾指针序列向量;将所述头指针序列向量和尾指针序列向量进行内积,将内积的结果作为内积序列;对于任意内积序列,通过定义打分函数判断所述内积序列属于任一类型的所述输入问题的实体提及的概率,将概率最高的内积序列的连续片段作为所述输入问题的第二实体提及;将所述输入问题的第一实体提及和第二实体提及,按照预设定规则进行融合,得到候
选实体提及集合,作为实体提及的识别结果。4.根据权利要求3所述的基于查询路径排序的领域知识图谱问答方法,其特征在于,所述将所述输入问题的第一实体提及和第二实体提及,按照预设定规则进行融合,得到候选实体提及集合,作为实体提及的识别结果,包括:若第一实体提及和第二实体提及完全相同,则将第一实体提及或第二实体提及加入到候选实体提及集合中;若第一实体提及和第二实体提及部分相同,则将第二实体提及加入到所候选实体提及集合中;舍弃第一实体提及和第二实体提及中的单字实体;若第一实体提及和第二实体提及完全不同,则舍弃所述第一实体提及和第二实体提及。5.根据权利要求1所述的基于查询路径排序的领域知识图谱问答方法,其特征在于,所述根据所述查询意图类别选取同类型链接词典,通过字面相似度和语义相似度从所述链接词典中定位候选实体,包括:将实体链接词典按照实体类型分类储存,并使用与所述候选实体提及集合中实体的类型相同类型的实体链接词典;利用Jaccard算法分别计算所述候选实体提及集合中每一元素与实体链接词典中任一实体的字面相似度,保留字面相似度前M1个排名的实体,得到实体提及对应的候选实体排序集合;通过采用语义匹配模型计算所述选实体提及集合与对应的候选实体排序集合各个实体之间的语义相似度,将语义相似度前M2个排名对应的实体作为最终的候选实体。6.根据权利要求1所述的基于查询路径排序的领域知识图谱问答方法,其特征在于,所述对所述候选实体利用查询路径生成规则与知识图谱,生成第二候选查询路径,包括:当所述候选实体为单个实体时,以所述单个实体为中心,召回三跳范围内的链式查询路径,所述链式查询路径作为第二候选查询路径;当所述候选实体为两个实体时,所述两个实体为第一实体与第二实体,利用Cypher查询语言查询第一实体与第二实体间...

【专利技术属性】
技术研发人员:康风光赵荣李明浩董春王亮张玉亢晓琛栗斌
申请(专利权)人:中国测绘科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1