基于知识库表示的知识图谱检索方法及系统技术方案

技术编号:32786169 阅读:20 留言:0更新日期:2022-03-23 19:45
本发明专利技术实现了一种基于知识库表示的知识图谱检索方法及系统,包括:爬取现有网站储存的知识信息,解析并映射所述知识信息,得到预定义的法律领域知识库模型;获取自然语言序列并根据所述自然语言序列得到自然语言问句;训练预定义的所述法律领域知识库模型,得到预定义的所述法律领域知识库模型的实体表示和关系表示;对所述自然语言问句进行预处理,生成所述自然语言问句的连续表示,记为QR,得到三元组表示;对所述三元组进行评分计算得到评分结果,对所述评分结果转化为概率分布并通过教师模型和学生模型对所述评分结果进行优化,得到最终的所述法律领域知识库模型。到最终的所述法律领域知识库模型。到最终的所述法律领域知识库模型。

【技术实现步骤摘要】
基于知识库表示的知识图谱检索方法及系统


[0001]本专利技术涉及知识库表示领域,尤其涉及一种基于知识库表示的知识图谱检索方法及系统。

技术介绍

[0002]现有知识库是基于知识且具有智能性的系统(或专家系统)。并不是所有具有智能的程序都拥有知识库,只有基于知识的系统才拥有知识库。许多应用程序都利用知识,其中有的还达到了很高的水平,但是,这些应用程序可能并不是基于知识的系统,它们也不拥有知识库。一般的应用程序与基于知识的系统之间的区别在于:一般的应用程序是把问题求解的知识隐含地编码在程序中,而基于知识的系统则将应用领域的问题求解知识显式地表达,并单独地组成一个相对独立的程序实体,知识库经常存在链接缺失问题,这限制了知识图谱在相关下游任务中的应用,为解决该问题,知识图谱补全任务应运而生。知识图谱补全旨在根据知识图谱中已有事实推断出新的事实,从而使得知识图谱更完整,知识图谱嵌入(Knowledge Graph Embedding)是解决知识图谱补全问题的重要方法之一,它通过将知识图谱中的实体(Entity)和关系(Relation)嵌入到连续向量空间,从而在方便计算的同时保留知识图谱中的结构信息,Roberta相较于原来的BERT提出了一套重要的BERT设计选择和训练策略,并引入了能够提高下游任务性能的备选方案,使用一个新的数据集CCNEWS,并确认使用更多的数据进行预训练可以进一步提高下游任务的性能;同时保持了Bert可以提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。
专利
技术实现思路

[0003]目前尚且没有一个统一完善的法律领域知识库,本专利技术的目的在于运用深度学习和知识图谱方法构建法律领域知识库。
[0004]为实现上述目的,本专利技术提供一种基于知识库表示的知识图谱检索方法,包括:
[0005]爬取现有网站储存的知识信息,解析并映射所述知识信息,得到预定义的法律领域知识库模型;
[0006]获取自然语言序列并根据所述自然语言序列得到自然语言问句;
[0007]训练预定义的所述法律领域知识库模型,得到预定义的所述法律领域知识库模型的实体表示和关系表示;
[0008]对所述自然语言问句进行预处理,生成所述自然语言问句的连续表示,记为QR,得到三元组表示;
[0009]对所述三元组进行评分计算得到评分结果,对所述评分结果转化为概率分布并通过教师模型和学生模型对所述评分结果进行优化,得到最终的所述法律领域知识库模型。
[0010]根据本专利技术的一个方面,所述得到预定义的法律领域知识库模型方法为:
[0011]爬取现有网站存储的所述知识信息,通过专家讨论预定义的知识概念模板解析并映射所述知识信息形成图形结构化数据,得到预定义的所述法律领域知识库模型。
[0012]根据本专利技术的一个方面,所述对所述自然语言问句进行预处理方法为:
[0013]构建问题

答案对数据集,根据所述数据集对所述自然语言问句进行预处理,根据所述数据集构建预设规则,根据所述预设规则过滤所述自然语言问句,排除与所述自然语言问句不相关的信息,根据RoBERTa语言模型生成所述自然语言问句的连续表示,记为QR。
[0014]根据本专利技术的一个方面,根据所述实体表示、所述关系表示和所述QR得到头实体、QR、尾实体的三元组,所述三元组中的所述头实体为所述自然语言问句的话题实体,所述三元组中的所述尾实体是所述头实体的邻接节点。
[0015]根据本专利技术的一个方面,所述对所述三元组进行评分计算得到评分结果方法为:
[0016]根据Complex对所述三元组进行评分,通过PPR算法得到所述评分结果;
[0017][0018]其中,h代表所述头实体;
[0019]r代表所述QR;
[0020]t代表所述尾实体;
[0021]Re代表所述实体表示;
[0022]k代表初始组别信息;
[0023]d代表最终组别信息;
[0024]e代表了评分数值。
[0025]根据本专利技术的一个方面,对所述三元组评分时同时对所述三元组进行训练,得到推理路径并通过所述教师模型优化推理步骤中的所述概率分布,根据优化后的所述概率分布作为所述学生模型的监督信号进行学习,得到最终的所述法律领域知识库模型,通过所述法律领域知识库模型得到预测结果。
[0026]根据本专利技术的一个方面,构建多任务架构的深度网络和softmax分类器的组合模型,根据所述教师模型将所述评分结果转化为概率分布,筛选出匹配实体,并生成所述推理路径。
[0027]为实现上述目的,本专利技术提供一种基于知识库表示的知识图谱检索系统,包括:
[0028]模型建立模块:爬取现有网站储存的知识信息,解析并映射所述知识信息,得到预定义的法律领域知识库模型;
[0029]自然语言问句获取模块:获取自然语言序列并根据所述自然语言序列得到自然语言问句;
[0030]模型训练模块:训练预定义的所述法律领域知识库模型,得到预定义的所述法律领域知识库模型的实体表示和关系表示;
[0031]三元组生成模块:对所述自然语言问句进行预处理,生成所述自然语言问句的连续表示,记为QR,得到三元组表示;
[0032]模型优化模块:对所述三元组进行评分计算得到评分结果,对所述评分结果转化为概率分布并通过教师模型和学生模型对所述评分结果进行优化,得到最终的所述法律领
域知识库模型。
[0033]为实现上述目的,本专利技术提供一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述针对一种基于知识库表示的知识图谱检索方法。
[0034]为实现上述目的,本专利技术提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述针对一种基于知识库表示的知识图谱检索方法。
[0035]基于此,本专利技术的有益效果在于:
[0036]1、实现一种对自然语言文本预处理的逻辑,可以将自然语言问句中的无关信息过滤掉,从而降低噪音对模型的影响;
[0037]2、通过将自然语言问句映射到知识库表示中的关系空间,本专利技术实现了一种简便高效的知识库检索、预检索方法;
[0038]3、运用三元组形式,对于训练数据的要求低,对于知识库本身的储存方式要求宽松。
附图说明
[0039]图1示意性表示根据本专利技术的一种基于知识库表示的知识图谱检索方法的流程图;
[0040]图2示意性表示根据本专利技术的一种基于知识库表示的知识图谱检索系统的流程图。
具体实施方式
[0041]现在将参照示例性实施例来论述本专利技术的内容,应当理解,论述的实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本专利技术的内容,而不是暗示对本专利技术的范围的任何限制。
[0042]如本文中所使用的,术语“包括”及其变体要被解读为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于知识库表示的知识图谱检索方法,其特征在于,包括:爬取现有网站储存的知识信息,解析并映射所述知识信息,得到预定义的法律领域知识库模型;获取自然语言序列并根据所述自然语言序列得到自然语言问句;训练预定义的所述法律领域知识库模型,得到预定义的所述法律领域知识库模型的实体表示和关系表示;对所述自然语言问句进行预处理,生成所述自然语言问句的连续表示,记为QR,得到三元组表示;对所述三元组进行评分计算得到评分结果,对所述评分结果转化为概率分布并通过教师模型和学生模型对所述评分结果进行优化,得到最终的所述法律领域知识库模型。2.根据权利要求1所述的基于知识库表示的知识图谱检索方法,其特征在于,所述得到预定义的法律领域知识库模型方法为:爬取现有网站存储的所述知识信息,通过专家讨论预定义的知识概念模板解析并映射所述知识信息形成图形结构化数据,得到预定义的所述法律领域知识库模型。3.根据权利要求1所述的基于知识库表示的知识图谱检索方法,其特征在于,所述对所述自然语言问句进行预处理方法为:构建问题

答案对的数据集,根据所述数据集对所述自然语言问句进行预处理,根据所述数据集构建预设规则,根据所述预设规则过滤所述自然语言问句,排除与所述自然语言问句不相关的信息,根据RoBERTa语言模型生成所述自然语言问句的连续表示,记为QR。4.根据权利要求1所述的基于知识库表示的知识图谱检索方法,其特征在于,根据所述实体表示、所述关系表示和所述QR得到头实体、QR、尾实体的三元组,所述三元组中的所述头实体为所述自然语言问句的话题实体,所述三元组中的所述尾实体是所述头实体的邻接节点。5.根据权利要求4所述的基于知识库表示的知识图谱检索方法,其特征在于,所述对所述三元组进行评分计算得到评分结果方法为:根据Complex对所述三元组进行评分,通过PPR算法得到所述评分结果;其中,h代表所述头实体;r代表所述QR...

【专利技术属性】
技术研发人员:季斌林李建任晓茂乔慧娟李萌
申请(专利权)人:北京北大软件工程股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1