当前位置: 首页 > 专利查询>罗伯特专利>正文

用于将数量事实添加到知识库的设备和计算机实现的方法技术

技术编号:38614618 阅读:10 留言:0更新日期:2023-08-26 23:42
提供了用于将数量事实添加到知识库的设备和计算机实现的方法。一种用于将数量事实添加到知识库(106)、特别是知识图的设备(100)和计算机实现的方法,其中该方法包括提供(202)知识库(106),提供(204)文本资源(108),从知识库(106)提供(206)实体,从知识库(106)提供(208)关系,提供(210)不同单位集,取决于实体、关系和不同单位集确定(212)包括文本资源(108)内的不同单位集内的单位的数量,确定(214)包括实体、关系、数量和单位的数量事实,以及将数量事实添加(216)到知识库(106)。以及将数量事实添加(216)到知识库(106)。以及将数量事实添加(216)到知识库(106)。

【技术实现步骤摘要】
用于将数量事实添加到知识库的设备和计算机实现的方法


[0001]本专利技术涉及一种用于将数量事实添加到知识库的设备和计算机实现的方法。

技术介绍

[0002]Ho,V.T.,Ibrahim,Y.,Pal,K.,Berberich,K.,Weikum,G.:Qsearch:Answering quantity queries from text(载于The Semantic Web

ISWC 2019

18th International Semantic Web Conference,Auckland,New Zealand,October 26

30,2019,Proceedings,Part I.Lecture Notes in Computer Science,vol.11778.Springer(2019))公开了在文本数据中检测具有单位的数值表达式。
[0003]Qsearch提供了一种用于回答数量

过滤查询的方法,诸如“高于100m的建筑”,并且也可以针对从大量文档集合中提取数量事实而进行调整。然而,仅Qsearch作为对数量

过滤查询的响应而产生的排名靠前的事实具有高精度。除了排名靠前的事实之外,它的精度因设计而下降。

技术实现思路

[0004]根据独立权利要求1的计算机实现的方法实现了具有高精度和高召回率二者的数量事实的提取,以便利用数量事实填充高质量知识库中的特定空隙的目的。<br/>[0005]用于将数量事实添加到知识库、特别是知识图的计算机实现的方法包括:提供知识库,提供文本资源,从知识库提供实体,从知识库提供关系,提供不同单位集,取决于实体、关系和不同单位集确定包括文本资源内在不同单位集内的单位的数量,确定包括实体、关系、数量和单位的数量事实,以及将数量事实添加到知识库。
[0006]确定事实的数量的数值表示可以包括:确定数量包括:取决于单位找到包括至少一个数量的文本资源区段;确定该区段内的单位的上下文;确定多个元组,其中多个元组中的每个元组包括实体、至少一个数量之一、单位和上下文;以及取决于上下文从多个元组中的一个元组中选择数量。上下文提供了附加信息,例如用于对元组针对彼此排名。
[0007]该方法可以包括提供针对多个元组中的每个元组的引用,确定多个元组中的至少一个元组与针对该元组的引用的相似性,从多个元组中选择元组,所述元组包括与其引用比多个元组中的至少一个其他元组中的上下文与其引用更相似的上下文。该引用表示目标查询。上下文与引用越相似,用于确定数量事实的元组与查询的匹配就越好。
[0008]提供针对每个元组的引用可以包括提供用于知识库的引用谓语域,从知识库提供引用实体,以及从单位集提供引用单位集。这些引用改进了查询。
[0009]确定相似性可以包括确定至少一个元组的实体的数值表示是否被引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,以及确定至少一个元组的单位是否在引用单位集内,以及确定从多个元组中的至少一个元组到针对多个元组中的至少一个元组的引用的上下文之间的相似性,因为该至少一个元组的实体的数值表示被引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,并且因为该
至少一个元组的单位在引用单位集内。数值表示表示嵌入空间中的实体和引用。这减少了填充知识库所需的计算资源,因为如果距离与嵌入空间中的查询太远,则不考虑元组。
[0010]提供针对每个元组的引用可以包括针对多个元组中的一个元组确定与该元组中的上下文比与多个元组中的至少一个其他元组中的上下文更相似的引用。上下文可能是单词袋。查询可以表示几个不同的单词袋,每个单词袋表示一个谓语。表示最相似谓语的单词袋被选择为引用。
[0011]该方法可以包括针对多个元组中的至少一个元组取决于与其引用的相似性来确定第一评分,其中第一评分指示该至少一个元组可选择用于确定数量事实的置信度,以及当第一评分指示该至少一个元组可选择用于确定数量事实的置信度高于第一阈值时,将该至少一个元组添加到元组的组,其中确定数量事实包括从元组的组中选择元组。这减少了填充知识库所需的计算资源,因为如果置信度太低,则不考虑元组。
[0012]该方法可以包括如果第一评分指示至少一个元组可选择为事实的置信度低于第二阈值,则该方法包括确定多个元组中不在候选事实的数值表示集中并且具有与候选事实集的元组相同的实体的元组,取决于多个元组中的该元组中的数量和候选事实的数值表示集中的该元组中的数量来确定相似性,如果相似性大于第四阈值,则选择多个元组中的该元组中的上下文作为针对另一引用的候选。这减少了填充知识库所需的计算资源,因为如果似然性太低,则不考虑元组。
[0013]该方法可以包括,如果第一评分指示至少一个元组可选择为事实的置信度低于第二阈值,则该方法包括确定多个元组中不在候选事实的数值表示集中并且具有与候选事实的数值表示集的元组相同的实体数值表示的元组,取决于多个元组中的该元组中的数量的数值表示和候选事实的数值表示集中的该元组中的数量的数值表示来确定相似性,如果相似性大于第四阈值,则选择多个元组中的该元组中的上下文的数值表示作为针对另一引用的候选。
[0014]该方法可以包括取决于至少一个元组中的数量的归一化来确定相似性,其中取决于这些元组中的一个和/或这些元组中的二者中的单位来确定归一化。这样,相同数量的不同单位具有可比性。这允许更高效地将数量事实添加到知识库。
[0015]根据另一独立权利要求的设备使能以高精度和高召回率二者提取数量事实,以便利用数量事实填充在高质量知识库中的特定空隙。用于填充知识库、特别是知识图的设备包括至少一个处理器和至少一个存储器,其中至少一个存储器能够存储知识库嵌入和文本资源的数值表示,并且包括指令,所述指令当由至少一个处理器执行时,使得设备利用计算机实现的方法将事实添加到知识库嵌入。
[0016]用于该目的的计算机程序包括计算机可读指令,所述计算机可读指令当由计算机执行时,使得计算机执行所述方法。
附图说明
[0017]从下面的描述和附图中可得出另外的实施例。在附图中:
[0018]图1示意性地描绘了用于填充知识库的设备,
[0019]图2描绘了用于填充知识库的方法中的步骤,
[0020]图3描绘了用于填充知识库的方法中的另外步骤。
具体实施方式
[0021]图1示意性地描绘了用于填充知识库的设备100。知识库包括例如知识图。
[0022]设备100包括至少一个处理器102和至少一个存储器104。
[0023]该示例中的至少一个存储器104存储表示知识库的知识库106和文本资源108。
[0024]至少一个存储器104包括指令110,指令110当由至少一个处理器102执行时,使得设备100利用将在下面描述的计算机实现的方法将数量事实添加到知识库106。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于将数量事实添加到知识库(106)、特别是知识图的计算机实现的方法,其特征在于提供(202)知识库(106),提供(204)文本资源(108),从知识库(106)提供(206)实体,从知识库(106)提供(208)关系,提供(210)不同单位集,取决于实体、关系和不同单位集确定(212)包括文本资源(108)内的不同单位集内的单位的数量,确定(214)包括实体、关系、数量和单位的数量事实,以及将数量事实添加(216)到知识库(106)。2.根据权利要求1所述的方法,其特征在于,确定(212)所述数量包括取决于单位找到(212

1)包括至少一个数量的文本资源区段,确定(212

2)所述区段内的所述单位的上下文,确定(212

3)多个元组,其中所述多个元组中的每个元组包括所述实体、所述至少一个数量之一、所述单位和所述上下文,以及取决于所述上下文从所述多个元组中的一个元组中选择(212

7)所述数量。3.根据权利要求2所述的方法,其特征在于,提供(212

4)针对所述多个元组中的每个元组的引用,确定(212

5)所述多个元组中的至少一个元组与针对该元组的引用的相似性,从所述多个元组中选择(212

7)元组,所述元组包括与其引用比所述多个元组中的至少一个其他元组中的上下文与其引用更相似的上下文。4.根据权利要求3所述的方法,其特征在于,提供(212

4)针对每个元组的引用包括提供用于知识库(106)的引用谓语域,从知识库(106)提供引用实体,以及从单位集提供引用单位集。5.根据权利要求4所述的方法,其特征在于,确定(212

5)所述相似性包括确定所述至少一个元组的实体的数值表示是否被所述引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,以及确定所述至少一个元组的单位是否在引用单位集内,以及确定从所述多个元组中的至少一个元组到针对所述多个元组中的至少一个元组的引用的上下文之间的相似性,因为该至少一个元组的实体的数值表示被引用谓语的数值表示映射到在到引用实体的数值表示的预定距离内的数值表示,并且因为该至少一个元组的单位在引用单位集内。6.根据权利要求3至5所述的方法,其特征在于,提供(212

4)针对每个元组的引用包括针对所述多个元组中的一个元组确定与...

【专利技术属性】
技术研发人员:D
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1