用于知识图谱构建过程中关系类型的自动辨析方法及装置制造方法及图纸

技术编号:34276104 阅读:16 留言:0更新日期:2022-07-24 17:11
本申请实施例公开了一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。所述方法包括:获取多个数据源;针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;根据所述中心关系类型将所述子图进行分组,得到多组图;根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。自动辨析。自动辨析。

Automatic discrimination method and device for relationship types in the process of knowledge map construction

【技术实现步骤摘要】
用于知识图谱构建过程中关系类型的自动辨析方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。

技术介绍

[0002]在知识图谱的构建过程中,各个结构化数据源中的异质异构数据,一般需要映射到一个公共数据模型以实现异质异构数据的标准化。由于通过人工将异质异构的数据源映射到公共数据模型费时费力,而且容易出错,企业开发了一些将结构化数据源自动映射到公共数据模型的软件系统,包括IBM InfoSphere Data Architect、Microsoft BizTalk Mapper、Altova MapForce和Stylus Studio。上述这些系统都基于Clio提出的异质异构数据映射管理的基本框架。近些年来,已有一些方法来实现了异质异构数据映射管理的自动化,它们集中于自动化地对数据源的属性进行语义标记。但是在现实的异质异构数据的映射管理工作中,除了需要对数据源的属性进行语义标记外,还需要精确的描述源属性之间的语义关系。这就是结构化数据源与公共数据模型的关系类型匹配问题。
[0003]近年来,在解决结构化数据与公共数据模型的关系类型匹配问题上已经取得了一些研究进展。作为一种异质异构数据自动化映射工具,Karma[2,3,4,19,20]使用户能够快速、轻松地集成来自数据库、电子表格、JSON和Web API等各种数据源的数据。在Karma[3,4]中,可以给定来自新源的一些样本数据,利用领域本体中的知识和已知的语义模型构建一个权重图,表示新源的可信语义模型的空间;然后利用斯坦纳树算法计算包含消歧关系的顶部k个语义模型。Limaye等人使用YAGO注释web表并使用机器学习方法生成二进制关系,但这种方法仅限于在雅古本体论中定义的标签和关系。Venetis等人提出了一种可扩展的方法来描述Web上表的语义,该方法利用了从Web上自动提取的类标签和关系的数据库来恢复表的语义,如果列中有足够数量的值在类标签数据库中使用该标签标识,则它们将类标签附加到列上,对于二进制关系也是如此。这两种方法都只是通过简单地匹配关系的源节点和目标节点来推断对列之间的二进制关系,它们从表发布语义数据方面来看非常有用,但在学习关系的语义方面的作用是有限的。一些其他工作利用了链接开放数据(LOD)云来捕获源的语义:Schaible等人从链接数据中提取模式级模式(SLPs),并生成一个词汇表术语列表,以便在建模任务中重用。SLPs是(sts,ps,ots)三元组,其中sts和ots是RDF类型的集合,ps是RDF对象属性的集合。例如,SLP表示通过对象属性将某些实例连接到某些实例。Taheriyan等人挖掘LOD中出现的小图模式,并将它们组合起来构建一个图,用于推断语义关系。要使用Karma,最终用户首先导入他们希望用于建模数据的领域本体。然后系统自动为源数据的每一列提出语义标签,再利用创建的语义标签和领域本体来学习高质量的关系,最后加载数据源的语义模型。
[0004]Karma已经被用来模拟史密森尼美国艺术博物馆的数据,然后将其发布到LD云中。然而,这项技术存在一些局限性:在将数据源集成到基于语义模型的知识图,以及在两个公认的实体实例之间消除多种关系类型的歧义时不不是那么有效。但由于在使用的公共数据
模型中,一对相邻的类之间可能存在多种关系,这一要求在D2D CRC的综合执法(ILE)项目中相当常见。例如,人这个类和位置这个类之间有54种不同的关系类型,人和人之间有119种关系类型。据我们所知,之前的工作中没有专门处理数据集成上下文中区分知识图类型的关系。现亟需一种方法用于消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系。

技术实现思路

[0005]本申请实施例提供了一种用于知识图谱构建过程中关系类型的自动辨析方法及装置,可以消除数据源中包括数据库和电子表格在内的数据字段之间不同类型的关系,实现将结构化数据源转换为基于公共数据模型的链接开放数据的任务自动化。
[0006]第一方面,本申请实施例提供了一种用于知识图谱构建过程中关系类型的自动辨析方法,其包括:获取多个数据源;
[0007]针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;
[0008]根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;
[0009]将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;
[0010]根据所述中心关系类型将所述子图进行分组,得到多组图;
[0011]根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;
[0012]根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;
[0013]根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。
[0014]在一些实施例中,所述根据公共数据模型将所述数据源转换成初始知识图,包括:
[0015]根据所述数据源确定一中心关系类型以及相应的锚点,根据所述中心关系类型以及所述锚点构造初始边界图;
[0016]采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展,得到所述初始知识图。
[0017]在一些实施例中,所述根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图,包括:
[0018]根据所述多组图中的每一组图给定一边界图数据集,所述边界图数据集中的每个边界图都有锚点和中心关系;
[0019]根据预设的频繁子图提取条件,使用gSpan算法提取所述边界图数据集中的频繁子图。
[0020]在一些实施例中,所述预设的频繁子图提取条件为:
[0021]寻找子图g满足s.t.support(g)≥minSup,其中,support(g)表示子图g在所述边界图数据集中图的数量,设置最小边界数和最小节点数作为子图g的界。
[0022]在一些实施例中,所述根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集,包括:
[0023]根据所述频繁子图的中心关系类型从所述频繁子图中确定目标频繁子图;
[0024]根据所述预设频繁子图提取算法从所述目标频繁子图中选取所述判别特征集。
[0025]在一些实施例中,所述分类器为神经网络或决策树。
[0026]在一些实施例中,根据所述判别特征集编码特征矩阵,构建分类器之后,所述方法还包括:
[0027]将所述分类器应用于初始的结构化数据源,将所述结构化数据源转换为基于公共数据模型的链接开放数据。
[0028]第二方面,本申请实施例还提供了一种用于知识图谱构建过程中关系类型的自动辨析装置,其包括:包括获取单元和处理单元:
[0029]所述获取单元,用于获取多个数据源;
[0030]所述处理单元,用于针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于知识图谱构建过程中关系类型的自动辨析方法,其特征在于,包括:获取多个数据源;针对各数据源,根据公共数据模型将所述数据源转换成初始知识图;根据预设的数据属性对所述初始知识图进行属性标记,得到知识图;将所述知识图切片成多个子图,所述子图的中心关系类型位于多个所述子图的中心;根据所述中心关系类型将所述子图进行分组,得到多组图;根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图;根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为判别特征集;根据所述判别特征集编码特征矩阵,构建分类器,以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。2.根据权利要求1所述的方法,其特征在于,所述根据公共数据模型将所述数据源转换成初始知识图,包括:根据所述数据源确定一中心关系类型以及相应的锚点,根据所述中心关系类型以及所述锚点构造初始边界图;采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展,得到所述初始知识图。3.根据权利要求1所述的方法,其特征在于,所述根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图,包括:根据所述多组图中的每一组图给定一边界图数据集,所述边界图数据集中的每个边界图都有锚点和中心关系;根据预设的频繁子图提取条件,使用gSpan算法提取所述边界图数据集中的频繁子图。4.根据权利要求3所述的方法,其特征在于,所述预设的频繁子图提取条件为:寻找子图g满足s.t.support(g)≥minSup,其中,support(g)表示子图g在所述边界图数据集中图的数量,设置最小边界数和最小节点数作为子图g的界。5.根据权利要求1所述的方法,其特征在于,所述根据所述频繁子图的中心关系类型,从所述频繁子图中选取部分频繁子图作为...

【专利技术属性】
技术研发人员:冯在文李林烨严晶李彤谢沛霖张世龙顾元帅何克清
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1