用于知识图谱构建过程中关系类型的自动辨析方法及装置制造方法及图纸

技术编号：34276104 阅读：16 留言：0更新日期：2022-07-24 17:11

本申请实施例公开了一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。所述方法包括：获取多个数据源；针对各数据源，根据公共数据模型将所述数据源转换成初始知识图；根据预设的数据属性对所述初始知识图进行属性标记，得到知识图；将所述知识图切片成多个子图，所述子图的中心关系类型位于多个所述子图的中心；根据所述中心关系类型将所述子图进行分组，得到多组图；根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图；根据所述频繁子图的中心关系类型，从所述频繁子图中选取部分频繁子图作为判别特征集；根据所述判别特征集编码特征矩阵，构建分类器，以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。自动辨析。自动辨析。

Automatic discrimination method and device for relationship types in the process of knowledge map construction

全部详细技术资料下载

【技术实现步骤摘要】
用于知识图谱构建过程中关系类型的自动辨析方法及装置

[0001]本申请涉及数据处理
，尤其涉及一种用于知识图谱构建过程中关系类型的自动辨析方法及装置。

技术介绍

[0002]在知识图谱的构建过程中，各个结构化数据源中的异质异构数据，一般需要映射到一个公共数据模型以实现异质异构数据的标准化。由于通过人工将异质异构的数据源映射到公共数据模型费时费力，而且容易出错，企业开发了一些将结构化数据源自动映射到公共数据模型的软件系统，包括IBM InfoSphere Data Architect、Microsoft BizTalk Mapper、Altova MapForce和Stylus Studio。上述这些系统都基于Clio提出的异质异构数据映射管理的基本框架。近些年来，已有一些方法来实现了异质异构数据映射管理的自动化，它们集中于自动化地对数据源的属性进行语义标记。但是在现实的异质异构数据的映射管理工作中，除了需要对数据源的属性进行语义标记外，还需要精确的描述源属性之间的语义关系。这就是结构化数据源与公共数据模型的关系类型匹配问题。
[0003]近年来，在解决结构化数据与公共数据模型的关系类型匹配问题上已经取得了一些研究进展。作为一种异质异构数据自动化映射工具，Karma[2,3,4,19,20]使用户能够快速、轻松地集成来自数据库、电子表格、JSON和Web API等各种数据源的数据。在Karma[3,4]中，可以给定来自新源的一些样本数据，利用领域本体中的知识和已知的语义模型构建一个权重图，表示新源的可信语...

【技术保护点】

【技术特征摘要】
1.一种用于知识图谱构建过程中关系类型的自动辨析方法，其特征在于，包括：获取多个数据源；针对各数据源，根据公共数据模型将所述数据源转换成初始知识图；根据预设的数据属性对所述初始知识图进行属性标记，得到知识图；将所述知识图切片成多个子图，所述子图的中心关系类型位于多个所述子图的中心；根据所述中心关系类型将所述子图进行分组，得到多组图；根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图；根据所述频繁子图的中心关系类型，从所述频繁子图中选取部分频繁子图作为判别特征集；根据所述判别特征集编码特征矩阵，构建分类器，以根据所述分类器实现知识图谱构建过程中关系类型的自动辨析。2.根据权利要求1所述的方法，其特征在于，所述根据公共数据模型将所述数据源转换成初始知识图，包括：根据所述数据源确定一中心关系类型以及相应的锚点，根据所述中心关系类型以及所述锚点构造初始边界图；采用深度优先和广度优先的搜索方法对所述初始边界图进行扩展，得到所述初始知识图。3.根据权利要求1所述的方法，其特征在于，所述根据预设频繁子图提取算法提取所述多组图中每组图的频繁子图，包括：根据所述多组图中的每一组图给定一边界图数据集，所述边界图数据集中的每个边界图都有锚点和中心关系；根据预设的频繁子图提取条件，使用gSpan算法提取所述边界图数据集中的频繁子图。4.根据权利要求3所述的方法，其特征在于，所述预设的频繁子图提取条件为：寻找子图g满足s.t.support(g)≥minSup，其中，support(g)表示子图g在所述边界图数据集中图的数量，设置最小边界数和最小节点数作为子图g的界。5.根据权利要求1所述的方法，其特征在于，所述根据所述频繁子图的中心关系类型，从所述频繁子图中选取部分频繁子图作为...

【专利技术属性】
技术研发人员：冯在文，李林烨，严晶，李彤，谢沛霖，张世龙，顾元帅，何克清，
申请(专利权)人：华中农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人