一种基于联邦计算的异构数据融合方法及装置制造方法及图纸

技术编号:28146882 阅读:21 留言:0更新日期:2021-04-21 19:32
本公开涉及一种基于联邦计算的异构数据融合方法及装置,该方法应用于具有用户界面的终端设备,方法包括:获取预先构建的知识图谱;其中,知识图谱包括异构元数据和元数据之间的关系,且元数据包括数据表、主题和字段;响应于针对主题的检索操作,从知识图谱的数据表中检索主题下的目标数据表;响应于针对字段的融合操作,提取目标数据表中字段对应的目标数据,并融合输出目标数据。本公开实现异构数据源的数据融合的操作方式简单,降低了数据运维人员的介入成本、维护难度。维护难度。维护难度。

【技术实现步骤摘要】
一种基于联邦计算的异构数据融合方法及装置


[0001]本公开涉及数据处理
,尤其涉及一种基于联邦计算的异构数据融合方法及装置。

技术介绍

[0002]随着大数据时代的发展,数据资产已经成为提高产业竞争力的关键要素。企业为了给人们提供更多更优质的服务,构建了各种业务系统。不同的业务系统,由于来自不同的软件供应商与数据库厂商,数据标准和业务系统规则存在很大的差异性。随着时间的推移,很多业务系统的维护难度变得很大,各系统间相互独立,数据无法共享和融合,在各自内部逐渐形成了“信息孤岛”。为了数据的流动共享,以及进一步深加工提升数据价值,异构数据源的数据融合成为了一种迫切的需求。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种基于联邦计算的异构数据融合方法及装置。
[0004]本公开提供了一种基于联邦计算的异构数据融合方法,所述方法应用于具有用户界面的终端设备,所述方法包括:获取预先构建的知识图谱;其中,所述知识图谱包括异构元数据和所述元数据之间的关系,且所述元数据包括数据表、主题和字段;响应于针对主题的检索操作,从所述知识图谱的数据表中检索所述主题下的目标数据表;响应于针对字段的融合操作,提取所述目标数据表中所述字段对应的目标数据,并融合输出所述目标数据。
[0005]进一步,所述提取所述目标数据表中所述字段对应的目标数据,包括:基于数据库内核算法,确定所述目标数据表之间的关联强度;从所述目标数据表中选取关联强度高于预设强度阈值的数据表;在选取的数据表中提取所述字段对应的目标数据。
[0006]进一步,所述数据库内核算法包括以下中的一种或多种:路径查找算法、中心度算法、社区发现算法和谱聚类算法。
[0007]进一步,所述方法还包括:基于不同的数据库ip获取数据库结构;其中,所述数据库结构为存放相关联的有结构的数据库的结构;基于数据库内核算法解析所述数据库结构中各数据库的数据定义信息、数据之间的关联关系、数据血缘关系和/或元数据分组信息;根据解析结果构建所述数据库结构对应的所述知识图谱。
[0008]进一步,所述知识图谱中的所述元数据还包括:数据库、系统目录、主题域、对象;所述知识图谱中的所述关系包括:拥有、创建、包含、关联、流向、指向、业务关联、业务拥有、业务连接。
[0009]进一步,所述融合操作包括选取操作和输出操作;所述响应于针对字段的融合操作,提取所述目标数据表中所述字段对应的目标数据,并融合输出所述目标数据,包括:响应于所述选取操作,确定所述主题下的至少一个目标字段;响应于所述输出操作,提取所述目标数据表中所述目标字段对应的目标数据,并融合输出所述目标数据。
[0010]本公开还提供了一种基于联邦计算的异构数据融合装置,所述装置应用于具有用户界面的终端设备,所述装置包括:知识图谱获取模块,用于获取预先构建的知识图谱;其中,所述知识图谱包括异构元数据和所述元数据之间的关系,且所述元数据包括数据表、主题和字段;检索模块,用于响应于针对主题的检索操作,从所述知识图谱的数据表中检索所述主题下的目标数据表;融合输出模块,用于响应于针对字段的融合操作,提取所述目标数据表中所述字段对应的目标数据,并融合输出所述目标数据。
[0011]进一步,所述融合输出模块还用于:基于数据库内核算法,确定所述目标数据表之间的关联强度;从所述目标数据表中选取关联强度高于预设强度阈值的数据表;在选取的数据表中提取所述字段对应的目标数据。
[0012]进一步,所述装置还包括知识图谱构建模块;所述知识图谱构建模块用于:基于不同的数据库ip获取数据库结构;其中,所述数据库结构为存放相关联的有结构的数据库的结构;基于数据库内核算法解析所述数据库结构中各数据库的数据定义信息、数据之间的关联关系、数据血缘关系和/或元数据分组信息;根据解析结果构建所述数据库结构对应的所述知识图谱。
[0013]进一步,所述融合操作包括选取操作和输出操作;所述融合输出模块还用于:响应于所述选取操作,确定所述主题下的至少一个目标字段;响应于所述输出操作,提取所述目标数据表中所述目标字段对应的目标数据,并融合输出所述目标数据。
[0014]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0015]本公开实施例提供了一种基于联邦计算的异构数据融合方法及装置,该方法首先获取包括数据表、主题和字段等异构元数据以及元数据之间关系的知识图谱;然后响应于针对主题的检索操作,从知识图谱的数据表中检索主题下的目标数据表;最后响应于针对字段的融合操作,提取目标数据表中字段对应的目标数据,并融合输出目标数据。本公开提供的异构数据融合方式,利用知识图谱的高维度表达方式,能够直观地展示异构元数据和元数据之间的关系,为异构数据源的数据融合提供了基础的技术支撑,降低了数据融合的基础操作难度。而且,相比于传统ETL(Extract

Transform

Load,抽取清洗转换装置)数据融合所需要的大量工程开发工作,本公开通过用户界面的良好人机交互操作:检索操作和融合操作,即可实现异构数据源的数据融合,操作方式简单,降低了数据运维人员的介入成本、维护难度。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0017]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本公开实施例所述基于联邦计算的异构数据融合方法流程图;
[0019]图2为本公开实施例所述知识图谱的构建方法流程图;
[0020]图3为本公开实施例所述基于联邦计算的异构数据融合装置的结构框图;
[0021]图4为本公开实施例所述电子设备的结构示意图。
具体实施方式
[0022]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0023]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0024]实施例一:
[0025]本公开实施例提供一种基于联邦计算的异构数据融合方法,该方法可以应用于具有用户界面的终端设备,如电脑、手机等终端设备。参照图1所示的基于联邦计算的异构数据融合方法流程图,该方法包括:
[0026]步骤S102,获取预先构建的知识图谱;其中,知识图谱包括异构元数据和元数据之间的关系。异构元数据即为异构数据源的元数据。该元数据可以包括:系统目录、数据库、数据表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦计算的异构数据融合方法,其特征在于,所述方法应用于具有用户界面的终端设备,所述方法包括:获取预先构建的知识图谱;其中,所述知识图谱包括异构元数据和所述元数据之间的关系,且所述元数据包括数据表、主题和字段;响应于针对主题的检索操作,从所述知识图谱的数据表中检索所述主题下的目标数据表;响应于针对字段的融合操作,提取所述目标数据表中所述字段对应的目标数据,并融合输出所述目标数据。2.根据权利要求1所述的方法,其特征在于,所述提取所述目标数据表中所述字段对应的目标数据,包括:基于数据库内核算法,确定所述目标数据表之间的关联强度;从所述目标数据表中选取关联强度高于预设强度阈值的数据表;在选取的数据表中提取所述字段对应的目标数据。3.根据权利要求2所述的方法,其特征在于,所述数据库内核算法包括以下中的一种或多种:路径查找算法、中心度算法、社区发现算法和谱聚类算法。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于不同的数据库ip获取数据库结构;其中,所述数据库结构为存放相关联的有结构的数据库的结构;基于数据库内核算法解析所述数据库结构中各数据库的数据定义信息、数据之间的关联关系、数据血缘关系和/或元数据分组信息;根据解析结果构建所述数据库结构对应的所述知识图谱。5.根据权利要求1或4所述的方法,其特征在于,所述知识图谱中的所述元数据还包括:数据库、系统目录、主题域、对象;所述知识图谱中的所述关系包括:拥有、创建、包含、关联、流向、指向、业务关联、业务拥有、业务连接。6.根据权利要求1所述的方法,其特征在于,所述融合操作包括选取操作和输出操作;所述响应于针对字段的融合操作,提取所述目标数据表中所述字段对应的目标数据,并融合输出所...

【专利技术属性】
技术研发人员:雷涛赵琳曹晓磊郭彦雷
申请(专利权)人:天云融创数据科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1