多源异构数据融合方法、装置以及存储介质制造方法及图纸

技术编号：43185461 阅读：28 留言：0更新日期：2024-11-01 20:09

本申请公开了一种多源异构数据融合方法、装置以及存储介质，涉及数据处理技术领域。该方法包括：获取业务的多源异构数据集，并确定多源异构数据集中的所有数据字段；针对任一数据字段，确定数据字段与业务的各基底字段之间的第一相似度得分和第二相似度得分，并根据各第一相似度得分和各第二相似度得分确定与数据字段关联的关联基底字段；其中，第一相似度得分是数据字段与各基底字段之间的语义相似度得分，第二相似度得分是数据字段与各基底字段之间的字段值相似度得分；根据各数据字段与对应的关联基底字段，将多源异构数据集进行数据融合，得到数据融合结果。以实现标准化、自动化对多源异构数据进行数据融合，提高多源异构数据的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及一种多源异构数据融合方法、装置以及存储介质。

技术介绍

1、随着企业的信息化建设，来自不同领域或主体的数据越来越庞大，但是由于缺乏统一的规范和标准，这些数据往往格式多样、结构不一，从而造成了信息孤岛、数据交互效率低等众多问题，不利于企业的信息化升级。

2、目前，对这些多源异构数据的处理方法往往依赖于人工对数据进行分析和标注，再开发相应的数据接口等方式进行数据融合，但是采用这种方式将多源异构数据进行数据融合效率低下，难以适应数据标准快速变化的环境需求，也无法发挥大数据在智能决策、智能预测等领域的潜力。

技术实现思路

1、本申请的主要目的在于提供一种多源异构数据融合方法、装置以及存储介质，以实现标准化、自动化对多源异构数据进行数据融合，提高多源异构数据的处理效率。

2、为实现上述目的，本申请提供一种多源异构数据融合方法，包括：

3、获取业务的多源异构数据集，并确定所述多源异构数据集中的所有数据字段；

4、针对任一数据字段，确定所述数据字段与所述业务的各基底字段之间的第一相似度得分和第二相似度得分，并根据各所述第一相似度得分和各所述第二相似度得分确定与所述数据字段关联的关联基底字段；其中，所述第一相似度得分是所述数据字段与各所述基底字段之间的语义相似度得分，所述第二相似度得分是所述数据字段与各所述基底字段之间的字段值相似度得分；

5、根据各所述数据字段与对应的关联基底字段，将所述多源异构数据集进行数据融合，得到数据融合结果。

6、可选地，所述针对任一数据字段，确定所述数据字段与所述业务的各基底字段之间的第一相似度得分，包括：将所述数据字段输入至预先训练好的语义相似度模型中，得到所述数据字段与各所述基底字段的所述第一相似度得分，所述语义相似度模型用于将所述数据字段分别与各所述基底字段进行语义相似度对比，得到相应的所述第一相似度得分。

7、可选地，所述针对任一数据字段，确定所述数据字段与所述业务的各基底字段之间的第二相似度得分，包括：确定所述数据字段的所有字段值；在所有所述字段值中随机抽取预设数据量的字段值，并将抽取的字段值输入至预先训练好的编码器模型中，得到各字段值对应的第一特征向量；针对任一字段值，根据所述数据字段字段值的第一特征向量和各所述基底字段字段值的第二特征向量，确定所述数据字段字段值与各所述基底字段字段值的中间相似度得分，所述第二特征向量是利用所述预先训练好的编码器模型对所述基底字段字段值进行特征提取得到的；针对任一基底字段，将各所述字段值与所述基底字段字段值的中间相似度得分进行平均运算，得到所述数据字段与所述基底字段的所述第二相似度得分。

8、可选地，所述根据各所述第一相似度得分和各所述第二相似度得分确定与所述数据字段关联的关联基底字段，包括：针对任一基底字段，将所述数据字段与所述基底字段的所述第一相似度得分和所述第二相似度得分进行加权运算，得到所述数据字段与所述基底字段的总得分；根据所述数据字段与各所述基底字段的所述总得分，从所有所述基底字段中确定所述关联基底字段。

9、可选地，所述业务的多源异构数据集包括至少两组，在确定所述多源异构数据集中的所有数据字段之前，所述方法还包括：设定所述业务的标准字段集，所述标准字段集中包括至少一个所述业务所需的标准字段信息；根据所述标准字段集从所有所述多源异构数据集中确定目标多源异构数据集；确定所述目标多源异构数据集中的所有目标字段；针对任一目标字段，在所述目标字段与对应的标准字段信息语义相关的情况下，将所述目标字段作为所述标准字段信息对应的基底字段。

10、可选地，在将所述多源异构数据集进行数据融合，得到数据融合结果之后，所述方法还包括：针对任一数据字段，确定所述关联基底字段对应的标准字段信息，并将所述数据字段作为该标准字段信息对应的基底字段。

11、可选地，所述获取业务的多源异构数据集，包括：设定所述业务的数据采集方案和数据标准规范；根据所述数据采集方案和所述数据标准规范从各系统中抽取得到所述多源异构数据集。

12、可选地，根据所述数据采集方案和所述数据标准规范从各系统中抽取得到所述多源异构数据集，包括：根据所述数据标准规范对所述多源异构数据集中的数据进行数据清洗和预处理；将经过预处理后的多源异构数据集转换成通用文件格式并进行存储。

13、本申请还提供一种多源异构数据融合装置，包括：数据获取模块，用于获取业务的多源异构数据集，并确定所述多源异构数据集中的所有数据字段；相似度对比模块，用于针对任一数据字段，确定所述数据字段与所述业务的各基底字段之间的第一相似度得分和第二相似度得分，并根据各所述第一相似度得分和各所述第二相似度得分确定与所述数据字段关联的关联基底字段；其中，所述第一相似度得分是所述数据字段与各所述基底字段之间的语义相似度得分，所述第二相似度得分是所述数据字段与各所述基底字段之间的字段值相似度得分；数据融合模块，用于根据各所述数据字段与对应的关联基底字段，将所述多源异构数据集进行数据融合，得到数据融合结果。

14、本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多源异构数据融合方法。

15、本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多源异构数据融合方法。

16、本申请提供的多源异构数据融合方法，通过获取业务的多源异构数据集，并确定多源异构数据集中的所有数据字段；再通过将数据字段与该业务的各基底字段进行语义相似度对比，得到第一相似度得分，以及通过将数据字段的字段值与该业务的各基底字段的字段值进行相似度对比，得到第二相似度得分；再通过第一相似度得分和第二相似度得分确定与数据字段关联的关联基底字段；最后根据数据字段与关联基底字段的关联关系将多源异构数据进行数据融合，由此，基于关联基底字段，将所有相似数据字段对应的数据进行统一和融合，实现了标准化、自动化对多源异构数据进行数据融合，提高了多源异构数据的处理效率。

本文档来自技高网...

【技术保护点】

1.一种多源异构数据融合方法，其特征在于，包括：

2.根据权利要求1所述的多源异构数据融合方法，其特征在于，所述针对任一数据字段，确定所述数据字段与所述业务的各基底字段之间的第一相似度得分，包括：

3.根据权利要求1所述的多源异构数据融合方法，其特征在于，针对任一数据字段，确定所述数据字段与所述业务的各基底字段之间的第二相似度得分，包括：

4.根据权利要求1所述的多源异构数据融合方法，其特征在于，所述根据各所述第一相似度得分和各所述第二相似度得分确定与所述数据字段关联的关联基底字段，包括：

5.根据权利要求1所述的多源异构数据融合方法，其特征在于，所述业务的多源异构数据集包括至少两组，在确定所述多源异构数据集中的所有数据字段之前，所述方法还包括：

6.根据权利要求5所述的多源异构数据融合方法，其特征在于，在将所述多源异构数据集进行数据融合，得到数据融合结果之后，所述方法还包括：

7.根据权利要求1所述的多源异构数据融合方法，其特征在于，所述获取业务的多源异构数据集，包括：

8.根据权利要求7所述的

9.一种多源异构数据融合装置，其特征在于，包括：

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的多源异构数据融合方法。

...

【技术特征摘要】

1.一种多源异构数据融合方法，其特征在于，包括：

5.根据权利要求1所述的多源异构数据融合方法，其特征在于，所述业务的多源异构数据集包括至少两组，在确定所述多源异构数据集中的所有...

【专利技术属性】
技术研发人员：潘光绪，刘凌飞，梅刚，邹启航，赵勇，王委，王栏淋，刘智，蓝箭，谢青松，李嘉乐，
申请(专利权)人：民航成都电子技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人