System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于分布式计算的多源异构数据集成系统技术方案_技高网

一种基于分布式计算的多源异构数据集成系统技术方案

技术编号:42906790 阅读:7 留言:0更新日期:2024-09-30 15:23
本发明专利技术公开了一种基于分布式计算的多源异构数据集成系统,本发明专利技术涉及数据集成领域,包括数据集成平台,数据集成平台中包括数据采集模块、数据储存模块、数据预处理模块、数据分配模块以及数据集成模块;数据采集模块用于采集企业账号内的多源异构数据和负载数据;数据储存模块用于储存历史多源异构数据;数据预处理模块用于根据历史多源异构数据设置分布式格式化处理网络,并根据其负载数据选择分布式格式化处理节点对多源异构数据进行格式统一处理;数据分配模块设置分布式计算处理网络,并对其进行任务分配;数据集成模块根据任务分配结果完成数据处理,获取待集成数据,对其进行集成处理;本发明专利技术提高了数据集成的效率。

【技术实现步骤摘要】

本专利技术涉及数据集成领域,具体是一种基于分布式计算的多源异构数据集成系统


技术介绍

1、多源机构数据集成系统是指将来自不同来源、不同类型、不同结构的数据整合到统一的平台或系统中,包括数据提取、转换、加载等功能,以确保能够被有效地整合和管理,其通常用于企业中,帮助企业将分散在不同系统、数据库或文件中的数据进行整合,从而支持数据分析、报告、决策等业务需求;

2、公开号为cn116483840a的一种基于分布式计算的多源异构数据集成系统公开了一种基于分布式计算的多源异构数据集成系统,用于解决现有的多源异构数据集成系统无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率的问题;该多源异构数据集成系统按照数据源将数据源的数据进行整合,并将其进行分布式储存,使得储存的数据之间互不干扰,保证了数据的安全性,同时避免数据杂乱无章,使其易于被查找,之后将分布储存区进行补充,保证了数据储存空间的充足性,保证了数据储存的稳定性与安全性,保证了储存效率,之后将源数包进行转移,进一步保证了储存空间的充足性,且能够对更多的数据进行储存;

3、然而,多源异构数据集成过程中的步骤繁琐,仅对其集成过程进行分布式计算,不能够全面提高企业账户中数据集成的效率,且数据集成过程中,仅能根据固定好的集成方式对数据信息进行集成处理,无法对数据集成系统进行灵活运用;因此,如何提高数据集成系统的效率和灵活性是我们需要解决的问题,为此,现提供一种基于分布式计算的多源异构数据集成系统。


技术实现思路p>

1、为了解决上述技术问题,本专利技术的目的在于提供一种基于分布式计算的多源异构数据集成系统。

2、本专利技术的目的可以通过以下技术方案实现:一种基于分布式计算的多源异构数据集成系统,包括数据集成平台,所述数据集成平台通信链接有数据采集模块、数据储存模块、数据预处理模块、数据分配模块、分布式计算模块以及数据集成模块;

3、所述数据采集模块用于采集企业账号内对应的多源异构数据以及分布式节点的负载数据,根据多源异构数据的数据来源,并根据数据来源对其进行标记;

4、所述数据储存模块用于根据企业账号中对应的多源异构数据的数据来源对其进行储存,获取其历史多源异构数据;

5、所述数据预处理模块用于根据企业账号对应的历史多源异构数据设置分布式格式化处理网络,根据分布式格式化处理网络对应的负载数据选择对应的分布式格式化处理节点对多源异构数据进行格式统一处理,获取多源异构数据对应的特征数据;

6、所述数据分配模块用于根据多源异构数据对应的特征数据的数据来源对其进行来源标记,设置分布式计算处理网络,根据来源标记和负载数据将多源异构数据的特征数据进行任务分配;

7、所述数据集成模块根据任务分配结果对特征数据进行计算,获取待集成数据,根据不同数据来源的待集成数据之间的关系设置快速集成节点进行集成处理,并根据企业账号需求设置临时集成节点,对待集成数据进行集成处理。

8、进一步的,所述数据采集模块采集企业账号内对应的多源异构数据以及分布式节点的负载数据的过程包括:

9、所述数据集成平台获取企业验证信息,所述企业验证信息中包括对应的组织结构和企业资质信息,所述组织结构为企业内各个组织部门的关系,其中包括多个组织部门,对所获得的企业验证信息设置企业账号;

10、所述数据采集模块中设置有数据采集单元和负载采集单元;

11、所述数据采集单元用于获取对应企业账号对应的组织结构,根据企业账号对应的组织结构生成关联窗口集;所述关联窗口集中包括各个组织部门对应的关联子窗口;所述关联子窗口获取对应企业账号内对应组织部门内对应的多源异构数据,将所获得的多源异构数据根据其组织部门进行标记,并将其发送至数据预处理模块;

12、所述负载采集单元用于采集该平台内分布式节点的负载数据,将所采集到的负载数据根据分布式节点的类型进行标记,根据标记结果分别发送至数据预处理模块和数据分配模块。

13、进一步的,所述数据储存模块根据企业账号中对应的多源异构数据的数据来源对其进行储存,获取其历史多源异构数据的过程包括:

14、所述数据储存模块获取对应企业账号的组织结构,根据企业账号的组织结构设置数据储存空间集,所述数据储存空间集根据企业账号对其进行标记,其中包括与组织结构内对应组织部门相应的数据储存子空间,所述数据储存子空间用于获取企业账号内对应组织部门所获取的历史多源异构数据和其格式处理结果,并将其记为历史数据对,对各个历史数据对进行标记储存。

15、进一步的,所述数据预处理模块根据企业账号对应的历史多源异构数据设置分布式格式化处理网络的过程包括:

16、所述数据预处理模块中设置有格式化网络构建单元;

17、所述格式化网络构建单元用于根据企业账号设置对应的分布式格式化处理网络,获取该企业账号对应数据储存空间集中各个数据储存子空间内所储存的历史数据对,并对其数据量进行统计,获取各个数据储存子空间内所储存的数据量,获取对应数据储存空间集内所储存数据量的综合总值;预设数据监测周期,获取数据监测周期内对应数据储存子空间内所储存数据量的周期占比值,根据数据监测周期内对应的周期占比值对应的平均占比值;根据各个数据监测周期内对应的周期占比值设置波动占比区间,获取各个数据储存子空间波动占比区间的下限占比值和平均占比值,预设固定节点系数,根据下限占比值、平均占比值和固定节点系数进行分析处理,获取各个数据储存子空间对应的固定分布式处理节点占比值;

18、根据各个储存子空间对应的固定分布式节点占比值对其分配对应数据量的固定分布式格式化处理节点,完成分配后,将剩余的分布式格式化处理节点标记为弹性分布式格式化处理节点;将固定分布式格式化处理节点和弹性分布式格式化处理节点的分布情况设置分布式格式化处理网络。

19、进一步的,所述数据预处理模块根据分布式格式化处理网络对多源异构数据进行格式统一处理的过程包括:

20、所述数据预处理模块中设置格式化处理单元;

21、所述格式化处理单元获取分布式格式化处理网络中对应数据储存子空间对应的固定分布式格式化处理节点对应的格式化处理节点负载数据以及对应组织部门所采集到的多源异构数据;获取多源异构数据的待处理数据量;根据格式化处理节点负载数据获取空载数据;将所获得的空载数据与待处理数据量进行对比分析,当空载数据大于等于待处理数据量时,则由对应的固定分布式格式化处理节点对多源异构数据进行格式统一处理;当空载数据小于待处理数据量时,则获取其差值数据,根据差值数据获取对应的弹性分布式格式化处理节点对多源异构数据进行格式统一处理;

22、所述格式化处理单元对完成格式统一处理的多源异构数据进行特征提取,其中预设有企业账号相关的特征提取算法,基于特征提取算法对多源异构数据进行分析处理,获取其对应的特征数据。

23、进一步的,所述数据分配模块设置分布式本文档来自技高网...

【技术保护点】

1.一种基于分布式计算的多源异构数据集成系统,包括数据集成平台,其特征在于,所述数据集成平台通信链接有数据采集模块、数据储存模块、数据预处理模块、数据分配模块以及数据集成模块;

2.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据采集模块采集企业账号内对应的多源异构数据以及分布式节点的负载数据的过程包括:

3.根据权利要求2所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据储存模块根据企业账号中对应的多源异构数据的数据来源对其进行储存,获取其历史多源异构数据的过程包括:

4.根据权利要求3所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据预处理模块根据企业账号对应的历史多源异构数据设置分布式格式化处理网络的过程包括:

5.根据权利要求4所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据预处理模块根据分布式格式化处理网络对多源异构数据进行格式统一处理的过程包括:

6.根据权利要求5所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据分配模块设置分布式计算处理网络,将多源异构数据的特征数据进行任务分配的过程包括:

7.根据权利要求6所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据集成模块根据任务分配结果对特征数据进行计算的过程包括:

8.根据权利要求7所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述用户管理单元用于对应企业账号内工作人员临时集成节点,所述临时集成节点内根据工作人员需求选择不同组织部门的待集成数据,根据工作人员的需求选择对待集成数据进行集成处理。

...

【技术特征摘要】

1.一种基于分布式计算的多源异构数据集成系统,包括数据集成平台,其特征在于,所述数据集成平台通信链接有数据采集模块、数据储存模块、数据预处理模块、数据分配模块以及数据集成模块;

2.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据采集模块采集企业账号内对应的多源异构数据以及分布式节点的负载数据的过程包括:

3.根据权利要求2所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据储存模块根据企业账号中对应的多源异构数据的数据来源对其进行储存,获取其历史多源异构数据的过程包括:

4.根据权利要求3所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据预处理模块根据企业账号对应的历史多源异构数据设置分布式格式化处理网络的过程包括:

5.根...

【专利技术属性】
技术研发人员:杨振幅韩永亮韩亚玲杨增桃薛永张聪龙许亚男
申请(专利权)人:冠林科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1