一种基于分布式计算的多源异构数据集成系统技术方案

技术编号:38324867 阅读:11 留言:0更新日期:2023-07-29 09:07
本发明专利技术涉及数据处理领域,具体涉及一种基于分布式计算的多源异构数据集成系统,用于解决现有的多源异构数据集成系统无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率的问题;该多源异构数据集成系统按照数据源将数据源的数据进行整合,并将其进行分布式储存,使得储存的数据之间互不干扰,保证了数据的安全性,同时避免数据杂乱无章,使其易于被查找,之后将分布储存区进行补充,保证了数据储存空间的充足性,保证了数据储存的稳定性与安全性,保证了储存效率,之后将源数包进行转移,进一步保证了储存空间的充足性,且能够对更多的数据进行储存。且能够对更多的数据进行储存。且能够对更多的数据进行储存。

【技术实现步骤摘要】
一种基于分布式计算的多源异构数据集成系统


[0001]本专利技术涉及数据处理领域,具体涉及一种基于分布式计算的多源异构数据集成系统。

技术介绍

[0002]多源异构数据来自多个数据源,包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同,数据的存储模式和逻辑结构不同,数据的产生时间、使用场所、代码协议等也不同,这造成了数据“多源”的特征,不同类型的数据在形成过程中没有统一的标准,因此造成了数据“异构”的特征。
[0003]申请号为CN201910193469.4的专利公开了一种多源异构数据集成系统及方法。所述系统包括:数据源管理服务器、数据交换服务器、数据流建模服务器、数据流执行管理服务器和数据加密服务器;所述数据加密服务器,对所有涉及到传输的数据进行加密;所述数据源管理服务器,提供与外部异构数据源的接口,实现数据源的注册,提供数据源的地址、局部模式、数据源连接属性,并接收外部异构数据源输出的待集成数据,并将这些数据传送到数据交换服务器;解决当前信息集成系统需要对数据集成功能进行重复开发,以及现有数据集成系统不能满足信息系统需求,以及不灵活、可扩展性差的问题,推动数据集成的应用和发展,但仍然存在以下不足之处:无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率。

技术实现思路

[0004]为了克服上述的技术问题,本专利技术的目的在于提供一种基于分布式计算的多源异构数据集成系统:通过数源管理模块将所相连接的数据源依次标记为源对象,通过分布储存模块将储存空间分成储存区和补存区,并将储存区按照源数值的数值划分成相同数量的分布储存区,并将源数包转移至分布储存区中储存,通过参数获取模块获取分布储存区的占用值,并根据占用值获得均斜值,将所有的分布储存区的均斜值进行相比,获得分配比,通过分布储存模块按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,通过数据转移模块获取补充分布区中源数包的数据转移参数,通过数据集成平台根据数据转移参数获得数移系数,并根据数移系数获得转移对象,通过备用储存模块将分布储存模块中的转移对象转移至备用储存模块中进行储存,解决了现有的多源异构数据集成系统无法合理的对多源异构数据进行储存,无法保证数据的储存稳定性与储存效率的问题。
[0005]本专利技术的目的可以通过以下技术方案实现:一种基于分布式计算的多源异构数据集成系统,包括:数源管理模块,用于将所相连接的数据源依次标记为源对象i,并将来自于源对象i的数据形成源数包Yi,并将源数包Yi发送至数据集成平台;数据集成平台,用于接收到源数包Yi后生成数据储存指令,并将数据储存指令发
送至参数获取模块;还用于根据数据转移参数获得数移系数SY,并根据数移系数SY获得转移对象,并将转移对象发送至备用储存模块;参数获取模块,用于接收到数据储存指令后获取源数值YS,并将源数值YS发送至分布储存模块;还用于接收到参数获取指令后获取分布储存区的占用值ZY,并根据占用值ZY获得均斜值JX,将所有的分布储存区的均斜值JX进行相比,获得分配比,将分配比发送至分布储存模块;分布储存模块,用于将储存空间分成储存区和补存区,并将储存区按照源数值YS的数值划分成相同数量的分布储存区,并将源数包Yi转移至分布储存区中储存;还用于获取源数包Yi的占存比ZC,并根据占存比ZC生成参数获取指令,并将参数获取指令发送至参数获取模块;还用于按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;数据转移模块,用于接收到数据转移指令后获取补充分布区中源数包Yi的数据转移参数,并将数据转移参数发送至数据集成平台;其中,数据转移参数包括储时值CS、查看值CK以及查次值CC;备用储存模块,用于接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。
[0006]作为本专利技术进一步的方案:所述参数获取模块获得分配比的具体过程如下所示:接收到参数获取指令后获取分布储存区中的源数包Yi的占用空间,并将其标记为源占值YZ,获取分布储存区中源数包Yi的总数量,并将其标记为包数值BS,将源占值YZ、包数值BS代入公式中得到占用值ZY,其中,z1、z2分别为源占值YZ、包数值BS的预设比例系数,且z1+z2=1,0<z1<z2<1,取z1=0.46,z2=0.54;以占用值ZY为因变量,获取时间为自变量形成坐标,其中,获取时间为整数天,获取相邻坐标之间的连线的斜率,并将其标记为连斜值LX,获取所有连斜值LX的平均值,并将其标记为均斜值JX;将所有的分布储存区的均斜值JX进行相比,获得分配比;将分配比发送至分布储存模块。
[0007]作为本专利技术进一步的方案:所述数据转移模块获得数据转移参数的具体过程如下所示:接收到数据转移指令后获取补充分布区中源数包Yi的储存时间和当前时间的时间差,并将其标记为储时值CS;获取源数包Yi最近一次的查看时间和当前时间的时间差,并将其标记为查看值CK;获取源数包Yi被查看的总次数,并将其标记为查次值CC;将储时值CS、查看值CK以及查次值CC发送至数据集成平台。
[0008]作为本专利技术进一步的方案:所述数据集成平台获得数移系数SY的具体过程如下所示:接收到储时值CS、查看值CK以及查次值CC后将三者代入公式
得到数移系数SY,其中,π为数学常数,s1、s2、s3分别为储时值CS、查看值CK以及查次值CC的预设权重系数,且s3>s2>s1>1.75,取s1=1.89,s2=2.38,s3=2.67;将数移系数SY与预设的数移阈值SYy进行比较:若数移系数SY>数移阈值SYy,则将数移系数SY所对应的源数包Yi标记为转移对象,并将转移对象发送至备用储存模块。
[0009]作为本专利技术进一步的方案:所述基于分布式计算的多源异构数据集成系统的工作方法包括以下步骤:步骤S1:数源管理模块将所相连接的数据源依次标记为源对象i,i=1、
……
、n,n为自然数;步骤S2:数源管理模块将来自于同一个源对象i的数据按照日期形成一个数据包,并将数据包标记为源数包Yi,并将源数包Yi发送至数据集成平台;步骤S3:数据集成平台接收到源数包Yi后生成数据储存指令,并将数据储存指令发送至参数获取模块;步骤S4:参数获取模块接收到数据储存指令后获取源对象i的个数,并将其标记为源数值YS,并将源数值YS发送至分布储存模块;步骤S5:分布储存模块接收到源数值YS后按照预设分配比例将储存空间分成储存区和补存区,并将储存区按照源数值YS的数值划分成相同数量的分布储存区,且每个分布储存区的储存空间相同;步骤S6:分布储存模块将数据集成平台中的每个源数包Yi分别对应转移至一个分布储存区中储存;步骤S7:分布储存模块获取源数包Yi的占用空间与分布储存区的储存容量之间的比值,并将其标记为占存比ZC,将所有的占存比ZC按照从大到小的顺序进行排序,将位于首位的占存比ZC标记本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式计算的多源异构数据集成系统,其特征在于,包括:数源管理模块,用于将所相连接的数据源依次标记为源对象,并将来自于源对象的数据形成源数包,并将源数包发送至数据集成平台;数据集成平台,用于接收到源数包后生成数据储存指令,并将数据储存指令发送至参数获取模块;还用于根据数据转移参数获得数移系数,并根据数移系数获得转移对象,并将转移对象发送至备用储存模块;参数获取模块,用于接收到数据储存指令后获取源数值,并将源数值发送至分布储存模块;还用于接收到参数获取指令后获取分布储存区的占用值,并根据占用值获得均斜值,将所有的分布储存区的均斜值进行相比,获得分配比,将分配比发送至分布储存模块;分布储存模块,用于将储存空间分成储存区和补存区,并将储存区按照源数值的数值划分成相同数量的分布储存区,并将源数包转移至分布储存区中储存;还用于获取源数包的占存比,并根据占存比生成参数获取指令,并将参数获取指令发送至参数获取模块;还用于按照分配比将补存区划分成若干个子补存区,并将每个子补存区与相对应的分布储存区进行合并,形成补充分布区,同时生成数据转移指令,并将数据转移指令发送至数据转移模块;数据转移模块,用于接收到数据转移指令后获取补充分布区中源数包的数据转移参数,并将数据转移参数发送至数据集成平台;其中,数据转移参数包括储时值、查看值以及查次值;备用储存模块,用于接收到转移对象后将分布储存模块中的转移对象转移至备用储存模块中进行储存。2.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述参数获取模块获得分配比的具体过程如下所示:接收到参数获取指令后获取分布储存区中的源数包的占用空间,并将其标记为源占值,获取分布储存区中源数包的总数量,并将其标记为包数值,将源占值、包数值经过分析得到占用值;以占用值为因变量,获取时间为自变量形成坐标,其中,获取时间为整数天,获取相邻坐标之间的连线的斜率,并将其标记为连斜值,获取所有连斜值的平均值,并将其标记为均斜值;将所有的分布储存区的均斜值进行相比,获得分配比;将分配比发送至分布储存模块。3.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据转移模块获得数据转移参数的具体过程如下所示:接收到数据转移指令后获取补充分布区中源数包的储存时间和当前时间的时间差,并将其标记为储时值;获取源数包最近一次的查看时间和当前时间的时间差,并将其标记为查看值;获取源数包被查看的总次数,并将其标记为查次值;将储时值、查看值以及查次值发送至数据集成平台。4.根据权利要求1所述的一种基于分布式计算的多源异构数据集成系统,其特征在于,所述数据集成平台获得数移系数的具体过程如下所示:
接收到储时值、查看值以及查次值后将三者经过分析得到数移系数;将数移系数与预设的数移阈值进行比较:若数移系数>数移阈值,则将数移系数所对应的源数包标记为转移对象,并将转移对象发送至...

【专利技术属性】
技术研发人员:韩伟易夕冬张天松李碧妍肖连菊黄展鹏高宝军冯康
申请(专利权)人:广东奥飞数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1