星型并行单主题多源数据融合方法、介质、设备及系统技术方案

技术编号:38845592 阅读:11 留言:0更新日期:2023-09-17 09:56
本发明专利技术涉及一种星型并行单主题多源数据融合方法、介质、设备及系统,设置对应多源数据的总表,对应总表设可扩展的子表;总表、子表配置信息,通过子表信息匹配总表;子表内容按策略融合至对应总表;基于方法实现介质、设备;系统以数据服务器存储总表及总表信息,若干用户端实现子表数据读取、写入及总表数据读取,配置单元配置总表信息、下发子表信息、分配新子表,数据融合单元基于策略处理子表数据后融合至总表。本发明专利技术的每个源对子表数据独立操作并融合,可获取对应总表的最新数据;实现并行融合,融合结果永远可用,显著提升数据融合的并行度和效率;实现不同应用业务并行处理,实现基于需求增加任务,任务量原则上无上限。任务量原则上无上限。任务量原则上无上限。

【技术实现步骤摘要】
星型并行单主题多源数据融合方法、介质、设备及系统


[0001]本专利技术涉及电数字数据处理的
,特别涉及一种星型并行单主题多源数据融合方法、介质、设备及系统。

技术介绍

[0002]大数据(big data),是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。随着物联网、人工智能、5G等技术的不断突破与发展,全球的数据源和数据量越来越大,所产生的数据的读写、存储需求量不容忽视。
[0003]ETL(Extract

Transform

Load)被用来描述将数据从源端经过抽取(extract)、转换 (transform)和加载(load)直至目的端的过程,能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏”数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,使得这些数据成为数据分析、挖掘的基石。
[0004]然而,传统的ETL在处理多源数据融合的需求时,往往存在时序依赖、融合过程混乱、融合结果不可用等问题,这严重影响了数据融合的并行度和效率,并将造成部分数据的冗余、及另部分数据的缺失,进而导致调用方的操作不便,无法实现对于数据的顺畅应用。当多个(如十几个)任务读取与生成的数据存在较大相关性且数据体量较大(数亿到数百亿)时,提升系统的并行度与吞吐量与融合效率具有较大价值,而在保障数据共享的前提下消减任务中依赖待攻克的解决问题。

技术实现思路

[0005]本专利技术解决了现有技术中存在的问题,提供了一种星型并行单主题多源数据融合方法、介质、设备及系统。
[0006]本专利技术所采用的技术方案是,一种星型并行单主题多源数据融合方法,所述方法设置对应多源数据的总表,用于融合全局,所述总表可扩展,对应所述总表设置可扩展的子表;配合所述总表配置总表信息,所述子表配置有子表信息,通过子表信息与总表匹配;子表数据按策略融合至对应的总表。
[0007]优选地,所述总表信息包括对应任一总表的第一ID和总表标识单元,所述总表划分为若干分组,任一分组对应一子表;对应任一子表的分组配置有若干属性,任一分组的属性间不重复。
[0008]优选地,所述总表标识单元包括对应总表的识别码和第一版本号。
[0009]优选地,所述子表信息包括对应任一分组的第二ID、对应的若干属性和子表标识单元,第二ID与第一ID通过对应的分组关联。
[0010]优选地,所述子表标识单元包括对应总表的识别码和第二版本号。
[0011]优选地,处理子表的数据,不同子表间数据通过第二版本号去重,去重后的子表数据基于对应总表的识别码融合至对应的总表。
[0012]优选地,相同第二ID关联的数据的有效性由第二版本号决定;数据融合后,总表包括总表标识单元及各子表融合时的第二版本号,根据版本号确定最终融合内容。
[0013]本专利技术中,相同ID关联数据的有效性由版本决定,版本号越大表征数据越新,被保留,总表数据含总表的版本号(第一版本号),以及各个子表在融合时的第二版本号,故可以根据ID中的各个子表融合时的第二版本号与当下当前子表的最新版本号确定最终的融合内容。
[0014]一种计算机可读存储介质,其上存储有星型并行单主题多源数据融合程序,该程序被处理器执行时实现上述星型并行单主题多源数据融合方法。
[0015]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述星型并行单主题多源数据融合方法。
[0016]一种星型并行单主题多源数据融合系统,所述系统包括:一数据服务器,用于存储总表及总表信息;若干用户端,用于实现子表的数据读取、写入及总表的数据读取;一配置单元,用于配置总表信息、下发子表信息、分配新的子表;一数据融合单元,用于基于策略将子表的数据处理后融合至总表。
[0017]本专利技术涉及一种星型并行单主题多源数据融合方法、介质、设备及系统,方法设置对应多源数据的总表,对应总表设置可扩展的子表;配合总表配置总表信息,子表配置子表信息,通过子表信息与总表匹配;子表内容按策略融合至对应的总表;基于方法完成计算机可读存储介质、计算机设备的实现;系统以数据服务器存储总表及总表信息,以若干用户端实现子表的数据读取、写入及总表的数据读取,以配置单元配置总表信息、下发子表信息、分配新的子表,以数据融合单元基于策略将子表的数据处理后融合至总表。
[0018]本专利技术的有益效果在于,(1)消除传统ETL在处理多源融合中的时序依赖、融合结果不可用等问题;(2)每个源对于子表的数据可以独立操作并实现融合,可以获取对应总表的最新数据;(3)实现并行融合,融合结果永远可用,显著提升数据融合的并行度和效率;(4)实现不同应用业务的并行处理,并可以实现基于需求增加任务,任务量原则上无上限。
附图说明
[0019]图1为本专利技术的方法示意图;图2为本专利技术的实施例示意图;图3为本专利技术的系统结构框图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]如图1所示,本专利技术涉及一种星型并行单主题多源数据融合方法,所述方法设置对应多源数据的总表,所述总表可扩展,对应所述总表设置可扩展的子表;配合所述总表配置总表信息,所述子表配置有子表信息,通过子表信息与总表匹配;子表数据按策略融合至对应的总表。
[0022]本专利技术中,总表用于对多源数据进行融合、汇总及存储,配合总表设置可扩展的子表,每个子表对应总表中的部分数据,在子表可扩展的前提下,总表中的数据可扩充;显然,对于子表对应的总表中的数据池,通过子表实现新数据的写入及融合,但这些新数据不直接写入总表。
[0023]本专利技术中,对应总表和子表分别配置有总表信息和子表信息,通过这些配置信息实现子表与总表的匹配,进而满足包括但不限于子表数据融合至总表、通过子表读取总表的部分数据。
[0024]本专利技术中,子表数据按策略融合至对应的总表,此处的策略一般由技术人员预设于系统,由系统基于包括但不限于时间(段)、内容(量)进行自动触发。
[0025]如图2所示,在上述实施例的基础上,所述总表信息包括对应任一总表的第一ID和总表标识单元,所述总表划分为若干分组,任一分组对应一子表;对应任一子表的分组配置有若干属性,任一分组的属性间不重复。
[0026]本专利技术中,对任一总表配置总表信息,以第一ID作为当前总表的索引,同时设置总表标识单元,满足子表数据相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种星型并行单主题多源数据融合方法,其特征在于:所述方法设置对应多源数据的总表,所述总表可扩展,对应所述总表设置可扩展的子表;配合所述总表配置总表信息,所述子表配置有子表信息,通过子表信息与总表匹配;子表数据按策略融合至对应的总表。2.根据权利要求1所述的一种星型并行单主题多源数据融合方法,其特征在于:所述总表信息包括对应任一总表的第一ID和总表标识单元,所述总表划分为若干分组,任一分组对应一子表;对应任一子表的分组配置有若干属性,任一分组的属性间不重复。3.根据权利要求2所述的一种星型并行单主题多源数据融合方法,其特征在于:所述总表标识单元包括对应总表的识别码和第一版本号。4.根据权利要求2所述的一种星型并行单主题多源数据融合方法,其特征在于:所述子表信息包括对应任一分组的第二ID、对应的若干属性和子表标识单元,第二ID与第一ID通过对应的分组关联。5.根据权利要求4所述的一种星型并行单主题多源数据融合方法,其特征在于:所述子表标识单元包括对应总表的识别码和第二版本号。6.根据权利要求5所述的一种星型并行单主题多源数据...

【专利技术属性】
技术研发人员:陈宇飞张琴秦学
申请(专利权)人:浙江融象数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1