星型并行单主题多源数据融合方法、介质、设备及系统技术方案

技术编号：38845592 阅读：11 留言：0更新日期：2023-09-17 09:56

本发明专利技术涉及一种星型并行单主题多源数据融合方法、介质、设备及系统，设置对应多源数据的总表，对应总表设可扩展的子表；总表、子表配置信息，通过子表信息匹配总表；子表内容按策略融合至对应总表；基于方法实现介质、设备；系统以数据服务器存储总表及总表信息，若干用户端实现子表数据读取、写入及总表数据读取，配置单元配置总表信息、下发子表信息、分配新子表，数据融合单元基于策略处理子表数据后融合至总表。本发明专利技术的每个源对子表数据独立操作并融合，可获取对应总表的最新数据；实现并行融合，融合结果永远可用，显著提升数据融合的并行度和效率；实现不同应用业务并行处理，实现基于需求增加任务，任务量原则上无上限。任务量原则上无上限。任务量原则上无上限。

全部详细技术资料下载

【技术实现步骤摘要】
星型并行单主题多源数据融合方法、介质、设备及系统

[0001]本专利技术涉及电数字数据处理的
，特别涉及一种星型并行单主题多源数据融合方法、介质、设备及系统。

技术介绍

[0002]大数据(big data)，是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。随着物联网、人工智能、5G等技术的不断突破与发展，全球的数据源和数据量越来越大，所产生的数据的读写、存储需求量不容忽视。
[0003]ETL(Extract
‑
Transform
‑
Load)被用来描述将数据从源端经过抽取(extract)、转换 (transform)和加载(load)直至目的端的过程，能够对各种分布的、异构的源数据（如关系数据）进行抽取，按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏”数据内容进行清洗，得到符合要求的“干净”数据，并加载到数据仓库中进行存储，使得这些数据成为数据分析、挖掘的基石。
[0004]然而，传统的ETL在处理多源数据融合的需求时，往往存在时序依赖、融合过程混乱、融合结果不可用等问题，这严重影响了数据融合的并行度和效率，并将造成部分数据的冗余、及另部分数据的缺失，进而导致调用方的操作不便，无法实现对于数据的顺畅应用。当多个（如十几个）任务读取与生成的数据存在较大相关性且数据体量较大（数亿到数百亿）时，提升系统的并行度与吞吐量与融合效率具有较大...

【技术保护点】

【技术特征摘要】
1.一种星型并行单主题多源数据融合方法，其特征在于：所述方法设置对应多源数据的总表，所述总表可扩展，对应所述总表设置可扩展的子表；配合所述总表配置总表信息，所述子表配置有子表信息，通过子表信息与总表匹配；子表数据按策略融合至对应的总表。2.根据权利要求1所述的一种星型并行单主题多源数据融合方法，其特征在于：所述总表信息包括对应任一总表的第一ID和总表标识单元，所述总表划分为若干分组，任一分组对应一子表；对应任一子表的分组配置有若干属性，任一分组的属性间不重复。3.根据权利要求2所述的一种星型并行单主题多源数据融合方法，其特征在于：所述总表标识单元包括对应总表的识别码和第一版本号。4.根据权利要求2所述的一种星型并行单主题多源数据融合方法，其特征在于：所述子表信息包括对应任一分组的第二ID、对应的若干属性和子表标识单元，第二ID与第一ID通过对应的分组关联。5.根据权利要求4所述的一种星型并行单主题多源数据融合方法，其特征在于：所述子表标识单元包括对应总表的识别码和第二版本号。6.根据权利要求5所述的一种星型并行单主题多源数据...

【专利技术属性】
技术研发人员：陈宇飞，张琴，秦学，
申请(专利权)人：浙江融象数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人