【技术实现步骤摘要】
一种基于结构化数据构建权威数据源的通用方法
[0001]本专利技术涉及数据业务化建模分析
,具体涉及一种基于结构化数据构建权威数据源的通用方法
。
技术介绍
[0002]随着企业规模发展,业务逐渐涵盖人财物等企业管理各领域,覆盖建设
、
生产
、
营销等多个专业,具有数据类型多
、
业务跨度大
、
专业性强等特点
。
随着企业数字化转型发展,数据分析
、
跨专业应用等需求层出不穷,数据冗余
、
数据质量不高
、
数据问题认责不清
、
数据链路监测能力不足等问题也愈发凸显,影响数据价值进一步发挥
。
企业在权威数据构建过程中数据大量冗余存储
、
历史状态不可溯
、
模型扩展困难
、
误操作数据难恢复等技术难题
。
在企业权威数据源构建领域,引入新的数据存储模型分析模式来解决上述问题是当前的研究热点之一
。
技术实现思路
[0003]专利技术目的:本专利技术的目的是提供一种基于结构化数据构建权威数据源的通用方法,针对企业业务数据在各阶段
、
各部门数据口径不一
、
同一数据重复存储
、
外部数据各自接入等常见问题
,
既解决了数据质量问题,又解决了数据应用问题,满足了企业对数据管理需求
。r/>[0004]技术方案:本专利技术所述的一种基于结构化数据构建权威数据源的通用方法,包括以下步骤:
[0005](1)
业务实体提取;
[0006](2)
业务模型构建;
[0007](3)
变化敏感列标识及数据加载;
[0008](4)
关系模型构建
。
[0009]进一步的,所述步骤
(1)
具体为:对业务基表中属性进行数据抽象,提炼出若干个业务实体
。
[0010]进一步的,所述步骤
(2)
具体如下:以业务实体提为核心建模,包括:主键
、
相关列和时间戳
。
[0011]进一步的,所述步骤
(3)
具体如下:首先,标识出各业务实体中变化敏感列;敏感列作为
ETL
判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用
ETL
工具将业务基表数据导入各业务实体
。
[0012]进一步,所述步骤
(4)
具体如下:根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化
。
[0013]本专利技术所述的一种基于结构化数据构建权威数据源的通用系统,其特征在于,包括以下模块:
[0014]提取模块:用于业务实体提取;
[0015]业务模型构建模块:用于业务模型构建;
[0016]标识及加载模块:用于变化敏感列标识和数据加载;
[0017]关系模型构建模块:用于关系模型构建
。
[0018]进一步的,提取模块中,对业务基表中属性进行数据抽象,提炼出若干个业务实体
。
[0019]进一步的,业务模型构建模块中,以业务实体提为核心建模,包括:主键
、
相关列和时间戳
。
[0020]进一步额,标识及加载模块中,首先,标识出各业务实体中变化敏感列;敏感列作为
ETL
判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用
ETL
工具将业务基表数据导入各业务实体
。
[0021]进一步的,关系模型构建模块中,根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化
。
[0022]有益效果:与现有技术相比,本专利技术具有如下显著优点:通过设置变化敏感列从而减少因非关注字段变化而造成的数据无效存储问题,数据操作模式更为精简;因的分离,新增的业务主体间关系不再需要重新设计,而只需增加一张业务主体关系即可,具有更高的扩展性
。
附图说明
[0023]图1为本专利技术的示意图
。
具体实施方式
[0024]下面结合附图对本专利技术的技术方案作进一步说明
。
[0025]如图1所示,本专利技术实施例提供了一种基于结构化数据构建权威数据源的通用方法,包括以下步骤:
[0026](1)
业务实体提取;具体为:对业务基表中属性进行数据抽象,提炼出若干个业务实体
。
[0027](2)
业务模型构建;具体如下:以业务实体提为核心建模,包括:主键
、
相关列和时间戳
。
[0028](3)
变化敏感列标识及数据加载;具体如下:首先,标识出各业务实体中变化敏感列;敏感列作为
ETL
判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用
ETL
工具将业务基表数据导入各业务实体
。
[0029](4)
关系模型构建
。
具体如下:根据业务实体间的业务关系构建关系模型;关系模型描述各业务实体间的关联关系,可随业务需求变化而不断变化
。
[0030]本实施例以电网项目管理业务场景中某一应用实例来描述本方法的具体实施方式
。
[0031]假设有如下原始数据表:表1[0032][0033](1)
业务主体提取
[0034]对于项目执行信息基表,提取出项目
、
设备
、
承建方三个业务主体;
[0035](2)
主体建模
[0036]分别以项目
、
设备
、
承建方三个业务主体为核心建模,不妨命名为项目信息表表
2、
设备信息表表3和承建方表表4;模型列包括主键
、
相关列和时间戳
。.
[0037]表2:
[0038][0039]表3:
[0040][0041]表4:
[0042][0043](3)
标识变化敏感列
[0044]不妨选择项目属性
1、
设备属性1和承建方属性1为变化敏感列,将这些列作为判断数据变化的依据
。
[0045](4)
实体数据加载
[0046]此处选择
ETL
工具
Kettle
设置数据抽取源为项目执行基表,数据接收表为项目信息表
、
设备信息表
、
承本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于结构化数据构建权威数据源的通用方法,其特征在于,包括以下步骤:
(1)
业务实体提取;
(2)
业务模型构建;
(3)
变化敏感列标识及数据加载;
(4)
关系模型构建
。2.
根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤
(1)
具体为:对业务基表中属性进行数据抽象,提炼出若干个业务实体
。3.
根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤
(2)
具体如下:以业务实体提为核心建模,包括:主键
、
相关列和时间戳
。4.
根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤
(3)
具体如下:首先,标识出各业务实体中变化敏感列;敏感列作为
ETL
判断数据是插入还是更新的依据;敏感列数据发生变化时更新记录,否则插入新记录;然后使用
ETL
工具将业务基表数据导入各业务实体
。5.
根据权利要求1所述的一种基于结构化数据构建权威数据源的通用方法,其特征在于,所述步骤
(4)
具体如下:根据业务实体间的业务关系构...
【专利技术属性】
技术研发人员:王清源,吴宏伟,
申请(专利权)人:江苏瑞中数据股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。