数据治理方法和系统技术方案

技术编号:39491363 阅读:15 留言:0更新日期:2023-11-24 11:13
本发明专利技术涉及数据处理技术领域,提供一种数据治理方法和系统,获取至少一个数据模块中的存量数据,筛选出存量数据中的关键数据;对关键数据进行标准化处理,确定数据标准;基于数据标准生成规则,基于所述规则校验数据模块中的存量数据和

【技术实现步骤摘要】
数据治理方法和系统


[0001]本专利技术涉及数据处理
,尤其涉及一种数据治理方法和系统


技术介绍

[0002]当前,数字经济已经成为推动经济高质量发展的重要引擎

作为企业的核心资产,充分利用数据驱动业务创新与发展,已经成为各个行业的共识

在传统制造企业的数字化转型过程中,数据已成为推动企业数字化

网络化

智能化发展的关键生产要素,但制造企业流程长,数据贯穿于产品研发设计

生产制造

工艺流程

采供销

物流

售后服务

企业经营管理

运维服务等各个环节,各系统数据量庞大且冗杂,如何解决数据孤岛

提高企业数据质量

统一数据标准,释放数据价值,进而让数据更好地服务并赋能业务是制造业企业数字化面临的重要挑战

[0003]如图1所示,其为现有的一种制造业的数据系统的结构,在这一系统中包含分布于不同子系统间的多个数据模块,如产品数据管理
(Product Data Management

PDM)
数据模块
41
,企业资源计划
(Enterprise Resource Planning

ERP)
数据模块
42
,生产执行系统
(Manufacturing Execution System

MES)
数据模块
43
,运行维护
(Maintenance,Repair&Operations

MRO)
数据模块
44
,质量管理系统
(Quality management system

QMS)
数据模块
45
,仓储管理系统
(Warehouse Management System

WMS)
数据模块
46
等,这些数据模块可以存储不同的数据,不同数据模块分别彼此相连,数据模块中的数据格式杂乱,数据整合难度高,导致难以对各个数据模块中的存量数据进行标准化,以及难以对新增的数据进行约束使其符合标准,使得数据的易用性差


技术实现思路

[0004]本专利技术提供一种数据治理方法和系统,用以解决现有技术中数据系统中各个数据模块的数据格式杂乱,数据整合难度高,数据维护的及时性和准确性不一致,导致难以对各个数据模块中的存量数据进行标准化,以及难以对新增的数据进行约束使其符合标准的缺陷,实现对各个模块中的存量数据进行标准化,以及对新增数据进行约束使其符合标准

[0005]本专利技术提供一种数据治理方法,包括:
[0006]获取至少一个数据模块中的存量数据;
[0007]筛选出所述存量数据中的关键数据;
[0008]对所述关键数据进行标准化处理,确定数据标准;
[0009]基于所述数据标准生成规则;
[0010]基于所述规则校验所述存量数据和
/
或规范新增数据,将校验后的所述存量数据和
/
或规范后的所述新增数据作为标准数据

[0011]根据本专利技术提供的一种数据治理方法,筛选出所述存量数据中的关键数据,包括:
[0012]计算所述存量数据中各个数据的重要度;
[0013]基于所述重要度对各个数据进行排序;
[0014]选择排在前面的预设数量的数据作为关键数据

[0015]根据本专利技术提供的一种数据治理方法,计算所述存量数据中各个数据的重要度,包括:
[0016]计算所述存量数据中每个数据的初始引用度度:
[0017](
α
CI
n
+(1

α
)*(DI
n
+SA
x
))

[0018]其中,
α
为阻尼系数,
CI
n
为第
n
个数据的引用度,
DI
n
为第
n
个数据的完整度,
SA
x

x
周期下的稳定性,
x
为时间周期;
[0019]根据数据的被引用情况叠加引用度:
[0020][0021]其中,
p
为数据总数;
Out
n
为第
n
个数据引用节点的出链数;
[0022]计算数据的重要度:
[0023][0024]其中,
TR
为重要度;
[0025]进行迭代计算直至重要度趋于平稳,得到最终的重要度结果

[0026]根据本专利技术提供的一种数据治理方法,所述引用度的计算包括:
[0027]CI

(SQ
n
+50*US
n
)
[0028]其中,
SQ
n
为第
n
个服务的查询数;
US
n
为第
n
个服务的下游使用用户数;
[0029]所述稳定性的计算包括:
[0030]计算统计周期:
[0031]Cycle
h

(30*24

En
h
)/(30*24)
[0032]Cycle
d

(30

En
d
)/30
[0033]Cycle
w

(7

En
w
)/7
[0034]其中,
Cycle
h
为以小时为时间单位的统计周期,
Cycle
d
为以天为时间单位的统计周期,
Cycle
w
为以周为时间单位的统计周期,
En
h
为以小时为单位的时间周期内未按时产出的报警次数,
En
d
为以天为单位的时间周期内未按时产出的报警次数,
En
w
为以周为单位的时间周期内未按时产出的报警次数;
[0035]计算稳定性:
[0036]SA
x

(Cycle
x
*100)

[0037]其中,
x
为时间周期

[0038]根据本专利技术提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据治理方法,其特征在于,包括:获取至少一个数据模块中的存量数据;筛选出所述存量数据中的关键数据;对所述关键数据进行标准化处理,确定数据标准;基于所述数据标准生成规则;基于所述规则校验所述存量数据和
/
或规范新增数据,将校验后的所述存量数据和
/
或规范后的所述新增数据作为标准数据
。2.
根据权利要求1所述的数据治理方法,其特征在于,筛选出所述存量数据中的关键数据,包括:计算所述存量数据中各个数据的重要度;基于所述重要度对各个数据进行排序;选择排在前面的预设数量的数据作为关键数据
。3.
根据权利要求2所述的数据治理方法,其特征在于,计算所述存量数据中各个数据的重要度,包括:计算所述存量数据中每个数据的初始引用度:
(
α
CI
n
+(1

α
)*(DI
n
+SA
x
))
,其中,
α
为阻尼系数,
CI
n
为第
n
个数据的引用度,
DI
n
为第
n
个数据的完整度,
SA
x

x
周期下的稳定性,
x
为时间周期;根据数据的被引用情况叠加引用度:其中,
p
为数据总数;
Out
n
为第
n
个数据引用节点的出链数;计算数据的重要度:其中,
TR
为重要度;进行迭代计算直至重要度趋于平稳,得到最终的重要度结果
。4.
根据权利要求3所述的数据治理方法,其特征在于,所述引用度的计算包括:
CI

(SQ
n
+50*US
n
)
其中,
SQ
n
为第
n
个服务的查询数;
US
n
为第
n
个服务的下游使用用户数;所述稳定性的计算包括:计算统计周期:
Cycle
h

(30*24

En
h
)/(30*24)Cycle
d

(30

En
d
)/30Cycle
w

(7

En
w
)/7
其中,
Cycle
h
为以小时为时间单位的统计周期,

【专利技术属性】
技术研发人员:张士存姜喜民王川顾佳张珍文
申请(专利权)人:中车青岛四方机车车辆股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1