一种智能化数据资产识别的方法技术

技术编号:30908868 阅读:23 留言:0更新日期:2021-11-22 23:55
本发明专利技术属于信息技术领域,尤其是涉及一种智能化数据资产识别的方法,包括以下步骤:通过在数据管控平台上实现这四类数据资产的自动化识别,需要建立机制监测这四类数据资产物理映射的元数据;基础数据资产分布在各核心业务系统,可通过定时监测各核心业务系统的元数据来识别新增的基础数据资产和已经删除需要解挂下线的数据资产;指标数据资产主要分布在大数据平台和数据应用或报表系统中,针对指标数据资产的识别,通过介入大数据平台和数据应用或报表系统报表需求管理流程来实现。本发明专利技术根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的。的目的。的目的。

【技术实现步骤摘要】
一种智能化数据资产识别的方法


[0001]本专利技术涉及信息
,尤其涉及一种智能化数据资产识别的方法。

技术介绍

[0002]“数据资产运营”作为重要的建设内容之一,以实现业务价值为导向,以数据资产使用部门为中心,为企业不同层面数据资产使用部门提供数据便利,设计数据资产评价体系,建立数据资产内部共享和运营流通等机制,从而进一步推动某某企业数据使用、数据共享,降低数据资产成本,促进数据价值发挥,目前市面上对于资产的管理方式主要还是以手工记账的管理方式为主,由于管理资产众多、盘点工作繁重、物品属性复杂,需占用大量的人力物力,而且管理者对固定资产的历史操作和资产统计工作异常困难,此外资产随着使用年限的增加,残存值也在不断下降,这就很可能导致资产统计不准确、资产流失和资产重复购买等多种问题。
[0003]为更好的提升企业数据资产运营效率,计划应用AI技术进行数据资产运营自动化领域进行探索,确定相关智能化场景和落地方式,以便集成至相关系统平台,以提高数据资产运营的相关工作效率,降低人工出错几率,我们提出一种智能化数据资产识别的方法来改善上述问题。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种智能化数据资产识别的方法。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]一种智能化数据资产识别的方法,所述数据资产智能识别包括基础数据资产识别、指标数据资产识别、非结构化数据资产和外部数据资产识别,所述数据资产智能识别的方法包括以下步骤:
[0007]S1、通过在数据管控平台上实现这四类数据资产的自动化识别,需要建立机制监测这四类数据资产物理映射的元数据;
[0008]S2、基础数据资产分布在各核心业务系统,可通过定时监测各核心业务系统的元数据来识别新增的基础数据资产和已经删除需要解挂下线的数据资产;
[0009]S3、指标数据资产主要分布在大数据平台和数据应用或报表系统中,针对指标数据资产的识别,通过介入大数据平台和数据应用或报表系统报表需求管理流程来实现;
[0010]S4、非结构化数据资产分布在各业务部门中,在搭建所内统一知识库实现所内非结构化数据资产集中存储共享后,可通过对统一知识库元数据的定时监测,实现对非结构化数据资产的自动识别;
[0011]S5、外部数据资产为各业务部门日常在且有产生业务价值的外部数据信息,通过数据资产智能识别场景针对应用于非结构化数据资产中的外部数据资产的智能识别。
[0012]在上述的智能化数据资产识别的方法中,所述步骤S1中元数据包括技术元数据和
业务元数据,技术元数据的采集,根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的,并且对于元数据管理工具支持的格式可直接进行导入,而对于一些自定义的规则,需要进行格式转换并导入。
[0013]在上述的智能化数据资产识别的方法中,所述数据管控平台应具备CSV适配器、XML适配器、DB适配器和API接入适配器,以支持大数据平台、统一知识库元数据的顺利接入,且数据管控平台应具有数据资产识别引擎,该引擎可根据基础数据资产、指标数据资产、非结构化数据资产准入规则,识别新增的各类数据资产。
[0014]在上述的智能化数据资产识别的方法中,所述步骤S2中基础数据资产通过大数据平台ODS层和DW层的元数据比对,识别出可能新增和变更的基础数据资产信息,对基础数据资产目录和资产项进行补充和完善;建立大数据平台常用系统表名关键字和系统控制字段名关键字的“过滤库”,用于对新增和变更的元数据进行识别筛选。
[0015]在上述的智能化数据资产识别的方法中,所述步骤S3中指标数据资产来自于大数据平台报表元数据,根据比对可以识别新增和变更的元数据信息,进而根据指标数据资产准入规则对新增和变更的元数据信息进行判别,识别新的指标数据资产。
[0016]在上述的智能化数据资产识别的方法中,所述步骤S5中外部数据资产分为两类包括:被指标数据资产所引用的外部数据信息项和被内部非结构化数据资产所引用的外部数据资产项目,针对这两类外部数据资产,其主要满足的规则如下:对于指标因子,判断该外部数据信息项有没有被内部指标所引用;对于重要标签,判断该外部数据信息项有没有被内部非结构化数据资产所引用。
[0017]在上述的智能化数据资产识别的方法中,针对各类数据资产,通过设计适配于各类数据资产智能管理模型,并且该模型应可根据数据资产名称、定义、来源等属性,与资产分类树进行智能匹配,推荐合适的数据资产挂载点,以提高工作效率,降低人工出错几率。
[0018]在上述的智能化数据资产识别的方法中,所述数据资产智能挂载的核心是对文本的自动化分类,建立、选择适当的分类规则从而进行正确分类的这一过程,其建立分类规则的基本过程是:先从已分类结果中倒推寻找分类规则,即先从已分类的训练文本中根据不同类别的文本所具有的不同特征;进而搜寻提取到一定准确、适当的分类规则;再将待分类文本按照以上规则进行归类;最终使得分类结果与目标结果相一致;
[0019]所述文本分类用计算公式如式(1

1)所示可定义为如下:
[0020]F(D,C)={True,False}
ꢀꢀꢀ
(1

1)
[0021]上述公式(4

1)中,集合D={d1,d2,

,di,

dn}是指待分类的文本集合,其中,di表示其中的第i个待分类文本,而n是指待分类文本集合D中包含待分类文本的数量大小,集合C={c1,c2,

,cj,

cm} 则是指我们预先定义的类别集合,其中cj表示其中的第j个类别,而 m是指类别集合C中所预先定义的类别数量;而F函数,在这代表的是一种映射关系,若F(di,cj)=True,则代表数据集合中第i个待分类文本di它的分类结果是第j个类别cj;反之,若F(di,cj)=False,则是指数据集合中第i个待分类文本di的分类结果并不是第j个类别cj,数学集合中的映射概念存在有一对一、一对多这两种映射关系,同理在文本分类中也可以分为单标签分类和多标签分类。
[0022]在上述的智能化数据资产识别的方法中,在拿到数据集后的第一个处理步骤是对
文本数据进行数据预处理操作,这一过程中,按照处理顺序我们需要对文本数据进行如下操作:文本标记、分词以及去除停用词处理,且经过文本预处理环节之后再对文本数据进行文本表示环节,具体的利用VSM模型对文本D进行文本表示,词项以及词项的权重值将成为文本表示这个模型的组成部分,文本D就能被n个词项以及他们的权重值所组成的特征向量代表,表示形式如下: D={(t1,w1),(t2,w2),

,(ti,wj),

(tn,wn)},其中ti,wj分别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能化数据资产识别的方法,其特征在于,所述数据资产智能识别包括基础数据资产识别、指标数据资产识别、非结构化数据资产和外部数据资产识别,所述数据资产智能识别的方法包括以下步骤:S1、通过在数据管控平台上实现这四类数据资产的自动化识别,需要建立机制监测这四类数据资产物理映射的元数据;S2、基础数据资产分布在各核心业务系统,可通过定时监测各核心业务系统的元数据来识别新增的基础数据资产和已经删除需要解挂下线的数据资产;S3、指标数据资产主要分布在大数据平台和数据应用或报表系统中,针对指标数据资产的识别,通过介入大数据平台和数据应用或报表系统报表需求管理流程来实现;S4、非结构化数据资产分布在各业务部门中,在搭建所内统一知识库实现所内非结构化数据资产集中存储共享后,可通过对统一知识库元数据的定时监测,实现对非结构化数据资产的自动识别;S5、外部数据资产为各业务部门日常在且有产生业务价值的外部数据信息,通过数据资产智能识别场景针对应用于非结构化数据资产中的外部数据资产的智能识别。2.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S1中元数据包括技术元数据和业务元数据,技术元数据的采集,根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的,并且对于元数据管理工具支持的格式可直接进行导入,而对于一些自定义的规则,需要进行格式转换并导入。3.根据权利要求2所述的一种智能化数据资产识别的方法,其特征在于,所述数据管控平台应具备CSV适配器、XML适配器、DB适配器和API接入适配器,以支持大数据平台、统一知识库元数据的顺利接入,且数据管控平台应具有数据资产识别引擎,该引擎可根据基础数据资产、指标数据资产、非结构化数据资产准入规则,识别新增的各类数据资产。4.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S2中基础数据资产通过大数据平台ODS层和DW层的元数据比对,识别出可能新增和变更的基础数据资产信息,对基础数据资产目录和资产项进行补充和完善;建立大数据平台常用系统表名关键字和系统控制字段名关键字的“过滤库”,用于对新增和变更的元数据进行识别筛选。5.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S3中指标数据资产来自于大数据平台报表元数据,根据比对可以识别新增和变更的元数据信息,进而根据指标数据资产准入规则对新增和变更的元数据信息进行判别,识别新的指标数据资产。6.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S5中外部数据资产分为两类包括:被指标数据资产所引用的外部数据信息项和被内部非结构化数据资产所引用的外部数据资产项目,针对这两类外部数据资产,其主要满足的规则如下:对于指标因子,判断该外部数据信息项有没有被内部指标所引用;对于重要标签,判断该外部数据信息项有没有被内部非结构化数据资产所引用。7.根据权利要求1

6任一所述的一种智能化数据资产识别的方法,其特征在于,针对各类数据资产,通过设计适配于各类数据资产智能管理模型,并且该模型应可根据数据资产
名称、定义、来源等属性,与资产分类树进行智能匹配,推荐合适的数据资产挂载点,以提高工作效率,降低人工出错几率。8.根据权利要求7所述的一种智能化数据资产识别的方法,其特征在于,所述数据资产智能挂载的核心是对文本的自动化分类,建立、选择适当的分类规则从而进行正确分类的这一过程,其建立分类规则的基本过程是:先从已分类结果中倒推寻找分类规则,即先从已分类的训练文本中根据不同类别的文本所具有的不同特征;进而搜寻提取到一定准确、适当的分类规则;再将待分类文本按照以上规则进行归类;最终使得分类结果与目标结果相一致;所述文本分类用计算公式如式(1

1)所示可定义为如下:F(D,C)={True,False}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1
‑<...

【专利技术属性】
技术研发人员:林松郝艳丰陆鸿强马力徐渊博李刚华姚东鸿林永东
申请(专利权)人:上海罗盘信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1