一种数据资产识别方法及装置、存储介质及电子设备制造方法及图纸

技术编号：43042525 阅读：14 留言：0更新日期：2024-10-22 14:28

本发明专利技术一种数据资产识别方法及装置、存储介质及电子设备，获取数据文件的元数据信息后，从元数据信息中提取数据文件的使用次数序列，对使用次数序列进行处理，得到时间序列，然后使用时间序列识别数据文件是否为数据资产，可以得到表征数据文件是否满足未来收益条件的未来收益预测结果，进而确定是否将数据文件确定为数据资产。通过对数据文件的元数据信息进行数据挖掘，取得用于识别数据文件是否为数据资产的使用次数序列，深度挖掘出数据文件的相关信息的价值，并且通过建模识别出数据文件是否为数据资产，为企业提供快速识别数据文件是否为数据资产的方案，助力企业进行数据资产的处理工作，减少工作人员的工作量，提高工作效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，特别涉及一种数据资产识别方法及装置、存储介质及电子设备。

技术介绍

1、数据资源是指在数字经济时代，以数字形式存在的、可以被收集、存储、处理、分析、利用的各种信息和数据的集合。它包括结构化数据，如数据库中的表格和字段，以及非结构化数据，如文本、图片、视频、音频等。数据资源广泛存在于各种信息载体中，包括但不限于互联网、企业信息系统、物联网设备、社交媒体平台等。

2、数据资源可以进行计量或交易，能够直接或间接地带来经济效益和社会效益，这样的数据资源可以称为数据资产。在组织拥有的数据资源中，并不是所有的数据资源都可以被视为数据资产，数据资产是那些能够为组织创造价值的数据资源。

3、在识别出数据资产后，可以对数据资产进行分类、分级、评估以及定价，以便对数据资产进行管理和应用。而数据资产作为新经济业态发展的产物，数据资产包括确认和计量在内的识别技术都属于新课题，如何在海量的数据资源中识别数据资产成为工作人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术实施例提供一种数据资产识别方法及装置、存储介质及电子设备，通过应用本专利技术提供的方法，可以快速的在海量的数据资源中识别数据资产，助力企业的数据资产的处理工作，并且整个过程人工参与度少，减少人工投入，提高工作效率。

2、为实现上述目的，本专利技术实施例提供如下技术方案：

3、一种数据资产识别方法，包括：

4、获取各个数据文件的元数据信息；

6、基于各个所述数据文件的使用次数序列，确定每个所述数据文件的时间序列；

7、对于每个所述数据文件，确定所述数据文件的时间序列是否具有随机特性，当所述数据文件的时间序列不具有随机特性时，将所述数据文件的时间序列确定为建模序列，并应用所述建模序列和预设的各个模型参数组合对所述数据文件进行模型预测处理，得到所述数据文件的未来收益预测结果，当所述未来收益预测结果表征为满足未来收益条件时将所述数据文件确定为数据资产。

8、上述的方法，可选的，所述获取各个数据文件的元数据信息，包括：

9、确定各个待识别文件；

10、获取每个所述待识别文件的描述信息；

11、基于各个所述描述信息，将各个所述待识别文件中满足预设的优先识别规则的待识别文件确定为数据资产，并将未满足所述优先识别规则的待识别文件确定为数据文件，并将所述数据文件的描述信息确定为元数据信息。

12、上述的方法，可选的，所述基于各个所述描述信息，将各个所述待识别文件中满足预设的优先识别规则的待识别文件确定为数据资产，包括：

13、确定进行数据资产识别工作的工作开展时间，以及确定优先识别时间步长；

14、基于所述工作开展时间和所述优先识别时间步长确定优先识别时间区间；

15、基于每个所述描述信息，确定每个所述待识别文件的判定时间；

16、对于每个所述待识别文件，确定所述待识别文件的判定时间是否处于所述优先识别时间区间内，若所述待识别文件的判定时间处于所述优先识别时间区间内，则确定所述待识别文件满足所述优先识别规则，并将所述待识别文件确定为数据资产；若所述待识别文件的判定时间不处于所述优先识别时间区间内，则确定所述待识别文件未满足所述优先识别规则。

17、上述的方法，可选的，所述基于所述数据文件的时间序列，确定是否将所述数据文件识别为数据资产，包括：

18、判断所述时间序列是否为白噪声序列；

19、当所述时间序列为白噪声序列时，确定所述时间序列具有随机特性；

20、当所述时间序列不为白噪声序列时，确定所述时间序列不具有随机特性。

21、上述的方法，可选的，所述应用所述建模序列和预设的各个模型参数组合对所述数据文件进行模型预测处理，得到所述数据文件的未来收益预测结果，包括：

22、构建预测模型，将各个所述模型参数组合进行排序，得到组合序列；

23、将所述组合序列中的第一个模型参数组合确定为目标模型参数组合；

24、基于所述目标模型参数组合更新所述预测模型的模型参数，并使用更新模型参数后的预测模型对所述建模序列进行处理，输出预测使用次数序列，所述预测使用次数序列中包含所述数据文件在预设的各个第二时间区间的预测使用次数；

25、当所述预测使用次数序列中存在大于0的预测使用次数时，生成表征所述数据文件满足未来收益条件的未来收益预测结果；

26、当所述预测使用次数序列中不存在大于0的预测使用次数时，判断所述目标模型参数组合是否为所述组合序列中的最后一个模型参数组合；

27、当所述目标模型参数组合不为所述组合序列中的最后一个模型参数组合时，将所述组合序列中位于所述目标模型参数组合的下一模型参数组合，作为新的目标模型参数组合，并返回执行基于所述目标模型参数组合更新所述预测模型的模型参数，并使用更新模型参数后的预测模型对所述建模序列进行处理，输出预测使用次数序列的步骤；

28、当所述目标模型参数组合为所述组合序列中的最后一个模型参数组合时，生成表征所述数据文件不满足未来收益条件的未来收益预测结果。

29、上述的方法，可选的，还包括：

30、将每个未确定为数据资产的数据文件确定为第一目标数据文件，以及将通过模型预测处理确定为数据资产的数据文件确定为第二目标数据文件；

31、基于各个所述第一目标数据文件的使用次数序列和各个所述第二目标数据文件的使用次数序列，确定每个所述第一目标数据文件的特征相似度序列，所述特征相似度序列中包含所述第一目标数据文件与每个所述第二目标数据文件的特征相似度；

32、对于每个所述第一目标数据文件，当所述第一目标数据文件的特征相似度序列中存在满足预设的阈值要求时，将所述第一目标数据文件确定为数据资产。

33、一种数据资产识别装置，包括：

34、第一获取单元，用于获取各个数据文件的元数据信息；

35、第二获取单元，用于基于各个所述数据文件的元数据信息，获取每个所述数据文件的使用次数序列，所述使用次数序列中包含所述数据文件在预设的每个第一时间区间的使用次数；

36、第一确定单元，用于基于各个所述数据文件的使用次数序列，确定每个所述数据文件的时间序列；

37、识别单元，用于对于每个所述数据文件，确定所述数据文件的时间序列是否具有随机特性，当所述数据文件的时间序列不具有随机特性时，将所述数据文件的时间序列确定为建模序列，并应用所述建模序列和预设的各个模型参数组合对所述数据文件进行模型预测处理，得到所述数据文件的未来收益预测结果，当所述未来收益预测结果表征为满足未来收益条件时将所述数据文件确定为本文档来自技高网...

【技术保护点】

1.一种数据资产识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取各个数据文件的元数据信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于各个所述描述信息，将各个所述待识别文件中满足预设的优先识别规则的待识别文件确定为数据资产，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述数据文件的时间序列是否具有随机特性，包括：

5.根据权利要求1所述的方法，其特征在于，所述应用所述建模序列和预设的各个模型参数组合对所述数据文件进行模型预测处理，得到所述数据文件的未来收益预测结果，包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，还包括：

7.一种数据资产识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一获取单元，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1-6任意一项所述的数据资产识别方法。

10.一种

...

【技术特征摘要】

1.一种数据资产识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取各个数据文件的元数据信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述数据文件的时间序列是否具有随机特性，包括：

...

【专利技术属性】
技术研发人员：郭振江，王海洋，潘冲，彭博，
申请(专利权)人：北京国际大数据交易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人