System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于卷积神经网络的数据治理优化方法及系统技术方案_技高网

一种基于卷积神经网络的数据治理优化方法及系统技术方案

技术编号:40435380 阅读:17 留言:0更新日期:2024-02-22 23:00
本申请公开了一种基于卷积神经网络的数据治理优化方法及系统,对于管理难度较大、数据成分较为复杂、数据难与预设的维度对齐的数据库,采用本说明书中的方法,在接收到数据查询请求之前,无论数据库的数据存储情况如何、无论数据库的具体管理手段如何,通过对卷积神经网络进行训练的方式,使得卷积神经网络学习到数据库包含的各个子库的数据的特征。一方面,通过以管理、监督目的的数据处理,实现了对数据的治理。另一方面,得到的模型为进一步地减少监督、管理资源的消耗提供了条件。

【技术实现步骤摘要】

本申请涉及适用于管理、监督或预测目的的数据处理,尤其涉及一种基于卷积神经网络的数据治理优化方法及系统


技术介绍

1、数据治理技术的发展惠及众多领域,为人们的生产、生活提供了较大的便利。

2、数据治理的目的之一是对数据进行管理,以便于数据的后续使用。然而,实际情况是,被采集到的数据未必能够严格的和数据管理方预设的维度对其,这就使得在后续的数据使用过程中,出现了数据查找、分类困难的问题,有碍于提高数据的使用效率。

3、在该领域中,相关技术人员以提出有效的治理数据的技术手段为研究目标之一。例如,公开(公告)号:cn115936496b,专利标题:“水质预测模型数据治理标准化方法”(主分类号:g06q10/0639),基于所述监测断面水质水文气象表,对监测断面水质进行预测,实现了数据治理的标准化。

4、一方面,能够说明监督或预测目的的数据处理技术在数据治理相关
大有可为;另一方面,也能够说明在该领域的技术挖掘还具有较为宽泛的扩展前景。


技术实现思路

1、本申请实施例提供了一种基于卷积神经网络的数据治理优化方法及系统,以至少部分的解决上述技术问题。

2、本申请实施例采用下述技术方案:

3、第一方面,本申请实施例提供一种基于卷积神经网络的数据治理优化方法,所述方法包括:

4、对预设的数据库中的数据进行分库处理,得到第一数量个子库;

5、针对所述子库中的数据进行采样,分别得到各自对应的样本集;

>6、从所述样本集中确定出第一集;所述第一集是包含的数据为非空数据的数量大于预设的数量阈值的样本集,除所述第一集以外的样本集,作为第二集;

7、将所述第一集中为非空的数据对应于预设的维度的字段标记为第一标记,其他字段标记为第二标记,得到所述第一集的特征图;

8、将所述第二集中的数据包含的非空的字段标记为第一标记,其他字段标记为第二标记,得到所述第二集的特征图;

9、确定所述第一集的特征图和所述第二集的特征图的标签;所述标签是对所述特征图按照所述维度进行压缩得到的,所述标签包含的表征值用于表征所述特征图对应于所述维度的内容密度,以及所述维度的标识;

10、采用所述第一集的特征图,以及所述第一集的特征图的标签,训练待训练的卷积神经网络,得到第一模型;

11、采用所述第一集和第二集的特征图,以及所述第一集和第二集的特征图的标签,训练所述待训练的卷积神经网络,得到第二模型;以得到所述第一模型的训练过程和得到所述第二模型的训练过程的迭代次数相同的情况下,模型的收敛程度的差异不大于预设的差异阈值为目标,进行训练;

12、基于所述第二模型进行数据查询。

13、在本说明书一个可选的实施例中,基于所述第二模型进行数据查询,包括:

14、在接收到数据查询请求时,基于所述数据查询请求对所述数据库中的数据进行查询,得到待定结果;

15、将基于所述待定结果构建的查询特征图输入所述第二模型,得到所述查询特征图的标签;

16、将与所述查询特征图的标签相似度最大的所述第一集的特征图或所述第二集的特征图的标签对应的所述子库,作为目标库;

17、将所述待定结果中属于所述目标库的数据,作为目标数据。

18、在本说明书一个可选的实施例中,所述第一数量与所述数据库在距当前时刻的第一指定历史时间段内的访问频率正相关。

19、在本说明书一个可选的实施例中,所述采样是随机采样。

20、在本说明书一个可选的实施例中,所述差异阈值与所述第一集的数量和所述第二集的数量的比值负相关。

21、在本说明书一个可选的实施例中,所述方法还包括:

22、在对所述数据库中的数据进行分库处理之后,若接收到需要录入所述数据库的数据,则其存储至另外新建立的子库中。

23、在本说明书一个可选的实施例中,所述方法还包括:

24、若所述数据库在距当前时刻的第二指定历史时间段内的访问频率小于预设的频率阈值,则重新对所述数据库中的数据重新进行分库处理。

25、第二方面,本申请实施例还提供一种基于卷积神经网络的数据治理优化系统,所述系统包括:

26、分库模块,配置为:对预设的数据库中的数据进行分库处理,得到第一数量个子库;

27、采样模块,配置为:针对所述子库中的数据进行采样,分别得到各自对应的样本集;

28、集合确定模块,配置为:从所述样本集中确定出第一集;所述第一集是包含的数据为非空数据的数量大于预设的数量阈值的样本集,除所述第一集以外的样本集,作为第二集;

29、第一特征图构建模块,配置为:将所述第一集中为非空的数据对应于预设的维度的字段标记为第一标记,其他字段标记为第二标记,得到所述第一集的特征图;

30、第二特征图构建模块,配置为:将所述第二集中的数据包含的非空的字段标记为第一标记,其他字段标记为第二标记,得到所述第二集的特征图;

31、打标模块,配置为:确定所述第一集的特征图和所述第二集的特征图的标签;所述标签是对所述特征图按照所述维度进行压缩得到的,所述标签包含的表征值用于表征所述特征图对应于所述维度的内容密度,以及所述维度的标识;

32、第一模型训练模块,配置为:采用所述第一集的特征图,以及所述第一集的特征图的标签,训练待训练的卷积神经网络,得到第一模型;

33、第二模型训练模块,配置为:采用所述第一集和第二集的特征图,以及所述第一集和第二集的特征图的标签,训练所述待训练的卷积神经网络,得到第二模型;以得到所述第一模型的训练过程和得到所述第二模型的训练过程的迭代次数相同的情况下,模型的收敛程度的差异不大于预设的差异阈值为目标,进行训练;

34、查询模块,配置为:基于所述第二模型进行数据查询。

35、第三方面,本申请实施例还提供一种电子设备,包括:

36、处理器;以及

37、被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。

38、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法步骤。

39、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:

40、对于管理难度较大、数据成分较为复杂、数据难与预设的维度对齐的数据库,采用本说明书中的方法,在接收到数据查询请求之前,无论数据库的数据存储情况如何、无论数据库的具体管理手段如何,通过对卷积神经网络进行训练的方式,使得卷积神经网络学习到数据库包含的各个子库的数据的特征。则在后续的数据查询的过程中,可以通过训练后的神经网络对查询得到的结果进行筛选,则即便是查询结果中本文档来自技高网...

【技术保护点】

1.一种基于卷积神经网络的数据治理优化方法,其特征在于,所述方法包括:

2.如权利要求1所述方法,其特征在于,基于所述第二模型进行数据查询,包括:

3.如权利要求1所述方法,其特征在于,所述第一数量与所述数据库在距当前时刻的第一指定历史时间段内的访问频率正相关。

4.如权利要求1所述方法,其特征在于,所述采样是随机采样。

5.如权利要求1所述方法,其特征在于,所述差异阈值与所述第一集的数量和所述第二集的数量的比值负相关。

6.如权利要求1所述方法,其特征在于,所述方法还包括:

7.如权利要求1所述方法,其特征在于,所述方法还包括:

8.一种基于卷积神经网络的数据治理优化系统,其特征在于,所述系统包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7之任一所述方法。

【技术特征摘要】

1.一种基于卷积神经网络的数据治理优化方法,其特征在于,所述方法包括:

2.如权利要求1所述方法,其特征在于,基于所述第二模型进行数据查询,包括:

3.如权利要求1所述方法,其特征在于,所述第一数量与所述数据库在距当前时刻的第一指定历史时间段内的访问频率正相关。

4.如权利要求1所述方法,其特征在于,所述采样是随机采样。

5.如权利要求1所述方法,其特征在于,所述差异阈值与所述第一集的数量和所述第二集的数量的比值...

【专利技术属性】
技术研发人员:徐凯程岳高峰
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1