System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 异源数据处理方法、装置、电子设备和计算机可读介质制造方法及图纸_技高网

异源数据处理方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:41623971 阅读:10 留言:0更新日期:2024-06-13 02:24
本公开的实施例公开了异源数据处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:获取异源数据组集和预设存储数据库集;对异源数据组集包括的各个异源数据进行分类处理;对分类数据组集中的每个分类数据组包括的各个分类数据进行标准化处理;对所生成的各个标准化数据组包括的各个标准化数据进行聚类处理;确定每个聚类数据组包括的各个聚类数据的特征信息;获取每个预设存储数据库对应的数据库特征组;确定数据特征信息与数据库特征组集中的每个数据库特征组的相似度;从相似度集中选取出满足第一预设条件的相似度作为目标相似度,以及将聚类数据组存储至预设存储数据库中。该实施方式减少了对数据进行检索的时间。

【技术实现步骤摘要】

本公开的实施例涉及计算机,具体涉及异源数据处理方法、装置、电子设备和计算机可读介质


技术介绍

1、随着大数据环境的不断发展,数据的获取来源往往包括多个不同的数据源,如何对异源数据进行处理成为一项重要的研究课题。目前,在对异源数据进行处理时,通常采用的方式为:将异源数据清洗后存储在单一的数据库中。

2、然而,实践中发现,采用上述方式对异源数据进行处理时,经常会存在如下技术问题一:异源数据包括多个领域,且数据量较大,存储单一数据库时,对数据检索的复杂度较大,需要耗费较长时间对数据进行检索。

3、在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题二:异源数据中往往存在大量敏感数据和隐私数据,将数据明文存储至数据库后,数据库的数据可能会泄露,导致数据安全性较低。针对上述技术问题二,常规的解决方案一般是:将数据加密后存储至数据库。然而,上述常规解决方案依然存在如下问题:数据加密后,检索数据需要先将加密的数据进行解密后,从解密出的数据中检索,导致计算资源的浪费。

4、在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题三:数据库在存储数据时,可能因数据库不稳定导致数据丢失。针对上述技术问题三,常规的解决方案一般是:对数据库存储的数据进行备份。然而,常规的解决方案依然存在如下问题:备份的数据量较大时,需要耗费较长的时间对数据进行恢复。

5、该
技术介绍
部分中所公开的以上信息仅用于增强对本专利技术构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了异源数据处理方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。

3、第一方面,本公开的一些实施例提供了一种异源数据处理方法,该方法包括:获取异源数据组集和预设存储数据库集,其中,上述预设存储数据库集中的预设存储数据库对应有数据库格式;对上述异源数据组集包括的各个异源数据进行分类处理,以生成分类数据组集;对上述分类数据组集中的每个分类数据组包括的各个分类数据进行标准化处理,以生成标准化数据组;对所生成的各个标准化数据组包括的各个标准化数据进行聚类处理,以生成聚类数据组集;确定上述聚类数据组集中的每个聚类数据组包括的各个聚类数据的特征信息,作为数据特征信息;对于上述聚类数据组集中的每个聚类数据组,执行如下选取步骤:获取上述预设存储数据库集中的每个预设存储数据库对应的数据库特征组,得到数据库特征组集;确定上述聚类数据组对应的数据特征信息与上述数据库特征组集中的每个数据库特征组的相似度,以生成相似度集;从上述相似度集中选取出满足第一预设条件的相似度作为目标相似度,以及将上述聚类数据组存储至上述目标相似度对应的预设存储数据库中。

4、第二方面,本公开的一些实施例提供了一种异源数据处理装置,装置包括:获取单元,被配置成获取异源数据组集和预设存储数据库集,其中,上述预设存储数据库集中的预设存储数据库对应有数据库格式;分类单元,被配置成对上述异源数据组集包括的各个异源数据进行分类处理,以生成分类数据组集;标准化单元,被配置成对上述分类数据组集中的每个分类数据组包括的各个分类数据进行标准化处理,以生成标准化数据组;聚类单元,被配置成对所生成的各个标准化数据组包括的各个标准化数据进行聚类处理,以生成聚类数据组集;确定单元,被配置成确定上述聚类数据组集中的每个聚类数据组包括的各个聚类数据的特征信息,作为数据特征信息;选取单元,被配置成对于上述聚类数据组集中的每个聚类数据组,执行如下选取步骤:获取上述预设存储数据库集中的每个预设存储数据库对应的数据库特征组,得到数据库特征组集;确定上述聚类数据组对应的数据特征信息与上述数据库特征组集中的每个数据库特征组的相似度,以生成相似度集;从上述相似度集中选取出满足第一预设条件的相似度作为目标相似度,以及将上述聚类数据组存储至上述目标相似度对应的预设存储数据库中。

5、第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

6、第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

7、本公开的上述各个实施例中具有如下有益效果:通过本公开的一些实施例的异源数据处理方法,减少了对数据进行检索的时间。具体来说,造成需要消耗较长时间对数据进行检索的原因在于:异源数据包括多个领域,且数据量较大,存储单一数据库时,对数据检索的复杂度较大,需要耗费较长时间对数据进行检索。基于此,本公开的一些实施例的异源数据处理方法,首先,获取异源数据组集和预设存储数据库集。由此,可以获取到异源数据和用于存储异源数据的数据库。其次,对上述异源数据组集包括的各个异源数据进行分类处理,以生成分类数据组集。由此,可以按照异源数据的数据类型进行分类处理。然后,对上述分类数据组集中的每个分类数据组包括的各个分类数据进行标准化处理,以生成标准化数据组。由此,可以对数据进行标准化处理,以使得数据的尺寸和范围相同。之后,对所生成的各个标准化数据组包括的各个标准化数据进行聚类处理,以生成聚类数据组集。由此,可以按照预先设定的类别,对标准化处理后的异源数据进行聚类。再然后,确定上述聚类数据组集中的每个聚类数据组包括的各个聚类数据的特征信息,作为数据特征信息。由此,可以确定每个聚类数据组的特征信息。之后,对于上述聚类数据组集中的每个聚类数据组,执行如下选取步骤:第一,获取上述预设存储数据库集中的每个预设存储数据库对应的数据库特征组,得到数据库特征组集。由此,可以确定不同数据库的数据库特征。第二,确定上述聚类数据组对应的数据特征信息与上述数据库特征组集中的每个数据库特征组的相似度,以生成相似度集;从上述相似度集中选取出满足第一预设条件的相似度作为目标相似度,以及将上述聚类数据组存储至上述目标相似度对应的预设存储数据库中。由此,可以通过数据特征信息,为不同的聚类数据组选取相匹配的数据库以进行存储,从而可以在需要检索数据时按照数据类型和数据的特征快速检索到所需要的数据,减少了对数据进行检索的时间。

本文档来自技高网...

【技术保护点】

1.一种异源数据处理方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述分类数据组集中的每个分类数据组包括的各个分类数据进行标准化处理,以生成标准化数据组,包括:

3.根据权利要求2所述的方法,其中,在所述确定所述分类数据组对应的数据格式之前,所述处理步骤还包括:

4.根据权利要求3所述的方法,其中,所述确定所述去重后数据包括的数据值是否为无效数据,包括:

5.根据权利要求2所述的方法,其中,所述根据所述数据配置信息和所述数据格式,对所述分类数据组中的每个分类数据进行标准化处理,以生成标准化数据,包括:

6.一种异源数据处理装置,包括:

7.一种电子设备,包括:

8.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至5中任一所述的方法。

【技术特征摘要】

1.一种异源数据处理方法,包括:

2.根据权利要求1所述的方法,其中,所述对所述分类数据组集中的每个分类数据组包括的各个分类数据进行标准化处理,以生成标准化数据组,包括:

3.根据权利要求2所述的方法,其中,在所述确定所述分类数据组对应的数据格式之前,所述处理步骤还包括:

4.根据权利要求3所述的方法,其中,所述确定所述去重后数据包括的数据值是否为无...

【专利技术属性】
技术研发人员:丁广告魏星冯蒙蒙徐起陈超张乳燕陈银良董山李丹栗圆韩艺嘉
申请(专利权)人:中关村科学城城市大脑股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1