System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据清洗处理方法、装置和计算机设备制造方法及图纸_技高网

数据清洗处理方法、装置和计算机设备制造方法及图纸

技术编号:41363188 阅读:6 留言:0更新日期:2024-05-20 10:12
本申请涉及一种数据清洗处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待清洗数据;利用预设的编码算法,对所有所述待清洗数据进行编码,得到每个所述待清洗数据对应的编码系数;利用所述编码系数以及预设的分组阈值,将所述待清洗数据添加至对应的小组中;其中,所述小组中包括历史清洗数据;计算所述待清洗数据与对应小组的其他数据的相似度,在所述相似度满足预设阈值的情况下,将所述待清洗数据与所述其他数据进行合并,得到目标数据集。采用本方法能够实时性地对数据进行清洗,极大地增加了数据清洗的速率。

【技术实现步骤摘要】

本申请涉及大数据,特别是涉及一种数据清洗处理方法、装置、计算机设备、存储介质和计算机程序产品。


技术介绍

1、随着大数据技术的发展,出现了数据清洗技术,该技术主要是对数据进行预处理,例如识别和去除数据中的重复记录、剔除和校正非法的数据等。目前,相似数据的清洗主要是通过欧式距离、余弦、皮尔森系数等来确定数据的相似度,然而这些方法由于计算成本较高且需要大量的计算资源和时间,所以通常需要预先离线批处理,而离线批处理需要等待一批数据积累到一定量之后才会处理,导致离线批处理耗时较长,进而影响了数据清洗的速率。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够数据清洗处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种数据清洗处理方法。所述方法包括:

3、获取待清洗数据;

4、利用预设的编码算法,对所有所述待清洗数据进行编码,得到每个所述待清洗数据对应的编码系数;

5、利用所述编码系数以及预设的分组阈值,将所述待清洗数据添加至对应的小组中;其中,所述小组中包括历史清洗数据;

6、计算所述待清洗数据与对应小组的其他数据的相似度,在所述相似度满足预设阈值的情况下,将所述待清洗数据与所述其他数据进行合并,得到目标数据集。

7、在其中一个实施例中,所述待清洗数据以及所述历史清洗数据均存在数据优先级,其中,所述优先级为根据数据来源的优先级确定;所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

8、在所述待清洗数据和所述其他数据存在相同数据标识的情况下,取优先级高的数据的所述数据标识的对应数据,得到所述数据标识对应的合并数据,并将所述合并数据添加至目标数据集;

9、在所述待清洗数据和所述其他数据存在不相同的数据标识的情况下,将两个数据分别对应的数据标识的数据均添加至目标数据集。

10、在其中一个实施例中,所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

11、请求合并数据所需要的分布式锁;其中,所述分布式锁是根据请求时间依次获取;所述分布式锁用于对两数据进行数据合并时,所述两数据中的任一方不会与第三方数据进行交互;

12、在请求到所述分布式锁的情况下,将所述待清洗数据与所述其他数据进行合并;并在合并结束后,释放所述分布式锁。

13、在其中一个实施例中,所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

14、将所述待清洗数据与所述其他数据进行合并,得到初始数据集;

15、根据所述初始数据集,查找与所述初始数据集对应的数据库,并将存在于数据库中且不存在与初始数据集中的数据合并至初始数据集,得到目标数据集。

16、在其中一个实施例中,所述计算所述待清洗数据与对应小组的其他数据的相似度,包括:

17、依次对待清洗数据与对应小组的其他数据进行协方差计算,得到所述待清洗数据与所述其他数据的初始相似度;

18、依次对所述待清洗数据的标准差与所述其他数据的标准差进行求积运算,得到所述待清洗数据与所述其他数据的相似系数;

19、对所述待清洗数据与所述其他数据的初始相似度与对应的相似系数进行求商运算,得到所述待清洗数据与所述其他数据的相似度。

20、在其中一个实施例中,所述获取待清洗数据集,包括:

21、获取待清洗的文本数据以及非文本数据;

22、根据预设的自然语言处理模型对非文本数据进行异步抽取,得到所述非文本数据对应的转换数据;

23、将所述文本数据以及所述转换数据,确定为待清洗数据。

24、第二方面,本申请还提供了一种数据清洗处理装置,所述装置包括:

25、数据获取模块,用于获取待清洗数据;

26、数据编码模块,用于利用预设的编码算法,对所有所述待清洗数据进行编码,得到每个所述待清洗数据对应的编码系数;

27、数据分组模块,用于利用所述编码系数以及预设的分组阈值,将所述待清洗数据添加至对应的小组中;其中,所述小组中包括历史清洗数据;

28、数据合并模块,用于计算所述待清洗数据与对应小组的其他数据的相似度,在所述相似度满足预设阈值的情况下,将所述待清洗数据与所述其他数据进行合并,得到目标数据集。

29、在其中一个实施例中,所述数据合并模块,包括:

30、数据合并子模块,用于在所述待清洗数据和所述其他数据存在相同数据标识的情况下,取优先级高的数据的所述数据标识的对应数据,得到所述数据标识对应的合并数据,并将所述合并数据添加至目标数据集;

31、数据合并子模块,还用于在所述待清洗数据和所述其他数据存在不相同的数据标识的情况下,将两个数据分别对应的数据标识的数据均添加至目标数据集。

32、在其中一个实施例中,所述数据合并模块,包括:

33、数据合并子模块,还用于请求合并数据所需要的分布式锁;其中,所述分布式锁是根据请求时间依次获取;所述分布式锁用于对两数据进行数据合并时,所述两数据中的任一方不会与第三方数据进行交互;

34、数据合并子模块,还用于在请求到所述分布式锁的情况下,将所述待清洗数据与所述其他数据进行合并;并在合并结束后,释放所述分布式锁。

35、在其中一个实施例中,所述数据合并模块,包括:

36、数据合并子模块,还用于将所述待清洗数据与所述其他数据进行合并,得到初始数据集;

37、数据扩展子模块,用于根据所述初始数据集,查找与所述初始数据集对应的数据库,并将存在于数据库中且不存在与初始数据集中的数据合并至初始数据集,得到目标数据集。

38、在其中一个实施例中,所述数据合并模块,包括:

39、相似度计算子模块,用于依次对待清洗数据与对应小组的其他数据进行协方差计算,得到所述待清洗数据与所述其他数据的初始相似度;

40、相似度计算子模块,还用于依次对所述待清洗数据的标准差与所述其他数据的标准差进行求积运算,得到所述待清洗数据与所述其他数据的相似系数;

41、相似度计算子模块,还用于对所述待清洗数据与所述其他数据的初始相似度与对应的相似系数进行求商运算,得到所述待清洗数据与所述其他数据的相似度。

42、在其中一个实施例中,所述数据获取模块,包括:

43、数据获取子模块,用于获取待清洗的文本数据以及非文本数据;

44、数据抽取子模块,用于根据预设的自然语言处理模型对非文本数据进行异步抽取,得到所述非文本数据对应的转换数据;

45、数据获取子模块,还用于将所述文本数据以及所述转换数据,确定为待清洗数据。

46、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述本文档来自技高网...

【技术保护点】

1.一种数据清洗处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述待清洗数据以及所述历史清洗数据均存在数据优先级,其中,所述优先级为根据数据来源的优先级确定;所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

5.根据权利要求1所述的方法,其特征在于,所述计算所述待清洗数据与对应小组的其他数据的相似度,包括:

6.根据权利要求1所述的方法,其特征在于,所述获取待清洗数据集,包括:

7.一种数据清洗处理装置,其特征在于,所述装置包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种数据清洗处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述待清洗数据以及所述历史清洗数据均存在数据优先级,其中,所述优先级为根据数据来源的优先级确定;所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述待清洗数据与所述其他数据进行合并,得到目标数据集,包括:

5.根据权利要求1所述的方法,其特征在于,所述计算所述待清洗数据与对应小组的其他数据的相...

【专利技术属性】
技术研发人员:蒋昊辰杨智超
申请(专利权)人:企查查科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1