System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,特别涉及一种数据清洗方法、装置、设备及介质。
技术介绍
1、当前,在一个数据分析系统中,数据采集是一切数据分析的基础和前提。数据采集过程中数据清洗是一个必备的步骤。数据清洗能将设备上报的数据转换成系统需要的格式,数据清洗一般都需要编写一定的解析规则,并将解析规则作用于接收的数据。
2、一种具体实施例中,syslog是企业网中一种常用的数据采集协议和格式,应用广泛。典型的数据采集开发过程如下:1、拿到设备上报的syslog接口文档(也即数据);2、根据接口文档以及系统的数据模型,编写解析规则用于数据进行清洗。3、在用户环境下,根据上报设备的类型信息,选用该类型对应的解析规则进行解析。这种开发方式要求知道一定的先验信息,即设备的类型信息才能正确的选择解析规则。
3、在一些数据分析系统中,需要通过syslog协议采集很多设备信息,然后人为根据设备的信息确定设备类型,然后人为根据设备类型确定匹配的解析规则,因此虽然解析规则是已知的,但是在部署的过程中还是需要人工参与;另外,在实际环境下,产品采集配置操作界面复杂等原因造成设备信息比较难以准确的获取,不便于判断设备类型。
4、综上,如何在无需人工干预的情况下匹配到最合适的设备类型,从而完成数据清洗是当前接待解决的问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种数据清洗方法、装置、设备及介质,能够在无需人工干预的情况下匹配到最合适的设备类型,从而完成数据清洗,其具体方案如
2、第一方面,本申请公开了一种数据清洗方法,包括:
3、获取未知设备发送的初始数据文件;
4、基于所述初始数据文件中有效载荷部分的数据键值特征,确定所述未知设备的目标设备类型;
5、利用所述目标设备类型对应的解析规则对所述初始数据文件进行数据清洗得到目标数据。
6、可选的,所述基于所述初始数据文件中有效载荷部分的数据键值特征,确定所述未知设备的目标设备类型,包括:
7、利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征;
8、判断所述数据键值特征与所述预设设备集中所述任一设备类型对应的所述文件格式信息的文件键值特征是否一致;
9、若不一致,则将所述预设设备集中的未使用设备类型作为所述任一设备类型,并跳转至所述利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理的步骤;
10、若一致,则将所述任一设备类型作为所述目标设备的目标设备类型。
11、可选的,所述利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征,包括:
12、利用预设设备集中任一设备类型对应的任一文件格式信息对所述初始数据文件中的有效载荷部分进行处理;
13、若未处理得到所述数据键值特征,且所述任一设备类型存在对应的未使用文件格式,则将所述未使用文件格式作为所述任一文件格式信息,并跳转至所述利用预设设备集中任一设备类型对应的任一文件格式信息对所述初始数据文件中的有效载荷部分进行处理的步骤;
14、若未处理得到所述数据键值特征,且所述任一设备类型不存在对应的未使用文件格式,则将所述预设设备集中的未使用设备类型作为所述任一设备类型,并跳转至所述利用预设设备集中任一设备类型对应的任一文件格式信息对所述初始数据文件中的有效载荷部分进行处理得到初始特征的步骤;
15、若处理得到所述数据键值特征,则结束。
16、可选的,所述利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征之前,还包括:
17、获取各种设备类型对应的样例数据文件和所述样例数据文件对应的所述文件格式信息;
18、利用每种设备类型对应的所述文件格式信息对相应的所述样例数据文件的有效载荷部分进行处理,以得到所述文件格式信息的所述文件键值特征;
19、将所述每种设备类型的所述文件格式信息和所述文件格式信息的所述文件键值特征存储至所述预设设备集中。
20、可选的,所述文件格式信息包括文件格式和分隔符。
21、可选的,所述数据键值特征包括数据键值名和所述数据键值名对应的键值名顺序。
22、第二方面,本申请公开了一种数据清洗装置,包括:
23、数据获取模块,用于获取未知设备发送的初始数据文件;
24、设备类型确定模块,用于基于所述初始数据文件中有效载荷部分的数据键值特征,确定所述未知设备的目标设备类型;
25、数据清洗模块,用于利用所述目标设备类型对应的解析规则对所述初始数据文件进行数据清洗得到目标数据。
26、可选的,所述设备类型确定模块,包括:
27、特征确定单元,用于利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征;
28、判断单元,用于判断所述数据键值特征与所述预设设备集中所述文件格式信息对应的文件键值特征是否一致;
29、跳转单元,用于若不一致,则将所述预设设备集中的未使用设备类型作为所述任一设备类型,并跳转至所述特征确定单元对应的处理流程;
30、设备类型确定单元,用于若一致,则将所述任一设备类型作为所述目标设备的目标设备类型。
31、第三方面,本申请公开了一种电子设备,包括:
32、存储器,用于保存计算机程序;
33、处理器,用于执行所述计算机程序,以实现前述公开的数据清洗方法。
34、第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的数据清洗方法。
35、可见,本申请获取未知设备发送的初始数据文件;基于所述初始数据文件中有效载荷部分的数据键值特征,确定所述未知设备的目标设备类型;利用所述目标设备类型对应的解析规则对所述初始数据文件进行数据清洗得到目标数据。由此可见,本申请直接利用初始数据文件确定所述未知设备的目标设备类型,而不是再获取设备信息,然后人为根据设备信息确定未知设备的目标设备类型,减少了人工参与,提高了效率,也降低了判断错误的概率;本申请具体是利用初始数据文件中有效载荷部分的数据键值特征来确定所述未知设备的目标设备类型,能够有效区分不同的设备类型。综上,本申请能够在无需人工干预的情况下匹配到最合适的设备类型,从而完成数据清洗。
本文档来自技高网...【技术保护点】
1.一种数据清洗方法,其特征在于,包括:
2.根据权利要求1所述的数据清洗方法,其特征在于,所述基于所述初始数据文件中有效载荷部分的数据键值特征,确定所述未知设备的目标设备类型,包括:
3.根据权利要求2所述的数据清洗方法,其特征在于,所述利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征,包括:
4.根据权利要求2所述数据清洗方法,其特征在于,所述利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征之前,还包括:
5.根据权利要求2所述数据清洗方法,其特征在于,所述文件格式信息包括文件格式和分隔符。
6.根据权利要求1所述数据清洗方法,其特征在于,所述数据键值特征包括数据键值名和所述数据键值名对应的键值名顺序。
7.一种数据清洗装置,其特征在于,包括:
8.根据权利要求7所述的数据清洗装置,其特征在于,所述设备类型确定模块,包括:
9.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:
2.根据权利要求1所述的数据清洗方法,其特征在于,所述基于所述初始数据文件中有效载荷部分的数据键值特征,确定所述未知设备的目标设备类型,包括:
3.根据权利要求2所述的数据清洗方法,其特征在于,所述利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征,包括:
4.根据权利要求2所述数据清洗方法,其特征在于,所述利用预设设备集中任一设备类型对应的文件格式信息对所述初始数据文件中的有效载荷部分进行处理,以得到数据键值特征之前,还包括:
【专利技术属性】
技术研发人员:魏国强,李军,
申请(专利权)人:中电科网络安全科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。