一种数据清洗方法、设备及计算机存储介质技术

技术编号:31916014 阅读:14 留言:0更新日期:2022-01-15 12:58
本发明专利技术涉及一种数据清洗方法、设备及计算机存储介质,其至少包括:获取待清洗的传感数据;通过预设的数据阈值过滤出所述传感数据的数据序列中的第一异常数据;对第一异常数据进行二次验证,筛选出由传输网络波动产生的第二异常数据;其中,所述第二异常数据能够与处理后的数据序列进行补充,使得清洗后的传感数据得到重建和对其缺失的至少部分数据序列进行恢复。本申请将由供能参数/网络传输参数的不稳定而造成的异常数据与外部侵入或故障造成的异常数据进行区分,从而获取足够准确且更全面的传感数据,在有效地降低异常侵入破坏通信安全的风险并保障数据库存储数据的安全的同时还能够降低数据清洗造成的数据缺失。时还能够降低数据清洗造成的数据缺失。时还能够降低数据清洗造成的数据缺失。

【技术实现步骤摘要】
一种数据清洗方法、设备及计算机存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种数据清洗方法、设备及计算机存储介质。

技术介绍

[0002]数据清洗即是采集得到的数据进行数据的过滤和筛选也是对数据进行重新审查和校验的过程。其目的是为了对于若干或单个采集终端采集的数据中存在的重复数据的删除、错误数据的纠正,且还能够对采集数据进行一致性检查,从而处理数据集中的无效值和缺失值。过滤和筛选的对象可以包括特征值异常的数据、特征值缺失过多的数据和与应用场景无关的数据等等。检测数据的异常特征往往可以采用一些算法,常用的如高斯算法等。针对目前受关注的通信安全相关问题,数据清洗还能够对采集终端上传或捕获到的异常数据进行筛选和隔离处理,从而能够有效地阻碍不良侵入等异常数据上传的同时保护了现有数据库的存储安全性。
[0003]在现代的办公、生产场所中,对建筑内的功能设备设置日益增多,其中包括对空间环境的要求、对生产设备要求等。因此,为了满足这些需求在建筑内部设置有各种各样的机械和电子设备,同时还需要这些设备具有一定的自动控制能力,使得其自身能够保持一种最佳的运行状态,以提高工作效率和服务质量。楼宇中所涉及的嵌入式操作系统就能够对整栋建筑中的机电设备进行运行情况相关数据采集、状态监测和控制,操作系统能够对采集到的原始数据信息进行信息处理、数据计算、数据分析、逻辑判断和图像识别等,从而保障各类机电设备高效、安全的运行和管理。
[0004]中国专利CN112084178A公开了一种数据清洗方法、系统、数据清洗设备及可读存储介质,其中数据清洗方法包括:将数据清洗装置嵌入到工业设备上,数据清洗装置中集成有清洗不同类型的设备数据的清洗策略;获取工业设备产生的待清洗的设备数据,并将设备数据传递给数据清洗装置进行数据清洗;数据清洗装置根据预设的清洗策略对不同类型的设备数据进行数据清洗;将清洗后的设备数据导出并存储。该专利技术将针对不同类型的设备数据的数据清洗策略集成在数据清洗装置中,数据清洗装置以代码块或者配置文件的形式保存,用户只需要将数据清洗装置配置到工业设备中,即可实现设备端对设备数据的自动清洗,简化了数据清洗的难度,提高了数据清洗的效率。但是该专利无法针对工业设备由于传输网络短暂异常等造成的数据异常进行筛选,无法提供有效、准确的数据清洗,可能会误将含有无威胁的数据删除。
[0005]目前的数据清洗方案通常都是将所有超出规范化设置的数据阈值的异常数据信息一次性筛除过滤,虽然这样能够有效地降低异常侵入破坏通信安全的风险,有效地保障了数据库存储数据的安全,但是其常常也会将一些采集设备和传输设备工作状态的不稳定而造成的异常数据过滤掉,此部分异常数据虽然可能超出了现有的数据阈值,但其实际记录的相关数据信息本身是具有价值的,且不具备侵害风险的,因此在实际数据清洗过程中,需要能够对此类异常数据进行准确研判,并将其与外部侵入或故障造成的异常数据进行有
效区分,从而能够为相关的数据系统获取足够准确且更全面的原始数据信息。
[0006]此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于专利技术人做出本专利技术时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本专利技术不具备这些现有技术的特征,相反本专利技术已经具备现有技术的所有特征,而且申请人保留在
技术介绍
中增加相关现有技术之权利。

技术实现思路

[0007]针对现有技术之不足,本专利技术的技术方案提供的是一种数据清洗方法,至少包括:
[0008]S1:获取待清洗的传感数据;
[0009]S2:通过预设的数据阈值过滤出所述传感数据的数据序列中的第一异常数据;
[0010]S3:对第一异常数据进行二次验证,筛选出由数据传输通道的构建参数发生波动而产生的第二异常数据;
[0011]S4:对补充所述第二异常数据的数据序列进行连接性拼接;其中,
[0012]所述第二异常数据能够与处理后的数据序列进行补充,使得清洗后的传感数据得到重建和对其缺失的至少部分数据序列进行恢复。其优势在于,本专利能够将由供能参数/网络传输参数的不稳定而造成的异常数据筛选出,此部分异常数据虽然超出现有的数据阈值,但其实际记录的相关数据信息本身是具有价值的,且不具备侵害风险的,因此在数据清洗过程中,将此类异常数据与外部侵入或故障造成的异常数据进行有效区分,从而能够为相关的数据系统获取足够准确且更全面的原始数据信息。
[0013]根据一种优选的实施方式,所述第一异常数据是通过对该传感数据进行采集的数据采集单元所属的同一采集网络或采集支路上的其他数据采集单元是否存在同一时间的传感数据异常进行对比验证的方式完成所述第二异常数据的筛选。其优势在于,通过将无威胁异常数据进行提取并重新补充至数据序列中,有效地提高传感数据的完整性和准确性,方便设备与数据库之间的信息交互。
[0014]根据一种优选的实施方式,所述第一异常数据进行二次验证还包括对采集到该第一异常数据对应的数据采集单元的同一通信传输网络中的其他数据采集单元在同一时间采集的传感数据是否存在异常,并将验证结果作为所述第二异常数据的筛选条件。
[0015]根据一种优选的实施方式,所述数据采集单元能够将其采集传感数据通过网络传输通道上传至数据清洗单元的采样数据库中,使得数据清洗单元2获得对应传感数据的数据序列;所述数据清洗单元根据所处的业务场景和分析规则可选择地制定不同清洗策略,并通过选取的清洗策略完成传感数据的重建和至少部分缺失数据的恢复。
[0016]根据一种优选的实施方式,步骤S2中基于传感数据的时域特性进行数据序列中异常数据的过滤操作至少包括:
[0017]S201:根据周期性采集的传感数据在时间轴上的变化,设置一个分割数据变化度临界点的数据阈值;
[0018]S202:根据数据阈值,筛除具有异常数据的数据序列,并将单个周期采集的数据序列分割为多个数据片段;
[0019]S203:根据数据阈值筛除至少一个数据片段中的异常数据。
[0020]根据一种优选的实施方式,单个周期采集的数据序列通过预设的单位时间长度将
其分割为多个数据片段,其中,同一数据序列上的不同数据片段之间互不交叠。
[0021]根据一种优选的实施方式,所述数据清洗策略的规则是根据数据分析的规则结果进行定义的,且数据清洗单元通过在数据对象上执行预定义的分析查看规则并报告或者告警标识异常数据,捕获到异常数据后对其进行数据清洗任务。
[0022]本申请还提供一种数据清洗装置,至少包括数据采集单元和数据清洗单元,其中,所述数据采集单元获取待清洗的传感数据,并将传感数据上传至数据清洗单元进行清洗处理;所述数据清洗单元通过预设的数据阈值过滤出所述传感数据的数据序列中的第一异常数据,所述数据清洗单元还能够对第一异常数据进行二次验证,筛选出由数据传输通道的构建参数发生波动而产生的第二异常数据,并对补充所述第二异常数据的数据序列进行连接性拼接。其优势在于,本专利能够将由供能参数/网络传输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,至少包括:S1:获取待清洗的传感数据;S2:通过预设的数据阈值过滤出所述传感数据的数据序列中的第一异常数据;S3:对第一异常数据进行二次验证,筛选出由数据传输通道的构建参数发生波动而产生的第二异常数据;S4:对补充所述第二异常数据的数据序列进行连接性拼接;其中,所述第二异常数据能够与处理后的数据序列进行补充,使得清洗后的传感数据得到重建和对其缺失的至少部分数据序列进行恢复。2.如权利要求1所述的数据清洗方法,其特征在于,所述第一异常数据是通过对该传感数据进行采集的数据采集单元(1)所属的同一采集网络或采集支路上的其他数据采集单元(1)是否存在同一时间的传感数据异常进行对比验证的方式完成所述第二异常数据的筛选。3.如权利要求1所述的数据清洗方法,其特征在于,所述第一异常数据进行二次验证还包括对采集到该第一异常数据对应的数据采集单元(1)的同一通信传输网络中的其他数据采集单元(1)在同一时间采集的传感数据是否存在异常,并将验证结果作为所述第二异常数据的筛选条件。4.如前述权利要求2或3所述的数据清洗方法,其特征在于,所述数据采集单元(1)能够将其采集传感数据通过网络传输通道上传至数据清洗单元(2)的采样数据库中,使得数据清洗单元(2)获得传感数据的数据序列;所述数据清洗单元(2)根据所处的业务场景和分析规则可选择地制定不同清洗策略,并通过选取的清洗策略完成传感数据的重建和至少部分缺失数据的恢复。5.如权利要求1所述的数据清洗方法,其特征在于,步骤S2中基于传感数据的时域特性进行数据序列中异常数据的过滤操作至少包括:S201:根据周期性采集的传感数据在时间轴上...

【专利技术属性】
技术研发人员:阮安邦李飞张晓东魏明陈旭明
申请(专利权)人:北京八分量信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1