变压器油色谱数据的迭代式清洗方法技术

技术编号:39491134 阅读:6 留言:0更新日期:2023-11-24 11:13
一种变压器油色谱数据的迭代式清洗方法,属于数据清洗技术领域

【技术实现步骤摘要】
变压器油色谱数据的迭代式清洗方法


[0001]本专利技术涉及变压器油色谱数据的迭代式清洗方法,属于数据清洗



技术介绍

[0002]目前,对时间序列上劣质数据的研究往往集中于基于数据统计特征进行数据清洗和基于规则依赖等先验知识进行数据清洗的方法

[0003]基于数据统计特征的数据清洗方法根据目前已知序列的分布,计算时序数据本身的统计量和统计指标,再通过聚类等方法将具有接近相似系数的数据进行聚类,实现对劣质数据的清洗

例如
Sanjay
等人提出的
ActiveClean
通过判断数据在对应模型中成为劣质数据的可能性来挑选要清洗的数据样本

近年来提出的使用自动编码器挑选劣质数据的深度学习方法是将数据转换到低维空间,通过解码器进行重构来提出数据中的特征,能够得到较好重构的数据作为正确数据,而在重构中出现问题的数据则作为劣质数据
。Kim

Hung Le
等人采用对数据进行违反分数计算的方法进行数据清洗,包括结合逆最近邻
(INN)
算法计算数据的三类违反分数
——
幅值分数

相关分数和方差分数,并进行决策树的构建,最终利用决策树上的相关系数进行聚类,再根据聚类结果通过人工修复的方式实现数据清洗

[0004]基于规则依赖的数据清洗方式是基于先验知识确定规则或通过学习的方式从已清洗过的数据中推断规则,再依赖已确定的规则对其余数据进行清洗,它减少了人工参与的成本

例如
Manel Charfi

Yann Gripay
等人将数据分为时空上的不同粒度,对不同时空粒度的数据采用不同粒度约束进行对应的处理,实现较为精细的数据清洗

范举等人提出了人在回路的数据准备概念,归纳了在数据提取

标注

集成

清洗等准备过程中的人工参与方法和人工任务

相比于自动化修复算法,人工修复具有修复准确率高

可靠性强,且对特定领域的数据修复效果好的优势,但同时也存在修复成本代价高的问题

[0005]目前的数据清洗模型面临的挑战主要有以下两点,一是劣质数据数量较多

错误原因复杂,如果对于这些数据都进行清洗,清洗的时间代价过大;所以如何从劣质数据集中挑选低质量

高违反分数的数据进行数据清洗,减少数据清洗所需的时空代价是目前面临的一个主要挑战;二是数据清洗中如何选择高效率的模型,这也是减少训练代价的一个重要挑战

[0006]按照数据生成时间的先后顺序排列而成的一系列数据点被称作时间序列,多元时间序列是指包含多个以一元时间序列作为分量的时间序列

时间序列广泛用于金融服务

气候

水文和水利

信号分析

工业生产和制造业等行业

时间序列数据在时序上的不准确

矛盾和不一致引发的高成本和风险一直以来都得到企业和政府的关注

然而,由于采集过程中存在的误差等情况,使时间序列数据存在各种各样的错误

[0007]变压器油色谱数据具有大体量

连续采样

价值密度低

动态性强等特点,由于油色谱各时间序列之间存在一定的相关关系,复杂的相关性关系导致难以直接对劣质数据和正确数据进行有效的建模区分

变压器油色谱数据中广泛存在着缺失值

越限值

零值

非越限突变值等错误情况,如果这些异常

错误数据不能及时地被有效清洗,采用这些错误数
据进行分析和决策,将导致生产环节存在隐性安全隐患,很可能会给电力设备带来连带的损失

若将油色谱劣质数据进行简单的丢弃,又会破坏油色谱数据之间关系的完整性,降低时间序中数据的价值

为避免劣质数据引发相应的问题,需要对变压器油色谱数据进行识别,以将劣质数据清洗为干净的数据,修复数据中的不一致


技术实现思路

[0008]针对变压器油色谱数据中的劣质数据不能被有效识别并清洗的问题,本专利技术提供一种变压器油色谱数据的迭代式清洗方法

[0009]本专利技术的一种变压器油色谱数据的迭代式清洗方法,包括,
[0010]步骤一:获取变压器油色谱的原始数据集,采用基于规则依赖的检测方法将原始数据集中的数据分为违反规则数据集
X
vio
和符合规则数据集
X
acc

[0011]步骤二:采用符合规则数据集
X
acc
对分类器进行预训练;
[0012]步骤三:将违反规则数据集
X
vio
中的数据输入至分类器,得到违反规则数据对应的数据预测值,根据数据预测值与违反规则数据计算违反规则数据的违反分数,再按违反分数从大到小的顺序对违反规则数据进行排序;根据违反分数选取满足分数阈值的违反规则数据作为待修复数据;
[0013]步骤四:对待修复数据进行迭代修复:
[0014]在每一轮迭代过程中,将当前批待修复数据进行人工修复后,得到当前批修复后数据;采用当前批修复后数据对分类器进行再训练;
[0015]同时,采用当前批修复后数据的平均梯度,对分类器的模型参数
θ
进行再更新;
[0016]再进行下一轮迭代过程,重复步骤三与步骤四,直到更新后分类器输出的预测值与相应真实值的比较结果满足结束条件,迭代过程结束;得到最终分类器;
[0017]步骤五:获取变压器油色谱的实际运行数据,并基于规则依赖的检测方法从实际运行数据中选择违反规则运行数据,将违反规则运行数据输入最终分类器进行预测,得到违反规则运行数据的清洗后数据

[0018]根据本专利技术的变压器油色谱数据的迭代式清洗方法,步骤一中,基于规则依赖的检测方法为:
[0019]将原始数据集的多元时间序列中同一时间点的数据组成一个多元组,若多元组数据包括数据
X
和数据
Y
,数据
X
在满足规则
Z
时,存在数据
Y
,则当前多元组作为符合规则数据,否则作为违反规则数据

[0020]根据本专利技术的变压器油色谱数据的迭代式清洗方法,步骤三中违反规则数据的违反分数为
Score

[0021]Score

Score
sin
+Score
sin本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种变压器油色谱数据的迭代式清洗方法,其特征在于包括,步骤一:获取变压器油色谱的原始数据集,采用基于规则依赖的检测方法将原始数据集中的数据分为违反规则数据集
X
vio
和符合规则数据集
X
acc
;步骤二:采用符合规则数据集
X
acc
对分类器进行预训练;步骤三:将违反规则数据集
X
vio
中的数据输入至分类器,得到违反规则数据对应的数据预测值,根据数据预测值与违反规则数据计算违反规则数据的违反分数,再按违反分数从大到小的顺序对违反规则数据进行排序;根据违反分数选取满足分数阈值的违反规则数据作为待修复数据;步骤四:对待修复数据进行迭代修复:在每一轮迭代过程中,将当前批待修复数据进行人工修复后,得到当前批修复后数据;采用当前批修复后数据对分类器进行再训练;同时,采用当前批修复后数据的平均梯度,对分类器的模型参数
θ
进行再更新;再进行下一轮迭代过程,重复步骤三与步骤四,直到更新后分类器输出的预测值与相应真实值的比较结果满足结束条件,迭代过程结束;得到最终分类器;步骤五:获取变压器油色谱的实际运行数据,并基于规则依赖的检测方法从实际运行数据中选择违反规则运行数据,将违反规则运行数据输入最终分类器进行预测,得到违反规则运行数据的清洗后数据
。2.
根据权利要求1所述的变压器油色谱数据的迭代式清洗方法,其特征在于,步骤一中,基于规则依赖的检测方法为:将原始数据集的多元时间序列中同一时间点的数据组成一个多元组,若多元组数据包括数据
X
和数据
Y
,数据
X
在满足规则
Z
时,存在数据
Y
,则当前多元组作为符合规则数据,否则作为违反规则数据
。3.
根据权利要求2所述的变压器油色谱数据的迭代式清洗方法,其特征在于,步骤三中违反规则数据的违反分数为
Score

Score

Score
sin
+Score
sinmul
+Score
mul
,式中
Score
sin
为违反规则数据的单一维度违反分数,
Score
sinmul
为违反规则数据的不同维度综合违反分数,
Score
mul
为不同违反规则数据的不同维度之间结合比值法的违反分数
。4.
根据权利要求3所述的变压器油色谱数据的迭代式清洗方法,其特征在于,单一维度违反分数
Score
sin
的计算方法为:
Score
sin

|x

X
...

【专利技术属性】
技术研发人员:刘一达丁小欧杨东华王宏志
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1