【技术实现步骤摘要】
变压器油色谱数据的迭代式清洗方法
[0001]本专利技术涉及变压器油色谱数据的迭代式清洗方法,属于数据清洗
。
技术介绍
[0002]目前,对时间序列上劣质数据的研究往往集中于基于数据统计特征进行数据清洗和基于规则依赖等先验知识进行数据清洗的方法
。
[0003]基于数据统计特征的数据清洗方法根据目前已知序列的分布,计算时序数据本身的统计量和统计指标,再通过聚类等方法将具有接近相似系数的数据进行聚类,实现对劣质数据的清洗
。
例如
Sanjay
等人提出的
ActiveClean
通过判断数据在对应模型中成为劣质数据的可能性来挑选要清洗的数据样本
。
近年来提出的使用自动编码器挑选劣质数据的深度学习方法是将数据转换到低维空间,通过解码器进行重构来提出数据中的特征,能够得到较好重构的数据作为正确数据,而在重构中出现问题的数据则作为劣质数据
。Kim
‑
Hung Le
等人采用对数据进行违反分数计算的方法进行数据清洗,包括结合逆最近邻
(INN)
算法计算数据的三类违反分数
——
幅值分数
、
相关分数和方差分数,并进行决策树的构建,最终利用决策树上的相关系数进行聚类,再根据聚类结果通过人工修复的方式实现数据清洗
。
[0004]基于规则依赖的数据清洗方式是基于先验知识确定规则或通过学习的方式从已清洗过的数据中推断规则,再依赖已确 ...
【技术保护点】
【技术特征摘要】
1.
一种变压器油色谱数据的迭代式清洗方法,其特征在于包括,步骤一:获取变压器油色谱的原始数据集,采用基于规则依赖的检测方法将原始数据集中的数据分为违反规则数据集
X
vio
和符合规则数据集
X
acc
;步骤二:采用符合规则数据集
X
acc
对分类器进行预训练;步骤三:将违反规则数据集
X
vio
中的数据输入至分类器,得到违反规则数据对应的数据预测值,根据数据预测值与违反规则数据计算违反规则数据的违反分数,再按违反分数从大到小的顺序对违反规则数据进行排序;根据违反分数选取满足分数阈值的违反规则数据作为待修复数据;步骤四:对待修复数据进行迭代修复:在每一轮迭代过程中,将当前批待修复数据进行人工修复后,得到当前批修复后数据;采用当前批修复后数据对分类器进行再训练;同时,采用当前批修复后数据的平均梯度,对分类器的模型参数
θ
进行再更新;再进行下一轮迭代过程,重复步骤三与步骤四,直到更新后分类器输出的预测值与相应真实值的比较结果满足结束条件,迭代过程结束;得到最终分类器;步骤五:获取变压器油色谱的实际运行数据,并基于规则依赖的检测方法从实际运行数据中选择违反规则运行数据,将违反规则运行数据输入最终分类器进行预测,得到违反规则运行数据的清洗后数据
。2.
根据权利要求1所述的变压器油色谱数据的迭代式清洗方法,其特征在于,步骤一中,基于规则依赖的检测方法为:将原始数据集的多元时间序列中同一时间点的数据组成一个多元组,若多元组数据包括数据
X
和数据
Y
,数据
X
在满足规则
Z
时,存在数据
Y
,则当前多元组作为符合规则数据,否则作为违反规则数据
。3.
根据权利要求2所述的变压器油色谱数据的迭代式清洗方法,其特征在于,步骤三中违反规则数据的违反分数为
Score
:
Score
=
Score
sin
+Score
sinmul
+Score
mul
,式中
Score
sin
为违反规则数据的单一维度违反分数,
Score
sinmul
为违反规则数据的不同维度综合违反分数,
Score
mul
为不同违反规则数据的不同维度之间结合比值法的违反分数
。4.
根据权利要求3所述的变压器油色谱数据的迭代式清洗方法,其特征在于,单一维度违反分数
Score
sin
的计算方法为:
Score
sin
=
|x
‑
X
...
【专利技术属性】
技术研发人员:刘一达,丁小欧,杨东华,王宏志,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。