基于大数据分析平台的主变压器大数据预处理方法技术

技术编号:34385011 阅读:26 留言:0更新日期:2022-08-03 21:06
本发明专利技术针对从调度自动化系统中提取的主变压器的电流、电压和有功功率、无功功率进行数据处理,包括重复数据检测与处理、异常数据检测与处理、局部离群点检测与处理、数据完整性检测与处理,能处理主变压器运行数据电流、电压、有功、无功中噪声、异常、缺失、重复等问题。通过大数据预处理提高数据的质量,得到规范、标准、连续、准确的大批量数据,为后续的主变压器大数据挖掘分析提高效率和准确性。同时在进行缺失数据补全时考虑时间的延续性和先验性,即主变压器的监测数据前后时刻的关联性,因此采用权重求和的方式进行计算,并且考虑监测曲线的趋势,补全的数值更真实更准确,更为贴近实际监测的数据,提高了后续数据挖掘的准确性。的准确性。的准确性。

【技术实现步骤摘要】
基于大数据分析平台的主变压器大数据预处理方法


[0001]本专利技术属于数据预处理
,具体涉及基于大数据分析平台的主变压器大数据预处理方法。

技术介绍

[0002]主变压器,简称主变(GSU),是一个单位或变电站中主要用于输变电的总降压变压器,也是变电站的核心部分。变压器是电力机车牵引供电系统的核心设备,也是保证牵引供电系统安全稳定运行的关键设备。主变压器的容量一般比较大,并且要求工作的可靠性高。尽管主变压器故障率不高,但是一旦出现故障就会造成重大的损失,轻则可能会造成设备故障,重则会引发火情,危及正常的运输安全。因此,分析变压器的故障原因,并采取相应的防范措施具有非常重要的意义。随着社会的发展和技术的进步,状态检修作为一种较定期检修方式更能降低维修成本、缩短检修停电时间、提高设备利用率的检修方式,已经成为变压器等电力设备检修的发展方向。而正确把握变压器的运行状态是状态检修成功与否的关键。目前正确把握主变压器的运行状态主要是采用监测设备对主变压器进行监测并采集分析对应的监测数据,然而由于监测设备的系统误差、网络延迟或者其他因素导致采集的监测数据出现异常,为后期的主变压器数据分析提高了难度,因此需要对采集的监测数据进行预处理以使之适用于后期的数据挖掘分析。

技术实现思路

[0003]为了解决上述问题,本专利技术提供了基于大数据分析平台的主变压器大数据预处理方法,具体技术方案如下:
[0004]基于大数据分析平台的主变压器大数据预处理方法,包括以下步骤:
[0005]步骤S1,数据采集与存储:从调度自动化系统中提取主变压器的运行数据,包括运行时每个时刻的电流、电压和有功功率、无功功率,并将提取的运行数据存储至大数据分析平台;
[0006]步骤S2,重复数据检测与处理:大数据分析平台检测提取的主变压器的运行数据中的重复数据,并将重复的数据择一保留,剔除多余的重复数据,并将处理后的数据输入步骤S3;
[0007]步骤S3:异常数据检测与处理:大数据分析平台检测提取的主变压器的运行数据是否异常,若是存在异常数据,则剔除异常数据,并将处理后的数据输入步骤S4;
[0008]步骤S4:局部离群点检测与处理:大数据分析平台检测提取的主变压器的运行数据是否存在局部离群点,若是存在局部离群点,则将局部离群点剔除;
[0009]步骤S5,数据完整性检测与处理:大数据分析平台检测提取的运行数据是否完整,若是提取的运行数据中存在缺失值,则对缺失值进行补全,并将补全后的运行数据作为最终处理后的数据输出。
[0010]优选地,所述步骤S2中重复数据检测与处理具体包括以下步骤:
[0011]步骤S21:将提取的主变压器的运行数据按照类型划分n个数据块;每个数据块包括m个对象;所述对象的记载方式为表示第k种类型运行数据中第i个数据块中第j个数据;其中,k=1,2,3,4,分别表示电流、电压和有功功率、无功功率;i=1,2,
···
n;j=1,2,
···
m;所述表示为时刻对象,表示为时刻与数值对;
[0012]步骤S22:对第k种类型运行数据中每个数据块内的任意两个对象采用异或运算检测是否有重复数据,若运算结果为0,表示存在重复数据,则要剔除其中的一个,若运算结果为1,则表示该数据块内不存在重复数据;
[0013]步骤S23:每个数据块内剔除重复数据后,再对任意两个数据块采用异或运算检测是否有重复数据,即其中一个数据块的每个对象分别与另一个数据块的每个对象进行异或运算,若存在重复数据,则保留一个数据即可。
[0014]优选地,进行异或运算时是对时刻进行异或运算,剔除重复时刻的数据。
[0015]优选地,所述步骤S3中异常数据检测与处理具体包括以下步骤:
[0016]步骤S31:在大数据分析平台设定主变压器电流、电压和有功功率、无功功率的最大值和最小值;
[0017]步骤S32:分别检测提取的每种类型的运行数据是否都在设定的对应的最大值和最小值之间,若是对应数值不在最小值和最大值之间,则判定为异常数据,并进行数值剔除。
[0018]优选地,所述步骤S4中局部离群点检测与处理具体包括以下步骤:
[0019]步骤S41:将提取的主变压器的每种类型的运行数据划分n个数据块;数据块的每个对象数值与其(m+k)近邻距离都初始化为最大值;
[0020]步骤S42:用运行数据的每个对象数值与第一个数据块的每个对象数值计算距离,并更新第一个数据块中每个对象数值的(m+k)近邻,实时计算每个对象数值的离群度,近邻数量小于m+k个时,离群度置为无穷大,离群度小于初始阈值c的就从该数据块排除;所述每个对象数值的离群度为该对象数值与其第m+1至m+k近邻的距离之和;
[0021]步骤S43:处理完第一个数据块后,将第一个数据块中未被排除的对象数值按离群度从大到小排序,取前n个对象数值加入TOP n离群点,并更新阈值c;
[0022]步骤S44:用运行数据的的每个对象数值与第二个数据块的每个对象数值计算距离,并更新第二个数据块中每个对象数值的(m+k)近邻,实时计算每个对象数值的离群度,近邻数量小于m+k个时,离群度置为无穷大,离群度小于阈值c的就从该数据块排除;
[0023]步骤S45:处理完第二个数据块后,若第二个数据块中未被排除的对象数值的离群度大于TOP n离群点中的离群度,则更新TOP n离群点,并更新阈值c;
[0024]步骤S46:对于第i个数据块,i=3、4、5
……
n,重复步骤S44

S45;直至所有的数据块都处理完,输出TOP n离群点;
[0025]所述步骤S43和步骤S45中,在更新阈值c时,以所述TOP n离群点中第n个离群点的离群度作为阈值c的值。
[0026]优选地,所述步骤S42中的阈值c设置为0。
[0027]优选地,所述步骤S5中数据完整性检测与处理具体包括以下步骤:
[0028]步骤S51:针对每种类型的运行数据,在经过步骤S2

步骤S4的处理后,数据缺失包
括时刻和数值同时缺失、仅有数值缺失;检测处理后的主变压器的运行数据的完整性,判断数据是否完整,即包括对应的时刻和数值,若是数据存在缺失,则判断对应的数据缺失类型;
[0029]步骤S52:若是时刻和数值同时缺失,则先补全对应缺失的时刻,把缺失类型转换为仅有数值缺失,然后采用步骤S53中的方法进行数据补全;
[0030]步骤S53:若是仅有数值缺失,则提取缺失数值的对应时刻前后各N个数值,分别计算对应时刻前面N个数值的平均值Eq和对应时刻后面N个数值的平均值Eh,并且以前面N个数值作为第一数据,以后面N个数值作为第二数据,为第一数据和第二数据中与该缺失数值相邻的第一个数值分配权重λ,为第一数据和第二数据中与该缺失数值相邻的第二个数值分配权重a,第一数据和第二数据中N

2个数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于大数据分析平台的主变压器大数据预处理方法,其特征在于:包括以下步骤:步骤S1,数据采集与存储:从调度自动化系统中提取主变压器的运行数据,包括运行时每个时刻的电流、电压和有功功率、无功功率,并将提取的运行数据存储至大数据分析平台;步骤S2,重复数据检测与处理:大数据分析平台检测提取的主变压器的运行数据中的重复数据,并将重复的数据择一保留,剔除多余的重复数据,并将处理后的数据输入步骤S3;步骤S3:异常数据检测与处理:大数据分析平台检测提取的主变压器的运行数据是否异常,若是存在异常数据,则剔除异常数据,并将处理后的数据输入步骤S4;步骤S4:局部离群点检测与处理:大数据分析平台检测提取的主变压器的运行数据是否存在局部离群点,若是存在局部离群点,则将局部离群点剔除;步骤S5,数据完整性检测与处理:大数据分析平台检测提取的运行数据是否完整,若是提取的运行数据中存在缺失值,则对缺失值进行补全,并将补全后的运行数据作为最终处理后的数据输出。2.根据权利要求1所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:所述步骤S2中重复数据检测与处理具体包括以下步骤:步骤S21:将提取的主变压器的运行数据按照类型划分n个数据块;每个数据块包括m个对象;所述对象的记载方式为表示第k种类型运行数据中第i个数据块中第j个数据;其中,k=1,2,3,4,分别表示电流、电压和有功功率、无功功率;i=1,2,
···
n;j=1,2,

m;所述表示为时刻对象,表示为时刻与数值对;步骤S22:对第k种类型运行数据中每个数据块内的任意两个对象采用异或运算检测是否有重复数据,若运算结果为0,表示存在重复数据,则要剔除其中的一个,若运算结果为1,则表示该数据块内不存在重复数据;步骤S23:每个数据块内剔除重复数据后,再对任意两个数据块采用异或运算检测是否有重复数据,即其中一个数据块的每个对象分别与另一个数据块的每个对象进行异或运算,若存在重复数据,则保留一个数据即可。3.根据权利要求2所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:进行异或运算时是对时刻进行异或运算,剔除重复时刻的数据。4.根据权利要求1所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:所述步骤S3中异常数据检测与处理具体包括以下步骤:步骤S31:在大数据分析平台设定主变压器电流、电压和有功功率、无功功率的最大值和最小值;步骤S32:分别检测提取的每种类型的运行数据是否都在设定的对应的最大值和最小值之间,若是对应数值不在最小值和最大值之间,则判定为异常数据,并进行数值剔除。5.根据权利要求1所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:所述步骤S4中局部离群点检测与处理具体包括以下步骤:步骤S41:将提取的主变压器的每种类型的运行数据划分n个数据块;数据块的每个对象数值与其(m+k)近邻距离都初始化为最大值;
步骤S42:用运行数据的每个对象数值与第一个数据块的每个对象数值计算距离,并更新第一个数据块中每个对象数值的(m+k)近邻,实时计算每个对象数值的离群度,近邻数量小于m+k个时,离群度置为无穷大,离群度小于初始阈值c的就从该数据块排除;所述每个对象数值的离群度为该对象数值与其第m+1至m+k近邻的距离之和;步骤S43:处理完第一个数据块后,将第一个数据块中未被排除的对象数值按离群度从大到小排序,取前n个对象数值加入TOP n离群点,并更新阈值c;步骤S44:用运行数据的的每个对象数值...

【专利技术属性】
技术研发人员:于明林信包忠强李波黄丽娟周恒旺覃晖郭华谢瑞浩
申请(专利权)人:广西电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1