【技术实现步骤摘要】
基于大数据分析平台的主变压器大数据预处理方法
[0001]本专利技术属于数据预处理
,具体涉及基于大数据分析平台的主变压器大数据预处理方法。
技术介绍
[0002]主变压器,简称主变(GSU),是一个单位或变电站中主要用于输变电的总降压变压器,也是变电站的核心部分。变压器是电力机车牵引供电系统的核心设备,也是保证牵引供电系统安全稳定运行的关键设备。主变压器的容量一般比较大,并且要求工作的可靠性高。尽管主变压器故障率不高,但是一旦出现故障就会造成重大的损失,轻则可能会造成设备故障,重则会引发火情,危及正常的运输安全。因此,分析变压器的故障原因,并采取相应的防范措施具有非常重要的意义。随着社会的发展和技术的进步,状态检修作为一种较定期检修方式更能降低维修成本、缩短检修停电时间、提高设备利用率的检修方式,已经成为变压器等电力设备检修的发展方向。而正确把握变压器的运行状态是状态检修成功与否的关键。目前正确把握主变压器的运行状态主要是采用监测设备对主变压器进行监测并采集分析对应的监测数据,然而由于监测设备的系统误差、网络延迟或者其他因素导致采集的监测数据出现异常,为后期的主变压器数据分析提高了难度,因此需要对采集的监测数据进行预处理以使之适用于后期的数据挖掘分析。
技术实现思路
[0003]为了解决上述问题,本专利技术提供了基于大数据分析平台的主变压器大数据预处理方法,具体技术方案如下:
[0004]基于大数据分析平台的主变压器大数据预处理方法,包括以下步骤:
[0005]步骤S1,数据采 ...
【技术保护点】
【技术特征摘要】
1.基于大数据分析平台的主变压器大数据预处理方法,其特征在于:包括以下步骤:步骤S1,数据采集与存储:从调度自动化系统中提取主变压器的运行数据,包括运行时每个时刻的电流、电压和有功功率、无功功率,并将提取的运行数据存储至大数据分析平台;步骤S2,重复数据检测与处理:大数据分析平台检测提取的主变压器的运行数据中的重复数据,并将重复的数据择一保留,剔除多余的重复数据,并将处理后的数据输入步骤S3;步骤S3:异常数据检测与处理:大数据分析平台检测提取的主变压器的运行数据是否异常,若是存在异常数据,则剔除异常数据,并将处理后的数据输入步骤S4;步骤S4:局部离群点检测与处理:大数据分析平台检测提取的主变压器的运行数据是否存在局部离群点,若是存在局部离群点,则将局部离群点剔除;步骤S5,数据完整性检测与处理:大数据分析平台检测提取的运行数据是否完整,若是提取的运行数据中存在缺失值,则对缺失值进行补全,并将补全后的运行数据作为最终处理后的数据输出。2.根据权利要求1所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:所述步骤S2中重复数据检测与处理具体包括以下步骤:步骤S21:将提取的主变压器的运行数据按照类型划分n个数据块;每个数据块包括m个对象;所述对象的记载方式为表示第k种类型运行数据中第i个数据块中第j个数据;其中,k=1,2,3,4,分别表示电流、电压和有功功率、无功功率;i=1,2,
···
n;j=1,2,
…
m;所述表示为时刻对象,表示为时刻与数值对;步骤S22:对第k种类型运行数据中每个数据块内的任意两个对象采用异或运算检测是否有重复数据,若运算结果为0,表示存在重复数据,则要剔除其中的一个,若运算结果为1,则表示该数据块内不存在重复数据;步骤S23:每个数据块内剔除重复数据后,再对任意两个数据块采用异或运算检测是否有重复数据,即其中一个数据块的每个对象分别与另一个数据块的每个对象进行异或运算,若存在重复数据,则保留一个数据即可。3.根据权利要求2所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:进行异或运算时是对时刻进行异或运算,剔除重复时刻的数据。4.根据权利要求1所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:所述步骤S3中异常数据检测与处理具体包括以下步骤:步骤S31:在大数据分析平台设定主变压器电流、电压和有功功率、无功功率的最大值和最小值;步骤S32:分别检测提取的每种类型的运行数据是否都在设定的对应的最大值和最小值之间,若是对应数值不在最小值和最大值之间,则判定为异常数据,并进行数值剔除。5.根据权利要求1所述的基于大数据分析平台的主变压器大数据预处理方法,其特征在于:所述步骤S4中局部离群点检测与处理具体包括以下步骤:步骤S41:将提取的主变压器的每种类型的运行数据划分n个数据块;数据块的每个对象数值与其(m+k)近邻距离都初始化为最大值;
步骤S42:用运行数据的每个对象数值与第一个数据块的每个对象数值计算距离,并更新第一个数据块中每个对象数值的(m+k)近邻,实时计算每个对象数值的离群度,近邻数量小于m+k个时,离群度置为无穷大,离群度小于初始阈值c的就从该数据块排除;所述每个对象数值的离群度为该对象数值与其第m+1至m+k近邻的距离之和;步骤S43:处理完第一个数据块后,将第一个数据块中未被排除的对象数值按离群度从大到小排序,取前n个对象数值加入TOP n离群点,并更新阈值c;步骤S44:用运行数据的的每个对象数值...
【专利技术属性】
技术研发人员:于明,林信,包忠强,李波,黄丽娟,周恒旺,覃晖,郭华,谢瑞浩,
申请(专利权)人:广西电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。