本发明专利技术是一种基于非稳定频率分布与频率因子学习的电力通信系统数据真值判别与推断方法,首先通过异构数据的频率化统一了电力通信系统中多源异构数据的格式,将电力通信系统中各数据的格式统一成非稳定频率,再通过频率因子学习函数进行机器特征学习,分两种标签形式对频率学习函数进行参数优化求解,得出预测函数。通过设定的真值判别方法结合预测函数实现对电力通信系统中采集到的海量监控数据进行学习与规则分析,使得非稳定频率的分布指向电力通信系统中的异常点,从而判断数据的真值性。通过对历史数据的利用,自动对异常数据进行定位与真值推理补全,以提高电力通信系统中的数据质量。
Data true value discrimination and inference method of power communication system based on unstable frequency distribution and frequency factor learning
【技术实现步骤摘要】
基于非稳定频率分布与频率因子学习的电力通信系统数据真值判别与推断方法
本专利技术属于电力通信数据与大数据技术,机器学习技术相融合的应用研究,通过将的非稳定频率模式代入频率因子学习函数进行机器学习,从而实现对电力通信系统中采集到的海量监控数据进行学习与规则分析,自动对异常数据进行定位与真值推理补全,以提高电力通信系统中的数据质量。
技术介绍
电力通信系统是一个广义的概念,泛指与电力电网相关各子系统以及他们产生的数据信息,随着我国电力电网的不断发展,用电需求的不断扩大,电力通信系统中产生的数据也日益庞大起来,同时数据产生的速度也越来越快,不同子系统间的数据结构也有很大差异,电力通信系统产生的数据成为了典型的大数据。电力通信系统是保障电力系统正常运行的重要系统,通过各类传感器对设备进行监测,为设备故障提供决策,为设备维修提供依据。大型的电力通信系统产生海量的监测数据,这些数据在采集、录入、传输、交换与储存过程中不可避免的会出现数据失真现象。现实中,这些失真数据已经成为定位与分析电力设备故障的重要阻碍因素。提高电力通信系统的数据质量是完善电力电网系统的重要环节。国内外专家对电力系统中失真数据的检测提出了多种解决方法,文献[1]研究能量管理系统中出现数据失真的原因,然后从原因着手,解决数据失真的问题。文献[2]是从数据平台着手试图提高数据质量。文献[3]从插值拟合的角度来预测数据质量.文献[4]基于公共信息模型(CommonInformationModel,CIM)的高速模型交换格式CIM/E文本为载体的不同系统间的数据校验技术,采用改进的多源数据筛选较优质量数据的手段,以及根据主站状态估计对现场数据进行反馈的方法,提高了电网调度系统的整体数据质量。以上基于电力设备状态估计的不良数据检测在对待局系统局部数据的质量提高时有一定效果,但是对于整个电力通信系统产生的多源异构大数据仍不具备良好的适用性,并且针对每一种数据失真建立相应知识库的成本是相对较高的。本专利技术提出频率因子学习函数基于机器学习技术,相对提高了算法的智能,不需要建立知识库,算法随用随学,降低成本。同时通过异构数据的频率化统一了多源异构数据的格式,通过国家电网真实数据集验证算法,实验结果表明该方法适用于大数据环境下的电力通信系统产生的多源异构数据的失真判别与真值推断。
技术实现思路
电力通信系统是保障电力系统正常运行的重要系统,通过各类传感器对设备进行监测,为设备故障提供决策,为设备维修提供依据。大型的电力通信系统产生海量的监测数据,这些数据在采集、录入、传输、交换与储存过程中不可避免的会出现数据失真现象。现实中,这些失真数据已经成为定位与分析电力设备故障的重要阻碍因素。电力通信系统中出现的数据异常主要包括以下形式:1.违反监测数据精确性,监测数据准确性是指电力信息系统监测到的数据通过录入、传输、交换与储存后,被最终用以分析决策前的值与真实值之间的接近程度。2.违反监测数据一致性,监测数据一致是指,系统实际记录到的数据是否满足一定的函数依赖或逻辑关系,是否有超出属性定义域的数据,是否有不符合实际的数据。3.违反监测数据量纲统一性,监测数据量纲统一性指的是同一属性的数据是否具有统一的计量单位,由于在电力通信系统中,统一属性的数据可能被不同子系统监测,容易出现量纲不统一现象。4.违反监测数据完整性,监测数据完整性是电力信息系统实际录入的数据是存在缺失,是否完全记录了按设计要求记录的全部数据。其中,前三种类型可以概括为数据准确性问题,第四种可以认为是数据缺失问题。现阶段,电力通信系统采集道德数据存在大量可以直观观察到的数据缺失现象,同时不准确数据也充斥着数据库。这些现象产生一部分是由于电力监测系统自身的问题,一部分是数据录入时出现的偶然差错,还有一部分是系统升级时,系统不兼容问题导致的数据失真。针对目前电力通信系统中出现的数据质量偏低问题,本专利技术旨在建立一种自动对电力数据进行失真识别,失真位与真值推理的机器学习判别方法,本方法将电力通信系统中各数据的格式统一成非稳定频率分布,再通过频率因子学习函数进行特征学习,使得非稳定频率分布指向电力通信系统中的异常点,从而判断数据的真值性。为完成以上目标,本专利技术整体包含四个步骤,整体流程图见附图1,包括以下步骤:定义1属性的稳定期其中ei(t0)表示属性ei在t0时刻的属性值,t表示属性的一个最小稳定周期,即经过t时间,属性值回到了和ei初始时刻的值相差不大的ε表一个很小的正数偏离度,其限定了属性值在稳定期内的最大偏离程度;定义2属性集的稳定期T=m(t1,t2,…,tn)其中,T是属性集的稳定周期,它表示电力数据集内所有属性稳定周期的最小公倍数,m是提取最小公倍数的映射符号;定义3稳定状态集其中,代表了经历一个属性集周期T后,属性集中各属性数据的稳定值,通常这个值与初始值ei(t)较为接近,表示电力数据属性集A的一个稳定状态集,它是由A集合内所有属性对应的稳定值组合而成;稳定模式的现实意义在于它描述了正常属性值在一个小周期内的稳定值分布情况;定义4提取非稳定频率其中,fi(t)表示属性ei的非稳定频率,N[ei′(t)]表示属性ei在稳定期内被遍历时内超出偏离度的计数,表示属性ei在稳定期内被遍历的次数;D(ei)表示ei不超出偏离度的定义域;定义5非稳定频率分布FA(t)=[f1(t),f2(t),…,fn(t)]其中,FA(t)称为非稳定频率分布,它表示在遍历期内,来自电力属性集A中非稳定属性被检测到的频率分布,其被定义成向量的形式是为了在接下来的步骤3中进行机器学习输入;定义6非稳定频率分布标签集,对应关系示意图见附图2Dtrain(A)={(FA(1),y(1)),(FA(2),y(2)),...,(FA(n),y(n))}其中Dtrain(A)表示非稳定频率标签向量,它本质是一个由第i时期非稳定频率分布FA(i)与其对应的设备故障标签y(1)组成的训练数据集;数据标签可以通过对系统发生错误的错误代码进行数值赋值得到,只起分类的作用;定义7非稳定频率分布矩阵其中F表示非稳定频率分布矩阵,它是在稳定期内将第i次遍历得到的的非稳定频率分布按行向量的形式组装起来的代数结构,这种结构有利于其引入算法中,是输入频率因子学习算法的标准格式;具体包括:步骤1提取电力数据集稳定模式,基于构造的电力数据集,确定包含的电力设备的待测属性:A={e1,e2,e3,…,en}其中,A表示一个电力数据属性集合,ei,i∈[1,n2]表示对电力设备所处环境监测的n个属性(例如:网元ID,电流,设备温度,湿度,时间等),然后设定偏离度,确定属性集稳定期;并提取稳定状态集合步骤2构造非稳定频率分布,通过对电力通信系统产生的多源异构数据频率化,使其数据结构得到统一,便于引入步骤3的算法,然后提取非稳定频率,并构造非稳定频率分布步骤3非稳定频率因子学习,具体包括:步骤3.1构造非稳定频率标签向量和非稳定频率分布矩阵步骤3.2频率因子学习:基于一种频率因子学习函数,采用此函数进行参数学习;其中,为学习函数的回归标签,Fi,(i=0,1,2,…)为非稳定频率分布(向量形式的自变量),特别的,当第i属性在单位模式周期内未出现数据时,则该频率量赋值1本文档来自技高网...
【技术保护点】
基于非稳定频率分布与频率因子学习的电力通信系统数据真值判别与推断方法,其特征在于,包括以下步骤:定义1属性的稳定期
【技术特征摘要】
1.基于非稳定频率分布与频率因子学习的电力通信系统数据真值判别与推断方法,其特征在于,包括以下步骤:定义1属性的稳定期其中ei(t0)表示属性ei在t0时刻的属性值,t表示属性的一个最小稳定周期,即经过t时间,属性值回到了和ei初始时刻的值相差不大的ε表一个很小的正数偏离度,其限定了属性值在稳定期内的最大偏离程度;定义2属性集的稳定期T=m(t1,t2,…,tn)其中,T是属性集的稳定周期,它表示电力数据集内所有属性稳定周期的最小公倍数,m是提取最小公倍数的映射符号;定义3稳定状态集其中,代表了经历一个属性集周期T后,属性集中各属性数据的稳定值,通常这个值与初始值ei(t)较为接近,表示电力数据属性集A的一个稳定状态集,它是由A集合内所有属性对应的稳定值组合而成;稳定模式的现实意义在于它描述了正常属性值在一个小周期内的稳定值分布情况;定义4提取非稳定频率其中,fi(t)表示属性ei的非稳定频率,N[ei′(t)]表示属性ei在稳定期内被遍历时内超出偏离度的计数,表示属性ei在稳定期内被遍历的次数;D(ei)表示ei不超出偏离度的定义域;定义5非稳定频率分布FA(t)=[f1(t),f2(t),…,fn(t)]其中,FA(t)称为非稳定频率分布,它表示在遍历期内,来自电力属性集A中非稳定属性被检测到的频率分布,其被定义成向量的形式是为了在接下来的步骤3中进行机器学习输入;定义6非稳定频率分布标签集,对应关系示意图见附图2Dtrain(A)={(FA(1),y(1)),(FA(2),y(2)),...,(FA(n),y(n))}其中Dtrain(A)表示非稳定频率标签向量,它本质是一个由第i时期非稳定频率分布FA(i)与其对应的设备故障标签y(1)组成的训练数据集;数据标签可以通过对系统发生错误的错误代码进行数值赋值得到,只起分类的作用;定义7非稳定频率分布矩阵其中F表示非稳定频率分布矩阵,它是在稳定期内将第i次遍历得到的的非稳定频率分布按行向量的形式组装起来的代数结构,这种结构有利于其引入算法中,是输入频率因子学习算法的标准格式;具体包括:步骤1提取电力数据集稳定模式,基于构造的电力数据集,确定包含的电力设备的待测属性:A={e1,e2,e3,…,en}其中,A表示一个电力数据属性集合,ei,i∈[1,n2]表示对电力设备所处环境监测的n个属性(例如:网元ID,电流,设备温度,湿度,时间等),然后设定偏离度,确定属性集稳定期;并提取稳定状态集合步骤2构造非稳定频率分布,通过对电力通信系统产生的多源异构数据频率化,使其数据结构得到统一,便于引入步骤3的算法,然后提取非稳定频率,并构造非稳定频率分布步骤3非稳定频率因子学习,具体包括:步骤3.1构造非稳定频率标签向量和非稳定频率分布矩阵步骤3.2频率因子学习:基于一种频率因子学习函数,采用此函数进行参数学习;
【专利技术属性】
技术研发人员:杨济海,余放,伍小生,彭汐单,巢玉坚,蔡志民,王华,付萍萍,李敏,吕顺利,邓伟,李志鹏,王泉啸,李石君,余伟,李宇轩,
申请(专利权)人:国网江西省电力公司信息通信分公司,南京南瑞集团公司,国家电网公司,武汉大学,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。