本发明专利技术涉及一种基于机器学习的变流器故障诊断方法、计算机设备和存储介质,解决现有技术存在的难以高效、准确评估低故障元器件的状态,采用的技术方案及其技术效果:通过实际数据、检测数据和历史数据构建训练集和测试集,采用对随机森林过采样方法通过机器学习模型,针对海量数据,利用正态分布自动计算出样例的邻近点数量,提高算法效率;通过引入随机正负值权重和负值权重,插值进行过采样,减少低故障率元器件的故障数据的边缘化程度;从多维度参数(包括实际数据、检测数据和历史数据)综合的角度对变流器进行状态评估,实现多源数据融合的状态评估方法,提高变流器核心组件状态评估结果可信度。态评估结果可信度。态评估结果可信度。
【技术实现步骤摘要】
一种基于机器学习的变流器故障诊断方法、计算机设备和存储介质
[0001]本专利技术涉及一种变流器故障诊断方法、计算机设备和存储介质,尤其涉及一种一种基于机器学习的变流器故障诊断方法、计算机设备和存储介质。
技术介绍
[0002]变流器运行过程中数据众多,故障类型也多种多样,对于高故障率器件来说,如IGBT模块(即功率半导体器件:主要作用是控制高压、高电流负载,并将电能转换为所需的形式),因为故障频次相对较高且有比较成熟的评估方法,随机森林算法能够较为容易的进行数据采集与判断,但对于晶体管高阻、电感、连接器等低故障率元器件来说,随机森林算法的判断不够敏感。随机森林算法在处理海量数据、非平衡数据时不能很好地对少数类作出预测。因此,这些变流器故障样例库从真实业务系统获取存在困难,对此,现有的处理方法是通过过采样,对训练集里的低故障率元器件的故障样例进行过采样,即增加一些数量少的类别样例使得各个类别样例的数目接近。
[0003]但这种方法存在两个问题:一是在对低故障率元器件的故障样例进行近邻选择时,存在一定的盲目性。在算法执行过程中,需要确定邻近点数量但邻近点数量的上限没有办法确定,只能根据具体的数据集去反复测试。因此如何确定邻近点数量,才能使算法达到最优这是未知的。二是该算法无法克服非平衡数据集的数据分布问题,容易产生分布边缘化问题。由于负类样例的分布决定了其可选择的近邻,如果一个负类样例处在负类样例集的分布边缘,则由此负类样例和相邻样例产生的“人造”样例也会处在这个边缘,且会越来越边缘化,从而模糊了正类样例和负类样例的边界,而且使边界变得越来越模糊。这种边界模糊性,使得故障特征相差不是特别明显的变流器故障类型容易出现错判,加大了对变流器故障进行分类的难度。
[0004]与传统高压电气设备精益化运维相比,新能源接入设备的运维监测水平差距明显,其主要原因在于:新能源接入设备在网运行时间短,缺乏经过大量实践检验的、行之有效的诊断方法;因此,变流器作为新能源设备的一部分,在新能源大规模接入背景下,如何提高变流器的运维监测水平,实现变流器的有效状态诊断,是保障以新能源为主体的新型电力系统可靠运行的重要任务之一。
技术实现思路
[0005]本专利技术的目的在于解决现有技术存在的上述问题而提供一种基于机器学习的变流器故障诊断方法,对随机森林过采样抽样方法进行优化,针对海量数据,利用正态分布自动计算出需取的低故障率元器件的故障样例邻近点数量,提高算法效率;通过引入随机正权重和负值权重,插值进行过采样,减少数据的边缘化程度,降低对变流器故障分类的难度;从多维度参数综合的角度对变流器进行状态评估,实现多源数据融合的状态评估方法,提高变流器核心组件状态评估结果可信度。
[0006]本专利技术的上述技术目的主要是通过以下技术方案解决的:基于机器学习的变流器故障诊断方法,其包括如下步骤:
[0007]步骤1,采集故障数据:通过变流器中的传感器获取变流器的实际数据;通过虚拟传感器获取变流器的检测数据;
[0008]步骤2,形成故障样例:根据故障特征,对实际数据和检测数据分别形成故障实际样例和故障检测样例;
[0009]步骤3,构建故障集:根据故障实际样例、故障检测样例和从历史数据库中获取的故障历史样例构建故障样例集;
[0010]步骤4,构建训练集和测试集:根据训练和测试要求,对故障集进行处理形成训练集和测试集,使训练集和测试集中分别具有合适数量的故障样例;
[0011]步骤5,过采样:对测试集中数据进行过采样,以增加数据量;
[0012]步骤6,模型选择与训练:根据故障特征,构建机器学习模型,并采用随机森林算法,利用训练集和过采样的测试集对机器学习模型进行模型训练;
[0013]步骤7,对边缘化数据进行处理:通过机器学习模型将实际数据、检测数据和历史数据进行整合和融合,去除边缘化数据。
[0014]步骤8,得到故障信息,进行故障预测。
[0015]对于本技术方案而言,首先、从多维度参数综合的角度对变流器进行状态评估,即,从变流器中获取变流器的实际数据的维度,从虚拟传感器获取变流器的检测数据的维度,还有通过历史数据库获取历史数据的维度,实现多源数据融合的状态评估方法,提高变流器核心组件状态评估结果可信度。
[0016]接着,对随机森林过采样抽样方法进行优化,针对海量数据,利用正态分布自动计算出需取的低故障率元器件的故障样例邻近点数量,提高算法效率。通过引入随机正权重和负值权重,插值进行过采样,减少数据的边缘化程度,降低对变流器故障分类的难度,能够准确、高效确定变流器故障类型。
[0017]作为对上述技术方案的进一步完善和补充,本专利技术采用如下技术措施:基于机器学习的变流器故障诊断方法还包括步骤9,故障预测和优化:基于机器学习模型和多源数据融合的步骤,预测变流器中各部件的故障,根据预测得到变流器中各部件的故障,输出对应故障评估结果和指导意见。
[0018]基于机器学习的变流器故障诊断方法还包括步骤9,对模型进行反馈和优化,用以提高故障评估精度。
[0019]对于上述技术方案而言,尤其适用于低故障元器件,即所述故障数据为变流器中低故障元器件的故障数据或检测数据,所述的故障样例为变流器中低故障元器件的故障样例。当然,本技术方案涉及的方案用于变流器中的常规元器件也是适用的。
[0020]在上述技术方案的步骤4中,我们再详细说明构建测试集、构建训练集的步骤,其步骤为:
[0021]S1、在故障集中选取一个样例Xi;
[0022]S2、通过正态分布得到选取的所述样例Xi的k个邻近点;
[0023]S 3、设置所述样例Xi到邻近点之间的距离取值;
[0024]S 4、随机抽取N个样例,引入正值权重和负值权重,进行插值,完成过采样;
[0025]S 5、判断插值数量;
[0026]S 6、根据插值数量,构建测试集、构建训练集。
[0027]在上述技术方案的步骤7中,再结合构建测试集、构建训练集的具体方法,在步骤7中,当所述样例Xi的近邻点的个数满足正态分布时,令μ代表平均值,σ代表标准差,则在横轴区间(μ
‑
σ,μ+σ)内的数据统计面积达到第一阈值时,当第一阈值的近邻点落入横轴区间(μ
‑
σ,μ+σ)内,为有效点,其余为噪声点去除,完成去除边缘化数据处理。第一阈值优选68.26%。
[0028]或者,在上述技术方案的步骤7中,再结合构建测试集、构建训练集的具体方法,当所述样例Xi的近邻点的个数满足正态分布时,令μ代表平均值,σ代表标准差,则在横轴区间(μ
‑
2σ,μ+2σ)内的数据统计面积达到第二阈值时,第二阈值时的近邻点落入横轴区间(μ
‑
2σ,μ+2σ)内,为有效点,其余为噪声点去除,完成去除边缘化数据处理。第二阈值优选95.44%。
[0029]或者,在上述技术方案的步骤7中,再结合构建测试集、构建训练集的具体方本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于机器学习的变流器故障诊断方法,其包括如下步骤:步骤1,采集故障数据:通过变流器中的传感器获取变流器的实际数据;通过虚拟传感器获取变流器的检测数据;步骤2,形成故障样例:根据故障特征,对实际数据和检测数据分别形成故障实际样例和故障检测样例;步骤3,构建故障集:根据故障实际样例、故障检测样例和从历史数据库中获取的故障历史样例构建故障样例集;步骤4,构建训练集和测试集:根据训练和测试要求,对故障集进行处理形成训练集和测试集,使训练集和测试集中分别具有合适数量的故障样例;步骤5,过采样:对测试集中数据进行过采样;步骤6,模型选择与训练:根据故障特征,构建机器学习模型,并采用随机森林算法,利用训练集和过采样的测试集对机器学习模型进行模型训练;步骤7,对边缘化数据进行处理:通过机器学习模型将实际数据、检测数据和历史数据进行整合和融合,去除边缘化数据。步骤8,得到故障信息,进行故障预测。2.根据权利要求1所述的基于机器学习的变流器故障诊断方法,其还包括步骤9,故障预测和优化:基于机器学习模型和多源数据融合的步骤,预测变流器中各部件的故障,根据预测得到变流器中各部件的故障,输出对应故障评估结果和指导意见。3.根据权利要求2所述的基于机器学习的变流器故障诊断方法,其还包括步骤10,对模型进行反馈和优化,用以提高故障评估精度。4.根据权利要求3所述的基于机器学习的变流器故障诊断方法,其所述故障数据为变流器中低故障元器件的故障数据或检测数据,所述的故障样例为变流器中低故障元器件的故障样例。5.根据权利要求1所述的基于机器学习的变流器故障诊断方法,其在步骤4中,构建测试集、构建训练集的步骤为:S1、在故障集中选取一个样例Xi;S 2、通过正态分布得到选取的所述样例Xi的k个邻近点;S 3、设置所述样例Xi到邻近点之间的距离取值;S 4、随机抽取N个样例,引入正值权重和负值权重,进行插值,完成过采样;S 5、判断插值数量;S 6、根据插值数量,构建测试集、构建训练集。6.根据权利要求5所述的基于机器学习的变流器故障诊断方法,其在步骤7中,当所述样例Xi的近邻点的个数满足正态分布时,令μ代表平均值,σ代表标准差,则在横轴区间(μ
‑
σ,μ+σ)内的数据统计面积达到第一阈值时,当第一阈值的近邻点落入横轴区间(μ
‑
σ,μ+σ)内,为有效点,其余为噪声点去除,完成去除边缘化数据处理。7.根据权利要求5所述的基于机器学习的变流器故障诊断方法,其在步骤7中,当所述样例Xi的近邻点的个数满足正态分布时,令μ代表平均值,σ代表标准...
【专利技术属性】
技术研发人员:刘黎,俞恩科,王勇,桑清城,张引贤,
申请(专利权)人:国网浙江省电力有限公司舟山供电公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。