一种输变电设备疑似家族性缺陷的自动辨识方法及系统技术方案

技术编号:19177407 阅读:46 留言:0更新日期:2018-10-17 00:22
本发明专利技术涉及一种输变电设备疑似家族性缺陷的自动辨识方法及系统,包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。本发明专利技术对输变电设备缺陷信息进行聚类,并根据分组统计结果自动辨识疑似家族性缺陷设备,大大削减了人力和时间等成本。

An automatic identification method and system for suspected family defects in power transmission and transformation equipment

The invention relates to an automatic identification method and system for suspected familial defects of power transmission and transformation equipment, including: collecting data of power transmission and transformation equipment, text analysis of defect information of power transmission and transformation equipment, obtaining characteristic word frequency matrix of equipment defect information, and computing word frequency vector matrix based on characteristic word frequency matrix of equipment defect information. Based on the similarity between the defect information of different transmission and transformation equipment, the defect information of transmission and transformation equipment is clustered to identify the family defect equipment. The invention clusters the defect information of transmission and transformation equipment and automatically identifies the suspected familial defect equipment according to the grouping statistical results, thus greatly reducing the cost of labor and time.

【技术实现步骤摘要】
一种输变电设备疑似家族性缺陷的自动辨识方法及系统
本专利技术涉及文本挖掘
,具体涉及一种输变电设备疑似家族性缺陷的自动辨识方法及系统。
技术介绍
输变电设备安全可靠的运行是电网安全运行的基础,因此,如果输变电设备存在缺陷,则电网的运行将会存在安全隐患,尤其是同一生产厂家由于相同工艺、相同材料、相同设计理念和思路造成的设备缺陷将对电网的安全稳定运行造成较大的隐患。目前,输变电设备家族性缺陷来源主要包括:有关设备的家族事故通报、设备反措、设备家族性缺陷、制造厂通报的家族性缺陷。家族性缺陷管理程序包括:①各运行公司上报疑似家族性缺陷;②调查统计分析;③界定并提出处理意见;④家族性缺陷信息及反措要求;⑤家族性缺陷设备汇总及相关家族性缺陷处理;⑥上报的处理结果。针对家族性缺陷的认定主要通过专业人员通过对设备进行试验、解体分析,周期较长,不利于家族性缺陷的认定工作。因此,需要提供一种技术方案来满足现有的技术需要。
技术实现思路
针对现有技术的不足,本专利技术提出了一种输变电设备疑似家族性缺陷的自动辨识方法及系统。一种输变电设备疑似家族性缺陷的自动辨识方法,其包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。采集输变电设备数据,对输变电设备缺陷信息进行文本分析,包括:利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,疑似家族性缺陷分析宽表每行对应一个缺陷内容;基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表,包括:根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵,包括:基于设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中所述设备缺陷信息特征词频矩阵的行对应缺陷内容,所述列对应特征词。基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性,包括:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:其中,A和B分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备,包括:基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;基于聚类结果,确定每一类的缺陷内容特征词并根据所述缺陷内容特征词生成对应的标签;对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。一种输变电设备疑似家族性缺陷的自动辨识系统,包括:设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;相似性计算模块,用于基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;疑似家族性缺陷设备辨识模块,用于基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。设备缺陷信息特征词频矩阵模块,包括:疑似家族性缺陷分析宽表子模块、设备缺陷信息词频统计表子模块和设备缺陷信息特征词频矩阵子模块;疑似家族性缺陷分析宽表子模块,用于利用采集到的输变电设备的缺陷记录和输变电设备的身份标识,对输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;设备缺陷信息词频统计表子模块,用于基于疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;设备缺陷信息特征词频矩阵子模块,用于基于设备缺陷信息词频统计表,提取输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。设备缺陷信息词频统计表子模块,包括:词典定义单元和统计表单元;词典定义单元,用于根据疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;统计表单元,用于对自定义词典、同义词词典和停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。设备缺陷信息特征词频矩阵子模块,包括:计算单元和特征词提取单元;计算单元,用于基于设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);特征词提取单元,用于将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中,设备缺陷信息特征词频矩阵的行对应缺陷内容,列对应特征词。相似性计算模块,进一步用于:基于设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:其中,A和B分别为设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。疑似家族性缺陷设备辨识模块,包括:聚类算法子模块、标签确定子模块和缺陷定义子模块;聚类算法子模块,用于基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;标签确定子模块,用于基于聚类结果,确定每一类的缺陷内容特征词并根据缺陷内容特征词生成对应的标签;缺陷定义子模块,用于对输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。与最接近的现有技术比,本专利技术具有如下有益效果:1、本专利技术对输变电设备缺陷信息进行聚类,并根据分组统计结果自动辨识疑似家族性缺陷设备,大大削减了人力和时间等成本。2、本专利技术所采用算法避免了用户过多的参数设置上的参与,保证了结果的高复制性,如所采用聚类算法无需设置类的个数,而是算法自动选择最优的类的数量。附图说明图1是本专利技术方法的流程图;图2是本专利技术的具体设计流程图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步的详细说明。如图1所示,本专利技术的输变电设备疑似家族性缺本文档来自技高网...

【技术保护点】
1.一种输变电设备疑似家族性缺陷的自动辨识方法,其特征在于,包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。

【技术特征摘要】
1.一种输变电设备疑似家族性缺陷的自动辨识方法,其特征在于,包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。2.根据权利要求1所述的自动辨识方法,其特征在于,所述采集到的输变电设备数据包括:所述输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。3.根据权利要求1所述的自动辨识方法,其特征在于,所述采集输变电设备数据,对输变电设备缺陷信息进行文本分析,包括:利用所述采集到的输变电设备的缺陷记录和输变电设备的身份标识,对所述输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;基于所述疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;基于所述设备缺陷信息词频统计表,提取所述输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。4.根据权利要求3所述的自动辨识方法,其特征在于,所述基于所述疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表,包括:根据所述疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;对所述自定义词典、所述同义词词典和所述停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。5.根据权利要求3所述的自动辨识方法,其特征在于,所述基于所述设备缺陷信息词频统计表,提取所述输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵,包括:基于所述设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中所述设备缺陷信息特征词频矩阵的行对应缺陷内容,所述列对应特征词。6.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性,包括:基于所述设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:其中,A和B分别为所述设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。7.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备,包括:基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;基于聚类结果,确定每一类的缺陷内容特征词并根据所述缺陷内容特征词生成对应的标签;对所述输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。8.一种输变电设备疑似家族性缺陷的自动辨识系统,其特征在于,包括:设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输...

【专利技术属性】
技术研发人员:郑晓崑周爱华胡斌梁潇陈其鹏
申请(专利权)人:全球能源互联网研究院有限公司国网山东省电力公司青岛供电公司国家电网公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1