The invention relates to an automatic identification method and system for suspected familial defects of power transmission and transformation equipment, including: collecting data of power transmission and transformation equipment, text analysis of defect information of power transmission and transformation equipment, obtaining characteristic word frequency matrix of equipment defect information, and computing word frequency vector matrix based on characteristic word frequency matrix of equipment defect information. Based on the similarity between the defect information of different transmission and transformation equipment, the defect information of transmission and transformation equipment is clustered to identify the family defect equipment. The invention clusters the defect information of transmission and transformation equipment and automatically identifies the suspected familial defect equipment according to the grouping statistical results, thus greatly reducing the cost of labor and time.
【技术实现步骤摘要】
一种输变电设备疑似家族性缺陷的自动辨识方法及系统
本专利技术涉及文本挖掘
,具体涉及一种输变电设备疑似家族性缺陷的自动辨识方法及系统。
技术介绍
输变电设备安全可靠的运行是电网安全运行的基础,因此,如果输变电设备存在缺陷,则电网的运行将会存在安全隐患,尤其是同一生产厂家由于相同工艺、相同材料、相同设计理念和思路造成的设备缺陷将对电网的安全稳定运行造成较大的隐患。目前,输变电设备家族性缺陷来源主要包括:有关设备的家族事故通报、设备反措、设备家族性缺陷、制造厂通报的家族性缺陷。家族性缺陷管理程序包括:①各运行公司上报疑似家族性缺陷;②调查统计分析;③界定并提出处理意见;④家族性缺陷信息及反措要求;⑤家族性缺陷设备汇总及相关家族性缺陷处理;⑥上报的处理结果。针对家族性缺陷的认定主要通过专业人员通过对设备进行试验、解体分析,周期较长,不利于家族性缺陷的认定工作。因此,需要提供一种技术方案来满足现有的技术需要。
技术实现思路
针对现有技术的不足,本专利技术提出了一种输变电设备疑似家族性缺陷的自动辨识方法及系统。一种输变电设备疑似家族性缺陷的自动辨识方法,其包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。采集到的输变电设备数据包括:输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。采集输变电设备数据,对输变电设备缺陷信 ...
【技术保护点】
1.一种输变电设备疑似家族性缺陷的自动辨识方法,其特征在于,包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。
【技术特征摘要】
1.一种输变电设备疑似家族性缺陷的自动辨识方法,其特征在于,包括:采集输变电设备数据,对输变电设备缺陷信息进行文本分析,得到设备缺陷信息特征词频矩阵;基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性;基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备。2.根据权利要求1所述的自动辨识方法,其特征在于,所述采集到的输变电设备数据包括:所述输变电设备的缺陷记录、生产升价信息、台账信息、分类信息数据和身份标识。3.根据权利要求1所述的自动辨识方法,其特征在于,所述采集输变电设备数据,对输变电设备缺陷信息进行文本分析,包括:利用所述采集到的输变电设备的缺陷记录和输变电设备的身份标识,对所述输变电设备进行关联合并,得到疑似家族性缺陷分析宽表,所述疑似家族性缺陷分析宽表每行对应一个缺陷内容;基于所述疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表;基于所述设备缺陷信息词频统计表,提取所述输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵。4.根据权利要求3所述的自动辨识方法,其特征在于,所述基于所述疑似家族性缺陷分析宽表,定义设备缺陷分析词典,进行设备缺陷信息文本分词,得到设备缺陷信息词频统计表,包括:根据所述疑似家族性缺陷分析宽表,分别定义自定义词典、同义词词典和停用词词典;对所述自定义词典、所述同义词词典和所述停用词词典中的缺陷内容信息进行同义词转换操作和词的停用,得到设备缺陷信息词频统计表。5.根据权利要求3所述的自动辨识方法,其特征在于,所述基于所述设备缺陷信息词频统计表,提取所述输变电设备的缺陷信息特征词,得到设备缺陷信息特征词频矩阵,包括:基于所述设备缺陷信息词频统计表,按下式分别计算词频(TF)和逆文档词频(IDF);将词频(TF)*逆文档词频(IDF)得到的值TF-IDF,按照降序排列后,基于每种缺陷内容,提取排名在前10位的词出来作为特征词,得到所述设备缺陷信息特征词频矩阵;其中所述设备缺陷信息特征词频矩阵的行对应缺陷内容,所述列对应特征词。6.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述设备缺陷信息特征词频矩阵,计算词频向量矩阵之间的相关性和不同输变电设备缺陷信息之间的相似性,包括:基于所述设备缺陷信息特征词频矩阵,计算特征词向量的余弦值:其中,A和B分别为所述设备缺陷信息特征词频矩阵中的任一两行中的缺陷内容特征词向量;Ai和Bi分别为每个向量中的第i个元素,其中,各向量中的元素为二进制形式。7.根据权利要求1所述的自动辨识方法,其特征在于,所述基于所述不同输变电设备缺陷信息之间的相似性,对输变电设备缺陷信息进行聚类,辨识疑似家族性缺陷设备,包括:基于不同输变电设备缺陷信息之间的相似性,利用凝聚层次聚类算法对输变电设备缺陷信息进行聚类;基于聚类结果,确定每一类的缺陷内容特征词并根据所述缺陷内容特征词生成对应的标签;对所述输变电设备缺陷内容的标签进行分组统计,将数量大于或等于5个的设备缺陷定义为设备疑似家族性缺陷。8.一种输变电设备疑似家族性缺陷的自动辨识系统,其特征在于,包括:设备缺陷信息特征词频矩阵模块,用于采集输变电设备数据,对输...
【专利技术属性】
技术研发人员:郑晓崑,周爱华,胡斌,梁潇,陈其鹏,
申请(专利权)人:全球能源互联网研究院有限公司,国网山东省电力公司青岛供电公司,国家电网公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。