一种基于文本挖掘技术提取断路器故障特征信息的方法技术

技术编号:14984646 阅读:87 留言:0更新日期:2017-04-03 16:11
本发明专利技术公开的基于文本挖掘技术提取断路器故障特征信息的方法,包括:获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化信息,建立断路器故障文本;比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类;统计词频,抽取高频词;结合供电企业信息系统中断路器采购记录资料以及高压断路器国家技术标准,自定义分词词库;基于词典匹配的方法,对分词后的断路器故障文本进行词性标注;将标注信息抽取和高频词汇补充相结合,识别和提取各类型故障的表征词;建立断路器故障表征信息与部件之间以及部件与部件之间的关联关系。有利于发现和提取导致故障发生的深层原因,为预防断路器故障提供依据。

【技术实现步骤摘要】

本专利技术涉及输变电设备管理
,更为具体地说,涉及一种基于文本挖掘技术提取断路器故障特征信息的方法
技术介绍
断路器(circuitbreaker)是指能够关合、承载和开断正常回路条件下的电流并能关合、在规定的时间内承载和开断异常回路条件下的电流的开关位置,在电力输送的过程中,起到重要作用。如此,在我国大型电网企业管理信息系统中,由各变电站节点输入的有关断路器故障描述文本形成了规模庞大的资料库。作为电力系统中最重要的开关设备之一,断路器由多个子部件组成,结构复杂,了解和掌握其常见的故障类型和表征信息,及其与部件之间的关联关系,可以帮助实现对断路器健康状态的实时监测,保证电力系统的安全与稳定运行,具有重要的经济和实际意义。一般的网页和其它行业领域文本资料不同,电网企业信息系统中有关断路器故障信息的资料库在存储格式和记录方式上具有独特性。在存储格式上,企业信息系统中多以表格的形式存储断路器的故障历史信息。每行记录着一次断路器故障信息,由设备型号、生产厂家、投运时间、故障大类别、故障详细情况及原因分析等列记录模块构成,具有一定的结构化特征;其中故障详细情况及原因分析列记录是非结构化的文本描述。企业的每个地方分局(或变电站)所记录的故障详细情况及原因分析文本描述因人而异,呈现非结构化特征。因此,如何从这些断路器故障半结构化文本资料中提取特征信息,准确建立故障类型和各部件之间的关联关系,实现断路器故障智能化分析成为供电企业信息系统亟待解决的技术问题。
技术实现思路
本专利技术的目的是提供一种基于文本挖掘技术提取断路器故障特征信息的方法,实现断路器故障智能化分析。为了解决上述技术问题,本专利技术提供如下技术方案:本专利技术提供的一种基于文本挖掘技术提取断路器故障特征信息的方法,所述方法主要包括:获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化信息,建立断路器故障文本;比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类;统计词频,抽取高频词;结合供电企业信息系统中断路器采购记录资料以及高压断路器国家技术标准,自定义分词词库;基于词典匹配的方法,对分词后的断路器故障文本进行词性标注;将标注信息抽取和高频词汇补充相结合,识别和提取各类型故障的表征词;建立断路器故障表征信息与部件之间、以及部件与部件之间的关联关系;其中:分词词库包括供电企业所采用断路器的型号、部件标准名称、生产厂家以及常用的故障特征描述词等。优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述判断所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类,具体包括:采用jaccard相似度度量算法,将断路器的故障类型进行聚类和名称标准化,并据此对故障详细情况文本进行分类。优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述统计词频,抽取高频词,具体还包括:生成各类型故障发生的比率×词语矩阵D,统计各不同类型故障发生的次数,计算其比率,其中,词语矩阵D为断路器常见故障类型及其对应的发生比率构成的矩阵。优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述方法还包括,将各类型故障详细资料文本进行分词和语义消歧。优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述识别和提取各类型故障的表征词,还包括:统计所述表征词,提取高频词。优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述方法还包括,提取发生各类型故障的断路器型号及其生产厂家信息,并统计词频。优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述方法还包括,构建所述断路器故障特征信息结构图。优选的,上述基于文本挖掘技术提取断路器故障特征信息的方法中,所述统计各不同类型故障发生的次数,计算其比率,具体包括其中,i和j为常数,y(gi)表示断路器故障类型gi发生的次数,初始值设为0,N表示断路器故障信息中元素总个数,其中dk表示发生次数最多的第k类故障名称,p为比率。本专利技术提供基于文本挖掘技术提取断路器故障特征信息的方法,利用文本挖掘技术从这些断路器故障半结构化文本资料中提取特征信息,准确建立故障类型和各部件之间的关联关系,实现断路器故障智能化分析成为供电企业信息系统需要解决的现实技术问题。基于相似度的计算和比较,对断路器的故障类型进行聚类和标准化,并以此为依据对文本进行分组处理;设计正向最大匹配分词算法对分组后的文本进行分词,基于词典匹配方法标注词性,结合排除法,识别和提取各类型故障的常见表征信息;基于共现准则和统计方法,分别建立各故障表征与断路器部件之间、以及部件与部件之间的关联关系,有利于发现和提取导致故障发生的深层原因,为预防断路器故障提供依据。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例提供的基于文本挖掘技术提取断路器故障特征信息的方法的流程图;图2是本专利技术实施例提供的文本分词实现过程图;图3是本专利技术实施例提供的矩阵D、B和P分层构建断路器故障特征信息结构图图4是本专利技术实施例提供的结构图实现可视化的转化图。具体实施方式本专利技术实施例提供的一种基于文本挖掘技术提取断路器故障特征信息的方法,实现断路器故障智能化分析。为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术实施例中的技术方案作进一步详细的说明。参考附图1,该图示出了本专利技术提供的基于文本挖掘技术提取断路器故障特征信息的方法的结构流程图,其主要包括:S101:获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化信息,建立断路器故障文本。提取断路器故障信息表中“故障类型”列信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化信息,形成断路器故障文本,记为向量G。S102:比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类。优选的,采用jaccard相似度度量算法,对向量G中断路器的故障类型进行聚类和名称标准化,并据此对故障详细情况文本进行分组。向量G中任意两个元素gi和gj之间的相本文档来自技高网
...

【技术保护点】
一种基于文本挖掘技术提取断路器故障特征信息的方法,其特征在于,所述方法主要包括:获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化信息,建立断路器故障文本;比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分类;统计词频,抽取高频词;结合供电企业信息系统中断路器采购记录资料以及高压断路器国家技术标准,自定义分词词库;基于词典匹配的方法,对分词后的断路器故障文本进行词性标注;将标注信息抽取和高频词汇补充相结合,识别和提取各类型故障的表征词;建立断路器故障表征信息与部件之间、以及部件与部件之间的关联关系;其中:分词词库包括供电企业所采用断路器的型号、部件标准名称、生产厂家以及常用的故障特征描述词等。

【技术特征摘要】
1.一种基于文本挖掘技术提取断路器故障特征信息的方法,其特征在于,所述方法主
要包括:
获取断路器故障信息,采用向量空间模型表示方法将其转化为计算机可识别的结构化
信息,建立断路器故障文本;
比较所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息进行分
类;
统计词频,抽取高频词;
结合供电企业信息系统中断路器采购记录资料以及高压断路器国家技术标准,自定义
分词词库;
基于词典匹配的方法,对分词后的断路器故障文本进行词性标注;
将标注信息抽取和高频词汇补充相结合,识别和提取各类型故障的表征词;
建立断路器故障表征信息与部件之间、以及部件与部件之间的关联关系;
其中:分词词库包括供电企业所采用断路器的型号、部件标准名称、生产厂家以及常用
的故障特征描述词等。
2.根据权利要求1所述的基于文本挖掘技术提取断路器故障特征信息的方法,其特征
在于,所述判断所述断路器故障文本内断路器故障信息的相似度,将所述断路器故障信息
进行分类,具体包括:
采用jaccard相似度度量算法,将断路器的故障类型进行聚类和名称标准化,并据此对
故障详细情况文本进行分类。
3.根据权利要求2所述的基于文本挖掘技术提取断路器故障特征信息的方法,其特征
在于,所述统计词频,抽取高频词,具体还包括:生成各类型故障发生的比率×词语矩阵D,
统计各不同类型故障发生的次数,计算其比率,其中,词语矩阵D为断路器常见故障...

【专利技术属性】
技术研发人员:黄绪勇王闸孙鹏王秀利耿苏杰
申请(专利权)人:云南电网有限责任公司电力科学研究院
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1