一种基于知识图谱的设备故障关键信息提取方法及系统技术方案

技术编号:33954398 阅读:29 留言:0更新日期:2022-06-29 23:09
本发明专利技术公开了一种基于知识图谱的设备故障关键信息提取方法及系统。利用电力领域词库对设备故障信息文本内容进行拆分、过滤,得到故障关键字;根据故障关键字,利用知识图谱提取第一实体对最短路径集合;在多个第一规则块中并行地对第一实体对最短路径集合进行修正;在多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取出匹配次数最高的实体对最短路径。本发明专利技术利用多个规则块同时运行、并行地实施所需的匹配,有效地实现了非结构化语句等数据的多级并行处理,大大提高了抽取的通用性和可移植性。取的通用性和可移植性。取的通用性和可移植性。

【技术实现步骤摘要】
一种基于知识图谱的设备故障关键信息提取方法及系统


[0001]本专利技术涉及一种基于知识图谱的设备故障关键信息提取方法及系统,属于电力系统调度技术监控领域。

技术介绍

[0002]在互联网环境中,随着认知神经、深度学习等领域的持续发展,人工智能逐渐涉足各个领域,旨在改善人们的生活,给人们的生活和工作带来极大便利。
[0003]目前人工智能的技术发展在图像识别、语音识别等领域已经有了.广泛的应用。然而在自然语言处理领域,由于人类语言的复杂性以及事物的多样性,目前的自然语言识别技术也得到了一定程度的发展,因此需要一个语义联通的桥梁——知识图谱。知识图谱由知识以及知识之间的关系组成,其本质上来讲是一种语义网络,网络中的节点表示现实世界存在的实体(Entity),节点之间的边表示两个实体(Entity)之间的关系。通过点与边的组合,将现实世界的知识抽象成计算机可以理解并进行处理的数据。目前知识图谱技术主要用于智能语义搜索、移动个人助理以及问答系统中。如何在非结构化的自然语言中获取关键词信息直接影响系统运行的准确性和检索结果的可靠性。
[0004]在冀北调控中心执行保电任务时,设备的运行状态和故障信息是直接影响保电工作的重大因素,如某变电站变压器损坏,造成线路停电;又如,某条线路电能质量出现故障,造成多个相关线路或设备电压低,电气设备不能正常运行,如何更高效的检索到设备故障关键信息或如何快速地确定用户想要查询的关键字是亟待解决的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于知识图谱的设备故障关键信息提取方法及系统,以利用多个规则块同时运行、并行地实施所需的匹配,有效地实现了非结构化语句等数据的多级并行处理,大大提高了抽取方法的通用性和可移植性。
[0006]为实现上述目的,本专利技术采用如下方案:
[0007]一方面,一种基于知识图谱的设备故障关键信息提取方法,包括:
[0008]利用预先构建的电力领域词库对采集的设备故障信息文本内容进行拆分、过滤,得到故障关键字;
[0009]根据所述故障关键字,利用知识图谱提取第一实体对最短路径集合;
[0010]在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正;在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;
[0011]根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取出匹配次数最高的实体对最短路径。
[0012]进一步地,所述电力领域词库通过以下方法构建:
[0013]对已有的调控云模型表中存储的对象进行歧义字剔除、去重、分类,存储到对应的
业务子库中;
[0014]对于非结构化文件,利用TextRank算法提取关键字,然后进行分类,存储到对应的业务子库中,将无法分类的放到技术标准子库中。
[0015]进一步地,利用TextRank算法从非结构化文件中提取关键字的方法,包括:
[0016]将非结构文件中的文本进行分割,形成句子数组;
[0017]对句子数组中的每个句子进行分词,过滤停用词,保留名称,得到每个句子对应的关键词;
[0018]基于所述关键词,构建关键词图G=(V,E),其中V为节点集,由每个句子对应的关键词组成,E为节点的边;
[0019]利用TextRank公式,迭代传播计算各节点的权重,直至收敛;
[0020]根据权重倒叙排列节点,获得排序最高的多个词语;
[0021]将获取的词语进行分类,存储到对应的字库中。
[0022]进一步地,所述第一规则块采用正则表达式,多个所述第一规则块根据电力系统业务内容不同进行构建,不同规则块在运行信息匹配时相互隔离。
[0023]进一步地,所述第二规则块采用搜索表达式,多个所述第二规则块根据电力系统业务内容不同进行构建,不同规则块在运行信息匹配时相互隔离。
[0024]进一步地,所述在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正,包括:
[0025]采用构建的多个正则表达式,并行地对第一实体对最短路径集合中的文本进行处理,得到电力领域规范使用的文本。
[0026]进一步地,所述在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,包括:
[0027]将设备主体属性集合s与电力领域词库中设备主体属性集合s

相比较,所述设备主体属性集合s为修正后的故障关键字的集合,若s∈s

,对第一实体对最短路径集合中的设备故障信息p和电力领域词库中相关故障信息p

的关键词进行词频计算,得到分词向量K={k1,k2,

,kn}和K

={k

1,k

2,

,k

m};
[0028]利用相似性算法计算K和K

之间的相似度,得到设备故障信息p和词库中设备故障信息p

之间的匹配度,当匹配度大于设定阈值,过滤出设备故障信息p。
[0029]另一方面,一种基于知识图谱的设备故障关键信息提取系统,包括:
[0030]一种基于知识图谱的设备故障关键信息提取系统,其特征在于,包括:
[0031]基本信息提取模块,利用预先构建的电力领域词库对采集的设备故障信息文本内容进行拆分、过滤,得到故障关键字;
[0032]路径结构信息提取模块,根据所述故障关键字,利用知识图谱提取第一实体对最短路径集合;
[0033]属性文本信息提取模块,用于在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正;在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;
[0034]关系抽取模块,根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取
出匹配次数最高的实体对最短路径。
[0035]本专利技术所达到的有益技术效果:
[0036]本专利技术利用多个规则块同时运行、并行地实施所需的匹配,有效地实现了非结构化语句等数据的多级并行处理,大大提高了抽取方法的通用性和可移植性。
附图说明
[0037]图1是本专利技术实施例的一种基于知识图谱的设备故障关键信息提取方法流程图;
[0038]图2是本专利技术实施例的一种基于知识图谱的设备故障关键信息提取系统结构框图;
[0039]图3是电力领域词库示意图。
具体实施方式
[0040]下面结合具体实施例对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。
[0041]本专利技术利用多个规则块同时运行、并行地实施所需的匹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的设备故障关键信息提取方法,其特征在于,包括:利用预先构建的电力领域词库对采集的设备故障信息文本内容进行拆分、过滤,得到故障关键字;根据所述故障关键字,利用知识图谱提取第一实体对最短路径集合;在预设的多个第一规则块中并行地对第一实体对最短路径集合进行修正;在预设的多个第二规则块中并行地对修正后的第一实体对最短路径集合中的故障信息与电力领域词库中的故障信息进行匹配,得到第二实体对最短路径集合;根据第二规则块的匹配次数,从第二实体对最短路径集合中抽取出匹配次数最高的实体对最短路径。2.根据权利要求1所述的一种基于知识图谱的设备故障关键信息提取方法,其特征在于,所述电力领域词库通过以下方法构建:对已有的调控云模型表中存储的对象进行歧义字剔除、去重、分类,存储到对应的业务子库中;对于非结构化文件,利用TextRank算法提取关键字,然后进行分类,存储到对应的业务子库中,将无法分类的放到技术标准子库中。3.根据权利要求2所述的一种基于知识图谱的设备故障关键信息提取方法,其特征在于,利用TextRank算法从非结构化文件中提取关键字的方法,包括:将非结构文件中的文本进行分割,形成句子数组;对句子数组中的每个句子进行分词,过滤停用词,保留名称,得到每个句子对应的关键词;基于所述关键词,构建关键词图G=(V,E),其中V为节点集,由每个句子对应的关键词组成,E为节点的边;利用TextRank公式,迭代传播计算各节点的权重,直至收敛;根据权重倒叙排列节点,获得排序最高的多个词语;将获取的词语进行分类,存储到对应的字库中。4.根据权利要求1所述的一种基于知识图谱的设备故障关键信息提取方法,其特征在于,所述第一规则块采用正则表达式,多个所述第一规则块根据电力系统业务内容不同进行构建,不同规则块在运行信息匹配时相互隔离。5.根据权利要求1所述的一种基于知识图谱的设备故障关键信息提取方法,其特征在于,所述第二规则块采用搜索表达式,多个所述第二规则块根据电力系统业务内容不同进行构建,不同规则块在运行信息匹配时相互隔离。6.根据权利要求4所述的一种基于知识图...

【专利技术属性】
技术研发人员:王凯樊小伟蓝海波张锐宋磊袁汉杰贾鑫刘晓敏张昊季震李晶刘圣楠屈中山
申请(专利权)人:北京科东电力控制系统有限责任公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1