System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种文本实体知识抽取方法及系统,尤其涉及一种电力设备的事件抽取方法及系统。
技术介绍
1、在电力设备日常巡检维护的过程中,电网的运行维护部门积累了大量的设备运行状态文本,电力设备案例文本便是其中重要的组成部分。这类文本对于运维人员而言能够有效提供维护策略、运维决策等一系列动作的历史依据。
2、然而,当前实现自动化、智能化的文本信息提取、表示、分析等过程尚存在一定的困难。随着电力设备状态检修数据不断地积累,利用设备历史案例信息辅助运维人员制定决策的难度不断增大、效率不断降低。这使得企业亟需一种能够聚集电力设备案例事件知识、便于工作人员学习分析、可视化程度高的工具,而知识图谱则满足这些需求。因此,可以应用知识图谱技术来对文本信息进行分析、录入、展示、推理等。而为了构建设备的事件案例知识图谱,必须要对电力设备案例文本的实体进行事件抽取。
3、事件抽取是一种面向非结构化文本或半结构化数据的信息抽取任务。事件抽取的是"事件",即某些事物在时空范围内的运动。事件是指在特定时间内发生的、同时有参与者的、存在状态变化的事情。在对文本进行事件抽取前,需要标注出文本中现有存在的所有实体信息。在电力设备案例文本中,文本主要以篇幅较长的文本文档进行记录,这些文档往往包含了多个事件,各个事件相互交错无法对文档进行拆解。此外,这些事件的论元又分散在文本的各处,有时甚至还会共用论元,因此对这类文本进行事件抽取难度极大。
技术实现思路
1、本专利技术的目的之一在于提供一种电力
2、根据上述专利技术目的,本专利技术提出了一种电力设备案例文本事件抽取方法,其包括步骤:
3、100:将电力设备案例文本中的每一个句子和每一个实体对应转换为相应的句子字嵌入向量序列和实体字嵌入向量序列;
4、200:基于各句子字嵌入向量序列和各实体字嵌入向量序列,得到电力设备案例文本的句子嵌入矩阵和实体嵌入矩阵;
5、300:将句子嵌入矩阵和实体嵌入矩阵拼接,基于拼接的句子嵌入矩阵和实体嵌入矩阵,得到文档级句子特征向量与文档级实体特征向量;
6、400:根据当前事件树生成历史路径,基于历史路径和文档级句子特征向量构建记忆矩阵;
7、500:将记忆矩阵与文档级实体特征向量进行拼接后,与当前事件树的角色嵌入向量相加输入到rnn网络中,输出分类实体矩阵;
8、600:将所述分类实体矩阵输入二元分类器中,以识别哪些实体是当前事件树的角色的论元;
9、800:将上一步骤中识别出来的论元扩充至当前事件树中,并返回至步骤400循环,直到事件树生成完毕。
10、在本专利技术中,实体包括设备实体、故障实体、时间实体、缺陷位置实体、运维措施实体以及故障原因实体。
11、进一步地,本专利技术所述的电力设备案例文本事件抽取方法还包括步骤900:将事件树转化为事件表格。
12、进一步地,在本专利技术所述的电力设备案例文本事件抽取方法的步骤100中,采用自注意网络双向编译表示模型(bidirectional encoder representation fromtransformers,bert)将电力设备案例文本中的每一个句子和每一个实体对应转换为相应的句子字嵌入向量序列和实体字嵌入向量序列。
13、进一步地,在本专利技术所述的电力设备案例文本事件抽取方法的步骤200中,采用最大池化法基于各句子字嵌入向量序列和各实体字嵌入向量序列,得到电力设备案例文本的句子嵌入矩阵和实体嵌入矩阵。
14、进一步地,在本专利技术所述的电力设备案例文本事件抽取方法的步骤300中,将拼接的句子嵌入矩阵和实体嵌入矩阵输入第一双向长短时神经网络(bidirectional long-short term memory,bilstm)中,输出文档级句子特征向量与文档级实体特征向量。
15、进一步地,在本专利技术所述的电力设备案例文本事件抽取方法的步骤400中,选取当前事件树中最短的路径生成历史路径。
16、进一步地,在本专利技术所述的电力设备案例文本事件抽取方法中,所述rnn网络为第二双向长短时神经网络。
17、本专利技术的另一目的在于提供一种电力设备案例文本事件抽取系统,其能够有效快速地将非结构化案例文本转化为结构化的事件表格,并以此来辅助电力设备运维人员的运维决策。
18、基于上述目的,本专利技术还提供了一种电力设备案例文本事件抽取系统,其包括:
19、转换模块,其将电力设备案例文本中的每一个句子和每一个实体对应转换为相应的句子字嵌入向量序列和实体字嵌入向量序列;
20、嵌入矩阵模块,其基于各句子字嵌入向量序列和各实体字嵌入向量序列,得到电力设备案例文本的句子嵌入矩阵和实体嵌入矩阵;
21、文档模块,其将句子嵌入矩阵和实体嵌入矩阵拼接,基于拼接的句子嵌入矩阵和实体嵌入矩阵,得到文档级句子特征向量与文档级实体特征向量;
22、抽取模块,其执行下述步骤:
23、s1:根据当前事件树生成历史路径,基于历史路径和文档级句子特征向量构建记忆矩阵;
24、s2:将记忆矩阵与文档级实体特征向量进行拼接后,与当前事件树的角色嵌入向量相加输入到rnn网络中,输出分类实体矩阵;
25、s3:将所述分类实体矩阵输入二元分类器中,以识别哪些实体是当前事件树的角色的论元;
26、s4:将上一步骤中识别出来的论元扩充至当前事件树中,并返回至步骤s1循环,直到事件树生成完毕。
27、进一步地,在本专利技术所述的电力设备案例文本事件抽取系统中,所述转换模块采用自注意网络双向编译表示模型将电力设备案例文本中的每一个句子和每一个实体对应转换为相应的句子字嵌入向量序列和实体字嵌入向量序列。
28、进一步地,在本专利技术所述的电力设备案例文本事件抽取系统中,所述嵌入矩阵模块采用最大池化法基于各句子字嵌入向量序列和各实体字嵌入向量序列,得到电力设备案例文本的句子嵌入矩阵和实体嵌入矩阵。
29、进一步地,在本专利技术所述的电力设备案例文本事件抽取系统中,所述抽取模块将拼接的句子嵌入矩阵和实体嵌入矩阵输入第一双向长短时神经网络(bidirectionallong-short term memory,bilstm)中,输出文档级句子特征向量与文档级实体特征向量。
30、进一步地,在本专利技术所述的电力设备案例文本事件抽取系统中,所述抽取模块选取当前事件树中最短的路径生成历史路径。
31、进一步地,在本专利技术所述的电力设备案例文本事件抽取系统中,所述rnn网络为第二双向长短时神经网络。
32、本专利技术所述的电力设备案例文本事件抽取方法及系统具有如下所本文档来自技高网...
【技术保护点】
1.一种电力设备案例文本事件抽取方法,其特征在于,包括步骤:
2.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,还包括步骤900:将事件树转化为事件表格。
3.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,在步骤100中,采用自注意网络双向编译表示模型将电力设备案例文本中的每一个句子和每一个实体对应转换为相应的句子字嵌入向量序列和实体字嵌入向量序列。
4.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,在步骤200中,采用最大池化法基于各句子字嵌入向量序列和各实体字嵌入向量序列,得到电力设备案例文本的句子嵌入矩阵和实体嵌入矩阵。
5.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,在步骤300中,将拼接的句子嵌入矩阵和实体嵌入矩阵输入第一双向长短时神经网络中,输出文档级句子特征向量与文档级实体特征向量。
6.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,在步骤400中,选取当前事件树中最短的路径生成历史路径。
7.如权利要求1所述的电力设备案例
8.一种电力设备案例文本事件抽取系统,其特征在于,包括:
9.如权利要求8所述的电力设备案例文本事件抽取系统,其特征在于,所述转换模块采用自注意网络双向编译表示模型将电力设备案例文本中的每一个句子和每一个实体对应转换为相应的句子字嵌入向量序列和实体字嵌入向量序列。
10.如权利要求8所述的电力设备案例文本事件抽取系统,其特征在于,所述嵌入矩阵模块采用最大池化法基于各句子字嵌入向量序列和各实体字嵌入向量序列,得到电力设备案例文本的句子嵌入矩阵和实体嵌入矩阵。
...【技术特征摘要】
1.一种电力设备案例文本事件抽取方法,其特征在于,包括步骤:
2.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,还包括步骤900:将事件树转化为事件表格。
3.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,在步骤100中,采用自注意网络双向编译表示模型将电力设备案例文本中的每一个句子和每一个实体对应转换为相应的句子字嵌入向量序列和实体字嵌入向量序列。
4.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,在步骤200中,采用最大池化法基于各句子字嵌入向量序列和各实体字嵌入向量序列,得到电力设备案例文本的句子嵌入矩阵和实体嵌入矩阵。
5.如权利要求1所述的电力设备案例文本事件抽取方法,其特征在于,在步骤300中,将拼接的句子嵌入矩阵和实体嵌入矩阵输入第一双向长短时神经网络中,输出文档级句子...
【专利技术属性】
技术研发人员:刘斌,田晓云,杨建中,艾博,王宗泽,石多峰,赵怀亮,
申请(专利权)人:内蒙古电力集团有限责任公司内蒙古超高压供电分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。