电力行政命名实体的识别方法、装置及计算机设备制造方法及图纸

技术编号:38355812 阅读:11 留言:0更新日期:2023-08-05 17:27
本发明专利技术公开了一种电力行政命名实体的识别方法、装置及计算机设备。本发明专利技术通过获取电网文本数据,将电网文本数据输入到词向量生成模型,以通过词向量生成模型将电网文本数据转化为词向量,将词向量输入到双向长短时记忆模型进行计算,得到词向量对应的初步标签,将词向量对应的初步标签输入到条件随机层进行校正,得到词向量对应的最终标签,并作为命名实体识别结果,能够科学有效地识别大量电网文本数据中的命名实体。数据中的命名实体。数据中的命名实体。

【技术实现步骤摘要】
电力行政命名实体的识别方法、装置及计算机设备


[0001]本专利技术涉及文本处理
,尤其涉及一种电力行政命名实体的识别方法、装置及计算机设备。

技术介绍

[0002]随着计算机和互联网技术在电力行政中的大量应用,电力行政大数据逐渐形成,电网中的文本数据日趋繁杂,值班室工作人员需要从大量电网文本中识别命名实体得到关键信息。而传统的人工处理以及命名实体识别技术已经无法满足现阶段电力行政的需求,因此,需要更高效率的方法来识别文本数据的命名实体。

技术实现思路

[0003]本专利技术的目的是:提供一种电力行政命名实体的识别方法、装置、计算机设备及计算机可读存储介质,能够科学有效地识别大量电网文本数据中的命名实体。
[0004]为了达到上述目的,本专利技术第一方面提供一种电力行政命名实体的识别方法,包括:
[0005]获取电网文本数据;
[0006]将电网文本数据输入到词向量生成模型,以通过词向量生成模型将电网文本数据转化为词向量;
[0007]将词向量输入到双向长短时记忆模型进行计算,得到词向量对应的初步标签;
[0008]将词向量对应的初步标签输入到条件随机层进行校正,得到词向量对应的最终标签,并作为命名实体识别结果。
[0009]优选地,在获取电网文本数据之后,该识别方法还包括:
[0010]对电网文本数据执行以下至少一种预处理操作:
[0011]删除电网文本数据中的停用词;
[0012]对电网文本数据进行去重操作;
[0013]对电网文本数据进行分词操作。
[0014]优选地,词向量生成模型将电网文本数据转化为词向量,进一步包括:
[0015]通过以下公式将电网文本数据转化为词向量:
[0016]P(W
t
|τ(W
t

k
,W
t

k+1
,

,W
t+k
‑1,W
t+k
));
[0017]x
t
=word2vec(t);
[0018]其中,P代表根据上下文对给定单词的条件概率进行预测,W
t
代表电网文本数据中第t个单词,τ算子代表邻近W
t
上下文窗口大小为k的单词向量的相加,x
t
代表第t个单词对应的词向量。
[0019]优选地,将词向量输入到双向长短时记忆模型进行计算,得到词向量对应的初步标签,进一步包括:
[0020]以长度为N的句子为单位,将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构
成前向遗忘门,公式如下:
[0021]f
Lt
=σ(W
Lf
*[h
t
‑1,x
t
]+b
Lf
);
[0022]其中,f
Lt
代表前向遗忘门,σ算子代表sigmoid函数,W
Lf
和b
Lf
代表网络参数;
[0023]将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构成前向记忆门,公式如下:
[0024]i
Lt
=σ(W
Li
*[h
t
‑1,x
t
]+b
Li
);
[0025]其中,i
Lt
代表前向记忆门,W
Li
和b
Li
代表网络参数;
[0026]将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构成前向临时细胞状态,公式如下:
[0027][0028]其中,代表前向临时细胞状态,tanh算子代表双曲正切函数,W
LC
和b
LC
代表网络参数;
[0029]将前向临时细胞状态和词向量x
t
前一位的词向量细胞状态C
t
‑1构成前向当前细胞状态,公式如下:
[0030][0031]其中,C
Lt
代表前向当前细胞状态;
[0032]将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构成前向输出门,公式如下,公式如下:
[0033]o
Lt
=σ(W
Lo
*[h
t
‑1,x
t
]+b
Lo
);
[0034]其中,o
Lt
代表前向输出门,W
LO
和b
LO
代表网络参数;
[0035]将前向输出门o
Lt
和前向当前细胞状态C
Lt
构成前向隐层状态,公式如下:
[0036]h
Lt
=o
Lt
*tanh(C
Lt
);
[0037]其中,h
Lt
代表前向隐层状态;
[0038]将词向量x
t
、词向量x
t
后一位的词向量隐层状态h
t+1
和词向量x
t
后一位的词向量细胞状态C
t+1
构成后向隐层状态,公式如下:
[0039]h
Rt
=σ(W
Ro
*[h
t+1
,x
t
]+b
Ro
)*tanh{σ(W
Rf
*[h
t+1
,x
t
]+b
Rf
)*C
t+1
+σ(W
Ri
*[h
t+1
,x
t
]+b
Ri
)*tanh(W
RC
*[h
t+1
,x
t
]+b
RC
)};
[0040]其中,h
Rt
代表后向隐层状态,W
Ro
、b
Ro
、W
Rf
、b
Rf
、W
Ri
、b
Ri
、W
RC
和b
RC
代表网络参数;
[0041]在长度为N的反向序列中,将前向隐层状态h
Lt
和后向隐层状态h
R(N

t)
拼接成当前隐层状态,公式如下:
[0042]h
t
=[h...

【技术保护点】

【技术特征摘要】
1.一种电力行政命名实体的识别方法,其特征在于,包括:获取电网文本数据;将所述电网文本数据输入到词向量生成模型,以通过所述词向量生成模型将所述电网文本数据转化为词向量;将所述词向量输入到双向长短时记忆模型进行计算,得到所述词向量对应的初步标签;将所述词向量对应的初步标签输入到条件随机层进行校正,得到所述词向量对应的最终标签,并作为命名实体识别结果。2.根据权利要求1所述的识别方法,其特征在于,在所述获取电网文本数据之后,还包括:对所述电网文本数据执行以下至少一种预处理操作:删除所述电网文本数据中的停用词;对所述电网文本数据进行去重操作;对所述电网文本数据进行分词操作。3.根据权利要求1所述的识别方法,其特征在于,所述词向量生成模型将所述电网文本数据转化为词向量,进一步包括:通过以下公式将所述电网文本数据转化为词向量:P(W
t
|τ(W
t

k
,W
t

k+1
,...,W
t+k
‑1,W
t+k
));x
t
=word2vec(t);其中,P代表根据上下文对给定单词的条件概率进行预测,W
t
代表所述电网文本数据中第t个单词,t为小于或等于文本长度的正整数,τ算子代表邻近W
t
上下文窗口大小为k的单词向量的相加,x
t
代表第t个单词对应的词向量。4.根据权利要求3所述的识别方法,其特征在于,所述将所述词向量输入到双向长短时记忆模型进行计算,得到所述词向量对应的初步标签,进一步包括:以长度为N的句子为单位,将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构成前向遗忘门,公式如下:f
Lt
=σ(W
Lf
*[h
t
‑1,x
t
]+b
Lf
);其中,N为小于或等于文本长度的正整数,f
Lt
代表前向遗忘门,σ算子代表sigmoid函数,W
Lf
和b
Lf
代表网络参数;将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构成前向记忆门,公式如下:i
Lt
=σ(W
Li
*[h
t
‑1,x
t
]+b
Li
);其中,i
Lt
代表前向记忆门,W
Li
和b
Li
代表网络参数;将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构成前向临时细胞状态,公式如下:其中,代表前向临时细胞状态,tanh算子代表双曲正切函数,W
LC
和b
LC
代表网络参数;将前向临时细胞状态和词向量x
t
前一位的词向量细胞状态C
t
‑1构成前向当前细胞状态,公式如下:
其中,C
Lt
代表前向当前细胞状态;将词向量x
t
和词向量x
t
前一位的词向量隐层状态h
t
‑1构成前向输出门,公式如下,公式如下:o
Lt
=σ(W
Lo
*[h
t
‑1,x
t
]+b
Lo
);其中,o
Lt
代表前向输出门,W
LO
和b
LO
代表网络参数;将前向输出门o
Lt
和前向当前细胞状态C
Lt
构成前向隐层状态,公式如下:h
Lt
=o
Lt
*tanh(C
Lt
);其中,h
Lt
代表前向隐层状态;将词向量x
t
、词向量x
t
后一位的词向量隐层状态h
t+1
和词向量x
t
后一位的词向量细胞状态C
t+1
构成后向隐层状态,公式如下:h
Rt
=σ(W
Ro
*[h
t+1
,x
t
]+b
Ro
)*tanh{σ(W
Rf
*[h
t+1
,x
t
]+b
Rf
)*C
t+1
+σ(W
Ri
*[h
t+1
,x
t
]+b
Ri
)*tanh(W
RC
*[h
t+1
,x
t
]+b
RC
)};其中,h
Rt
代表后向隐层状态,W
Ro
、b
Ro
、W
Rf
、b
Rf
、W
Ri
、b
Ri
、W
RC
和b
RC
代表网络参数;在长度为N的反向序列中,将前向隐层状态h
Lt
和后向隐层状态h
R(N

t)
拼接成当前隐层状态,公式如下:h
t
=[h
Lt
,h
R(N

t)
];其中,h
t
代表当前隐层状态;将当前隐层状态h
t
输入到全连接层,得到词向量x
t
对应的初步标签,公式如下:y
t
=h
t
*W;其中,y
t
代表词向量x
t
对应的初步标签,W代表权值矩阵,其矩阵值为网络参数。5.根据权利要求4所述的识别方法,其特征在于,所述词向量对应的初步标签为五维向量,分别代表所述词向量对应的人名开始部分、人名中间部分、组织机构开始部分、组织机构中间部分和非实体信息。6.根据权利要求5所述的识别方法,其特征在于,所述将所述词向量对应的初步标签输入到条件随机层进行校正,得到所述词向量对应的最终标签,包括:以长度为N的句子为单位,根据词向量x
t
对应的初步标签y
t
中的向量值,得到词向量x
t
的发射分数,公式如下:其中,代表词向量x
t
的发射分数,y
t
(i)代表词向量x
t
对应的初步标签y
t
中第i维的向量值;根据词向量x
t
对应的初步标签y
t
中的向量值,得到长度为N的句子的所有可能的路径得分,公式如下:where j∈S
j
;其中,代表长度为N的句子的所有可能的路径得分,S
j
代表第j种可能的路径;根据所有词向量的发射分数转移分数以及可能的路径得分得到条件随机层的损失函数,公式如下:
其中,LossFunction代表损失函数,转移分数为词向量x
t
对应的初步标签y
t
中最大值转移到词向量x
t+1
的分数之和。7.一种电力行政命名实体的识别装置,其特征在于,包括:数据获取模块,用于获取电网文本数据;词向量生成模块,...

【专利技术属性】
技术研发人员:酆尘颖徐晓冬唐润恒史晟玮陈亮于淼董坤郭希瑞黄凌翔
申请(专利权)人:国网江苏省电力有限公司江苏省电力试验研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1