电力计量的命名实体识别方法、装置和计算机设备制造方法及图纸

技术编号:30645567 阅读:11 留言:0更新日期:2021-11-04 00:51
本申请涉及一种电力计量的命名实体识别方法、装置、计算机设备和存储介质,所述方法包括:获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;对所述词向量进行组合,获取多个参考特征集合;将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体,能够避免错误地对同一命名实体进行划分,解决电力计量中命名实体名称重叠的问题,减轻预先分词带来的影响,有效提高命名实体识别的准确性。体识别的准确性。体识别的准确性。

【技术实现步骤摘要】
电力计量的命名实体识别方法、装置和计算机设备


[0001]本申请涉及命名实体
,特别是涉及一种电力计量的命名实体识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着知识图谱的日益普及,人们对知识图谱的需求越来越大。针对电力计量知识图谱,构建前往往需要从电力计量文本中准确识别并提取电力计量的命名实体。在传统技术中,深度学习模型在电力计量中得到了广泛的应用,例如通过长短时记忆神经网络(LSTM)、卷积神经网络等识别电力计量的命名实体。
[0003]然而,现有的深度学习模型并没有充分考虑到电力计量中命名实体的名称重叠的情况,在对语料进行分词时,将应该确定为一个单一的命名实体划分为多个部分,导致识别命名实体识别错误的情况发生,降低了命名实体的识别准确率。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种电力计量的命名实体识别方法、装置、计算机设备和存储介质。
[0005]一种电力计量的命名实体识别方法,所述方法包括:
[0006]获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
[0007]对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
[0008]将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
[0009]将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
[0010]在其中一个实施例中,所述基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征,包括:
[0011]确定同一参考特征集合中相邻元素对应的相似度;
[0012]将所述相似度输入到预先训练的单层神经网络,通过所述单层神经网络放大或缩小所述相似度,得到调整后的相似度;
[0013]根据调整后的相似度确定该参考特征集合对应的词向量特征。
[0014]在其中一个实施例中,所述根据调整后的相似度确定该参考特征集合对应的词向量特征,包括:
[0015]获取调整后的相似度对应的注意力系数;
[0016]根据预设的映射关系,确定所述注意力系数对应的注意力特征,并将多个注意力特征输入到前向神经网络,得到该参考特征集合对应的词向量特征;所述映射关系为:
[0017][0018]其中,h
i
为注意力特征,为注意力系数,K为注意力头的数量。
[0019]在其中一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,包括:
[0020]确定多个词向量各自对应的排列顺序;多个词向量各自对应的排列顺序与所述待识别语料中多个词语对应的排列顺序对应;
[0021]基于各个词向量及其对应的排列顺序,生成第一参考特征集合。
[0022]在其中一个实施例中,所述对所述词向量进行组合,获取多个参考特征集合,包括:
[0023]确定多个词向量各自对应的排列顺序;
[0024]基于多个词向量对应的排列顺序,获取多组相邻的词向量,得到多组词向量对;
[0025]根据多组词向量对,生成第二参考特征集合。
[0026]在其中一个实施例中,还包括:
[0027]获取预先构建的电力计量语料库;所述电力计量语料库包括多条用于描述电力计量信息的语料;
[0028]采用预设的分词模型对所述电力计量语料库的语料进行分词,得到多个用于描述电力计量信息的词语;
[0029]采用得到的多个词语训练初始化的词向量模型,得到训练好的词向量模型,所述训练好的词向量模型用于识别电力计量语料中各个词语对应的词向量。
[0030]在其中一个实施例中,还包括:
[0031]获取样本语料及其对应的标签;所述标签包括所述样本语料中电力计量的命名实体和所述命名实体对应的实体类别;
[0032]采用所述分词模型获取样本预料对应的多个样本词语,并通过训练好的词向量模型获取所述样本词语对应的词向量;
[0033]获取所述词向量对应的多个样本特征集合;所述样本特征集合包括第一样本特征集合、第二样本特征集合和第三样本特征集合,所述第一样本特征集合中的每个元素为对应词语的词向量,所述第二样本特征集合中的每个元素为两个相邻词语对应的词向量,所述第三样本特征集合中的每个元素为三个相邻词语对应的词向量;
[0034]将各个样本特征集合输入到待训练的机器翻译模型,以通过所述机器翻译模型中的自注意力层确定样本特征集合对应的词向量特征,并将多个词向量特征输入到预设的条件随机场,根据所述条件随机场输出的预测结果,确定所述样本语料中的预测命名实体;
[0035]根据所述预测命名实体和所述标签,调整所述机器翻译模型的模型参数,重复训练过程,直到满足训练结束条件,得到词向量特征提取模型。
[0036]一种电力计量的命名实体识别装置,所述装置包括:
[0037]词向量获取模块,用于获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;
[0038]参考特征集合获取模块,用于对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;
[0039]词向量特征获取模块,用于将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;
[0040]命名实体确定模块,用于将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。
[0041]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述方法的步骤。
[0042]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述方法的步骤。
[0043]上述电力计量的命名实体识别方法、装置、计算机设备和存储介质,可以获取用于描述电力计量信息的待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电力计量的命名实体识别方法,其特征在于,所述方法包括:获取用于描述电力计量信息的待识别语料中多个词语各自对应的词向量;对所述词向量进行组合,获取多个参考特征集合;所述参考特征集合包括第一参考特征集合、第二参考特征集合和第三参考特征集合,所述第一参考特征集合中的每个元素为对应词语的词向量,所述第二参考特征集合中的每个元素为两个相邻词语对应的词向量,所述第三参考特征集合中的每个元素为三个相邻词语对应的词向量;将多个参考特征集合输入到训练好的词向量特征提取模型,以通过所述词向量特征提取模型基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征;所述词向量特征包括每个词向量对应的词性特征、相邻两个词向量对应的关联性特征和相邻三个词向量对应的关联性特征;将多个参考特征集合各自对应的词向量特征输入到预设的条件随机场,并根据所述条件随机场输出的标注结果,确定所述待识别语料中的命名实体。2.根据权利要求1所述的方法,其特征在于,所述基于同一参考特征集合中的各个元素,确定该参考特征集合对应的词向量特征,包括:确定同一参考特征集合中相邻元素对应的相似度;将所述相似度输入到预先训练的单层神经网络,通过所述单层神经网络放大或缩小所述相似度,得到调整后的相似度;根据调整后的相似度确定该参考特征集合对应的词向量特征。3.根据权利要求2所述的方法,其特征在于,所述根据调整后的相似度确定该参考特征集合对应的词向量特征,包括:获取调整后的相似度对应的注意力系数;根据预设的映射关系,确定所述注意力系数对应的注意力特征,并将多个注意力特征输入到前向神经网络,得到该参考特征集合对应的词向量特征;所述映射关系为:其中,h
i
为注意力特征,为注意力系数,K为注意力头的数量。4.根据权利要求1所述的方法,其特征在于,所述对所述词向量进行组合,获取多个参考特征集合,包括:确定多个词向量各自对应的排列顺序;多个词向量各自对应的排列顺序与所述待识别语料中多个词语对应的排列顺序对应;基于各个词向量及其对应的排列顺序,生成第一参考特征集合。5.根据权利要求1所述的方法,其特征在于,所述对所述词向量进行组合,获取多个参考特征集合,包括:确定多个词向量各自对应的排列顺序;基于多个词向量对应的排列顺序,获取多组相邻的词向量,得到多组词向量对;根据多组词向量对,生成第二参考特征集合。6.根据权利要求1所述的方法,其特征在于,还包括:
获取预先构建的电力计量语料库;所述电力计量语料库包括多条用于描述电力计量信息的语料;采用预设的分词模型对所述电力计量语料库的语料进行分词,得到多个用于描述电力计量...

【专利技术属性】
技术研发人员:梁洪浩伍少成姜和芳陈晓伟
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1