基于查询集合的实体识别模型训练方法、装置及设备制造方法及图纸

技术编号:38239827 阅读:14 留言:0更新日期:2023-07-25 18:03
本发明专利技术涉及人工智能技术,揭露了一种基于查询集合的实体识别模型训练方法、装置、设备及存储介质。所述方法包括:通过预构建的序列编码器对文本语句进行量化,得到文本向量;利用预构建的实体解码器对预构建的实体查询集合进行自注意力权重计算,对所述文本向量及所述实体查询集合进行交叉注意力权重计算,并利用预构建的多层感知层,对两个注意力权重计算结果进行实体识别,得到预测实体集,根据预设的二部匹配损失函数、所述预测实体集及所述文本语句对应的标签实体集,对实体识别模型进行训练,得到训练完成的实体识别模型。本发明专利技术可以避免了现有方法需要穷举所有实体再进行预测的模式,提高了实体识别准确性及效率。提高了实体识别准确性及效率。提高了实体识别准确性及效率。

【技术实现步骤摘要】
基于查询集合的实体识别模型训练方法、装置及设备


[0001]本专利技术涉及人工智能
,尤其涉及一种基于查询集合的实体识别模型训练方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]命名实体识别是自然语言处理中的重要研究课题,在人工智能等
发挥越来越重要的作用。目前,命名实体识别方法的做法主要为基于跨度的方法。
[0003]其中,基于跨度的方法是将实体识别看作一个跨度分类任务,基于跨度的模型对通过各种方法从文本序列中提取的候选跨度进行分类在限定长度内枚举所有可能的跨度,然后预测它们的类,跨度枚举方法需要搜索所有可能的区域,且候选跨度没有交互彼此直接联系,因此不适当地忽略了命名实体之间的依赖关系,导致模型受制于巨大的搜索空间和实体之间缺乏交互的限制,后续标签的预测依赖于前面实体跨度预测效果,容易导致误差传播,造成识别错误。

技术实现思路

[0004]本专利技术提供一种基于查询集合的实体识别模型训练方法、装置、设备及存储介质,其主要目的在于把预测实体转换为一个可学习的查询向量表示,避免了现有方法需要穷举所有实体再进行预测的模式,提高了实体识别准确性及效率。
[0005]为实现上述目的,本专利技术提供的一种基于查询集合的实体识别模型训练方法,包括:
[0006]获取预构建的样本训练集合,依次从所述样本训练集合中提取一个文本语句,利用预构建的实体识别模型的序列编码器对所述文本语句进行量化,得到文本向量;
[0007]将所述文本向量及预构建的实体查询集合导入所述实体识别模型的实体集解码器中,利用所述实体集解码器对所述实体查询集合中的各个实体查询向量表示进行自注意力权重计算,得到第一增强向量表达集合;
[0008]对所述实体查询集合与所述文本向量进行交叉注意力权重计算,得到第二增强向量表达集合;
[0009]利用预构建的多层感知层对所述第一增强向量表达集合及所述第二增强向量表达集合进行实体识别操作,得到预测实体集;
[0010]根据预设的二部匹配损失函数及所述文本语句对应的标签实体集,对所述预测实体集进行基于预测实体类型及预测实体左右边界的损失值计算,得到模型损失值;
[0011]利用预构建的前反馈神经网络,根据所述模型损失值,对所述实体识别模型进行模型参数更新,得到更新的实体识别模型;
[0012]判断所述模型损失值是否符合预设的模型合格标准,得到判断结果,并根据预设的模型训练策略及所述判断结果,对所述实体识别模型进行迭代更新,得到训练完成的实体识别模型。
[0013]可选的,所述根据预设的二部匹配损失函数及所述文本语句对应的标签实体集,对所述预测实体集进行基于预测实体类型及预测实体左右边界的损失值计算,得到模型损失值,包括:
[0014]利用匈牙利算法对所述预测实体集与标签实体集进行最优匹配,根据匹配结果,将标签实体集与预测实体集的对位结果记录为(y,y

)格式,其中,y为标签实体,y

为预测实体;
[0015]根据预设的左边界、右边界、实体标签格式,将所述预测实体集合中的各个预测实体进行格式化表述,得到增强预测实体集;
[0016]根据预构建的二部匹配损失函数,对所述增强预测实体集分别进行实体类型误差计算、左边界误差计算及右边界误差计算,并将各个误差计算结果进行求和计算,得到模型损失值;
[0017]其中,所述二部匹配损失函数:
[0018][0019]其中,c表示实体类型,l表示实体的左边界,r表示实体的右边界,N表示所述实体查询集合中预配置的实体查询向量的数量;所述为预测实体y

在实体分类上的误差,为预测实体y

在左边界上的误差,为预测实体y

在右边界上的误差,其中,所述c
i
、l
i
、r
i
分别为标签实体y的实体类型、左边界及右边界。
[0020]可选的,所述实体查询集合为固定大小的可学习向量集合。
[0021]可选的,所述利用所述实体集解码器对所述实体查询集合中的各个实体查询向量表示进行自注意力权重计算,得到第一增强向量表达集合,包括:
[0022]利用H
span
表示所述实体查询集合,并配置自注意力机制的第一张量、第二张量及第三张量,得到
[0023]Q=K=V=H
span
[0024]其中,Q为第一张量集合,K为第二张量集合,V为第三张量集合,H
span
为实体查询集合;
[0025]依次从所述第一张量集合提取一个第一张量,并利用所述第一张量对所述第二张量集合中的各个第二张量进行向量内积,得到关联向量集合,并对所述关联向量集合进行归一化操作,得到注意力权重集合;
[0026]利用所述注意力权重集合与所述第三张量集合进行对位关系加权求和操作,得到所述第一张量对应的第一增强向量表达;
[0027]当所述第一张量集合中的各个第一张量全部遍历完成,得到第一增强向量表达集合。
[0028]可选的,所述对所述实体查询集合与所述文本向量进行交叉注意力权重计算,得到第二增强向量表达集合,包括:
[0029]配置交叉注意力机制的第四张量、第五张量及第六张量,得到
[0030]Q


span
,K

=V

=H
[0031]其中,所述Q

为所述第四张量集合,K

为所述第五张量集合,V

为所述第六张量集合,H为所述文本向量;
[0032]依次从所述第四张量集合提取一个第四张量,并利用所述第四张量对所述第五张量集合中的各个第五张量进行向量内积,得到关联向量集合,并对所述关联向量集合进行归一化操作,得到注意力权重集合;
[0033]利用所述注意力权重集合与所述第六张量集合进行对位关系加权求和操作,得到所述第四张量对应的第二增强向量表达;
[0034]当所述第四张量集合中的各个第四张量全部遍历完成,得到第二增强向量表达集合。
[0035]可选的,所述利用预构建的前反馈神经网络,根据所述模型损失值,对所述实体识别模型进行模型参数更新,得到更新的实体识别模型,包括:
[0036]利用预构建的前反馈神经网络,最小化所述模型损失值,得到所述模型损失值最小时的模型参数;
[0037]将所述模型参数进行网络逆向传播,更新所述实体识别模型,得到更新的实体识别模型。
[0038]可选的,所述利用预构建的实体识别模型的序列编码器对所述文本语句进行量化,得到文本向量,包括:
[0039]对所述文本向量进行分词操作,得到分词结果集合;
[0040]对所述分词结果集合进行量化编码,得到文本向量。
[0041]为了解决上述问题,本专利技术还提供一种基于查询本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于查询集合的实体识别模型训练方法,其特征在于,所述方法包括:获取预构建的样本训练集合,依次从所述样本训练集合中提取一个文本语句,利用预构建的实体识别模型的序列编码器对所述文本语句进行量化,得到文本向量;将所述文本向量及预构建的实体查询集合导入所述实体识别模型的实体集解码器中,利用所述实体集解码器对所述实体查询集合中的各个实体查询向量表示进行自注意力权重计算,得到第一增强向量表达集合;对所述实体查询集合与所述文本向量进行交叉注意力权重计算,得到第二增强向量表达集合;利用预构建的多层感知层对所述第一增强向量表达集合及所述第二增强向量表达集合进行实体识别操作,得到预测实体集;根据预设的二部匹配损失函数及所述文本语句对应的标签实体集,对所述预测实体集进行基于预测实体类型及预测实体左右边界的损失值计算,得到模型损失值;利用预构建的前反馈神经网络,根据所述模型损失值,对所述实体识别模型进行模型参数更新,得到更新的实体识别模型;判断所述模型损失值是否符合预设的模型合格标准,得到判断结果,并根据预设的模型训练策略及所述判断结果,对所述实体识别模型进行迭代更新,得到训练完成的实体识别模型。2.如权利要求1所述的基于查询集合的实体识别模型训练方法,其特征在于,所述根据预设的二部匹配损失函数及所述文本语句对应的标签实体集,对所述预测实体集进行基于预测实体类型及预测实体左右边界的损失值计算,得到模型损失值,包括:利用匈牙利算法对所述预测实体集与标签实体集进行最优匹配,根据匹配结果,将标签实体集与预测实体集的对位结果记录为(y,y

)格式,其中,y为标签实体,y

为预测实体;根据预设的左边界、右边界、实体标签格式,将所述预测实体集合中的各个预测实体进行格式化表述,得到增强预测实体集;根据预构建的二部匹配损失函数,对所述增强预测实体集分别进行实体类型误差计算、左边界误差计算及右边界误差计算,并将各个误差计算结果进行求和计算,得到模型损失值;其中,所述二部匹配损失函数:其中,c表示实体类型,l表示实体的左边界,r表示实体的右边界,N表示所述实体查询集合中预配置的实体查询向量的数量;所述为预测实体y

在实体分类上的误差,为预测实体y

在左边界上的误差,为预测实体y

在右边界上的误差,其中,所述c
i
、l
i
、r
i
分别为标签实体y的实体类型、左边界及右边界。3.如权利要求1所述的基于查询集合的实体识别模型训练方法,其特征在于,所述实体查询集合为固定大小的可学习向量集合。
4.如权利要求1所述的基于查询集合的实体识别模型训练方法,其特征在于,所述利用所述实体集解码器对所述实体查询集合中的各个实体查询向量表示进行自注意力权重计算,得到第一增强向量表达集合,包括:利用H
span
表示所述实体查询集合,并配置自注意力机制的第一张量、第二张量及第三张量,得到Q=K=V=H
span
其中,Q为第一张量集合,K为第二张量集合,V为第三张量集合,H
span
为实体查询集合;依次从所述第一张量集合提取一个第一张量,并利用所述第一张量对所述第二张量集合中的各个第二张量进行向量内积,得到关联向量集合,并对所述关联向量集合进行归一化操作,得到注意力权重集合;利用所述注意力权重集合与所述第三张量集合进行对位关系加权求和操作,得到所述第一张量对应的第一增强向量表达;当所述第一张量集合中的各个第一张量全部遍历完成...

【专利技术属性】
技术研发人员:刘羲周涵舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1