基于多任务学习的少样本命名实体识别方法、装置及介质制造方法及图纸

技术编号:38630960 阅读:12 留言:0更新日期:2023-08-31 18:29
本发明专利技术涉及自然语言处理领域,公开了一种基于多任务学习的少样本命名实体识别方法、装置及介质,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别。本发明专利技术实现共同学习实体跨度检测和实体类型分类任务,从而精确识别出命名实体的边界及所属实体类型。属实体类型。属实体类型。

【技术实现步骤摘要】
基于多任务学习的少样本命名实体识别方法、装置及介质


[0001]本专利技术属于涉及自然语言处理领域,尤其涉及一种联合学习实体跨度检测和实体类型分类的少样本命名实体识别方法、装置及介质。

技术介绍

[0002]命名实体识别的目的是从一段非结构化文本中识别出命名实体,并将其归类到某个预定义的类别。作为文本中的重要语义载体,命名实体对能够有效支撑诸多自然语言处理领域的下游应用,如语义分析、问答系统、机器翻译和信息检索等。为了解决实际应用中难以获得大量标注数据的问题,少样本学习方法被应用于命名实体识别任务中,它仅需要少量的目标域数据对源域数据训练出的模型进行微调,即可快速适应新领域。
[0003]现有的少样本命名实体识别方法是将任务分解成实体跨度检测和实体类型分类两个子任务,但它们并没有解决以下两个问题:(1)现有的方法一般单独优化分解后的两个子任务,没有考虑到两个子任务之间的相关性和整体任务的完整性;(2)现有的方法仅利用实体的细粒度特征,但忽略了粗粒度类型信息,导致对实体语义信息的建模不够充分。因此,现有技术往往很难获得令人满意的实体识别效果。
[0004]针对现有技术存在的上述技术问题,本专利技术结合两个子任务之间的相关性及实体的层级语义特征,设计了一种基于多任务学习的少样本命名实体识别框架,该框架在客观评价指标上取得突出的效果,并超过之前的任何最佳模型。

技术实现思路

[0005]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于多任务学习的少样本命名实体识别方法、装置及介质,共同学习实体跨度检测和实体类型分类任务,从而精确识别出命名实体的边界及所属实体类型。
[0006]本专利技术为达到上述专利技术目的,采用如下技术方案:第一方面,本专利技术提供了一种基于多任务学习的少样本命名实体识别方法,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别;其中,在实体跨度检测模块中,先利用实体跨度编码器获取句子的跨度上下文表征,将该跨度上下文表征通过对比学习帮助模型学习实体边界信息,具体是在该阶段根据实体的开始位置、中间位置、结束位置、单个实体以及非实体五种类型标签数据,将相同的标签数据作为正样本对,不同的标签数据作为负样本对,再利用对比学习优化模型,最后将该跨度上下文表征送入分类器,利用交叉熵损失函数优化参数,帮助实体跨度检测模块增强识别实体边界信息的能力;在实体类型分类模块中,使用原型网络作为基准模型,并构建层级增强的网络结
构以捕获实体类型的语义信息,具体是在该阶段先利用两个实体类型编码器分别获取粗、细粒度上下文表征,将粗粒度上下文表征与实体跨度检测模块中获得的跨度上下文表征相加后得到粗粒度类型表征,再将粗粒度类型表征通过门控机制与细粒度上下文表征融合后得到细粒度类型表征,得到两种类型表征取实体跨度部分的类型表征,根据该阶段的具体类型标签数据分别构建正、负样本对,在两种表征之间分别使用对比学习增强泛化能力,同时分别利用两种表征构造粗、细粒度的原型进行原型学习。
[0007]更进一步地,所述少样本命名实体识别方法具体包括以下步骤:S1、数据准备少样本场景下的数据集分为源域数据和目标域数据,两种数据是不同领域类型的数据,其中,源域数据具有大量标注样本以供模型训练,目标域数据提供少量的标注样本用于模型微调,再使用更新参数后的模型进行预测,以得到可预测目标域数据的最终模型;S2、模型建立对实体跨度检测模块给定输入文本,利用实体跨度编码器获取句子的跨度上下文特征,根据每个字的标签信息,取相同的标签数据构造正样本对,不同的标签数据构造负样本对,并利用对比学习使模型在语义空间上拉近正样本对、拉远负样本对进行优化,再使用交叉熵损失优化识别实体边界的分类器;对实体类型分类模块给定输入文本,得到所述粗、细粒度类型表征取实体跨度部分的类型表征,根据每个实体字的类型标签分别构建正、负样本对,使用对比学习增加相同类型实体的相似度,减少不同类型实体间的相似度,并基于两种粒度的跨度表征构建原型进行原型学习,再基于边际损失减少细粒度类型表征和不相关粗粒度原型之间的相似度,使不同类型实体在语义空间上相互远离;S3、模型参数训练在模型的训练中,采用交叉熵损失、对比学习损失和边际损失作为损失函数,并使用随机梯度下降算法来更新模型参数。
[0008]更进一步地,所述步骤S2中,对实体跨度检测模块给定输入文本,使用Bert编码器获取序列化的跨度上下文表征,通过对比学习在语义空间上拉近正样本对、拉远负样本对,构造实体跨度检测损失函数,具体计算过程如下:(1)先计算实体跨度检测的对比学习损失函数,表示为:,其中,表示单个样本的表征,表示样本的正样本表征,表示除样本以外的其他样本表征,表示样本的正样本集合,表示除了样本之外的全体样本集合,表示温度超参数,使模型更加关注困难样本;(2)对于每个样本的表征,使用线性层和函数计算样本是否在实体内部的概率预测值,表示为:,再平均每个样本的概率预测值与标签的交叉熵,并且添加了一个最大项损失,即得交叉熵损失函数,表示为
,其中,表示权重因子,用于约束最大项损失;(3)根据上述步骤得到的交叉熵损失函数和对比学习损失函数的加权求和,即得实体跨度检测损失函数,表示为:。
[0009]更进一步地,所述步骤S2中,对实体类型分类模块给定同样的输入文本,使用两个相互独立的Bert编码器分别获取粗、细粒度上下文表征,通过对比学习在语义空间中增强区分实体类型的能力,并构造粗粒度类型损失函数和细粒度类型损失函数,具体计算过程如下:(1)先计算实体类型分类的对比学习损失函数,表示为:,其中,表示实体样本集合,表示样本的正样本集合,该阶段中有粗、细粒度两种类型表征,则根据所述实体类型分类的对比学习损失函数表达式,分别计算得到粗粒度类型的对比学习损失函数和细粒度类型的对比学习损失函数;(2)构建原型网络,以帮助模型学习跨域场景下的语义表征,假设一个实体跨度的起始位置为i,结束位置为j,取该实体跨度下的所有样本表征的平均值作为该实体跨度的表征,表达为:,定义表示为属于类别的所有实体跨度集合,得到所有实体跨度表征后再计算得出每个原型表征,对于每个类别的原型表征,其表征为平均该类别所有实体跨度的表征,表达为:;(3)对于每个需要预测的实体跨度,通过计算其表征与类别的原型表征的相似度,以得到该实体属于此类别的概率预测值,表达为:,其中,表示用于放大点积相似度的超参数,则原型网络部分的交叉熵损失函数表达为:;(4)由原型网络部分的交叉熵损失函数与实体类型分类的对比学习损失函数加权求和,得到实体类型分类损失函数,表达为:,最后根据实体类型分类损失函数的表述式,分别使用粗、细粒度表征计算得出粗粒度类型损失函数和细粒度类型损失函数。
[0010]更进一步地,所述基于边际的损失函数的表达式为:
,其中,是粗粒度类型集合,是细粒度实体表征,是粗本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的少样本命名实体识别方法,其特征是,该少样本命名实体识别方法基于的模型框架包括用于识别实体边界位置的实体跨度检测模块和用于对每一个实体跨度分配预定义的具体类型的实体类型分类模块,利用源域数据对模型进行训练,再利用少量目标域数据微调模型参数,即实现少样本场景下的命名实体识别;其中,在实体跨度检测模块中,先利用实体跨度编码器获取句子的跨度上下文表征,将该跨度上下文表征通过对比学习帮助模型学习实体边界信息,具体是在该阶段根据实体的开始位置、中间位置、结束位置、单个实体以及非实体五种类型标签数据,将相同的标签数据作为正样本对,不同的标签数据作为负样本对,再利用对比学习优化模型,最后将该跨度上下文表征送入分类器,利用交叉熵损失函数优化参数,帮助实体跨度检测模块增强识别实体边界信息的能力;在实体类型分类模块中,使用原型网络作为基准模型,并构建层级增强的网络结构以捕获实体类型的语义信息,具体是在该阶段先利用两个实体类型编码器分别获取粗、细粒度上下文表征,将粗粒度上下文表征与实体跨度检测模块中获得的跨度上下文表征相加后得到粗粒度类型表征,再将粗粒度类型表征通过门控机制与细粒度上下文表征融合后得到细粒度类型表征,得到两种类型表征取实体跨度部分的类型表征,根据该阶段的具体类型标签数据分别构建正、负样本对,在两种表征之间分别使用对比学习增强泛化能力,同时分别利用两种表征构造粗、细粒度的原型进行原型学习。2.根据权利要求1所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述少样本命名实体识别方法具体包括以下步骤:S1、数据准备少样本场景下的数据集分为源域数据和目标域数据,两种数据是不同领域类型的数据,其中,源域数据具有大量标注样本以供模型训练,目标域数据提供少量的标注样本用于模型微调,再使用更新参数后的模型进行预测,以得到可预测目标域数据的最终模型;S2、模型建立对实体跨度检测模块给定输入文本,利用实体跨度编码器获取句子的跨度上下文特征,根据每个字的标签信息,取相同的标签数据构造正样本对,不同的标签数据构造负样本对,并利用对比学习使模型在语义空间上拉近正样本对、拉远负样本对进行优化,再使用交叉熵损失优化识别实体边界的分类器;对实体类型分类模块给定输入文本,得到所述粗、细粒度类型表征取实体跨度部分的类型表征,根据每个实体字的类型标签分别构建正、负样本对,使用对比学习增加相同类型实体的相似度,减少不同类型实体间的相似度,并基于两种粒度的跨度表征构建原型进行原型学习,再基于边际损失减少细粒度类型表征和不相关粗粒度原型之间的相似度,使不同类型实体在语义空间上相互远离;S3、模型参数训练在模型的训练中,采用交叉熵损失、对比学习损失和边际损失作为损失函数,并使用随机梯度下降算法来更新模型参数。3.根据权利要求2所述的基于多任务学习的少样本命名实体识别方法,其特征是,所述步骤S2中,对实体跨度检测模块给定输入文本,使用Bert编码器获取序列化的跨度上下文表征,通过对比学习在语义空间上拉近正样本对、拉远负样本对,构造实体跨度检测损失函数,具体计算过程如下:
(1)先计算实体跨度检测的对比学习损失函数,表示为:,其中,表示单个样本的表征,表示样本的正样本表征,表示除样本以外的其他样本表征,表示样本的正样本集合,表示除了样本之外的全体样本集合,表示温度超参数,使模型更加关注困难样本;(2)对于每个样本的表征,使用线性层和函数计算样本是否在...

【专利技术属性】
技术研发人员:徐童陈恩红陈玮赵莉莉罗鹏飞
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1