用于解决实体重叠与实体嵌套的多任务学习方法及系统技术方案

技术编号:37346689 阅读:16 留言:0更新日期:2023-04-22 21:41
本发明专利技术属于命名实体识别技术领域,具体涉及用于解决实体重叠与实体嵌套的多任务学习方法及系统。方法包括S1,构造多任务通用数据集,并对所述多任务通用数据集进行预处理;S2,设计通用型多任务学习模型,并根据预处理后的多任务通用数据集进行训练;S3,引入优化器PCGrad,对具有负影响的梯度进行纠偏,对通用型多任务学习模型进行参数优化;S4,引入损失函数,并用于计算通用型多任务学习模型在整个前向传播过程中总的损失;S5,将优化后的通用型多任务学习模型,用于实际数据预测,最终合并所有预测结果作为最终结果。本发明专利技术具有模型抽取精度高,效果好,能够降低现有命名实体任务设计难度,提升工作效率的特点。提升工作效率的特点。提升工作效率的特点。

【技术实现步骤摘要】
用于解决实体重叠与实体嵌套的多任务学习方法及系统


[0001]本专利技术属于命名实体识别
,具体涉及用于解决实体重叠与实体嵌套的多任务学习方法及系统。

技术介绍

[0002]随着现代社会的数字化发展要求,将非结构化数据转化为结构化数据已经成了一个迫切的需求,其中最为关键的技术就是信息抽取。通常来说,信息抽取包含关系抽取,事件抽取,命名实体识别等任务,其目的是将非结构化数据转化为结构化数据。命名实体识别任务可以识别已知文本中含有独特含义的实体,关系抽取得到的是实体之间的关系,而事件抽取是在给定事件类型与事件实体要素的基础上,抽取用户感兴趣的事件。其中,命名实体识别任务是其他信息抽取任务的基石,该任务的效果直接或者间接影响其他信息抽取任务。其应用领域较广,包括军事、法律、医学等。总之,存在非结构化文本信息的领域,就存在使用命名实体识别技术抽取结构化数据的需求。
[0003]当前,命名实体识别任务的主流方法是编码器

解码器框架,其中,编码器使用主流的CNN、LSTM、BERT家族等一系列深度学习模型,使用指针网络、CRF(Conditional Random Fields, 条件随机域)等作为解码器结构的主要组成部分。但是,采用上述方法存在如下问题:1.实体重叠问题,如“XXX”既是A标签也是B标签,有两种方法解决该问题,第一种就是使用多标签对单个字进行分类,但是这样的效果会使得计算量成指数级上升,从而导致训练资源占用更高,推理时间更长;第二种就是新增一个标签,加入原有标签体系,这也会带来一个新的问题,即最终通过规则分离新增标签,可能降低模型识别准确率。
[0004]2.实体嵌套问题,如“XXXYYY”整个为A标签,其中“XXX”为B标签,解决方案通常有两种,第一种方案也是使用多标签对单个字进行分类,这也将导致同样的问题,即训练与推理的时间延长,消耗资源较较高;第二种方案是将嵌套标签分离,即将A,B两个标签置于不同模型中训练,训练过程A,B彼此不可见,推理时将二者合并,当然,这样做也存在问题,举一个比较极端的例子:“XXXYYYZZZ”整体为标签A,“XXXYYY”为标签B,“YYYZZZ”为标签C,那就必须分离出三个模型,从而导致模型数量增多,训练成本升高,推理时间变长。
[0005]3.通常大多数实体识别任务需要大量的人工去设计任务,包括实体重叠任务中的标签合并,实体嵌套中的标签分离,都需要人工大量干预,如此,难以批量化处理相似任务,极大耗费了人力、物力、财力资源。
[0006]4.数据不均衡问题,是实体识别任务中普遍存在的问题,这将使得深度学习模型学习到的结果偏向于数据量更多的标签,通常的解决方案包括:A.数据增强方式如随机增删数据,同音、同义词替换等,保证不同标签数量分布尽量接近。
[0007]B.使用对数据量不敏感的损失函数,如Focal loss 或者 Dice loss等。
[0008]当前,也存在一些采用多任务学习去提升模型推理效果,削减模型占用空间。关键
的问题是多个解码器如何有效的向着梯度下降的方向学习,而损失函数作为其中不可或缺的一部分,如何构建一个高效的损失函数来整合不同的子任务也尤为关键。
[0009]为了解决实体嵌套与实体重叠的问题,当前使用的多个单任务设计框架与多任务学习框架设计通常如图1和图2所示:图1所示的模型结构中,每一个子任务需要单独设计一个模型进行训练、推理,这样的模型设计虽然可以取得较为理想的效果,但显而易见的是,词表示层与网络特征提取层严重冗余导致以上模型参数重复量极大。
[0010]图2所示的模型框架,解决了上诉参数冗余的问题,但是一个新的问题是,不同任务之间的关联性如何有效利用起来,此外损失函数的设计,以及优化器的选择都成为了限制该框架的主要因素。
[0011]结合上述内容描述,多任务本质上是将编解码器模型进行改造,使不同的任务得以共享编码器,同时在关联性任务中,可以更加有效更新模型参数,以求得到泛化性能更强的模型。但是当前的多任务学习模型存在如下问题:1.需要大量的人工设计,针对不同的任务及情况,需要对模型,标签进行特殊的处理以及针对性设计,例如“XXXYYYZZZ”整体为标签A,“XXXYYY”为标签B,“YYYZZZ”为标签C,至少需要设计三个解码器,同时还需要分析除此之外的标签,把具有相似特征的标签进行合并,置于同一解码器中,剩下的标签以此类推,这将极大的消耗人力资源。
[0012]2.关联性子任务进行更加有效交互,而不是产生“排斥反应”降低模型泛化性能。这也是当前多任务学习的一个问题所在,由于模型在学习过程中,通过计算梯度,确定参数如何更新,如果两个子任务关联性较强,那么其梯度的方向就有可能反向变化,这将造成模型只能找到梯度下降更快子任务的一个局部最优值,而非真正达到了帕累托稳定点。
[0013]3.损失函数设计困难,由于多个子任务之间可能存在显著差异,每个子任务的损失通常通过如下方法计算得到:a.采用子任务损失加权求和的方式,通常对于相近子任务是可行的,但对差异较大的子任务,损失减小的差异较大,即使采用固定的参数也是不可行的,因为损失的差异会逐渐增大,导致多任务退化为单任务,如下公式所示,其中,为总的损失,表示每个子任务的损失,为每个损失的系数,()为子任务id:b.使用网络调参的方式,调整不同损失系数。但是这样耗费的时间成本也是巨大的,且对于梯度方向不同的子任务上效果极差。
[0014]在深度学习模型框架中,优化器的选择也是尤为重要的,就是在深度学习反向传播过程中,指引损失函数的各个参数往正确的方向更新合适的大小,使得损失函数值不断逼近全局最小。选择合适的优化器可以有效缓解损失函数设计的困难程度。
[0015]因此,设计一种模型抽取精度高,效果好,能够降低现有命名实体任务设计难度,提升工作效率的用于解决实体重叠与实体嵌套的多任务学习方法及系统,就显得十分重
要。

技术实现思路

[0016]本专利技术是为了克服现有技术中,现有解决命名实体识别任务中实体重叠、实体嵌套问题的多任务学习模型,存在人工设计难度大、精度低、效果差,进而导致工作效率低下的问题,提供了一种模型抽取精度高,效果好,能够降低现有命名实体任务设计难度,提升工作效率的用于解决实体重叠与实体嵌套的多任务学习方法及系统。
[0017]为了达到上述专利技术目的,本专利技术采用以下技术方案:用于解决实体重叠与实体嵌套的多任务学习方法,包括如下步骤;S1,构造多任务通用数据集,并对所述多任务通用数据集进行预处理;S2,设计通用型多任务学习模型,并根据预处理后的多任务通用数据集进行训练;S3,引入优化器PCGrad,对具有负影响的梯度进行纠偏,对通用型多任务学习模型进行参数优化;S4,引入损失函数,并用于计算通用型多任务学习模型在整个前向传播过程中总的损失;S5,将优化后的通用型多任务学习模型,用于实际数据预测,最终合并所有预测结果作为最终结果。
[0018]作为优选,步骤S1中所述预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于解决实体重叠与实体嵌套的多任务学习方法,其特征在于,包括如下步骤;S1,构造多任务通用数据集,并对所述多任务通用数据集进行预处理;S2,设计通用型多任务学习模型,并根据预处理后的多任务通用数据集进行训练;S3,引入优化器PCGrad,对具有负影响的梯度进行纠偏,对通用型多任务学习模型进行参数优化;S4,引入损失函数,并用于计算通用型多任务学习模型在整个前向传播过程中总的损失;S5,将优化后的通用型多任务学习模型,用于实际数据预测,最终合并所有预测结果作为最终结果。2.根据权利要求1所述的用于解决实体重叠与实体嵌套的多任务学习方法,其特征在于,步骤S1中所述预处理过程为将多任务通用数据集处理为单标签数据集,即每条数据只保留互不重复的一类标签,保证不同标签在不同子任务中互不可见。3.根据权利要求1所述的用于解决实体重叠与实体嵌套的多任务学习方法,其特征在于,步骤S2中所述通用型多任务学习模型采用编码器

解码器网络架构;编码阶段,使用预训练模型RoBerta对初始特征进行共享编码;再通过卷积层CONV分离每个子任务内部参数,区分每个子任务内部的差异性信息;在整个编码阶段,全体参数共享;解码阶段,使用不同的分类器区分每个子任务内部类别,最终得到每个子任务的标注结果;其中,每个分类器均包括全连接层和Softmax层。4.根据权利要求3所述的用于解决实体重叠与实体嵌套的多任务学习方法,其特征在于,步骤S3包括如下步骤:S31,设定两个不同的任务梯度分别为,其中,计算两个不同的任务梯度之间的余弦相似度,计算公式如下所示:;其中,,表示向量模长;S32,若得到的余弦相似度为负,则向两个任务梯度中的另一个任务梯度的法向量方向做投影,将得到的新梯度替换原来的梯度,具体计算公式如下所示:若得到的余弦相似度不为负值,则不做任何操作;S33,循环步骤S31和步骤S32,得到一组新的梯度;S34,最后将新的梯度与普通的优化器结合,更新通用型多任务学习模型参数。5.根据权利要求4所述的用于解决实体重叠与实体嵌套的多任务学习方...

【专利技术属性】
技术研发人员:闫凯峰
申请(专利权)人:杭州实在智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1