System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种构建知识驱动的少样本命名实体识别适配器的方法技术_技高网

一种构建知识驱动的少样本命名实体识别适配器的方法技术

技术编号:40087334 阅读:10 留言:0更新日期:2024-01-23 15:39
本发明专利技术涉及一种构建知识驱动的少样本命名实体识别适配器的方法。本发明专利技术通过知识图谱增强高效微调(PEFT)范式来解决少样本命名实体识别任务。设计的适配器(KG‑adapter)遵循通用的Seq2Seq生成框架,并使用指针机制生成实体索引序列。对于给定的输入句子,构造了一个知识图谱检索器来搜索其对应的知识图谱(KG)实体类型序列。针对每个句子的知识图谱(KG)实体类型序列,利用本体图谱中每个实体类型的对应本体词生成KG实体类型的表示,用以作为适配器的输入,对适配器进行引导。采用本发明专利技术设计的适配器进行的少样本命名实体识别,相提高了准确度和召回率,减少了计算的复杂度。

【技术实现步骤摘要】

本专利技术属于自然语言处理,涉及一种构建知识驱动的少样本命名实体识别适配器的方法


技术介绍

1、命名实体识别(ner)是自然语言处理(nlp)中的一个基础任务。ner通常被表述为序列分类任务,目标是为输入序列中的每个实体分配一个标签。这些标签基于预定义的类别,例如位置、组织和人物。当前最先进的ner方法使用预训练语言模型(pretrainedlanguage models,plms))并配备了多个ner范式,包括标签特定分类器(lc)、机器阅读理解(mrc)和统一生成模型(bartner)。然而,这些模型与可见类别高度相关,并且经常显式地记住实体。这是因为这些模型的输出层必须在训练和测试之间具有一个一致的标签集。因此,这些模型必须从头开始重建以适应具有新实体类别的目标域,这使少样本ner成为一个具有挑战性但又实用的研究问题。

2、少样本ner的一个重要研究方向是使用原型方法。这些方法结合了元学习,作为ner领域的少样本学习方法而广受欢迎。然而,大多数现有方法都依赖于最近邻准则来分配实体类型,该准则基于源域和目标域之间的相似模式。这些方法无法充分利用plms的能力,可能无法很好地处理跨域实例。

3、另一种解决少样本命名实体识别的方法是使用高效微调(parameter efficientfine-tuning,peft),主要使用提示学习(prompt tuning)。尤其是promptner将实体定位和实体类型化统一到提示学习中,并设计了一个包含位置槽和类型槽的双槽多提示模板,分别提示定位和类型化,达到了最先进的性能。

4、但是,原型方法和提示学习(prompt tuning)方法都没有考虑知识图谱本体的丰富结构类型信息;因此,本专利技术提出了一种构建知识驱动的少样本命名实体识别适配器的方法。


技术实现思路

1、本专利技术的目的就是提供一种构建知识驱动的少样本命名实体识别适配器的方法,充分利用plms中的参数化知识和知识图谱(knowledge graph,kg)中的实体知识,从而提升少样本命名实体识别的性能。

2、本专利技术通过知识图谱增强高效微调(peft)范式来解决少样本命名实体识别任务。设计的适配器(kg-adapter)遵循通用的seq2seq生成框架,并使用指针机制生成实体索引序列。

3、对于给定的输入句子,构造了一个知识图谱检索器来搜索其对应的知识图谱(kg)实体类型序列。针对每个句子的知识图谱(kg)实体类型序列,利用本体图谱中每个实体类型的对应本体词生成kg实体类型的表示,用以作为适配器的输入,对适配器进行引导。

4、具体包括如下步骤:

5、步骤一、文本的相关知识图谱(kg)实体类型序列检索及其表示生成;

6、具体为:

7、步骤1、对于句子中的一个命名实体,利用现有检索器,使用以下形式按顺序在现有数据库中中找到其最接近的匹配:i)原始形式;ii)利用spacy库进行词形还原;iii)词干。检索器最终针对每个句子生成一个向量。

8、步骤2、将本体知识纳入编码器以协助适配器调优。

9、步骤二、利用知识图谱(kg)实体类型序列的表示改造现有适配器,使其成为知识驱动的适配器(kg-adapter);

10、步骤三、冻结seq2seq预训练语言模型plms的参数,只在数据集上训练知识驱动的适配器。

11、步骤四、利用训练好的适配器进行少样本的命名实体识别。

12、采用本专利技术设计的适配器进行的少样本命名实体识别,相比传统的peft少样本命名实体识别方法,针对每一个句子,在知识库中搜索得到对应的背景实体,并通过将背景实体转换为类型序列,不仅扩充了句子的预测类型背景知识,也添加了相应的实体边界分割信息,让适配器能被迫从实体的扩充上下文中收集更多信息以进行正确分类,提高了准确度和召回率;相比以往的知识注入plms的命名实体识别算法,增加扩充上下文信息时,并没有引入更多训练参数,减少了计算的复杂度。同时该知识适配器针对命名实体识别(ner)任务,在不同领域的数据集上引入了特定的数据。适用于命名实体识别任务,特定用于扩充命名实体识别中不同领域的知识(比如医疗等领域)。

本文档来自技高网...

【技术保护点】

1.一种构建知识驱动的少样本命名实体识别适配器的方法,其特征在于:

2.如权利要求1所述的构建知识驱动的少样本命名实体识别适配器的方法,其特征在于:所述的步骤一具体为:

3.如权利要求1所述的构建知识驱动的少样本命名实体识别适配器的方法,其特征在于:所述的步骤二具体为:

【技术特征摘要】

1.一种构建知识驱动的少样本命名实体识别适配器的方法,其特征在于:

2.如权利要求1所述的构建知识驱动的少样本命名实体识别适配器的方法,...

【专利技术属性】
技术研发人员:聂斌玲邵一鸣金怡男王毅刚
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1