System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于通用大语言模型零样本文档级关系抽取方法技术_技高网

一种基于通用大语言模型零样本文档级关系抽取方法技术

技术编号:44963589 阅读:11 留言:0更新日期:2025-04-12 01:34
本发明专利技术公开了一种基于通用大语言模型零样本文档级关系抽取方法,通过建立提示词模板的方式,基于大语言模型来对文档级文本中的实体关系进行提取,减少了对大量标注数据的需求,这降低了数据准备的成本和时间,使得关系提取技术更容易被应用于数据稀缺的领域。本实施例无需经过通过训练样本进行训练以及参数调优的过程,而是直接通过提示词在现有的大模型上获得结果,减少了对样本的依赖。同时也避免了已标注文本的质量对抽取结果的影响。同时,关系提取过程能够更快地进行,无需训练/微调大模型,从而加快了开发周期。减少了人工干预的需求,降低了人力成本,并提高了处理速度。本发明专利技术能够适应不同的文档类型和领域。

【技术实现步骤摘要】

本专利技术涉及文档级关系提取,尤其涉及一种基于通用大语言模型零样本文档级关系抽取方法


技术介绍

1、本专利技术涉及的
技术介绍
主要围绕文本级关系提取、命名实体识别(ner)以及大模型
,尤其是基于通用大语言模型的零样本文档级关系抽取方法。以下是这些领域的
技术介绍
概述:

2、实体命名识别与关系提取:是信息抽取的核心任务之一,它旨在从非结构化文本中识别实体之间的语义关系。传统的关系提取方法依赖于特征工程和深度学习算法,尤其是神经网络模型,如cnn、rnn、lstm和transformer。这些模型在自然语言处理(nlp)任务上显示出了强大的能力。但这些模型依赖于大量高质量已标注文本数据上的预训练,从而能够捕捉到丰富的语言特征和模式。以及算法模型反复测试调优。文档级文本需要更多的参数,意味着训练需要花费更多的电力。


技术实现思路

1、本专利技术公开了一种基于通用大语言模型零样本文档级关系抽取方法,以克服上述技术问题。

2、为了实现上述目的,本专利技术的技术方案是:

3、一种基于通用大语言模型零样本文档级关系抽取方法,包括如下步骤:

4、s1:根据任务类别,建立与所述任务类别对应的提示词模板;

5、所述任务类别包括命名实体识别和关系提取;

6、所述与命名实体识别对应的提示词模板为命名实体识别的提示词模板tner;与关系提取对应的提示词模板为关系提取的提示词模板tre;

7、所述命名实体识别的提示词模板tner,关系提取的提示词模板tre的结构相同,均包括实体类型和实体类型的描述;

8、s2:基于spacy库的分句和分词方法,获取待处理文档中的句子和单词;

9、s3:根据所述命名实体识别的提示词模板tner、句子、单词以及预设的实体类型集合,基于大语言模型,获取命名实体识别的数据集;

10、其中,命名实体识别的数据包括实体名称,实体类型,实体句子索引,实体句子中的单词索引,同义词索引,文档索引;

11、s4:根据命名实体识别的数据集;获得带有同义词编码的数据集nerindexed;

12、s5:根据预设实体关系的名称、基于实体关系的名称的预设实体关系的模式、待处理文档、关系提取的提示词模板tre和所述带有同义词编码的数据集nerindexed,基于大语言模型,获取最终的关系提取数据集repredicted;以完成对文档级文本的关系抽取。

13、进一步的,获取带有同义词编码的数据集nerindexed方法如下:

14、s41:根据命名实体识别的数据集,将实体类型相同的命名实体识别的数据划分以一组,形成实体类型的命名实体识别的数据组;

15、s42:根据实体类型的命名实体识别的数据组中的第i个命名实体识别的数据的实体名称和第j,i≠j个命名实体识别的数据的实体名称,基于大语言模型,确定命名实体识别的数据组中的第i个命名实体识别的数据的实体名称和第j个命名实体识别的数据的实体名称是否为同义词,以获取命名实体识别的数据的更新的同义词索引,进而获取带有同义词编码的数据集nerindexed;i,j均为实体类型的命名实体识别数据组中的数据的索引。

16、进一步的,获取命名实体识别的数据的更新的同义词索引的方法为:

17、当命名实体识别的数据组中的第i个命名实体识别的数据的实体名称和第j个命名实体识别的数据的实体名称是同义词时,令命名实体识别的数据组中的第i个命名实体识别的数据的同义词索引等于第j个命名实体识别的数据的同义词索引;

18、否则当命名实体识别的数据组中的第i个命名实体识别的数据的实体名称和第j个命名实体识别的数据的实体名称不是同义词时,令命名实体识别的数据组中的第i个命名实体识别的数据的同义词索引不等于第j个命名实体识别的数据的同义词索引。

19、进一步的,获取最终的关系提取数据集repredicted所采用方法如下:

20、s51:获取待处理文档中的主语实体名称和宾语实体名称;以获取由主语实体名称和宾语实体名称形成的数据对;

21、s52:根据关系提取的提示词模板tre,基于大语言模型,确定所述数据对中的待处理文档中的主语实体名称和宾语实体名称,是否符合预设的实体关系;

22、s53:当所述数据对中的待处理文档中的主语实体名称和宾语实体名称符合预设的实体关系时,将所述数据对加入关系提取数据集;以获取最终的关系提取数据集。

23、进一步的,所述s5后,还包括s6:获取最终的关系提取数据集repredicted中的实体名称的总数,以及待处理文档中的真实的实体名称的总数,对所述最终的关系提取数据集repredicted,进行评估。

24、有益效果:本专利技术的一种基于通用大语言模型零样本文档级关系抽取方法,通过建立提示词模板的方式,基于大语言模型来对文档级文本中的实体关系进行提取,减少了对大量标注数据的需求,这降低了数据准备的成本和时间,使得关系提取技术更容易被应用于数据稀缺的领域。本实施例无需经过通过训练样本进行训练以及参数调优的过程,而是直接通过提示词在现有的大模型上获得结果,减少了对样本的依赖。同时也避免了已标注文本的质量对抽取结果的影响。同时,关系提取过程能够更快地进行,无需训练/微调大模型,从而加快了开发周期。减少了人工干预的需求,降低了人力成本,并提高了处理速度。本专利技术能够适应不同的文档类型和领域。

本文档来自技高网...

【技术保护点】

1.一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,获取带有同义词编码的数据集NERindexed方法如下:

3.根据权利要求2所述的一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,获取命名实体识别的数据的更新的同义词索引的方法为:

4.根据权利要求1所述的一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,获取最终的关系提取数据集REpredicted所采用方法如下:

5.根据权利要求1所述的一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,所述S5后,还包括S6:获取最终的关系提取数据集REpredicted中的实体名称的总数,以及待处理文档中的真实的实体名称的总数,对所述最终的关系提取数据集REpredicted,进行评估。

【技术特征摘要】

1.一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,获取带有同义词编码的数据集nerindexed方法如下:

3.根据权利要求2所述的一种基于通用大语言模型零样本文档级关系抽取方法,其特征在于,获取命名实体识别的数据的更新的同义词索引的方法为:

4.根据权利要求1所...

【专利技术属性】
技术研发人员:赵磊康玲范迎南范博郭权
申请(专利权)人:大连东软信息学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1