System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 应用小样本学习的信息抽取方法、装置、设备和存储介质制造方法及图纸_技高网

应用小样本学习的信息抽取方法、装置、设备和存储介质制造方法及图纸

技术编号:42956706 阅读:11 留言:0更新日期:2024-10-11 16:14
本发明专利技术涉及自然语言处理技术领域,尤其涉及一种应用小样本学习的信息抽取方法、装置、设备和存储介质,方法包括:S1,基于信息抽取任务获取小样本并构建多个结构化提示词;S2,为小样本分别匹配提示词,并将小样本分别嵌入到对应的提示词中,基于提示词标注小样本的正确抽取结果;S3,基于嵌入到提示词中的小样本和小样本对应的正确抽取结果结合前向传播算法对预训练的大语言模型进行微调训练;S4,将嵌入到提示词中的的待抽取信息输入到大语言模型以获取信息抽取结果。使用结构化提示词并通过较少的样本结合提示词进行模型微调训练,抽取流程较为简便,对输入的待抽取信息依赖性较小,有利于提高信息的抽取率和准确率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种应用小样本学习的信息抽取方法、装置、设备和存储介质


技术介绍

1、在自然语言处理中,从输入的一段对话中抽取关键信息是一项重要的任务,传统方法通常依赖大量的手工标注数据来训练模型。这种方法不仅成本高昂,而且在面对新领域或少数据环境时灵活性不足。

2、目前已有使用大型预训练语言模型来辅助信息抽取的尝试,实现方案如下:

3、1、获取信息抽取任务的任务类型信息和目标文本;

4、2、基于任务类型信息从预设的提取要求可选列表中获取提取要求,得到每一任务类型信息的提取要求信息;

5、3、根据提取要求信息和预设的输出格式信息构建目标提取指令,根据目标提取指令、提取要求信息和目标文本进行字典树构建,得到符合输出格式信息的目标字典树;

6、4、将目标文本和目标字典树输入至预设的信息提取模型进行信息抽取,得到目标抽取结果。

7、在整个信息抽取流程中,构建字典树、执行复杂的指令和模型运算,会进一步增加计算负担,准确性很大程度上依赖于输入的目标文本的质量和完整性,为了提高准确度,现有方法通常需要复杂的调整和大量的微调,难以有效提高信息抽取效率。


技术实现思路

1、为了解决抽取流程复杂,对输入的目标文本的质量和完整性的依赖导致的难以有效提高信息抽取率和准确率的问题,本专利技术提供一种应用小样本学习的信息抽取方法及装置,包括以下步骤。

2、第一方面,本专利技术提供的一种应用小样本学习的信息抽取方法,采用如下的技术方案:一种应用小样本学习的信息抽取方法,包括以下步骤:

3、s1,基于信息抽取任务获取few-shot样本并构建多个结构化提示词;

4、s2,为few-shot样本分别匹配提示词,并将few-shot样本分别嵌入到对应的提示词中,基于提示词标注few-shot样本的正确抽取结果;

5、s3,基于嵌入到提示词中的few-shot样本和few-shot样本对应的正确抽取结果结合前向传播算法对预训练的大语言模型进行微调训练;

6、s4,为待抽取信息匹配提示词,并将待抽取信息嵌入到对应的提示词中,将嵌入到提示词中的的待抽取信息输入到大语言模型以获取信息抽取结果。

7、通过上述技术方案,使用结构化提示词为模型清晰地阐述要解决的具体问题和目标,通过较少的few-shot样本结合提示词进行模型训练,然后进行模型微调,抽取流程较为简便,对输入的待抽取信息依赖性较小,搭配提示词有利于提高信息的抽取率和准确率。

8、可选地,步骤s3中对预训练的大语言模型进行微调训练具体包括:

9、s3-1,将嵌入到提示词中的few-shot样本和few-shot样本对应的正确抽取结果作为数据集,并将数据集划分训练集和验证集;

10、s3-2,在训练集中随机抽取一组数据作为支撑集、一组与支撑集相关的数据作为batch集;

11、s3-3,根据支撑集对大语言模型进行初步微调训练,模型输入支撑集的多个样本,模型输出所有样本对应的信息抽取结果;

12、s3-4,根据batch集中的多个样本作为已初步微调的模型的输入,模型对多个样本进行前向传播算法,输出多个样本的对应预测抽取结果;

13、s3-5,使用交叉熵损失函数计算多个样本的对应预测抽取结果与多个样本的对应实际抽取结果之间的损失值,判断损失值大于预设阈值时,使用优化算法调整模型参数,判断损失值小于预设阈值时,不需要进行调整;

14、s3-6,返回s3-2,并根据预设次数重复多次后,得到已微调训练的大语言模型;

15、s3-7,基于验证集对已微调训练的大语言模型进行评估,模型评估为不及格时,返回步骤s3-2,模型评估为及格时,已微调训练模型作为最终的大语言模型。

16、可选地,使用交叉熵损失函数计算损失值具体包括:

17、

18、其中,是损失值,n 是训练数据的数量,是第i个样本的实际抽取结果,是第i个样本的模型预测抽取结果。

19、可选地,步骤s3-2中,所述支撑集的抽取具体包括:随机抽取一组提示词类别,每个提示词类别均包含同样数量的嵌入到提示词中的few-shot样本和对应的正确抽取结果;

20、所述batch集的抽取具体包括:抽取与支撑集相同的提示词类别,每个提示词类别分别包括同样数量的未被抽取过的嵌入到提示词中的few-shot样本和对应的正确抽取结果。

21、可选地,基于验证集对已微调训练的大语言模型进行评估具体包括:

22、将验证集内的few-shot样本输入到已微调训练的大语言模型中,模型输出理论抽取结果;

23、结合实际抽取结果和理论抽取结果计算模型输出的精确率:

24、

25、结合实际抽取结果和理论抽取结果计算模型输出的召回率:

26、

27、结合精确率p和召回率r计算 f1-score:

28、

29、其中,tp是样本中理论抽取结果与实际抽取结果一致的数量,fp是样本中理论抽取结果与实际抽取结果内容不同的数量,fn样本中理论抽取结果与实际抽取结果数量不同的数量;

30、将f1-score与评估阈值进行对比判断,f1-score大于或等于评估阈值时,模型被评估为合格,f1-score小于评估阈值时,模型被评估为不合格。

31、可选地,在构建数据集前,还包括:

32、对few-shot样本和正确抽取结果进行数据清洗:将所有few-shot样本和正确抽取结果转换为小写,并移除特殊字符和多余空格;

33、将数据清洗后的few-shot样本和对应的正确抽取结果进行数据拼接和数据转换:使用标记<s>和</s>将输入和输出文本进行拼接,将拼接后的文本转换为token ids。

34、可选地,步骤s2和步骤s4中的匹配提示词的过程包括:

35、为每个提示词模板构建词袋模型;

36、为few-shot样本或待抽取信息构建词袋模型;

37、计算few-shot样本或待抽取信息的词袋模型与每个提示词模板词袋模型的余弦相似度;

38、选择余弦相似度最高的提示词模板作为few-shot样本或待抽取信息的提示词。

39、第二方面,提供一种应用小样本学习的信息抽取装置,包括:

40、提示词构建模块,基于信息抽取任务获取few-shot样本并构建多个结构化提示词;

41、获取模块,获取待抽取信息、待抽取信息的提示词匹配信息、few-shot样本、few-shot样本对应的提示词和基于提示词标注few-shot样本的正确抽取结果;

42、组合模块,并将few-shot样本分别嵌入到对应的提示词中、将待抽取信息嵌入到对应的提示词中;本文档来自技高网...

【技术保护点】

1.一种应用小样本学习的信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的应用小样本学习的信息抽取方法,其特征在于,步骤S3中对预训练的大语言模型进行微调训练具体包括:

3.根据权利要求2所述的应用小样本学习的信息抽取方法,其特征在于,步骤S3-2中,所述支撑集的抽取具体包括:随机抽取一组提示词类别,每个提示词类别均包含同样数量的嵌入到提示词中的Few-shot样本和对应的正确抽取结果;

4.根据权利要求2所述的应用小样本学习的信息抽取方法,其特征在于,使用交叉熵损失函数计算损失值具体包括:

5.根据权利要求2所述的应用小样本学习的信息抽取方法,其特征在于,基于验证集对已微调训练的大语言模型进行评估具体包括:

6.根据权利要求2所述的应用小样本学习的信息抽取方法,其特征在于,在构建数据集前,还包括:

7.根据权利要求1所述的应用小样本学习的信息抽取方法,其特征在于,步骤S2和步骤S4中的匹配提示词的过程包括:

8.一种应用小样本学习的信息抽取装置,其特征在于,包括:

9.一种应用小样本学习的信息抽取设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的应用小样本学习的信息抽取方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的应用小样本学习的信息抽取方法。

...

【技术特征摘要】

1.一种应用小样本学习的信息抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的应用小样本学习的信息抽取方法,其特征在于,步骤s3中对预训练的大语言模型进行微调训练具体包括:

3.根据权利要求2所述的应用小样本学习的信息抽取方法,其特征在于,步骤s3-2中,所述支撑集的抽取具体包括:随机抽取一组提示词类别,每个提示词类别均包含同样数量的嵌入到提示词中的few-shot样本和对应的正确抽取结果;

4.根据权利要求2所述的应用小样本学习的信息抽取方法,其特征在于,使用交叉熵损失函数计算损失值具体包括:

5.根据权利要求2所述的应用小样本学习的信息抽取方法,其特征在于,基于验证集对已微调训练的大语言模型进行评估具体包括:

6.根据权利要求2所述的应用小样本学习的...

【专利技术属性】
技术研发人员:郭鹏马杰金剑邓小宁林文丛
申请(专利权)人:北方健康医疗大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1