System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档信息抽取模型的虚拟对抗训练制造技术_技高网
当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

文档信息抽取模型的虚拟对抗训练制造技术

技术编号:44831424 阅读:6 留言:0更新日期:2025-04-01 19:32
本公开涉及用于基于训练技术从文档中提取信息以生成文档基础模型的计算机实现的方法、软件和系统,该文档基础模型用于初始化被微调到商业文档细节的文档信息提取模型。基于从第一预训练模型提供的权重来初始化文档信息提取模型。基于作为第二训练数据的标记的商业文档来执行文档信息提取模型的微调。根据虚拟对抗训练(VAT)对标记的商业文档进行标记和评估。基于所执行的微调,生成用于信息提取的分类的分类符。

【技术实现步骤摘要】

本公开涉及用于数据处理的计算机实现的方法、软件和系统。


技术介绍

1、信息提取方法可以用于不同的基于自然语言处理的应用中。这些方法可以用于标识信息并提供自然语言理解。信息提取模型可以通过预训练、微调和上下文学习的组合来学习。预训练是模型学习的初始阶段。在预训练期间,模型暴露于大量未标记的文本数据,其中预训练旨在捕获文本语料库中存在的底层模式、结构和语义知识。微调是在特定任务上或在特定领域中进一步训练模型的过程。微调可以改善在特定任务或领域上预先训练的模型的性能,以更好地拟合数据。


技术实现思路

1、本公开的实施方式总体上涉及一种用于基于偏差风险的评估来执行从候选预测模型集合中选择预测模型的计算机实施的方法。

2、在一个方面,一种示例方法可以包括诸如以下的操作:基于多个未标记的文档获得第一训练数据,以用于训练用于文档信息提取的第一模型;根据针对所述多个未标记文档中的每个文档的单词令牌计数可调整的动态窗口来预训练所述第一模型,其中,所述预训练包括:根据针对所述单词令牌确定的个体掩蔽率来评估其中应用掩蔽的所述多个未标记文档中的每个未标记文档中的单词令牌,并且其中,所述个体掩蔽率指示所述单词令牌的相应信息相关性;以及提供预先训练的第一模型,用于基于作为第二训练数据的标记的文档来初始化要训练的第二文档信息提取模型。

3、在第二方面,一种示例方法可以包括诸如以下的操作:基于第一训练数据来预训练特定于领域的神经网络提取模型,其中训练数据包括未标记的文档,其中基于信息性单词掩蔽来执行预训练;基于作为第二训练数据的经标记的商业文档来执行对预先训练的特定于领域的神经网络提取模型的微调,其中,根据虚拟对抗训练(vat)技术来处理经标记的商业文档;以及基于所执行的微调,生成与特定于领域的神经网络提取模型相关联的分类符。

4、在第三方面,一个示例方法可以包括诸如以下的操作:基于从第一模型提供的权重来初始化第二文档信息提取模型,该第一模型在包括作为第一训练数据的未标记的商业文档的训练数据上被预先训练;基于作为第二训练数据的标记的商业文档来执行所述第二文档信息提取模型的微调,其中,根据虚拟对抗训练(vat)来标记和评估所述标记的商业文档;以及基于所执行的微调,生成用于信息提取的分类的分类符。

5、本公开还提供了一种计算机可读存储介质,其耦合到一个或多个处理器并且具有存储在其上的指令,当由一个或多个处理器执行时,指令使得一个或多个处理器执行根据本文提供的方法的实施方式的操作。

6、本公开还提供了一种用于实现本文提供的方法的系统。该系统包括一个或多个处理器,以及耦合到一个或多个处理器的计算机可读存储介质,该计算机可读存储介质具有存储在其上的指令,当由一个或多个处理器执行时,该指令使得一个或多个处理器执行根据本文提供的方法的实施方式的操作。

7、应当理解,根据本公开的方法可以包括本文描述的方面和特征的任何组合。也就是说,根据本公开的方法不限于本文具体描述的方面和特征的组合,而是还包括所提供的方面和特征的任何组合。

8、在附图和下面的描述中阐述了本公开的一个或多个实施方式的细节。根据说明书、附图和权利要求,本公开的其他特征和优点将是显而易见的。

本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,包括:

3.根据权利要求1所述的方法,其中,执行所述微调包括:

4.根据权利要求3所述的方法,其中,执行所述微调包括:

5.根据权利要求1所述的方法,其中,基于动态窗口来应用所述预训练,所述动态窗口能够调整到所述未标记的商业文档的每个文档的单词令牌大小。

6.根据权利要求1所述的方法,其中,所述预训练包括:根据针对所述单词令牌确定的个体掩蔽率来评估其中应用掩蔽的每个所述未标记的商业文档中的单词令牌。

7.根据权利要求6所述的方法,其中,所述个体掩蔽率指示所述单词令牌的相应信息相关性,并且其中,所述预训练包括:

8.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质耦合到一个或多个处理器并且具有存储在其上的指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行操作,所述操作包括:

9.根据权利要求8所述的非暂时性计算机可读介质,包括:

10.根据权利要求8所述的非暂时性计算机可读介质,其中,执行所述微调包括:

11.根据权利要求10所述的非暂时性计算机可读介质,其中,执行所述微调包括:

12.根据权利要求8所述的非暂时性计算机可读介质,其中,基于动态窗口来应用所述预训练,所述动态窗口能够调整到所述未标记的商业文档的每个文档的单词令牌大小。

13.根据权利要求8所述的非暂时性计算机可读介质,其中,所述预训练包括:根据针对单词令牌确定的个体掩蔽率来评估其中应用掩蔽的每个所述未标记的商业文档中的单词令牌。

14.根据权利要求13所述的非暂时性计算机可读介质,其中,所述个体掩蔽率指示所述单词令牌的相应信息相关性,并且其中,所述预训练包括:

15.一种计算机实现的系统,包括:

16.根据权利要求15所述的系统,其中,耦合到所述一个或多个处理器的所述一个或多个计算机可读存储器具有存储在其上的指令,所述指令能够由所述一个或多个处理器执行以执行操作,所述操作包括:

17.根据权利要求15所述的系统,其中,执行所述微调包括:

18.根据权利要求15所述的系统,其中,执行所述微调包括:

19.根据权利要求15所述的系统,其中,基于动态窗口来应用所述预训练,所述动态窗口能够调整到所述未标记的商业文档的每个文档的单词令牌大小。

20.根据权利要求15所述的系统,其中,所述预训练包括:根据针对所述单词令牌确定的个体掩蔽率来评估其中应用掩蔽的每个所述未标记的商业文档中的单词令牌。

...

【技术特征摘要】

1.一种计算机实现的方法,包括:

2.根据权利要求1所述的方法,包括:

3.根据权利要求1所述的方法,其中,执行所述微调包括:

4.根据权利要求3所述的方法,其中,执行所述微调包括:

5.根据权利要求1所述的方法,其中,基于动态窗口来应用所述预训练,所述动态窗口能够调整到所述未标记的商业文档的每个文档的单词令牌大小。

6.根据权利要求1所述的方法,其中,所述预训练包括:根据针对所述单词令牌确定的个体掩蔽率来评估其中应用掩蔽的每个所述未标记的商业文档中的单词令牌。

7.根据权利要求6所述的方法,其中,所述个体掩蔽率指示所述单词令牌的相应信息相关性,并且其中,所述预训练包括:

8.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质耦合到一个或多个处理器并且具有存储在其上的指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行操作,所述操作包括:

9.根据权利要求8所述的非暂时性计算机可读介质,包括:

10.根据权利要求8所述的非暂时性计算机可读介质,其中,执行所述微调包括:

11.根据权利要求10所述的非暂时性计算机可读介质,其中,执行所述微调包括:

12.根据权利要求8所述的非暂时性...

【专利技术属性】
技术研发人员:C·巴特克S·金
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1