一种大型语言模型增强的多文档脚本抽取方法技术

技术编号：42087782 阅读：6 留言：0更新日期：2024-07-19 17:02

本发明专利技术公开了一种大型语言模型增强的多文档脚本抽取方法，包括以下步骤：使用大语言模型，通过上下文学习的迭代提示策略从每个文档中抽取单个脚本；建立三层结构，揭示脚本之间的相互联系，使浅层的单脚本过渡到深层的聚合脚本，引入两阶段的层次识别方法对脚本或步骤进行分层；通过两阶段迭代提示策略来整合来自其他步骤和大语言模型的额外信息来增强次优步骤。本申请首次识别关键挑战并提出解决方案来研究多文档脚本抽取问题；本申请结合了大语言模型，采用了抽取‑组装的思想，并提供了一种计算效率更高的替代方案。本申请抽取脚本的质量高于大多数大语言模型，性能可与GPT‑4媲美。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，尤其涉及一种大型语言模型增强的多文档脚本抽取方法。

技术介绍

1、脚本的抽取和结构化表示对于人类知识获取至关重要。人们习惯于从具有脚本特征的文档中获取知识。脚本是由一系列旨在实现特定目标的步骤组成的，脚本被定义为“描述一些典型人类活动的标准化事件序列，例如制作视频”。因此，从非结构化的文档中自动抽取脚本引起了研究人员的普遍兴趣，例如可执行机器人系统和问题导向的推理系统等。

2、现有技术采用无监督广泛覆盖的方法和transformers用于脚本抽取。最近，大语言模型也已经证明了它们以零/少样本的方式识别过程性步骤方面的高效率。然而，这些方法主要集中于从单个文档中抽取脚本，称为单文档脚本抽取，如图1(a)所示。这种任务设置可能会导致信息丢失进而不能满足实际需要，具体表现在两个方面：(1)单个文档通常只详细说明一种方法，这压缩了决策空间。例如，图1(a)中描述的脚本省略了一些其他的可用策略，例如还可以通过“制作短片”来实现“制作视频”。(2)脚本中的步骤可能是模糊的或者是缺乏细节的，从而降低了整个过程的可行性。例如图1(a)中步骤2关于“如何设置设备”的细节不足。

3、先前关于脚本的工作可以分为两类：(1)叙事型脚本：对连续事件的描述(例如，“涉及碰撞的交通事故”)；(2)目标导向的脚本：实现目标的适当步骤序列，例如“去看医生”，包括“预约”、“去医院”等步骤。我们的工作重点是学习通过分析多个文档来实现给定目标的步骤，因此属于面向目标的脚本抽取。

4、传统的脚本抽取方法大

技术实现思路

1、为了解决这些限制，本申请提出面向多文档的脚本抽取方法。具体来说，给定一个明确的目标和多个与之相关的文档，多文档脚本抽取要求抽取与目标相关的所有脚本，然后对它们进行增强和结构化表示。考虑图1(b)，给定一个明确的目标，例如“制作视频”，该任务需要模型分析多个文档之间复杂的相关性，以生成潜在的令人满意的脚本，例如“创建记录视频”和“制作短片”，它们与完整的步骤相关联。

2、多文档脚本抽取可以通过生成多个脚本有效地解决前面提到的第一个问题。此外，脚本中的步骤有可能相互增强或纠正，从而解决前面提到的第二个问题。例如，通过图1(b)中的步骤“录制并保持画面稳定”，可以将步骤1.3“录制视频”细化为“录制画面稳定的视频”。通过使用抽取的脚本，用户可以有效地理解目标的整体概述，从而简化学习过程，增钱强知识获取效率。为了探索问题的本质，本申请对多文档脚本抽取进行了全面的分析，多文档脚本抽取问题的挑战主要包括三点：

3、脚本中可能会缺失一些步骤，这可能会破坏脚本的连续性，如何才能充分探索文档所涵盖的所有步骤？

4、各个脚本之间可以相互加强和补充，如何基于多个文档建立这种复杂的相互关系？

5、一些脚本中的步骤可能包含正确的事实性知识，如何利用这些事实性知识来纠正其他脚本中带有不准确的信息的次优步骤？

6、为了从多个文档中抽取脚本，更全面地捕获更丰富的信息和更精细的细节，本申请提出了一个基于“抽取-组装”概念的新框架，并构想了一个大语言模型增强的多文档脚本抽取器，即lemse。它首先从每个文档中抽取脚本，然后确定它们的层次结构，并根据层次结构将它们组装成聚合脚本。lemse为此任务量身定制了三个精心设计的模块：(1)迭代抽取模块，采用迭代提示策略对每个文档进行脚本抽取，通过多阶段推理来提高脚本抽取的质量，有助于解决rq1。(2)层次识别模块，通过采用两阶段相似度计算方法构建一个三层的层次结构，识别脚本之间如何相互增强和补充的关系，有助于解决rq2。(3)步骤增强模块，通过集成其他步骤和大语言模型内部的附加信息来增强脚本中的次优步骤，这有助于解决rq3。此外，我们通过微调较小的专用模型，为有限的计算资源开发了另一种解决方案lemse-ft。

7、为了增强多文档脚本抽取任务的完整性，本申请开发了一个定制的基准数据集mdscript。它首先为同一目标合并了多个参考文档，以便于识别多个脚本。mdscript包含2,000个目标和15,493个包含高质量脚本的文档。此外，由于脚本之间存在着复杂的相关性，为了更清晰地呈现这些相关性，我们进一步实现了一个三层的层次结构。层次结构描述了一个目标之下的所有脚本和它的步骤以及补充细节的潜在关系。这样，mdscript有望作为评估多文档脚本抽取模型的测试平台。

8、为实现上述目的，本申请公开的大型语言模型增强的多文档脚本抽取方法，包括以下步骤：

9、接收多个文档；

10、使用大语言模型，通过上下文学习的迭代提示策略从每个文档中抽取单个脚本；

11、建立三层结构，揭示脚本之间的相互联系，使浅层的单脚本过渡到深层的聚合脚本，引入两阶段的层次识别方法对脚本或步骤进行分层；

12、通过两阶段迭代提示策略来整合来自其他步骤和大语言模型的额外信息来增强次优步骤；

13、输出聚合脚本。

14、优选地，所述上下文学习的迭代提示策略包括四个阶段，在每个阶段，大语言模型由特定的提示来引导其验证和增强初始输出，以单文档为输入并输出相应的由一系列连续的步骤组成的单脚本；

15、第一阶段为初始抽取阶段，其中特定于任务的提示指导大语言模型llm从给定文档中抽取脚本；

16、第二阶段的目标是找到缺失的步骤，生成一个全面的脚本；

17、第三阶段旨在删除文档没有出现的步骤；

18、第四阶段侧重于删除步骤中不必要的细节。

19、优选地，所述三层结构包括：

20、主干层：对于给定的目标，主干层包含一系列明确描述如何实现目标的脚本，将目标与这些脚本连接起来；

21、细节层：细节层脚本为骨干层中的步骤提供细节指导，将这一层的每个脚本与相应的步骤连接起来；

22、补充层：补充层包括一系列步骤，这些步骤提供了额外的事实性知识，用来验证和细化骨干层和细节层中的次优步骤。

23、优选地，所述两阶段的层次识别方法通过一个两阶段相似性评分sim2来实现脚本或步骤的分层；

24、首先，使用下式来识别骨干层的脚本，这包括计算给定目标和每个脚本之间的sim2分数，得分高于预定义阈值α的被分类为骨干层脚本，用表示：...

【技术保护点】

1.一种大型语言模型增强的多文档脚本抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，所述上下文学习的迭代提示策略包括四个阶段，在每个阶段，大语言模型由特定的提示来引导其验证和增强初始输出，以单文档为输入并输出相应的由一系列连续的步骤组成的单脚本；

3.根据权利要求1所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，所述三层结构包括：

4.根据权利要求1所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，所述两阶段的层次识别方法通过一个两阶段相似性评分sim2来实现脚本或步骤的分层；

5.根据权利要求4所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，所述两阶段相似度评分包括：

6.根据权利要求5所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，所述次优步骤是抽取的脚本包含不明确或不正确的步骤，通过两阶段迭代提示策略来整合来自其他步骤和大语言模型的额外信息来增强次优步骤，包括：第一阶段包括定位补充步骤的有益部分，第二阶段使用有益部分和大语

7.根据权利要求6所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，用单阶段推理取代大语言模型的多阶段推理，在调优过程中，将训练数据集作为输出的标签；然后将第一模型和第二模型的结果与标签对齐；所述第一模型和第二模型分别取代迭代抽取和步骤增强模块，第一模型输入单文档以生成包含一系列步骤的单脚本；第二模型输入次优步骤和补充步骤，输出增强后的步骤。

...

【技术特征摘要】

1.一种大型语言模型增强的多文档脚本抽取方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，所述三层结构包括：

5.根据权利要求4所述的大型语言模型增强的多文档脚本抽取方法，其特征在于，所述两阶段相似度...

【专利技术属性】
技术研发人员：赵翔，黄宏斌，廖增华，唐九阳，李璇，徐浩，黄魁华，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人