基于参数解析的大语言模型上下文学习提升方法技术

技术编号：43614581 阅读：14 留言：0更新日期：2024-12-11 14:57

本发明专利技术涉及自然语言处理技术领域，公开了一种基于参数解析的大语言模型上下文学习提升方法，包括：将任务示例样本和验证上文通过特定任务的模板组成验证提示前缀并输入大语言模型中，获得预测验证下文；对大语言模型进行群体表征划分，并通过测评指标观察大语言模型被干扰后在特定任务上的性能下降程度，建立特定任务与群体表征的关联；通过表征提升模块提升群体表征对应的能力；将任务示例样本和测试上文通过特定任务的模板组成测试提示前缀，将测试提示前缀输入到引入表征提升模块的大语言模型中，得到预测测试下文；通过参数解析技术定位与大语言模型认知能力关联的群体表征，提升大语言模型在特定任务上的表现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体涉及一种基于参数解析的大语言模型上下文学习提升方法。

技术介绍

1、近年来，规模越来越大的大语言模型不断涌现而出。随着模型规模的增加，大语言模型开始展现出一些在小规模模型中不存在或不明显的新能力，比如多步算数、逻辑推理、上下文理解等。这些高阶认知能力增长的同时，在自然语言处理的下游任务上，基于微调整个大语言模型的传统方法由于随之增长的高训练成本逐渐被抛弃。作为替代方法之一，上下文学习仅需要若干任务示例作为提示，即可利用大语言模型的上下文理解能力，完成在特定下游任务的适应，因此成为了新的热门研究方向。

2、上下文学习虽然可以调用大语言模型原有的高阶认知能力以及若干任务示例的提示初步完成下游任务，但是大语言模型所有的模型参数在特定任务上没有做优化，即特定任务上所需要的高阶认知能力没有得到强化，仍存在较大提升空间。高效微调方法或表征微调方法为进一步提升特定高阶认知能力提供了解决方案，但由于缺乏模型参数的可解释性，优化的群体参数或群体表征往往是通过启发式策略指定，缺乏特定高阶认知能力与群体参数或表征的关联关系的指导，导致优化对象和优化目标之间的不适配，进而优化性能下降。

技术实现思路

1、为解决上述技术问题，本专利技术提供一种基于参数解析的大语言模型上下文学习提升方法，以提升大语言模型在上下文学习中的表现。本专利技术提出两种创新性的思想，第一，在上下文学习中，通过参数解析技术定位与大语言模型特定认知能力相关联的群体表征，增强大语言模型上下文学习的

2、为解决上述技术问题，本专利技术采用如下技术方案：

3、一种基于参数解析的大语言模型上下文学习提升方法，具体包括：

4、构建训练集和验证集，训练集中的每个训练样本包括训练上文以及对应的训练下文标签；验证集中的每个验证样本包括验证上文以及对应的验证下文标签；

5、通过参数解析技术定位大语言模型针对特定任务的认知能力所对应的群体表征：基于从训练样本中采样得到的任务示例样本和验证上文构建验证提示前缀，将输入大语言模型，得到大语言模型原始的预测结果；对大语言模型进行群体表征划分，通过测评指标观察大语言模型被干扰后在特定任务上的性能下降程度，建立特定任务与群体表征的关联；为每个群体表征h引入一个表征提升模块，来优化群体表征对特定任务的认知能力；通过训练集对表征提升模块进行训练；

6、将任务示例样本和测试上文通过特定任务的模板组成测试提示前缀，将输入到引入了表征提升模块的大语言模型中，得到测试上文的预测测试下文。

7、进一步地，所述基于从训练样本中采样得到的任务示例样本和验证上文构建验证提示前缀，将输入大语言模型，得到大语言模型原始的预测结果；对大语言模型进行群体表征划分，通过测评指标观察大语言模型被干扰后在特定任务上的性能下降程度，建立特定任务与群体表征的关联，具体包括：

8、从训练集中采样个训练样本作为任务示例样本，将任务示例样本和验证上文通过特定任务的模板组成验证提示前缀；将输入大语言模型中，得到验证上文对应的预测验证下文；对大语言模型进行群体表征划分：在大语言模型输入位置上以任务示例样本的数量为切分粒度，在大语言模型的个层级上以每一层的transformer块为切分粒度，得到个群体表征；对于每一个群体表征，添加高斯噪声作为干扰，并通过测评指标观察大语言模型被干扰后在特定任务上的性能下降程度；为特定任务选中数值最高的前h个性能下降程度对应的群体表征h，建立特定任务与群体表征的关联。

9、进一步地，所述通过测评指标观察大语言模型被干扰后在特定任务上的性能下降程度，具体包括：

10、以困惑度作为测评指标；干扰第i个群体表征后，大语言模型在特定任务上的性能下降程度为：

11、；

12、其中，是大语言模型原始的困惑度，为干扰第i个群体表征后大语言模型的困惑度。

13、进一步地，所述将任务示例样本和验证上文通过特定任务的模板组成验证提示前缀，具体包括：

14、；

15、表示字符串的连接，表示第d个任务示例样本的上文，表示第d个任务示例样本的下文标签，表示验证上文，表示占位符。

16、进一步地，所述将任务示例样本和测试上文通过特定任务的模板组成测试提示前缀，具体包括：

17、；

18、表示字符串的连接，表示第d个任务示例样本的上文，表示第d个任务示例样本的下文标签，表示占位符。

19、进一步地，所述特定任务是情感分类任务，所述训练上文、验证上文、测试上文表示情感文本；所述训练下文标签、验证下文标签、预测验证下文、预测测试下文表示情感文本的类别；所述群体表征h表示情感分类任务中验证提示前缀输入到大语言模型后、大语言模型的每层transformer块输出的中间表征。

20、进一步地，所述特定任务是数学推理任务，所述训练上文、验证上文、测试上文表示数学推理上文；所述训练下文标签、验证下文标签、预测验证下文、预测测试下文表示数学推理上文对应的数学推理下文；所述群体表征h表示表示数学推理任务中验证提示前缀输入到大语言模型后、大语言模型的每层transformer块输出的中间表征。

21、进一步地，所述为每个群体表征h引入一个表征提升模块，来优化群体表征对特定任务的认知能力，具体包括：

22、；

23、其中，是表征提升模块的可训练参数，表示将群体表征从通用语义空间映射到对特定任务的认知能力的子空间的矩阵，也是表征提升模块的可训练参数，上标表示转置。

24、与现有技术相比，本专利技术的有益技术效果是：

25、本专利技术包括基于参数解析技术的群体表征与认知能力关联关系建模，以及轻量级的表征提升模块两部分。首先，在上下文学习中，通过参数解析技术定位与大语言模型特定认知能力相关联的群体表征，使得大语言模型的内部工作机制更加透明的同时，进一步优化和提升大语言模型的特定认知能力奠定了坚实的基础；另外，针对与特定任务的认知能力关联的群体表征，引入的轻量级表征提升模块通过少量微调即可显著优化大语言模型的特定表征，从而提升大语言模型在特定认知任务上的表现。其次，轻量级的表征提升模块在优化群体表征的同时，保持了大语言模型的整体参数结构。这意味着在进行少量微调的情况下，不仅降低了训练开销，而且不会对大语言模型的整体性能和结构产生负面影响，从而维持模型的稳定性和高效性。

本文档来自技高网...

【技术保护点】

1.一种基于参数解析的大语言模型上下文学习提升方法，其特征在于，具体包括：

2.根据权利要求1所述的基于参数解析的大语言模型上下文学习提升方法，其特征在于，所述基于从训练样本中采样得到的任务示例样本和验证上文构建验证提示前缀，将输入大语言模型，得到大语言模型原始的预测结果；对大语言模型进行群体表征划分，通过测评指标观察大语言模型被干扰后在特定任务上的性能下降程度，建立特定任务与群体表征的关联，具体包括：

3.根据权利要求1或2所述的基于参数解析的大语言模型上下文学习提升方法，其特征在于，所述通过测评指标观察大语言模型被干扰后在特定任务上的性能下降程度，具体包括：

4.根据权利要求2所述的基于参数解析的大语言模型上下文学习提升方法，其特征在于，所述将任务示例样本和验证上文通过特定任务的模板组成验证提示前缀，具体包括：

5.根据权利要求2所述的基于参数解析的大语言模型上下文学习提升方法，其特征在于，所述将任务示例样本和测试上文通过特定任务的模板组成测试提示前缀，具体包括：

6.根据权利要求1所述的基于参数解析的大语言模型上下

7.根据权利要求1所述的基于参数解析的大语言模型上下文学习提升方法，其特征在于，所述特定任务是数学推理任务，所述训练上文、验证上文、测试上文表示数学推理上文；所述训练下文标签、验证下文标签、预测验证下文、预测测试下文表示数学推理上文对应的数学推理下文；所述群体表征h表示表示数学推理任务中验证提示前缀输入到大语言模型后、大语言模型的每层Transformer块输出的中间表征。

8.根据权利要求1所述的基于参数解析的大语言模型上下文学习提升方法，其特征在于，所述为每个群体表征h引入一个表征提升模块，来优化群体表征对特定任务的认知能力，具体包括：

...

【技术特征摘要】

1.一种基于参数解析的大语言模型上下文学习提升方法，其特征在于，具体包括：

【专利技术属性】
技术研发人员：李佳豪，毛震东，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人