基于大语言模型的微调语料质量提升方法、装置及设备制造方法及图纸

技术编号：43140196 阅读：23 留言：0更新日期：2024-10-29 17:43

本发明专利技术提出了一种基于大语言模型的微调语料质量提升方法、装置及设备，该微调语料质量提升方法包括:采用对齐后的大语言模型和质量评估提示词模板对微调语料进行质量评估；确定低质量微调语料；采用对齐后的大语言模型和质量提升提示词模板对低质量微调语料进行质量提升；迭代质量评估和质量提升过程得到优化后、经质量评估为更高质量的微调语料。本申请能够在保证微调语料高质量、高相关性的基础上，大幅提高数据准备的效率，通过调整数据生成策略，大语言模型能自动化地评估微调语料的问答匹配度和回复文本流畅度，并进行质量提升，从而增强大语言模型的微调对齐效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种基于大语言模型的微调语料质量提升方法、装置及设备。

技术介绍

1、在当前的大语言模型应用中，虽然具备了强大的语言理解和生成能力，但要让模型在特定任务上达到最佳性能，需要经过微调来对齐其各种能力才能适应下游各种场景和任务。

2、微调是通过在微调训练语料(特定领域的数据集)上对预训练模型进行再训练，使模型能够学习到该领域的特定语言模式和知识，从而提升其在特定任务上的表现。然而，微调的效果高度依赖于所使用的微调语料库的质量与相关性。

3、专利技术人所知的微调语料构建技术中，人工编辑虽然能保证数据的高准确性，但耗时耗力，难以规模化。网络爬取虽能快速获取大量数据，但往往伴随噪声大、领域偏离等问题，影响模型微调的效果。此外，使用大模型自动生成数据虽在一定程度上降低了成本同时提高了效率，但生成的内容缺乏多样性，且通常与真实应用场景存在偏差，同样限制了微调效果的提升，微调效果不佳。

技术实现思路

1、本申请提供一种基于大语言模型的微调语料质量提升方法、装置及设备，解决了微调语料的质量及相关性不足导致的大语言模型微调效果受限问题。

2、为达到上述目的，本申请采用如下技术方案：

3、第一方面，提供一种基于大语言模型的微调语料质量提升方法，包括：

4、质量评估：采用对齐后的大语言模型和质量评估提示词模板对微调语料进行质量评估；确定低质量微调语料；

5、质量提升：采用所述对齐后的大语言模型和质量提升

6、迭代所述质量评估和所述质量提升过程得到优化后、经质量评估为更高质量的微调语料。

7、在第一方面的第一种可能的实现方式中，所述质量评估步骤包括：

8、问答匹配度评估：从所述微调语料中选取指令及其对应的回复，通过所述质量评估提示词模板构造正向输入对和逆向输入对，并输入到所述对齐后的大语言模型，基于损失计算所述指令及其对应的回复之间的匹配度评分；

9、回复文本流畅度评估：将所述微调语料中的回复文本输入所述对齐后的大语言模型，基于困惑度计算所述回复文本的流畅度评分；

10、低质量回复文本过滤：根据所述匹配度评分和所述流畅度评分及设定阈值将所述微调语料分类为低质量语料和高质量语料。

11、基于第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述质量评估提示词模板包括问答顺序拼接提示词模板和问答逆序拼接提示词模板；

12、所述问答匹配度评估步骤具体包括：

13、将所述指令和回复通过所述问答顺序拼接提示词模板构造正向输入对，通过所述问答逆序拼接提示词模板构造逆向输入对；

14、将所述正向输入对和所述逆向输入对输入给所述对齐后的大语言模型，计算损失；所述损失包括：指令重构损失、回复重构损失、用指令推理回复的自回归损失和用回复推理指令的自回归损失；

15、基于所述损失计算所述指令及其对应的回复的匹配度评分；其中，所述匹配度评分通过如下公式计算：

16、

17、式中，表示回复文本的生成概率受指令影响程度；表示指令的生成概率受回复影响程度。

18、基于第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述回复文本流畅度评估步骤具体包括：

19、将回复文本输入到所述对齐后的大语言模型计算困惑度，所述困惑度通过如下公式计算：

20、

21、式中，f＝<w1…wn-1,wn>表示回复文本，wi表示其第i个分词；

22、根据所述困惑度，计算得到所述回复文本的流畅度评分；所述流畅度评分通过如下公式计算：

23、

24、基于第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述低质量回复文本过滤步骤具体包括：

25、基于所述匹配度评分和所述流畅度评分低于所述设定阈值的回复及其对应指令构造低质量语料库；

26、基于所述匹配度评分和所述流畅度评分不低于所述设定阈值的回复及其指令构造高质量语料库。

27、在第一方面的第五种可能的实现方式中，所述质量提升步骤包括：

28、回复文本质量提升：将低质量微调语料的指令和回复填入质量提升提示词模板，并输入到所述对齐后的大语言模型，获取优化后的回复文本；

29、其中，所述质量提升提示词模板包括：

30、安全提示，用于明确模型评分功能，避免产生有害输出；

31、回复文本优化，调整语言的准确性和表达的自然流畅性。

32、基于第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述回复文本质量提升步骤具体包括：

33、对于低质量语料库，将指令和回复填入到所述质量提升提示词模板，得到新指令；

34、将所述新指令输入到所述对齐后的大语言模型，配置所述大语言模型超参数为采样，生成得到优化后的回复；

35、对所述优化后的回复进行预处理，得到规范回复；

36、基于所述规范回复以及对应的指令，迭代问答匹配度评估、回复文本流畅度评估和低质量回复文本过滤步骤，直至低质量语料转化为高质量语料。

37、基于第一方面的上述任一种可能的实现方式，在第一方面的第七种可能的实现方式中，所在进行回复文本质量提升步骤之前，对当前语料状态进行判断，若满足停止条件则不再对所述语料进行所述回复文本质量提升步骤。

38、第二方面，提供一种基于大语言模型的微调语料质量提升装置，包括：

39、质量评估模块，用于采用对齐后的大语言模型和质量评估提示词模板对微调语料进行质量评估；确定低质量微调语料；

40、质量提升模块，用于采用所述对齐后的大语言模型和质量提升提示词模板对低质量微调语料进行质量提升；

41、迭代模块，用于迭代所述质量评估和所述质量提升过程得到优化后、经质量评估为更高质量的微调语料。

42、第三方面，提供一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述基于大语言模型的微调语料质量提升方法的步骤。

43、本申请能够结合先进的自然语言处理算法与设计合理的提示词模板，能够在保证微调语料高质量、高相关性的基础上，大幅提高数据准备的效率。通过调整数据生成策略，能自动化地评估微调语料的问答匹配度和回复文本流畅度，并进行质量提升，由于数据质量对训练效果影响较大，通过提高微调语料的质量，从而增强大语言模型的微调对齐效果。

本文档来自技高网...

【技术保护点】

1.基于大语言模型的微调语料质量提升方法，其特征在于，包括：

2.根据权利要求1所述的基于大语言模型的微调语料质量提升方法，其特征在于，

3.根据权利要求2所述的基于大语言模型的微调语料质量提升方法，其特征在于，

4.根据权利要求2所述的基于大语言模型的微调语料质量提升方法，其特征在于，

5.根据权利要求2所述的基于大语言模型的微调语料质量提升方法，其特征在于，

6.根据权利要求1所述的基于大语言模型的微调语料质量提升方法，其特征在于，

7.根据权利要求6所述的基于大语言模型的微调语料质量提升方法，其特征在于，

8.根据权利要求1-7任一项所述的基于大语言模型的微调语料质量提升方法，其特征在于，

9.基于大语言模型的微调语料质量提升装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述基于大语言模型的微调语料质量提升方法的步骤。

...

【技术特征摘要】

1.基于大语言模型的微调语料质量提升方法，其特征在于，包括：

2.根据权利要求1所述的基于大语言模型的微调语料质量提升方法，其特征在于，

3.根据权利要求2所述的基于大语言模型的微调语料质量提升方法，其特征在于，

4.根据权利要求2所述的基于大语言模型的微调语料质量提升方法，其特征在于，

5.根据权利要求2所述的基于大语言模型的微调语料质量提升方法，其特征在于，

6.根据权利要求1所述的基于大语言模型的微调语料质量提升方法，其特征在于，<...

【专利技术属性】
技术研发人员：付彬，位琬续，华家祺，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人