对话模型训练、对话、学科领域的对话方法及装置制造方法及图纸

技术编号：41983647 阅读：22 留言：0更新日期：2024-07-12 12:13

本说明书实施例提供对话模型训练、对话、学科领域的对话方法及装置，其中所述对话模型训练方法包括：获取初始对话模型和多个领域对话任务的任务数据，其中，初始对话模型为基于预训练数据预训练获得的，任一领域对话任务具有任务属性；基于多个领域对话任务的任务属性，确定多个领域对话任务的交集任务属性；基于交集任务属性，从预训练数据中确定目标预训练数据；基于目标预训练数据和任务数据，对初始对话模型进行领域训练，获得目标对话模型。实现了目标对话模型在各领域对话任务之间的知识共享，消除领域偏差，增强目标对话模型的泛化能力，同时，无需领域专家的先验知识，且未对模型结构进行改造，提升了训练通用性，降低了训练成本。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例涉及深度学习，特别涉及一种对话模型训练、对话、学科领域的对话方法及装置。

技术介绍

1、随着深度学习技术的发展，通过对预训练的对话模型进行领域训练(领域微调，supervised fine-tune，简称sft)，在目标领域上取得了优异的性能。

2、目前，为了让对话模型同时适应多个不同领域对话任务(例如，数学问题求解，语言翻译，对话生成和文本批改等，需要针对多个领域对话任务)的任务需求，避免丧失泛化能力，采用诸如共享损失函数、模型结构改造和设计辅助任务等多任务训练方法，对对话模型进行多任务的领域训练，实现各领域对话任务之间的知识共享，消除领域偏差，增强对话模型的泛化能力。

3、然而，上述对多任务的领域训练方法，要么严重依赖于领域专家的先验知识，要么面对愈发复杂的模型结构存在兼容性考量，存在训练通用性不足和训练成本较高的问题。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种对话模型训练方法。本说明书一个或者多个实施例同时涉及一种对话方法，一种学科领域的对话方法，一种对话模型训练装置，一种对话装置，一种学科领域的对话装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种对话模型训练方法，包括：

3、获取初始对话模型和多个领域对话任务的任务数据，其中，初始对话模型为基于预训练数据预训练获得的，任一领域对话任务具有任务属性；

<...

【技术保护点】

1.一种对话模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预训练数据包括预训练语言数据和预训练对话数据；

3.根据权利要求2所述的方法，其特征在于，所述预训练语言数据为目标语言下的自然语言数据；

4.根据权利要求2所述的方法，其特征在于，对所述初始语言模型进行预训练采用第一学习率，对所述目标语言模型进行预训练采用第二学习率，所述领域训练采用第三学习率，所述第一学习率高于所述第二学习率，所述第二学习率高于所述第三学习率。

5.根据权利要求4所述的方法，其特征在于，所述第三学习率基于所述领域训练的迭代次数递减。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述预训练数据对应多个数据来源；

7.根据权利要求6所述的方法，其特征在于，所述预训练数据包括多个不同数据来源的数据集；

8.一种对话方法，其特征在于，包括：

9.一种学科领域的对话方法，其特征在于，应用于学科平台，包括：

10.一种对话模型训练装置，其特征在于，包括：

12.一种学科领域的对话装置，其特征在于，应用于学科平台，包括：

13.一种计算设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，其存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1至9任意一项所述方法的步骤。

15.一种计算机程序产品，其特征在于，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1至9任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种对话模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预训练数据包括预训练语言数据和预训练对话数据；

3.根据权利要求2所述的方法，其特征在于，所述预训练语言数据为目标语言下的自然语言数据；

5.根据权利要求4所述的方法，其特征在于，所述第三学习率基于所述领域训练的迭代次数递减。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述预训练数据对应多个数据来源；

7.根据权利要求6所述的方...

【专利技术属性】
技术研发人员：王乐，王伟泽，李文雅，柳景明，
申请(专利权)人：北京猿力未来科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人