语言模型训练方法、装置、设备、存储介质以及产品制造方法及图纸

技术编号：43577870 阅读：28 留言：0更新日期：2024-12-06 17:44

本申请公开了一种语言模型训练方法、装置、设备、存储介质以及计算机程序产品，涉及自然语言处理领域，方法包括：获取原始问题数据；将所述原始问题数据输入所述大语言模型，得到所述原始问题数据对应的相似问题数据；对所述相似问题数据进行正反例数据增强，以构建偏好数据集；基于所述偏好数据集优化所述大语言模型，获得训练完成的大语言模型。如此，在获得由大语言模型输出的相似问题数据的基础上，基于所述相似问题数据构建包含相似问题数据的正反例的偏好数据集，从而优化大语言模型，使得模型能够生成与已有问题相似程度低的问题，增加大语言模型生成问题的多样性和创造性，提高问题生成系统中大语言模型生成的问题的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理领域，尤其涉及一种语言模型训练方法、装置、设备、存储介质以及产品。

技术介绍

1、在自然语言处理和人工智能领域，问题生成技术是一个关键的研究方向，问题生成的主要任务是基于给定的文本或数据生成具有实用价值和教育意义的问题。

2、目前业界的问题生成技术中，由于问题生成系统的大语言模型在训练过程中过度依赖于特定的数据集，以及在对大语言模型进行微调时缺少对生成内容多样性的明确优化指标，即使是高性能的模型也倾向于生成与已有问题高度相似的问题。综上所述，相关技术中的问题生成系统生成的问题往往缺乏多样性和创新性，导致问题质量不高。

3、因此，如何提高问题生成系统中大语言模型生成的问题的质量是目前亟待解决的一个问题。

4、上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本申请的主要目的在于提供一种语言模型训练方法、装置、设备、存储介质以及计算机程序产品，旨在解决如何提高问题生成系统中大语言模型生成的问题的质量的技术问题。

2、为实现上述目的，本申请提出一种语言模型训练方法，应用于问题生成系统，所述问题生成系统部署有待训练的大语言模型，所述的方法包括：

3、获取原始问题数据；

4、将所述原始问题数据输入所述大语言模型，得到所述原始问题数据对应的相似问题数据；

5、对所述相似问题数据进行正反例数据增强，以构建偏好数据集；

6、基于所述偏好数据

7、可选地，所述对所述相似问题数据进行正反例数据增强，以构建偏好数据集的步骤包括：

8、对所述相似问题数据进行相似度评估，得到所述相似问题数据各自对应的相似度的评估结果；

9、基于各所述评估结果，将所述相似问题数据中相似度高于预设评估阈值的相似问题数据确定为非可用相似问题数据，并将所述相似问题数据中相似度低于或等于预设评估阈值的相似问题数据确定为可用相似问题数据；

10、对所述非可用相似问题数据和所述可用相似问题数据进行正反例数据增强，得到所述非可用相似问题数据对应的第一正例数据和第一负例数据，以及所述可用相似问题数据对应的第二正例数据和第二负例数据；

11、基于所述第一正例数据、所述第一负例数据、所述第二正例数据以及所述第二负例数据，构建所述偏好数据集。

12、可选地，所述对所述非可用相似问题数据和所述可用相似问题数据进行正反例数据增强，得到所述非可用相似问题数据对应的第一正例数据和第一负例数据，以及所述可用相似问题数据对应的第二正例数据和第二负例数据的步骤包括：

13、将所述非可用相似问题数据确定为所述第一负例数据，并对所述第一负例数据中相似度高于预设筛选阈值的问题进行删除，得到所述第一正例数据；

14、将所述可用相似问题数据确定为所述第二正例数据，并对所述第二正例数据进行问题复制，得到所述第二负例数据。

15、可选地，所述基于所述偏好数据集优化所述大语言模型，获得训练完成的大语言模型的步骤包括：

16、基于所述大语言模型，确定出训练模型和对比模型；

17、将所述偏好数据集输入到所述训练模型和所述对比模型，分别得到所述训练模型输出的第一模型输出评分和所述对比模型输出的第二模型输出评分；

18、基于所述第一模型输出评分和所述第二模型输出评分，计算模型输出损失，以基于所述模型输出损失更新所述训练模型的模型参数；

19、返回执行所述将所述偏好数据集输入到所述训练模型和所述对比模型，分别得到所述训练模型输出的第一模型输出评分和所述对比模型输出的第二模型输出评分的步骤，直到满足预设训练结束条件后，获得训练完成的大语言模型。

20、可选地，所述将所述偏好数据集输入到所述训练模型和所述对比模型，分别得到所述训练模型输出的第一模型输出评分和所述对比模型输出的第二模型评分的步骤包括：

21、将所述偏好数据集输入到所述训练模型和所述对比模型，分别得到所述训练模型输出的第一概率和第二概率以及所述对比模型输出的第三概率以及第四概率，其中，所述第一概率为训练模型输出的问题数据为正例数据的概率，所述第二概率为训练模型输出的问题数据为负例数据的概率，所述第三概率为对比模型输出的问题数据为正例数据的概率，所述第四概率为对比模型输出的问题数据为负例数据的概率；

22、计算所述第一概率与所述第二概率的比值，得到所述第一模型输出评分，并计算所述第三概率与所述第四概率的比值，得到所述第二模型输出评分。

23、可选地，所述基于各所述评估结果，将所述相似问题数据中相似度高于预设评估阈值的相似问题数据确定为非可用相似问题数据，并将所述相似问题数据中相似度低于或等于预设评估阈值的相似问题数据确定为可用相似问题数据的步骤之后包括：

24、基于所述可用相似问题数据进行向量形式转换，得到嵌入向量集合；

25、获取用户输入的目标问题数据，并基于所述目标问题数据进行向量形式转换，得到第一嵌入向量；

26、通过数据库检索方法，从所述嵌入向量集合中确定出与所述第一嵌入向量之间的匹配程度最高的第二嵌入向量；

27、基于所述第二嵌入向量生成所述目标问题数据对应的目标答案数据。

28、此外，为实现上述目的，本申请还提出一种语言模型训练装置，所述语言模型训练装置包括：

29、数据获取模块，用于获取原始问题数据；

30、相似问题输出模块，用于将所述原始问题数据输入所述大语言模型，得到所述原始问题数据对应的相似问题数据；

31、偏好数据集构造模块，用于对所述相似问题数据进行正反例数据增强，以构建偏好数据集；

32、模型训练模块，用于基于所述偏好数据集优化所述大语言模型，获得训练完成的大语言模型。

33、此外，为实现上述目的，本申请还提出一种语言模型训练设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如上文所述的语言模型训练方法的步骤。

34、此外，为实现上述目的，本申请还提出一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的语言模型训练方法的步骤。

35、此外，为实现上述目的，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上文所述的语言模型训练方法的步骤。

36、本申请提出的一个或多个技术方案，至少具有以下技术效果：

37、通过在问题生成系统部署大语言模型，对大语言模型进行训练，实现大语言模型生成问题的质量的提高；其中，通过问题生成系统获取原始问题数据，并将所述原始问题数据输入所述大语言模型，得到本文档来自技高网...

【技术保护点】

1.一种语言模型训练方法，其特征在于，应用于问题生成系统，所述问题生成系统部署有待训练的大语言模型，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对所述相似问题数据进行正反例数据增强，以构建偏好数据集的步骤包括：

3.如权利要求2所述的方法，其特征在于，所述对所述非可用相似问题数据和所述可用相似问题数据进行正反例数据增强，得到所述非可用相似问题数据对应的第一正例数据和第一负例数据，以及所述可用相似问题数据对应的第二正例数据和第二负例数据的步骤包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述偏好数据集优化所述大语言模型，获得训练完成的大语言模型步骤包括：

5.如权利要求4所述的方法，其特征在于，所述将所述偏好数据集输入到所述训练模型和所述对比模型，分别得到所述训练模型输出的第一模型输出评分和所述对比模型输出的第二模型评分的步骤包括：

6.如权利要求2所述的方法，其特征在于，所述基于各所述评估结果，将所述相似问题数据中相似度高于预设评估阈值的相似问题数据确定为非可用相似问题数据，并将所述相似问题数据

7.一种语言模型训练装置，其特征在于，所述装置包括：

8.一种语言模型训练设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如权利要求1至6中任一项所述的语言模型训练方法的步骤。

9.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语言模型训练方法的步骤。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语言模型训练方法的步骤。

...

【技术特征摘要】

1.一种语言模型训练方法，其特征在于，应用于问题生成系统，所述问题生成系统部署有待训练的大语言模型，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对所述相似问题数据进行正反例数据增强，以构建偏好数据集的步骤包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述偏好数据集优化所述大语言模型，获得训练完成的大语言模型步骤包括：

6.如权利要求2所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：魏文斌，范涛，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人