大规模预训练语言模型微调方法、装置、电子设备及介质制造方法及图纸

技术编号：38579719 阅读：10 留言：0更新日期：2023-08-26 23:25

本申请提供一种大规模预训练语言模型微调方法、装置、电子设备及介质。该方法包括：获取预训练好的大规模语言模型，利用任务指令模板对相应任务的输入数据进行改造，得到用于微调训练的输入文本和输出文本，将输出文本作为输入文本对应的正确答案；将输入文本输入到预训练好的大规模语言模型中进行预测，得到预训练好的大规模语言模型输出的预测结果；基于输入文本对应的预测结果以及正确答案，计算损失函数，利用损失函数对预训练好的大规模语言模型的参数进行更新，直至预训练好的大规模语言模型收敛。本申请极大提升了模型部署的效率，降低模型部署的计算资源和成本，有效提升模型在零样本任务上的性能，提升模型精度。提升模型精度。提升模型精度。

全部详细技术资料下载

【技术实现步骤摘要】
大规模预训练语言模型微调方法、装置、电子设备及介质

[0001]本申请涉及计算机
，尤其涉及一种大规模预训练语言模型微调方法、装置、电子设备及介质。

技术介绍

[0002]近年来，自然语言处理（NLP）领域内，大规模预训练语言模型（如BERT、GPT等）已经取得了显著的成功并成为了热门的研究方向。这些模型采用大量的无标注文本数据进行预训练，之后再使用少量的标注数据进行微调，以便于适应特定的任务。然而，对于零样本任务，比如阅读理解和问答系统等，这些预训练模型的性能仍有待提升。
[0003]零样本任务是指模型需要在没有任何特定任务的标注数据的情况下完成任务。在这种情况下，预训练模型通常需要大量的标注数据进行微调，以便达到良好的性能。然而，在实际应用中，标注数据往往是稀缺的、昂贵的，或者需要耗费大量时间才能收集。因此，开发一种能在零样本任务上表现良好的大规模预训练模型的微调方法，已成为当前研究的重要课题。
[0004]目前，现有技术方案是通过利用迁移学习对预训练模型进行微调。迁移学习的基本理念是利用预训练好的模型学习到的语言表示能力，将这些能力迁移到新的任务上。尽管此方法有效地利用了预训练模型的能力，但仍存在明显的缺点。首先，微调过程需要额外的标注数据，而这些数据的收集、标注过程往往资源消耗巨大。其次，微调后的模型往往只适用于单个或少数特定的任务，难以广泛适应各类任务，这无疑增加了模型的部署和使用成本。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种大规模预训练语言模型微调...

【技术保护点】

【技术特征摘要】
1.一种大规模预训练语言模型微调方法，其特征在于，包括：获取预训练好的大规模语言模型，将所述预训练好的大规模语言模型作为基准模型；利用预设的任务指令模板对相应任务的输入数据进行改造，得到用于对所述预训练好的大规模语言模型进行微调的输入文本和输出文本，将所述输出文本作为所述输入文本对应的正确答案；将所述输入文本输入到所述预训练好的大规模语言模型中进行预测，得到所述预训练好的大规模语言模型输出的预测结果；基于所述输入文本对应的预测结果以及正确答案，计算损失函数，利用所述损失函数对所述预训练好的大规模语言模型的参数进行更新，直至所述预训练好的大规模语言模型收敛。2.根据权利要求1所述的方法，其特征在于，所述利用预设的任务指令模板对相应任务的输入数据进行改造，包括：确定与任务相对应的任务指令模板，从所述任务指令模板中提取所述任务的改造指令，利用所述改造指令对所述任务的输入数据进行改造，得到微调训练数据；其中，所述改造指令用于表征模型预测的任务类型和模型需要完成的任务。3.根据权利要求2所述的方法，其特征在于，所述利用所述改造指令对所述任务的输入数据进行改造，得到微调训练数据，包括：将所述改造指令添加到与所述输入数据相对应的输入序列的头部位置，以便对所述输入数据进行改造，得到所述微调训练数据；其中，所述微调训练数据中包含用于模型微调的输入文本和输出文本。4.根据权利要求2所述的方法，其特征在于，在所述利用所述改造指令对所述任务的输入数据进行改造之前，所述方法还包括：对所述任务指令模板进行优化，以便获得多种表达方式相同，形式不同的任务指令模板；利用验证集对每种所述任务指令模板的效果进行评估，根据所述评估结果，选取每种任务对应的最终任务指令模板，所述最终任务指令模板用于进行所述任务的输入数据的改造。5.根据权利要求3所述的方法，其特征在于，所述基于所述输入文本对应的预测结果以及正确答案，计算损失函数，包括：在对所...

【专利技术属性】
技术研发人员：暴宇健，汪骞，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人