大规模预训练语言模型微调方法、装置、电子设备及介质制造方法及图纸

技术编号:38579719 阅读:10 留言:0更新日期:2023-08-26 23:25
本申请提供一种大规模预训练语言模型微调方法、装置、电子设备及介质。该方法包括:获取预训练好的大规模语言模型,利用任务指令模板对相应任务的输入数据进行改造,得到用于微调训练的输入文本和输出文本,将输出文本作为输入文本对应的正确答案;将输入文本输入到预训练好的大规模语言模型中进行预测,得到预训练好的大规模语言模型输出的预测结果;基于输入文本对应的预测结果以及正确答案,计算损失函数,利用损失函数对预训练好的大规模语言模型的参数进行更新,直至预训练好的大规模语言模型收敛。本申请极大提升了模型部署的效率,降低模型部署的计算资源和成本,有效提升模型在零样本任务上的性能,提升模型精度。提升模型精度。提升模型精度。

【技术实现步骤摘要】
大规模预训练语言模型微调方法、装置、电子设备及介质


[0001]本申请涉及计算机
,尤其涉及一种大规模预训练语言模型微调方法、装置、电子设备及介质。

技术介绍

[0002]近年来,自然语言处理(NLP)领域内,大规模预训练语言模型(如BERT、GPT等)已经取得了显著的成功并成为了热门的研究方向。这些模型采用大量的无标注文本数据进行预训练,之后再使用少量的标注数据进行微调,以便于适应特定的任务。然而,对于零样本任务,比如阅读理解和问答系统等,这些预训练模型的性能仍有待提升。
[0003]零样本任务是指模型需要在没有任何特定任务的标注数据的情况下完成任务。在这种情况下,预训练模型通常需要大量的标注数据进行微调,以便达到良好的性能。然而,在实际应用中,标注数据往往是稀缺的、昂贵的,或者需要耗费大量时间才能收集。因此,开发一种能在零样本任务上表现良好的大规模预训练模型的微调方法,已成为当前研究的重要课题。
[0004]目前,现有技术方案是通过利用迁移学习对预训练模型进行微调。迁移学习的基本理念是利用预训练好的模型学习到的语言表示能力,将这些能力迁移到新的任务上。尽管此方法有效地利用了预训练模型的能力,但仍存在明显的缺点。首先,微调过程需要额外的标注数据,而这些数据的收集、标注过程往往资源消耗巨大。其次,微调后的模型往往只适用于单个或少数特定的任务,难以广泛适应各类任务,这无疑增加了模型的部署和使用成本。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种大规模预训练语言模型微调方法、装置、电子设备及介质,以解决现有技术存在的标注数据收集昂贵且费时,模型部署效率低,使用成本高,模型精度差的问题。
[0006]本申请实施例的第一方面,提供了一种大规模预训练语言模型微调方法,包括:获取预训练好的大规模语言模型,将预训练好的大规模语言模型作为基准模型;利用预设的任务指令模板对相应任务的输入数据进行改造,得到用于对预训练好的大规模语言模型进行微调的输入文本和输出文本,将输出文本作为输入文本对应的正确答案;将输入文本输入到预训练好的大规模语言模型中进行预测,得到预训练好的大规模语言模型输出的预测结果;基于输入文本对应的预测结果以及正确答案,计算损失函数,利用损失函数对预训练好的大规模语言模型的参数进行更新,直至预训练好的大规模语言模型收敛。
[0007]本申请实施例的第二方面,提供了一种大规模预训练语言模型微调装置,包括:获取模块,被配置为获取预训练好的大规模语言模型,将预训练好的大规模语言模型作为基准模型;改造模块,被配置为利用预设的任务指令模板对相应任务的输入数据进行改造,得到用于对预训练好的大规模语言模型进行微调的输入文本和输出文本,将输出文本作为输
入文本对应的正确答案;预测模块,被配置为将输入文本输入到预训练好的大规模语言模型中进行预测,得到预训练好的大规模语言模型输出的预测结果;更新模块,被配置为基于输入文本对应的预测结果以及正确答案,计算损失函数,利用损失函数对预训练好的大规模语言模型的参数进行更新,直至预训练好的大规模语言模型收敛。
[0008]本申请实施例的第三方面,提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
[0009]本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0010]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:通过获取预训练好的大规模语言模型,将预训练好的大规模语言模型作为基准模型;利用预设的任务指令模板对相应任务的输入数据进行改造,得到用于对预训练好的大规模语言模型进行微调的输入文本和输出文本,将输出文本作为输入文本对应的正确答案;将输入文本输入到预训练好的大规模语言模型中进行预测,得到预训练好的大规模语言模型输出的预测结果;基于输入文本对应的预测结果以及正确答案,计算损失函数,利用损失函数对预训练好的大规模语言模型的参数进行更新,直至预训练好的大规模语言模型收敛。本申请不需要在新任务上额外再标注数据,极大提升了模型部署的效率,并降低模型部署的计算资源和使用成本,能够有效提升模型在零样本任务上的性能,提升模型精度。
附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0012]图1是本申请实施例提供的大规模预训练语言模型微调方法的流程示意图;图2是本申请实施例提供的大规模预训练语言模型微调装置的结构示意图;图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0013]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0014]近年来,大规模预训练语言模型(如BERT、GPT等)已成为自然语言处理领域的热门研究方向,在众多应用中取得了显著的成功。这些模型通常采用大量的无标注文本数据进行预训练,然后再使用少量的标注数据进行微调,以适应特定的任务。
[0015]然而,在零样本任务(如阅读理解、问答系统等)中,这些预训练模型的表现仍然不尽理想,通常需要大量的标注数据来进行微调才能取得较好的性能。而在实际应用中,标注数据往往是稀缺的、昂贵的,或者需要耗费大量时间才能收集。因此,针对零样本任务的大
规模预训练模型微调方法极其重要。
[0016]已有的技术方案是使用迁移学习(transfer learning)的方法进行模型微调。迁移学习是指在预训练好的模型的基础上,将模型微调到新的任务上。这种方法的优点在于可以充分利用预训练好的模型所学到的语言表示能力,但是它仍存在以下一些缺点:需要额外的标注数据进行微调,标注数据的收集和标注往往是稀缺的、昂贵的以及需要耗费大量时间才能收集。微调过程中,如果标注数据的质量不佳,则模型的性能会受到严重影响。
[0017]而且微调后的模型往往只适用于单个或少数特定的任务,无法轻松地将模型应用到其他任务上,因此,单模型不能同时处理多种任务,这就为模型的部署和使用增加了不少使用成本。
[0018]鉴于现有技术中存在的问题,本申请提供一种新的用于零样本任务的大规模预训练语言模型的指令微调方法。本申请希望一个模型可以在训练后在多个任务上都可以胜任工作,这样能极大降低部署模型的成本。本申请的方法不需要在新任务上额外再标注数据,可以有效地提升模型在零样本任务上的性能,同时还能更容易地应用到多种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模预训练语言模型微调方法,其特征在于,包括:获取预训练好的大规模语言模型,将所述预训练好的大规模语言模型作为基准模型;利用预设的任务指令模板对相应任务的输入数据进行改造,得到用于对所述预训练好的大规模语言模型进行微调的输入文本和输出文本,将所述输出文本作为所述输入文本对应的正确答案;将所述输入文本输入到所述预训练好的大规模语言模型中进行预测,得到所述预训练好的大规模语言模型输出的预测结果;基于所述输入文本对应的预测结果以及正确答案,计算损失函数,利用所述损失函数对所述预训练好的大规模语言模型的参数进行更新,直至所述预训练好的大规模语言模型收敛。2.根据权利要求1所述的方法,其特征在于,所述利用预设的任务指令模板对相应任务的输入数据进行改造,包括:确定与任务相对应的任务指令模板,从所述任务指令模板中提取所述任务的改造指令,利用所述改造指令对所述任务的输入数据进行改造,得到微调训练数据;其中,所述改造指令用于表征模型预测的任务类型和模型需要完成的任务。3.根据权利要求2所述的方法,其特征在于,所述利用所述改造指令对所述任务的输入数据进行改造,得到微调训练数据,包括:将所述改造指令添加到与所述输入数据相对应的输入序列的头部位置,以便对所述输入数据进行改造,得到所述微调训练数据;其中,所述微调训练数据中包含用于模型微调的输入文本和输出文本。4.根据权利要求2所述的方法,其特征在于,在所述利用所述改造指令对所述任务的输入数据进行改造之前,所述方法还包括:对所述任务指令模板进行优化,以便获得多种表达方式相同,形式不同的任务指令模板;利用验证集对每种所述任务指令模板的效果进行评估,根据所述评估结果,选取每种任务对应的最终任务指令模板,所述最终任务指令模板用于进行所述任务的输入数据的改造。5.根据权利要求3所述的方法,其特征在于,所述基于所述输入文本对应的预测结果以及正确答案,计算损失函数,包括:在对所...

【专利技术属性】
技术研发人员:暴宇健汪骞
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1