一种判别式语言模型的模型调整方法及装置制造方法及图纸

技术编号:34999863 阅读:8 留言:0更新日期:2022-09-21 14:49
本发明专利技术提供一种判别式语言模型的模型调整方法及装置,所述方法包括以下步骤:获取预训练的判别式语言模型和下游任务的训练数据集;响应于任务请求,根据所述任务请求的类型和所述训练数据集,对所述预训练的语言模型进行调整;其中,所述判别式语言模型是通过文本样本训练得到的。通过对判别式语言模型在不同的下游任务阶段进行模型参数的调整,消除判别式语言模型在模型预训练阶段与下游任务之间的差别,提高模型的整体效果。提高模型的整体效果。提高模型的整体效果。

【技术实现步骤摘要】
一种判别式语言模型的模型调整方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种判别式语言模型的模型调整方法及装置。

技术介绍

[0002]文本分类(Text Classification)和问答(Question Answering)是自然语言处理领域的重要任务,在日常生活中有着极为广泛的运用,比如文本分类可用于对新闻类型分类、判断评论的感情色彩、判断文本是否合乎语法等,问答则可用于知识问答机器人等。对于这两种任务,现有的工作中效果最好的,是大规模预训练语言模型(PLM)。
[0003]预训练语言模型,是指将模型分为两个阶段:预训练和模型微调。预训练在大规模语料库上进行,在这一阶段中模型学习通用文本的表示方法,也即知识的“共性”;模型微调在下游任务数据集上进行,在这一阶段中模型需要快速适应任务。模型微调是指给定预训练模型(Pre

trained model),基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scratch),微调省去大量计算资源和计算时间。将预训练与模型微调分开,可以在使模型具备强大的知识潜力的前提下,极大的节省训练成本。预训练阶段通常由Google、Facebook等公司和机构完成并开放下载,因此,模型微调阶段的效果直接影响模型的优劣。
[0004]当前限制预训练语言模型的关键,在于预训练任务和下游任务在形式上的差别,如何消除这一差别,是提高模型微调效果的重点和难点所在。
专利技术内容
[0005]本专利技术提供一种判别式语言模型的模型微调方法及装置,用以解决现有技术中判别式语言模型在预训练任务阶段与下游任务阶段之间存在形式上的差别的缺陷,实现消除判别式语言模型在预训练阶段与下游任务阶段之间的差别,提高模型微调的效果。
[0006]本专利技术提供一种判别式语言模型的模型调整方法,所述方法包括:
[0007]获取预训练的判别式语言模型和下游任务的训练数据集;
[0008]响应于任务请求,根据所述任务请求的类型和所述训练数据集,对所述预训练的语言模型进行调整;
[0009]其中,所述判别式语言模型是通过文本样本训练得到的。
[0010]根据本专利技术提供的一种判别式语言模型的模型调整方法,基于Prompt

Tuning范式对所述预训练的语言模型进行调整。
[0011]根据本专利技术提供的一种判别式语言模型的模型调整方法,响应于任务请求,根据所述任务请求的类型和所述训练数据集,对所述预训练的语言模型进行调整,具体包括:
[0012]获取所述训练数据集中的输入文本;
[0013]若所述任务请求的类型是文本分类任务,则:
[0014]将所述输入文本编码为包括若干令牌的令牌组,在所述若干令牌后插入类别令
牌;
[0015]提取所述类别令牌对应的向量,将所述向量与相同长度的共享向量做内积处理,以得到所述向量对应的概率值;
[0016]基于所述概率值对所述预训练的语言模型进行调整。
[0017]根据本专利技术提供的一种判别式语言模型的模型调整方法,将所述向量与相同长度的共享向量做内积处理,之后还包括:
[0018]将得到的内积处理结果通过Sigmoid函数进行激活,以得到所述向量对应的概率值。
[0019]根据本专利技术提供的一种判别式语言模型的模型调整方法,所述基于所述概率值对所述预训练的语言模型进行调整,具体包括:
[0020]设定所述概率值为p,则将1

p作为真实概率值;
[0021]根据所述真实概率值计算模型损失;
[0022]基于所述模型损失,对所述预训练的语言模型进行微调。
[0023]根据本专利技术提供的一种判别式语言模型的模型调整方法,响应于任务请求,根据所述任务请求的类型和所述训练数据集,对所述预训练的语言模型进行调整,具体包括:
[0024]获取所述预训练的判别式语言模型在预训练阶段的模型判别头;
[0025]若所述任务请求的类型是问答任务,则:
[0026]基于所述训练数据集和所述模型判别头,对所述预训练的语言模型进行调整。
[0027]根据本专利技术提供的一种判别式语言模型的模型调整方法,
[0028]所述判别式语言模型的预训练过程包括:
[0029]获取所述文本样本和初始判别式语言模型,将所述文本样本的每个字母编码为对应的令牌;所述初始判别式语言模型包括生成器和判别器;
[0030]通过所述生成器生成替换令牌对所述文本样本对应的若干令牌进行替换;
[0031]通过所述判别器对替换过的所述文本样本对应的令牌进行判别,得到判别结果;
[0032]将替换过的所述文本样本对应的令牌和所述判别结果输入所述初始判别式语言模型进行训练,以得到预训练的所述判别式语言模型。
[0033]本专利技术还提供一种判别式语言模型的模型调整装置,所述装置包括:获取模块,用于获取预训练的判别式语言模型和下游任务的训练数据集;
[0034]调整模块,用于响应于任务请求,根据所述任务请求的类型和所述训练数据集,对所述预训练的语言模型进行调整;
[0035]其中,所述判别式语言模型是通过文本样本训练得到的。
[0036]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述判别式语言模型的模型调整方法。
[0037]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述判别式语言模型的模型调整方法。
[0038]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述判别式语言模型的模型调整方法。
[0039]本专利技术提供的一种判别式语言模型的模型调整方法及装置,通过对判别式语言模
型在不同的下游任务阶段进行模型参数的调整,消除判别式语言模型在模型预训练阶段与下游任务之间的差别,提高模型的整体效果。当下游任务是文本分类任务或问答任务时,本专利技术通过在下游任务阶段对判别式语言模型进行模型的调整,提高了模型在进行文本分类或问答任务时的准确率。
附图说明
[0040]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1是本专利技术提供的一种判别式语言模型的模型调整方法的流程示意图;
[0042]图2是本专利技术提供的判别式语言模型框架的示意图;
[0043]图3是本专利技术提供的用于判别式语言模型预训练阶段的示意图;
[0044]图4本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种判别式语言模型的模型调整方法,其特征在于,所述方法包括:获取预训练的判别式语言模型和下游任务的训练数据集;响应于任务请求,根据所述任务请求的类型和所述训练数据集,对所述预训练的语言模型进行调整;其中,所述判别式语言模型是通过文本样本训练得到的。2.根据权利要求1所述的判别式语言模型的模型调整方法,其特征在于,基于Prompt

Tuning范式对所述预训练的语言模型进行调整。3.根据权利要求2所述的判别式语言模型的模型调整方法,其特征在于,响应于任务请求,根据所述任务请求的类型和所述训练数据集,对所述预训练的语言模型进行调整,具体包括:获取所述训练数据集中的输入文本;若所述任务请求的类型是文本分类任务,则:将所述输入文本编码为包括若干令牌的令牌组,在所述若干令牌后插入类别令牌;提取所述类别令牌对应的向量,将所述向量与相同长度的共享向量做内积处理,以得到所述向量对应的概率值;基于所述概率值对所述预训练的语言模型进行调整。4.根据权利要求3所述的判别式语言模型的模型调整方法,其特征在于,将所述向量与相同长度的共享向量做内积处理,之后还包括:将得到的内积处理结果通过Sigmoid函数进行激活,以得到所述向量对应的概率值。5.根据权利要求4所述的判别式语言模型的模型调整方法,其特征在于,所述基于所述概率值对所述预训练的语言模型进行调整,具体包括:设定所述概率值为p,则将1

p作为真实概率值;根据所述真实概率值计算模型损失;基于所述模型损失,对所述预训练的语言模型进行微调。6.根据权利要求2所述的判别式语言模型的模型调整方法,其特征在于,响应于任务请求,根据所述任务请求的类型和所述训练数据集,对...

【专利技术属性】
技术研发人员:刘知远孙茂松王建勇姚远董博文张正彦谢若冰林乐宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1