一种判别式语言模型的模型调整方法及装置制造方法及图纸

技术编号：34999863 阅读：8 留言：0更新日期：2022-09-21 14:49

本发明专利技术提供一种判别式语言模型的模型调整方法及装置，所述方法包括以下步骤：获取预训练的判别式语言模型和下游任务的训练数据集；响应于任务请求，根据所述任务请求的类型和所述训练数据集，对所述预训练的语言模型进行调整；其中，所述判别式语言模型是通过文本样本训练得到的。通过对判别式语言模型在不同的下游任务阶段进行模型参数的调整，消除判别式语言模型在模型预训练阶段与下游任务之间的差别，提高模型的整体效果。提高模型的整体效果。提高模型的整体效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种判别式语言模型的模型调整方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种判别式语言模型的模型调整方法及装置。

技术介绍

[0002]文本分类(Text Classification)和问答(Question Answering)是自然语言处理领域的重要任务，在日常生活中有着极为广泛的运用，比如文本分类可用于对新闻类型分类、判断评论的感情色彩、判断文本是否合乎语法等，问答则可用于知识问答机器人等。对于这两种任务，现有的工作中效果最好的，是大规模预训练语言模型(PLM)。
[0003]预训练语言模型，是指将模型分为两个阶段：预训练和模型微调。预训练在大规模语料库上进行，在这一阶段中模型学习通用文本的表示方法，也即知识的“共性”；模型微调在下游任务数据集上进行，在这一阶段中模型需要快速适应任务。模型微调是指给定预训练模型(Pre
‑
trained model)，基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scratch)，微调省去大量计算资源和计算时间。将预训练与模型微调分开，可以在使模型具备强大的知识潜力的前提下，极大的节省训练成本。预训练阶段通常由Google、Facebook等公司和机构完成并开放下载，因此，模型微调阶段的效果直接影响模型的优劣。
[0004]当前限制预训练语言模型的关键，在于预训练任务和下游任务在形式上的差别，如何消除这一差别，是提高模型微调效果的重点和难点所在。
专利技...

【技术保护点】

【技术特征摘要】
1.一种判别式语言模型的模型调整方法，其特征在于，所述方法包括：获取预训练的判别式语言模型和下游任务的训练数据集；响应于任务请求，根据所述任务请求的类型和所述训练数据集，对所述预训练的语言模型进行调整；其中，所述判别式语言模型是通过文本样本训练得到的。2.根据权利要求1所述的判别式语言模型的模型调整方法，其特征在于，基于Prompt
‑
Tuning范式对所述预训练的语言模型进行调整。3.根据权利要求2所述的判别式语言模型的模型调整方法，其特征在于，响应于任务请求，根据所述任务请求的类型和所述训练数据集，对所述预训练的语言模型进行调整，具体包括：获取所述训练数据集中的输入文本；若所述任务请求的类型是文本分类任务，则：将所述输入文本编码为包括若干令牌的令牌组，在所述若干令牌后插入类别令牌；提取所述类别令牌对应的向量，将所述向量与相同长度的共享向量做内积处理，以得到所述向量对应的概率值；基于所述概率值对所述预训练的语言模型进行调整。4.根据权利要求3所述的判别式语言模型的模型调整方法，其特征在于，将所述向量与相同长度的共享向量做内积处理，之后还包括：将得到的内积处理结果通过Sigmoid函数进行激活，以得到所述向量对应的概率值。5.根据权利要求4所述的判别式语言模型的模型调整方法，其特征在于，所述基于所述概率值对所述预训练的语言模型进行调整，具体包括：设定所述概率值为p，则将1
‑
p作为真实概率值；根据所述真实概率值计算模型损失；基于所述模型损失，对所述预训练的语言模型进行微调。6.根据权利要求2所述的判别式语言模型的模型调整方法，其特征在于，响应于任务请求，根据所述任务请求的类型和所述训练数据集，对...

【专利技术属性】
技术研发人员：刘知远，孙茂松，王建勇，姚远，董博文，张正彦，谢若冰，林乐宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人