语言模型的预训练方法、语言文本的处理方法及装置制造方法及图纸

技术编号：33083671 阅读：28 留言：0更新日期：2022-04-15 10:42

本申请公开了一种语言模型的预训练方法、语言文本的处理方法及装置，涉及自然语言处理领域。该方法在对初始模型进行预训练的过程中，能够通过知识探针对预训练后的初始模型的准确度进行检测，并能够在检测到准确度收敛时停止预训练，得到语言模型。由此，可以避免语言模型在预训练的过程中出现过拟合或者欠拟合的现象，确保预训练得到的语言模型的性能较好。并且，通过知识探针对初始模型进行检测，可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况，进而能准确地确定预训练的较佳停止点。预训练的较佳停止点。预训练的较佳停止点。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型的预训练方法、语言文本的处理方法及装置

[0001]本申请实施例涉及自然语言处理(Natural Language Processing，NLP)领域，特别涉及一种语言模型的预训练方法、装置及存储介质。

技术介绍

[0002]在自然语言处理过程中，可以采用大量无标注的语言文本对初始模型进行预训练(Pre
‑
training)从而得到与具体任务无关的语言模型。之后，可以基于具体任务(例如阅读理解或实体识别等)对该语言模型进行微调(Fine
‑
tuning)，以得到用于执行具体任务的目标语言模型。
[0003]但是，在对初始模型进行预训练的过程中，容易出现过拟合或者欠拟合的现象，导致语言模型的预训练效果较差。

技术实现思路

[0004]本申请实施例提供了一种语言模型的预训练方法、语言文本的处理方法及装置，能够有效提高语言模型的预训练效果。所述技术方案如下。
[0005]一方面，提供了一种语言模型的预训练方法，所述方法包括：
[0006]采用训练样本集合对初始模型进行预训练；
[0007]在对所述初始模型进行预训练的过程中，采用知识探针对预训练后的所述初始模型进行检测，得到所述初始模型的准确度；
[0008]若所述准确度未收敛，则继续采用所述训练样本集合对所述初始模型进行预训练；
[0009]若所述准确度收敛，则停止采用所述训练样本集合对所述初始模型进行预训练，得到预训练后的语言模型。
[0010]另一方面，...

【技术保护点】

【技术特征摘要】
1.一种语言模型的预训练方法，其特征在于，所述方法包括：采用训练样本集合对初始模型进行预训练；在对所述初始模型进行预训练的过程中，采用知识探针对预训练后的所述初始模型进行检测，得到所述初始模型的准确度；若所述准确度未收敛，则继续采用所述训练样本集合对所述初始模型进行预训练；若所述准确度收敛，则停止采用所述训练样本集合对所述初始模型进行预训练，得到预训练后的语言模型。2.根据权利要求1所述的方法，其特征在于，所述训练样本集合包括多个训练样本；所述知识探针包括多个探测样本，每个所述探测样本包括基于一个所述训练样本得到的输入文本和输出文本；所述采用知识探针对预训练后的所述初始模型进行检测，得到所述初始模型的准确度，包括：将每个所述探测样本中的输入文本输入至预训练后的所述初始模型，得到所述初始模型输出的预测文本；基于所述多个探测样本中目标探测样本的占比，确定所述初始模型的准确度，其中，所述目标探测样本为输出文本与所述初始模型输出的预测文本相匹配的探测样本。3.根据权利要求2所述的方法，其特征在于，若所述准确度未收敛，则继续采用所述训练样本集合对所述初始模型进行预训练，包括：若所述准确度未收敛，则将所述训练样本集合中已被所述初始模型学习到的目标训练样本删除，所述目标探测样本基于所述目标训练样本得到；采用删除目标训练样本后的所述训练样本集合对所述初始模型进行预训练。4.根据权利要求2所述的方法，其特征在于，所述知识探针包括的探测样本的数量小于所述训练样本集合中的训练样本的数量。5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：若连续确定出的N个所述准确度的增幅均小于阈值，则确定所述准确度收敛，所述N为大于1的整数。6.根据权利要求1至4任一所述的方法，其特征在于，所述在对所述初始模型进行预训练的过程中，采用知识探针对预训练后的所述初始模型进行检测，包括：在每采用所述训练样本集合对初始模型进行一次或多次预训练后，采用知识探针对预训练后的所述初始模型进行检测。7.根据权利要求1至4任...

【专利技术属性】
技术研发人员：侯逸帆，杨奕凡，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人