模型的训练方法、文本处理方法及装置制造方法及图纸

技术编号：37819132 阅读：26 留言：0更新日期：2023-06-09 09:51

本申请公开了一种模型的训练方法、文本处理方法及装置，模型的训练方法包括预训练语言模型的训练方法和文本处理模型的训练方法。预训练语言模型的训练方法包括：基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频，确定第一样本文本中的多个待掩码词语；至少基于多个待掩码词语确定第一样本文本对应的多个备选词语；对多个待掩码词语进行掩码处理得到掩码文本；通过预训练语言模型，基于掩码文本以及多个备选词语，得到每个待掩码词语所在位置对应的预测词语；基于每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语，调整预训练语言模型的模型参数。本申请有利于提高预训练语言模型的训练效果。型的训练效果。型的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
模型的训练方法、文本处理方法及装置

[0001]本申请涉及人工智能
，尤其涉及一种模型的训练方法、文本处理方法及装置。

技术介绍

[0002]在自然语言处理(Natural Language Processing，NLP)领域，预训练语言模型取得了优异的效果。通过在一个原始任务上预先训练一个语言模型，保存语言模型的参数，然后在文本处理等目标任务上使用该预训练语言模型，针对该目标任务的特性，对该预训练语言模型进行精调，可以达到提高目标任务精度的目的。
[0003]为了减少对有标签样本数据的依赖以及提供预训练语言模型的通用性，目前主流的预训练语言模型的训练方式，主要采用自监督学习方式，通过随机删除样本文本中的词语来构造辅助任务训练集，然后通过预训练语言模型识别预测被删除的词语，从而对预训练语言模型进行训练，提升预训练语言模型对于语序特征的提取能力。
[0004]但是，在上述方式中，被删除的词语的预测空间为整个词表，在被删除的词语数量较多的情况下，计算复杂度会大大提高，并且，随机删除词语的方式使得预训练语言模型无法判断哪些词语会更有利于预训练语言模型的训练，进而使得预训练语言模型容易忽略对一部分词频范围的词语的理解和学习，同时也降低了对预训练语言模型的训练难度，从而导致预训练语言模型无法得到充分训练，模型训练效果不佳。

技术实现思路

[0005]本申请实施例的目的是提供一种模型的训练方法、文本处理方法及装置，模型的训练方法包括预训练语言模型的训练方法和文本处理模型的训练方法，有利于提高...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的训练方法，其特征在于，包括：基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频，确定所述第一样本文本中的多个待掩码词语，所述第一样本集包括多个第一样本文本；对所述第一样本文本中的多个待掩码词语进行掩码处理，得到所述第一样本文本对应的掩码文本；至少基于所述第一样本文本中的多个待掩码词语，确定所述第一样本文本对应的多个备选词语，所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语；通过所述预训练语言模型，基于所述第一样本文本对应的掩码文本及多个备选词语，得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息；基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息，调整所述预训练语言模型的模型参数。2.根据权利要求1所述的方法，其特征在于，所述基于第一样本文本包含的词语在所述第一样本文本所属的第一样本集中的词频，确定所述第一样本文本中的多个待掩码词语，包括：将所述第一样本文本划分为多个子文本；对所述多个子文本进行分组，得到第一子文本组和第二子文本组；从所述第一子文本组包含的子文本中随机选取至少一个词语，确定为所述第一样本文本中的待掩码词语；从所述第二子文本组包含的子文本中选取词频满足预设词频条件的词语，确定为所述第一样本文本中的待掩码词语。3.根据权利要求2所述的方法，其特征在于，所述将所述第一样本文本划分为多个子文本，包括：若所述第一样本文本中标点符号的数量大于或等于预设数量阈值，则基于所述标点符号，将所述第一样本文本划分为多个子文本；若所述第一样本文本中标点符号的数量小于所述预设数量阈值，则基于所述第一样本文本的长度，将所述第一样本文本划分为多个子文本。4.根据权利要求1所述的方法，其特征在于，所述第一样本文本对应的多个备选词语至少包括所述第一样本文本中每个待掩码词语对应的第一备选词语；所述通过所述预训练语言模型，基于所述第一样本文本对应的掩码文本及多个备选词语，得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息，包括：基于所述第一样本文本中每个待掩码词语所在位置，确定所述每个待掩码词语的目标排列顺序，所述第一样本文本中至少一个待掩码词语的目标排列顺序与其在所述第一样本文本中的排列顺序不同；基于所述第一样本文本中每个待掩码词语的目标排列顺序，对所述第一样本文本对应的掩码文本以及所述第一样本文本对应的多个备选词语进行拼接，得到所述第一样本文本对应的目标文本；将所述第一样本文本对应的目标文本输入所述预训练语言模型，得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息。
5.根据权利要求4所述的方法，其特征在于，所述至少基于所述第一样本文本中的多个待掩码词语，确定所述第一样本文本对应的多个备选词语，包括：分别调整所述第一样本文本中每个待掩码词语的字符顺序，得到所述每个待掩码词语对应的第一备选词语。6.根据权利要求5所述的方法，其特征在于，所述第一样本文本对应的多个备选词语还包括所述第一样本文本对应的至少一个第二备选词语；所述至少基于所述第一样本文本中的多个待掩码词语，确定所述第一样本文本对应的多个备选词语，还包括：基于所述第一样本集中每个第一样本文本包含的词语，确定所述第一样本集对应的词语集；从所述词语集中选取至少一个满足预设筛选条件的词语，所述预设筛选条件包括：所述第二备选词语与所述第一样本文本中的每个待掩码词语均不相同；基于所述满足预设筛选条件的词语，确定所述第一样本文本对应的第二备选词语。7.根据权利要求4所述的方法，其特征在于，所述每个待掩码词语所在位置对应的预测词语信息包括所述多个备选词语中与所述每个待掩码词语所在位置对应的目标备选词语及所述目标备选词语的预测字符顺序；所述基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息，调整所述预训练语言模型的模型参数，包括：基于所述第一样本集中每个第一样本文本包含的每个待掩码词语的目标排列顺序以及每个待掩码词语各自所在位置对应的目标备选词语，确定所述预训练语言模型的位置预测损失；基于所述第一样本集中每个第一样本文本包含的多个待掩码词语各自的字符顺序以及每个待掩码词语各自所在位置对应的目标备选词语的预测字符顺序，确定所述预训练语言模型的字符预测损失；基于所述字符预测损失和所述位置预测损失，确定所述预训练语言模型的模型损失；基于所述预训练语言模型的模型损失，调整所述预训练语言模型的模型参数。8.根据权利要求1～7中任一项所述的方法，其特征在于，所述对所述第一样本文本中的多个待掩码词语进行掩码处理，得到所述第一样本文本对应的掩码文本，包括：将所述第一样本文本中的多个待掩码词语分别替换为预设掩码字符，得到所述第一样本文本对应的掩码文本。9.一种文本处理模型的训练方法，其特征在于，包括：获取第二样本集，其中，所述第二样本集包括多个第二样本文本，每个第二样本文本携带有任务标签，所述第二样本文本携带的任务标签用于表示所述第...

【专利技术属性】
技术研发人员：吕乐宾，蒋宁，肖冰，李宽，丁隆耀，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人