模型的训练方法、文本处理方法及装置制造方法及图纸

技术编号:37819132 阅读:15 留言:0更新日期:2023-06-09 09:51
本申请公开了一种模型的训练方法、文本处理方法及装置,模型的训练方法包括预训练语言模型的训练方法和文本处理模型的训练方法。预训练语言模型的训练方法包括:基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语;至少基于多个待掩码词语确定第一样本文本对应的多个备选词语;对多个待掩码词语进行掩码处理得到掩码文本;通过预训练语言模型,基于掩码文本以及多个备选词语,得到每个待掩码词语所在位置对应的预测词语;基于每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语,调整预训练语言模型的模型参数。本申请有利于提高预训练语言模型的训练效果。型的训练效果。型的训练效果。

【技术实现步骤摘要】
模型的训练方法、文本处理方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种模型的训练方法、文本处理方法及装置。

技术介绍

[0002]在自然语言处理(Natural Language Processing,NLP)领域,预训练语言模型取得了优异的效果。通过在一个原始任务上预先训练一个语言模型,保存语言模型的参数,然后在文本处理等目标任务上使用该预训练语言模型,针对该目标任务的特性,对该预训练语言模型进行精调,可以达到提高目标任务精度的目的。
[0003]为了减少对有标签样本数据的依赖以及提供预训练语言模型的通用性,目前主流的预训练语言模型的训练方式,主要采用自监督学习方式,通过随机删除样本文本中的词语来构造辅助任务训练集,然后通过预训练语言模型识别预测被删除的词语,从而对预训练语言模型进行训练,提升预训练语言模型对于语序特征的提取能力。
[0004]但是,在上述方式中,被删除的词语的预测空间为整个词表,在被删除的词语数量较多的情况下,计算复杂度会大大提高,并且,随机删除词语的方式使得预训练语言模型无法判断哪些词语会更有利于预训练语言模型的训练,进而使得预训练语言模型容易忽略对一部分词频范围的词语的理解和学习,同时也降低了对预训练语言模型的训练难度,从而导致预训练语言模型无法得到充分训练,模型训练效果不佳。

技术实现思路

[0005]本申请实施例的目的是提供一种模型的训练方法、文本处理方法及装置,模型的训练方法包括预训练语言模型的训练方法和文本处理模型的训练方法,有利于提高预训练语言模型的训练效果,且降低训练过程中的计算复杂度。
[0006]为了实现上述目的,本申请实施例采用下述技术方案:
[0007]第一方面,本申请实施例提供一种预训练语言模型的训练方法,包括:
[0008]基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;
[0009]对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;
[0010]至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;
[0011]通过预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;
[0012]基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。
[0013]本申请实施例提供的预训练语言模型的训练方法,基于第一样本文本包含的词语在第一样本文本所属第一样本集中的词频,确定第一样本文本中的多个待掩码词语,不仅可以避免仅一定词频范围(比如高频)被掩码而导致预训练语言模型忽略对其他词频范围的词语的理解和学习,还可以增加对预训练语言模型的训练难度,从而使预训练语言模型得到充分训练,有利于提高预训练语言模型的训练效果;其次,至少基于第一样本文本中的多个待掩码词语确定多个备选词语,这些备选词语用于指示掩码处理后的每个待掩码词语所在位置对应的词语,以供预训练语言模型预测每个待掩码词语所在位置对应的词语,并在对第一样本文本中的多个待掩码词语进行掩码处理之后,利用得到的掩码文本及多个备选词语共同对预训练语言模型进行训练,使得待这些待掩码词语的预测空间从整个词表转换为多个备选词语,可以降低训练过程中的计算复杂度。
[0014]第二方面,本申请实施例提供一种文本处理模型的训练方法,包括:
[0015]获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第二样本文本在目标文本处理任务下对应的期望处理结果;
[0016]通过文本处理模型中的预训练语言模型对所述第二样本集中的每个第二样本文本进行编码,得到所述每个第二样本文本对应的表示向量,所述预训练语言模型为基于第一方面所述的预训练语言模型的训练方法训练得到的;
[0017]通过所述文本处理模型中的任务处理模型,基于所述第二样本集中每个第二样本文本对应的表示向量执行所述目标文本处理任务,得到所述每个第二样本文本对应的文本处理结果;
[0018]基于所述第二样本集中每个第二样本文本对应的文本处理结果及任务标签,调整所述文本处理模型的模型参数。
[0019]本申请实施例提供的文本处理模型的训练方法,在文本处理模型中增设通过上述预训练语言模型的训练方法训练得到的预训练语言模型,由于训练得到的预训练语言模型对于语序特征具有较强的提取能力,进而利用预训练语言模型对第二样本集中的第二样本文本进行编码,得到的表示向量可以准确表达出第二样本文本的语义;进一步,将预训练语言模型输出的表示向量用于文本处理模型中位于下游的任务处理模型执行目标文本处理任务,并基于得到的文本处理结果及第二样本文本的任务标签,调整文本处理模型的模型参数,使得预训练语言模型可以很好地适配任务处理模型,有利于提高文本处理模型的训练效果,从而有利于提高下游文本处理任务的处理准确率。
[0020]第三方面,本申请实施例提供一种文本处理方法,包括:
[0021]获取待处理文本;
[0022]通过文本处理模型,对所述待处理文本执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;
[0023]其中,所述文本处理模型包括预训练语言模型和任务处理模型,所述预训练语言模型用于对所述待处理文本进行编码,得到所述待处理文本对应的表示向量;所述任务处理模型用于基于所述待处理文本对应的表示向量执行目标文本处理任务,得到所述待处理文本对应的文本处理结果;所述文本处理模型为基于第二样本集及所述第二样本集中每个第二样本文本携带的任务标签进行训练得到,所述第二样本文本携带的任务标签用于表示
所述第二样本文本在所述目标文本处理任务下对应的期望处理结果,所述预训练语言模型为在对所述文本处理模型进行训练之前,基于第一方面所述的预训练语言模型的训练方法进行训练得到。
[0024]本申请实施例提供的文本处理方法,由于上述文本处理模型的训练方法训练得到的模型具有较好的文本处理效果,利用该文本处理模型对待处理文本进行处理,有利于提高对待处理文本的处理准确率。
[0025]第四方面,本申请实施例提供一种预训练语言模型的训练装置,包括:确定单元,用于基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;掩码单元,用于对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;所述确定单元,还用于至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的训练方法,其特征在于,包括:基于第一样本文本包含的词语在所述第一样本文本所属第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,所述第一样本集包括多个第一样本文本;对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本;至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,所述多个备选词语用于指示掩码处理后的多个待掩码词语中每个待掩码词语所在位置对应的词语;通过所述预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息;基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数。2.根据权利要求1所述的方法,其特征在于,所述基于第一样本文本包含的词语在所述第一样本文本所属的第一样本集中的词频,确定所述第一样本文本中的多个待掩码词语,包括:将所述第一样本文本划分为多个子文本;对所述多个子文本进行分组,得到第一子文本组和第二子文本组;从所述第一子文本组包含的子文本中随机选取至少一个词语,确定为所述第一样本文本中的待掩码词语;从所述第二子文本组包含的子文本中选取词频满足预设词频条件的词语,确定为所述第一样本文本中的待掩码词语。3.根据权利要求2所述的方法,其特征在于,所述将所述第一样本文本划分为多个子文本,包括:若所述第一样本文本中标点符号的数量大于或等于预设数量阈值,则基于所述标点符号,将所述第一样本文本划分为多个子文本;若所述第一样本文本中标点符号的数量小于所述预设数量阈值,则基于所述第一样本文本的长度,将所述第一样本文本划分为多个子文本。4.根据权利要求1所述的方法,其特征在于,所述第一样本文本对应的多个备选词语至少包括所述第一样本文本中每个待掩码词语对应的第一备选词语;所述通过所述预训练语言模型,基于所述第一样本文本对应的掩码文本及多个备选词语,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息,包括:基于所述第一样本文本中每个待掩码词语所在位置,确定所述每个待掩码词语的目标排列顺序,所述第一样本文本中至少一个待掩码词语的目标排列顺序与其在所述第一样本文本中的排列顺序不同;基于所述第一样本文本中每个待掩码词语的目标排列顺序,对所述第一样本文本对应的掩码文本以及所述第一样本文本对应的多个备选词语进行拼接,得到所述第一样本文本对应的目标文本;将所述第一样本文本对应的目标文本输入所述预训练语言模型,得到所述第一样本文本中每个待掩码词语所在位置对应的预测词语信息。
5.根据权利要求4所述的方法,其特征在于,所述至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,包括:分别调整所述第一样本文本中每个待掩码词语的字符顺序,得到所述每个待掩码词语对应的第一备选词语。6.根据权利要求5所述的方法,其特征在于,所述第一样本文本对应的多个备选词语还包括所述第一样本文本对应的至少一个第二备选词语;所述至少基于所述第一样本文本中的多个待掩码词语,确定所述第一样本文本对应的多个备选词语,还包括:基于所述第一样本集中每个第一样本文本包含的词语,确定所述第一样本集对应的词语集;从所述词语集中选取至少一个满足预设筛选条件的词语,所述预设筛选条件包括:所述第二备选词语与所述第一样本文本中的每个待掩码词语均不相同;基于所述满足预设筛选条件的词语,确定所述第一样本文本对应的第二备选词语。7.根据权利要求4所述的方法,其特征在于,所述每个待掩码词语所在位置对应的预测词语信息包括所述多个备选词语中与所述每个待掩码词语所在位置对应的目标备选词语及所述目标备选词语的预测字符顺序;所述基于所述第一样本集中每个第一样本文本包含的多个待掩码词语及每个待掩码词语所在位置对应的预测词语信息,调整所述预训练语言模型的模型参数,包括:基于所述第一样本集中每个第一样本文本包含的每个待掩码词语的目标排列顺序以及每个待掩码词语各自所在位置对应的目标备选词语,确定所述预训练语言模型的位置预测损失;基于所述第一样本集中每个第一样本文本包含的多个待掩码词语各自的字符顺序以及每个待掩码词语各自所在位置对应的目标备选词语的预测字符顺序,确定所述预训练语言模型的字符预测损失;基于所述字符预测损失和所述位置预测损失,确定所述预训练语言模型的模型损失;基于所述预训练语言模型的模型损失,调整所述预训练语言模型的模型参数。8.根据权利要求1~7中任一项所述的方法,其特征在于,所述对所述第一样本文本中的多个待掩码词语进行掩码处理,得到所述第一样本文本对应的掩码文本,包括:将所述第一样本文本中的多个待掩码词语分别替换为预设掩码字符,得到所述第一样本文本对应的掩码文本。9.一种文本处理模型的训练方法,其特征在于,包括:获取第二样本集,其中,所述第二样本集包括多个第二样本文本,每个第二样本文本携带有任务标签,所述第二样本文本携带的任务标签用于表示所述第...

【专利技术属性】
技术研发人员:吕乐宾蒋宁肖冰李宽丁隆耀
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1