一种语言模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32284645 阅读:17 留言:0更新日期:2022-02-12 19:52
本申请提供了一种语言模型的训练方法、装置、电子设备及存储介质,包括:根据预先设定的自然语言处理任务,获取与所述预先设定的自然语言处理任务相关的初始文本数据;获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板;按照所述文本加载模板加载初始文本数据,得到用于训练语言模型的训练文本样本;其中,所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本;使用所述训练文本样本对初始语言模型进行迭代更新,生成目标语言模型。本申请通过使用有标识信息训练文本和无标识信息训练文本同步进行语言模型的训练,从而可以提高模型精度。度。度。

【技术实现步骤摘要】
一种语言模型的训练方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,尤其是涉及一种语言模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]预训练语言模型是自然语言处理(Natural Language Processing)的基础研究工作,其在文本分类、语义相似性、实体识别等各种任务场景得到广泛应用。Google在2019年发布开源预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)后,该领域的研究和应用越来越火热。目前应用于各种自然语言任务的模型使用的标准范式是预训练+微调(Pretrain+Finetune),即先在大量无标注语料上预训练一个语言模型,然后将模型增加一些模块如全连接层,放到任务上的标注数据进行Finetune(微调)。但是这种训练方式会导致预训练阶段模型和下游任务微调阶段模型存在差距,使得最终得到的语言模型的模型精度较低,并且这种训练方式还需要进行大量的人工标注,使得训练成本较高。

技术实现思路

[0003]有鉴于此,本申请的目的在于提供一种语言模型的训练方法、装置、电子设备及存储介质,通过使用有标识信息训练文本和无标识信息训练文本同步进行语言模型的训练,从而可以提高模型精度。
[0004]本申请实施例提供了一种语言模型的训练方法,所述训练方法包括:
[0005]根据预先设定的自然语言处理任务,获取与所述预先设定的自然语言处理任务相关的初始文本数据;
[0006]获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板;
[0007]按照所述文本加载模板加载初始文本数据,得到用于训练语言模型的训练文本样本;其中,所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本;
[0008]使用所述训练文本样本对初始语言模型进行迭代更新,生成目标语言模型。
[0009]可选的,当所述预先设定的自然语言处理任务为新闻主题分类任务时,所述训练方法包括:
[0010]获取初始新闻文本数据;
[0011]获取所述新闻主题分类任务的文本加载模板;
[0012]按照所述新闻主题分类任务的文本加载模板加载新闻初始文本数据,得到用于训练新闻主题分类模型的训练文本样本;其中,所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本;
[0013]使用所述训练文本样本对初始新闻主题分类模型进行迭代更新,生成目标新闻主题分类模型。
[0014]可选的,在获取初始文本数据之后,所述训练方法还包括:
[0015]对所述初始文本数据进行预处理,去除特殊字符、空格、乱码字符以及将初始文本数据裁剪成预定长度,得到预处理后的初始文本数据,所述预处理后的初始文本数据为所述文本加载模板加载的初始文本数据;所述初始文本数据包括有标识信息的文本数据和无标识信息的文本数据。
[0016]可选的,在获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板之前,所述训练方法还包括:
[0017]获取用户预先设计好的多个文本加载模板以及每个文本加载模板对应的自然语言处理任务;
[0018]将获取的每个文本加载模板和对应的自然语言处理任务绑定存储,构建文本加载模板库;所述文本加载模板中包括文本加载位置和文本答案位置。
[0019]可选的,所述按照所述文本加载模板加载初始文本数据,得到用于训练语言模型的训练文本样本,包括:
[0020]将所述有标识信息的文本数据中的文本加载至所述文本加载模板中的文本加载位置处,将所述文本对应的标识信息加载至所述文本加载模板中的文本答案位置处,生成有标识信息训练文本;
[0021]将所述无标识信息的文本数据作为所述无标识信息训练文本。
[0022]可选的,所述自然语言处理任务包括情感分类任务、新闻主题分类任务、意图识别任务、命名实体识别任务以及语义匹配任务,当待处理的自然语言处理任务为意图识别任务时,在生成目标语言模型之后,所述训练方法还包括:
[0023]获取训练好的意图识别模型、意图识别文本加载模板以及需进行意图识别的待处理文本数据;
[0024]将所述待处理文本数据加载至所述意图识别文本加载模板中,确定出文本答案位置为空的待预测文本数据;
[0025]将所述待预测文本数据输出至所述意图识别模型中,确定所述待预测文本数据中文本答案位置的预测答案,将所述预测答案确定为所述待处理文本数据的意图识别结果。
[0026]本申请实施例还提供了一种语言模型的训练装置,所述训练装置包括:
[0027]第一获取模块,用于根据预先设定的自然语言处理任务,获取与所述预先设定的自然语言处理任务相关的初始文本数据;
[0028]第二获取模块,用于获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板;
[0029]加载模块,用于按照所述文本加载模板加载初始文本数据,得到用于训练语言模型的训练文本样本;其中,所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本;
[0030]生成模块,用于使用所述训练文本样本对初始语言模型进行迭代更新,生成目标语言模型。
[0031]可选的,当所述预先设定的自然语言处理任务为新闻主题分类任务时,所述训练装置用于:
[0032]获取初始新闻文本数据;
[0033]获取所述新闻主题分类任务的文本加载模板;
[0034]按照所述新闻主题分类任务的文本加载模板加载新闻初始文本数据,得到用于训练新闻主题分类模型的训练文本样本;其中,所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本;
[0035]使用所述训练文本样本对初始新闻主题分类模型进行迭代更新,生成目标新闻主题分类语言模型。
[0036]可选的,所述训练装置还包括预处理模块,所述预处理模块用于:
[0037]对所述初始文本数据进行预处理,去除特殊字符、空格、乱码字符以及将初始文本数据裁剪成预定长度,得到预处理后的初始文本数据,所述预处理后的初始文本数据为所述文本加载模板加载的初始文本数据;所述初始文本数据包括有标识信息的文本数据和无标识信息的文本数据。
[0038]可选的,所述训练装置还包括模板库构建模块,所述模板库构建模块用于:
[0039]获取用户预先设计好的多个文本加载模板以及每个文本加载模板对应的自然语言处理任务;
[0040]将获取的每个文本加载模板和对应的自然语言处理任务绑定存储,构建文本加载模板库;所述文本加载模板中包括文本加载位置和文本答案位置。
[0041]可选的,所述加载模块在用于按照所述文本加载模板加载初始文本数据,得到用于训练语言模型的训练文本样本时,所述加载模块用于:
[0042]将所述有标识信息的文本数据中的文本加载至所述文本加载模板中的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法,其特征在于,所述训练方法包括:根据预先设定的自然语言处理任务,获取与所述预先设定的自然语言处理任务相关的初始文本数据;获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板;按照所述文本加载模板加载初始文本数据,得到用于训练语言模型的训练文本样本;其中,所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本;使用所述训练文本样本对初始语言模型进行迭代更新,生成目标语言模型。2.根据权利要求1所述的训练方法,其特征在于,当所述预先设定的自然语言处理任务为新闻主题分类任务时,所述训练方法包括:获取初始新闻文本数据;获取所述新闻主题分类任务的文本加载模板;按照所述新闻主题分类任务的文本加载模板加载新闻初始文本数据,得到用于训练新闻主题分类模型的训练文本样本;其中,所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本;使用所述训练文本样本对初始新闻主题分类模型进行迭代更新,生成目标新闻主题分类模型。3.根据权利要求1所述的训练方法,其特征在于,在获取初始文本数据之后,所述训练方法还包括:对所述初始文本数据进行预处理,去除特殊字符、空格、乱码字符以及将初始文本数据裁剪成预定长度,得到预处理后的初始文本数据,所述预处理后的初始文本数据为所述文本加载模板加载的初始文本数据;所述初始文本数据包括有标识信息的文本数据和无标识信息的文本数据。4.根据权利要求3所述的训练方法,其特征在于,在获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板之前,所述训练方法还包括:获取用户预先设计好的多个文本加载模板以及每个文本加载模板对应的自然语言处理任务;将获取的每个文本加载模板和对应的自然语言处理任务绑定存储,构建文本加载模板库;所述文本加载模板中包括文本加载位置和文本答案位置。5.根据权利要求4所述的训练方法,其特征在于,所述按照所述文本加载模板加载初始文本数据,得到用于训练语言模型的训练文本样本,包括:将所述有标识信息的文本数据中的文本加载至所述文本加载模板中的文本加载位置处,将所述文本对应的标识信息加载至所述文本加载模板中的文本答案位置处,生成有标识信息训练文本;将所述无标识信息的文本数据作为所述无标识信息训练文本。6.根据权利要求5所述...

【专利技术属性】
技术研发人员:张晗杜新凯吕超谷姗姗孙垚锋李文灏
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1