一种语言模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32284645 阅读：17 留言：0更新日期：2022-02-12 19:52

本申请提供了一种语言模型的训练方法、装置、电子设备及存储介质，包括：根据预先设定的自然语言处理任务，获取与所述预先设定的自然语言处理任务相关的初始文本数据；获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板；按照所述文本加载模板加载初始文本数据，得到用于训练语言模型的训练文本样本；其中，所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本；使用所述训练文本样本对初始语言模型进行迭代更新，生成目标语言模型。本申请通过使用有标识信息训练文本和无标识信息训练文本同步进行语言模型的训练，从而可以提高模型精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语言模型的训练方法、装置、电子设备及存储介质

[0001]本申请涉及自然语言处理
，尤其是涉及一种语言模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]预训练语言模型是自然语言处理(Natural Language Processing)的基础研究工作，其在文本分类、语义相似性、实体识别等各种任务场景得到广泛应用。Google在2019年发布开源预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)后，该领域的研究和应用越来越火热。目前应用于各种自然语言任务的模型使用的标准范式是预训练+微调(Pretrain+Finetune)，即先在大量无标注语料上预训练一个语言模型，然后将模型增加一些模块如全连接层，放到任务上的标注数据进行Finetune(微调)。但是这种训练方式会导致预训练阶段模型和下游任务微调阶段模型存在差距，使得最终得到的语言模型的模型精度较低，并且这种训练方式还需要进行大量的人工标注，使得训练成本较高。

技术实现思路

[0003]有鉴于此，本申请的目的在于提供一种语言模型的训练方法、装置、电子设备及存储介质，通过使用有标识信息训练文本和无标识信息训练文本同步进行语言模型的训练，从而可以提高模型精度。
[0004]本申请实施例提供了一种语言模型的训练方法，所述训练方法包括：
[0005]根据预先设定的自然语言处理任务，获取与所述预先设定的自然语言处理任务相关的初始文本...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法，其特征在于，所述训练方法包括：根据预先设定的自然语言处理任务，获取与所述预先设定的自然语言处理任务相关的初始文本数据；获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板；按照所述文本加载模板加载初始文本数据，得到用于训练语言模型的训练文本样本；其中，所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本；使用所述训练文本样本对初始语言模型进行迭代更新，生成目标语言模型。2.根据权利要求1所述的训练方法，其特征在于，当所述预先设定的自然语言处理任务为新闻主题分类任务时，所述训练方法包括：获取初始新闻文本数据；获取所述新闻主题分类任务的文本加载模板；按照所述新闻主题分类任务的文本加载模板加载新闻初始文本数据，得到用于训练新闻主题分类模型的训练文本样本；其中，所述训练文本样本中包括有标识信息训练文本和无标识信息训练文本；使用所述训练文本样本对初始新闻主题分类模型进行迭代更新，生成目标新闻主题分类模型。3.根据权利要求1所述的训练方法，其特征在于，在获取初始文本数据之后，所述训练方法还包括：对所述初始文本数据进行预处理，去除特殊字符、空格、乱码字符以及将初始文本数据裁剪成预定长度，得到预处理后的初始文本数据，所述预处理后的初始文本数据为所述文本加载模板加载的初始文本数据；所述初始文本数据包括有标识信息的文本数据和无标识信息的文本数据。4.根据权利要求3所述的训练方法，其特征在于，在获取与所述预先设定的自然语言处理任务对应的用于加载训练文本样本的文本加载模板之前，所述训练方法还包括：获取用户预先设计好的多个文本加载模板以及每个文本加载模板对应的自然语言处理任务；将获取的每个文本加载模板和对应的自然语言处理任务绑定存储，构建文本加载模板库；所述文本加载模板中包括文本加载位置和文本答案位置。5.根据权利要求4所述的训练方法，其特征在于，所述按照所述文本加载模板加载初始文本数据，得到用于训练语言模型的训练文本样本，包括：将所述有标识信息的文本数据中的文本加载至所述文本加载模板中的文本加载位置处，将所述文本对应的标识信息加载至所述文本加载模板中的文本答案位置处，生成有标识信息训练文本；将所述无标识信息的文本数据作为所述无标识信息训练文本。6.根据权利要求5所述...

【专利技术属性】
技术研发人员：张晗，杜新凯，吕超，谷姗姗，孙垚锋，李文灏，
申请(专利权)人：阳光保险集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人