文本分类模型的训练方法、装置及文本分类方法制造方法及图纸

技术编号:33836744 阅读:30 留言:0更新日期:2022-06-16 11:54
本申请公开了一种文本分类模型的训练方法、装置及文本分类方法,训练方法包括:构建分类任务的候选空间,并建立所述候选空间与所述分类任务的实际类别之间的映射关系;将有标注训练数据转化为掩蔽语言文本,其中,所述掩蔽语言文本中被掩蔽token属于预设的候选空间;将所述掩蔽语言文本输入至MLM模型中进行预测,得到所述掩蔽语言文本的被掩蔽token;根据所述映射关系,将预测得到的被掩蔽token映射到实际类别中,得到所述待预测文本的分类结果;并根据所述分类结果,对所述MLM模型进行参数调整,以得到文本分类模型。本申请显著提高了预测准确性,且计算量小、适用场景、领域广泛、实用性极强。实用性极强。实用性极强。

【技术实现步骤摘要】
文本分类模型的训练方法、装置及文本分类方法


[0001]本申请涉及人工智能
,具体涉及一种文本分类模型的训练方法、装置及文本分类方法。

技术介绍

[0002]文本分类问题是自然语言处理(NLP)领域非常重要和常见的一种任务形式,分类问题最常用的方法也是监督分类方法,该方法需要大量的有标注的训练数据对模型进行训练,才能使得分类结果较为理想。
[0003]随着BERT等模型的横空出世,越来越多人开始使用大规模预训练模型加上fine

tune的模式进行分类,但直接使用BERT模型的分类结果不够理想,如果想得到较好的分类结果仍需要一大部分语料进行模型训练。
[0004]后来GPT3模型出现了,GPT3模型凭借其超大规模参数可以对分类任务有较好的效果,但是该模型参数规模太大,很难再工业界落地应用。

技术实现思路

[0005]针对上述问题,本申请实施例提供了一种文本分类模型的训练方法、装置及文本分类方法,将文本分类问题巧妙的转化为“完形填空”的形式,基于现有的MLM,即可达到理想的文本分类效果,以克服或部分克服现有技术的不足之处。
[0006]第一方面,本申请实施例提供了一种文本分类模型的训练方法,包括:
[0007]构建分类任务的候选空间,并建立所述候选空间与所述分类任务的实际类别之间的映射关系;
[0008]将有标注训练数据转化为掩蔽语言文本,其中,所述掩蔽语言文本中被掩蔽token属于预设的候选空间;
[0009]将所述掩蔽语言文本输入至MLM模型中进行预测,得到所述掩蔽语言文本的被掩蔽token;
[0010]根据所述映射关系,将预测得到的被掩蔽token映射到实际类别中,得到所述待预测文本的分类结果;并根据所述分类结果,对所述MLM模型进行参数调整,以得到文本分类模型。
[0011]第二方面,本申请实施例还提供了一种文本分类模型的训练装置,所述装置包括:
[0012]构建单元,用于构建分类任务的候选空间,并建立所述候选空间与所述分类任务的实际类别之间的映射关系;
[0013]转化单元,用于将有标注训练数据转化为掩蔽语言文本,其中,所述掩蔽语言文本中被掩蔽token属于预设的候选空间;
[0014]Token预测单元,用于将所述掩蔽语言文本输入至MLM模型中进行预测,得到所述掩蔽语言文本的被掩蔽token;
[0015]映射及更新单元,用于根据所述映射关系,将预测得到的被掩蔽token映射到实际
类别中,得到所述待预测文本的分类结果;并根据所述分类结果,对所述MLM模型进行参数调整,以得到文本分类模型。
[0016]第三方面,本申请实施例还提供了一种文本分类方法,所述方法是采用上述任一所述的文本模型的训练方法得到的文本分类模型实现的。
[0017]第四方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
[0018]第五方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
[0019]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0020]本申请对本申请基于现有的MLM模型,采用有标注数据对通过模型进行再次训练,再次训练时,首先根据分类任务构建候选空间,并建立候选空间与实际类别之间的映射关系,通过对待预测文本进行改造,将分类任务的文本改造为“完形填空”的形式,要求“填空”中的内容需属于构建的候选空间,采用MLM模型对改造后的对待预测文本进行预测,得到“填空”中的内容,然后将“填空”中的内容映射到实际的类别中,从而实现了文本分类任务,通过对MLM模型的参数进行调整,得到了文本分类模型。本申请中能够在仅具有少量的有标注的样本的情况下,使项目快速落地上线,并得到效果理想的文本分类模型,相对于现有技术中,直接在原有的MLM模型的基础上,采用微调方式得到的分类模型,本申请显著提高了预测准确性,且计算量小、适用场景、领域广泛、实用性极强。
附图说明
[0021]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1示出了根据本申请的一个实施例的文本分类模型的训练方法的流程示意图;
[0023]图2示出了根据本申请的一个实施例的候选空间和实际类别的关系的示意图;
[0024]图3示出了根据本申请的一个实施例的文本识别模型的训练装置的结构示意图;
[0025]图4为本申请实施例中一种电子设备的结构示意图。
具体实施方式
[0026]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0028]文本分类是是自然语言处理(NLP)领域非常重要和常见的一种任务形式,应用场景非常广泛,如可用于商品评价进行统计等,通过对用户的评价进行二分类或者多分类,就可以统计出用户对该商品的态度。
[0029]传统的分类问题最常用的方法也是监督学习方法,即采用大量的带有标注的数据
对模型进行训练,得到的预测模型才能使得分类结果较为理想。
[0030]随着BERT模型的横空出世,越来越多人开始使用大规模预训练模型加上fine

tune(微调)的模式进行分类,即在BERT模型的最后加上一个任务相关的输出层,然后基于少量的数据,对修改后的BERT模型进行微调,以得到适合目标任务的BERT模型。这种方式仍然存在很多不足之处,第一,直接使用BERT模型作分类任务,其分类结果不够理想,仍然需要一些语料进行模型微调,但有时带有标注的数据是非常匮乏的,甚至在训练初期,还会出现没有语料的情况,这就造成了项目无法快速上线的难题。
[0031]在BERT模型之后,又出现了GPT3模型,虽然GPT3模型凭借其超大规模参数可以对分类有较好的效果,但是模型太大,很难再工业界落地应用。
[0032]针对上述问题,本申请提供了一种文本分类模型的训练方法,本申请的构思在于,基于现有的MLM模型(英文全称Masked Language Model,中文全称掩码语言模型,可以理解为采用掩码语言训练任务经过训练得到的机器学习模型),以及根据分类任务构建候选空间,通过对有标注的待预测文本进行改造,将分类任务的文本改造为“完形填空”的形式,要求“填空”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,包括:构建分类任务的候选空间,并建立所述候选空间与所述分类任务的实际类别之间的映射关系;将有标注训练数据转化为掩蔽语言文本,其中,所述掩蔽语言文本中被掩蔽token属于预设的候选空间;将所述掩蔽语言文本输入至MLM模型中进行预测,得到所述掩蔽语言文本的被掩蔽token;根据所述映射关系,将预测得到的被掩蔽token映射到实际类别中,得到所述待预测文本的分类结果;并根据所述分类结果,对所述MLM模型进行参数调整,以得到文本分类模型。2.根据权利要求1所述的方法,其特征在于,在所述构建所述分类任务的候选空间,并建立所述候选空间与所述分类任务的实际类别之间的映射关系的步骤之前,还包括:基于无标注的领域训练数据,对MLM模型进行文本分类任务训练,得到更新后的MLM模型;基于有标注的领域训练数据,对所述更新后的MLM模型进行文本分类任务训练。3.根据权利要求1所述的方法,其特征在于,所述构建分类任务的候选空间包括:确定所述分类任务的实际类别的数量;根据所述数量,以及所述分类任务的应用场景,确定所述候选空间的多个子集;将所述多个子集,按照预设排序规则进行排序,得到所述候选空间。4.根据权利要求1所述的方法,其特征在于,所述建立所述候选空间与实际类别之间的映射关系包括:根据所述候选空间中各子集的语义特征,建立所述候选空间中各子集与各实际类别之间的一一对应关系,将所述对应关系作为所述映射关系。5.根据权利要求1所述的方法,其特征在于,在本申请的一些实施例中,在上述方法中,所述将有标注训练数据转化为掩蔽语言文本...

【专利技术属性】
技术研发人员:莫琪
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1