文本分类模型的训练及文本分类方法、装置、设备和介质制造方法及图纸

技术编号:34145773 阅读:10 留言:0更新日期:2022-07-14 18:54
本公开提供了一种文本分类模型的训练及文本分类方法、装置、设备和介质,涉及深度学习和自然语言处理等领域。具体实现方案为:对获取的多个样本文本进行聚类,得到至少一个目标聚簇;根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签;采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本的预测标签;根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。由于聚类可捕捉到样本文本中显著的语义特征,通过对多个样本文本进行聚类的方式,来生成各样本文本对应的簇标签,并基于簇标签对文本分类模型进行预训练,可以使得文本分类模型在真实训练之前,有效学习到样本文本中显著的语义信息,提升模型表现和性能。升模型表现和性能。升模型表现和性能。

Training of text classification model and text classification methods, devices, equipment and media

【技术实现步骤摘要】
文本分类模型的训练及文本分类方法、装置、设备和介质


[0001]本公开涉及人工智能领域,具体涉及深度学习和自然语言处理等
,尤其涉及文本分类模型的训练及文本分类方法、装置、设备和介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。其中,文本分类是自然语言处理工作的一项基础性工作,文本分类利用文字这个信息载体将文本进行整理和归类,被广泛应用在不同领域,比如数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域。
[0003]为了实现文本的自动分类,在已有的样本文本上构建文本分类模型(又可以称为文本分类器)时,需要对文本分类模型进行训练,从而基于训练好的文本分类模型对待分类文本进行分类。
[0004]为了提升模型的预测效果,如何对文本分类模型进行训练是非常重要的。

技术实现思路

[0005]本公开提供了一种文本分类模型的训练及文本分类方法、装置、设备和介质。
[0006]根据本公开的一方面,提供了一种文本分类模型的训练方法,包括:
[0007]获取多个样本文本,并对所述多个样本文本进行聚类,以得到至少一个目标聚簇;
[0008]根据各所述样本文本所属的目标聚簇,生成各所述样本文本对应的簇标签,其中,所述簇标签用于指示所述样本文本所属的聚簇类别;
[0009]采用文本分类模型对各所述样本文本进行第一类别预测,得到各所述样本文本对应的预测标签;
[0010]根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。
[0011]根据本公开的另一方面,提供了一种文本分类方法,包括:
[0012]获取待分类文本;
[0013]采用经过本公开上述一方面提出的文本分类模型的训练方法所训练的文本分类模型对所述待分类文本进行分类,得到所述待分类文本的分类标签。
[0014]根据本公开的又一方面,提供了一种文本分类模型的训练装置,包括:
[0015]获取模块,用于获取多个样本文本;
[0016]聚类模块,用于对所述多个样本文本进行聚类,以得到至少一个目标聚簇;
[0017]生成模块,用于根据各所述样本文本所属的目标聚簇,生成各所述样本文本对应的簇标签,其中,所述簇标签用于指示所述样本文本所属的聚簇类别;
[0018]第一预测模块,用于采用文本分类模型对各所述样本文本进行第一类别预测,得到各所述样本文本对应的预测标签;
[0019]第二训练模块,用于根据各所述样本文本对应的预测标签和簇标签对所述文本分
类模型进行第一训练。
[0020]根据本公开的再一方面,提供了一种文本分类装置,包括:
[0021]获取模块,用于获取待分类文本;
[0022]分类模块,用于采用经过本公开上述又一方面提出的文本分类模型的训练装置所训练的文本分类模型对所述待分类文本进行分类,得到所述待分类文本的分类标签。
[0023]根据本公开的又一方面,提供了一种电子设备,包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的文本分类模型的训练方法,或者,执行本公开上述另一方面提出的文本分类方法。
[0027]根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的文本分类模型的训练方法,或者,执行本公开上述另一方面提出的文本分类方法。
[0028]根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的文本分类模型的训练方法,或者,实现本公开上述另一方面提出的文本分类方法。
[0029]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0031]图1为文本分类模型所包括的训练阶段示意图;
[0032]图2为本公开实施例一所提供的文本分类模型的训练方法的流程示意图;
[0033]图3为本公开实施例二所提供的文本分类模型的训练方法的流程示意图;
[0034]图4为本公开实施例三所提供的文本分类模型的训练方法的流程示意图;
[0035]图5为本公开实施例四所提供的文本分类模型的训练方法的流程示意图;
[0036]图6为本公开所提供的采用聚类阶段和微调finetune阶段对文本分类模型进行训练的流程示意图;
[0037]图7为本公开实施例五所提供的文本分类模型的训练方法的流程示意图;
[0038]图8为本公开所提供的采用三阶段训练方法对文本分类模型进行训练的流程示意图;
[0039]图9为本公开实施例六所提供的文本分类方法的流程示意图;
[0040]图10为本公开实施例七所提供的文本分类模型的训练装置的结构示意图;
[0041]图11为本公开实施例八所提供的文本分类装置的结构示意图;
[0042]图12示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0043]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种
细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0044]自然语言处理中的文本分类技术被大量地应用在不同领域中,但是在构建文本分类模型时需要标注大量的训练样本。然而,训练样本的标注,一方面需要耗费较长的时间,使得模型无法快速启动;另一方面,训练样本的标注需要耗费较高的人力成本,且标注的质量好坏参差不齐。
[0045]为了解决这类问题,目前可以采用小样本技术,对文本分类模型进行训练,以实现通过采用少量的训练样本对文本分类模型进行训练,即可使得模型拥有较好的学习和概括能力,以应对实际场景中训练样本数量较少的情况。
[0046]相关技术中,应用于文本分类的小样本技术主要有以下三个方向:
[0047]第一个方向是数据,通过显式地引入额外的数据做数据增强,从而在搜索空间中进行搜索时,可以通过额外的数据来辅助完成优化问题,利用先验知识增强监督信号。
[0048]第二个方向是模型,通过先验知识来降低搜索空间,缩小假设空间的大小。
[0049]第三个方向是算法,引入先验知识来优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,所述方法包括:获取多个样本文本,并对所述多个样本文本进行聚类,以得到至少一个目标聚簇;根据各所述样本文本所属的目标聚簇,生成各所述样本文本对应的簇标签,其中,所述簇标签用于指示所述样本文本所属的聚簇类别;采用文本分类模型对各所述样本文本进行第一类别预测,得到各所述样本文本对应的预测标签;根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。2.根据权利要求1所述的方法,其中,所述对所述多个样本文本进行聚类,以得到至少一个目标聚簇,包括:获取所述多个样本文本之间的相似度;根据所述多个样本文本之间的相似度,对所述多个样本文本进行聚类,以得到至少一个目标聚簇。3.根据权利要求2所述的方法,其中,所述根据所述多个样本文本之间的相似度,对所述多个样本文本进行聚类,以得到至少一个目标聚簇,包括:根据设定的第一聚簇个数,采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类,以得到所述第一聚簇个数的初始聚簇;确定各所述初始聚簇之间的距离;在各所述初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下,根据所述聚簇间距离阈值,采用第二聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类,以得到至少一个目标聚簇。4.根据权利要求2所述的方法,其中,所述根据所述多个样本文本之间的相似度,对所述多个样本文本进行聚类,以得到至少一个目标聚簇,包括:根据设定的第一聚簇个数,采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类,以得到所述第一聚簇个数的初始聚簇;确定各所述初始聚簇之间的距离;在各所述初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下,对所述第一聚簇个数进行调整;根据调整后的所述第一聚簇个数和所述聚簇间距离阈值,采用所述第一聚类算法再次对所述多个样本文本进行聚类,以得到所述调整后的第一聚簇个数的目标聚簇。5.根据权利要求1所述的方法,其中,所述方法还包括:采用经过第一训练后的文本分类模型对各所述样本文本进行第二类别预测,得到分类标签;根据各所述样本文本对应的分类标签和标注的真实标签之间的差异,对经过第一训练后的文本分类模型进行第二训练。6.根据权利要求1所述的方法,其中,在所述获取多个样本文本之后,所述方法还包括:针对所述多个样本文本中的任一样本文本,对所述任一样本文本中的至少一个样本字符进行掩码,以得到掩码后的样本文本;采用所述文本分类模型对所述掩码后的样本文本进行字符预测,以得到预测文本;根据任一样本文本和对应的所述预测文本之间的差异,对所述文本分类模型进行第三
训练。7.根据权利要求1所述的方法,其中,在所述获取多个样本文本之后,所述方法还包括:针对所述多个样本文本中的任一样本文本,对所述任一样本文本中的至少一个样本字符进行掩码,以得到掩码后的样本文本;采用所述文本分类模型对所述掩码后的样本文本中的掩码字符进行预测,以得到至少一个预测字符;根据所述至少一个样本字符和所述至少一个预测字符之间的差异,对所述文本分类模型进行第三训练。8.根据权利要求6或7所述的方法,其中,所述采用文本分类模型对各所述样本文本进行第一类别预测,得到各所述样本文本对应的预测标签,包括:采用经过第三训练的文本分类模型对各所述样本文本进行第一类别预测,得到各所述样本文本对应的预测标签。9.一种文本分类方法,所述方法包括:获取待分类文本;采用经过如权利要求1

8中任一项所述的方法所训练的文本分类模型对所述待分类文本进行分类,得到所述待分类文本的分类标签。10.一种文本分类模型的训练装置,所述装置包括:获取模块,用于获取多个样本文本;聚类模块,用于对所述多个样本文本进行聚类,以得到至少一个目标聚簇;生成模块,用于根据各所述样本文本所属的目标聚簇,生成各所述样本文本对应的簇标签,其中,所述簇标签用于指示所述样本文本所属的聚簇类别;第一预测模块,用于采用文本分类模型对各所述样本文本进行第一类别预测,得到...

【专利技术属性】
技术研发人员:苑浩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1