本公开提供了一种文本分类模型的训练方法、文本分类方法及装置,该方法包括:获取待分类的文本;基于训练好的文本分类模型提取所述文本的特征以获得所述文本的句子表示;对所述文本的句子表示进行聚类以获取针对所述文本的句子表示的聚类簇;确定聚类簇的簇标签作为所述文本的分类标签。所述文本的分类标签。所述文本的分类标签。
【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法及装置
[0001]本公开涉及自然语言处理领域,尤其涉及一种文本分类模型的训练方法、文本分类方法及装置。
技术介绍
[0002]文本分类是自然语言处理(Natural Language Processing,NLP)中最基本、最重要的任务之一。它的主要作用是对一句话或者一段文本进行归类,还可基于分类后的文本挖掘文本所表现出的意图。在文本分类模型的训练和应用中,需要利用文本的样本数据对模型进行训练与优化。当样本中包含无标签样本时,可以应用半监督学习方式进行模型训练。但是,半监督学习算法能获得的信息全部来自有标签数据的监督信息和无标签数据的一致性信息,仅使用少量标签数据得到的特征表示能力不强,聚类簇之间的区分度不高。基于对比学习的聚类算法可通过构建正负样本来增强聚类结果的簇之间的区分度,但基于对比学习的聚类算法由于不能充分利用关键且有价值的有标签数据,导致对比学习没有利用到特定场景下的带标签样本的信息,聚类结果的簇内样本的相似度不足,无法反映分类标签信息。
技术实现思路
[0003]根据本公开的第一方面,提供了一种文本分类模型的训练方法,包括:使用训练样本集中的带有第一分类标签的有标签样本训练文本分类模型,其中,所述训练样本集还包括不具有标签的无标签样本;基于训练后的文本分类模型提取训练样本集中的所有样本的特征;对训练样本集的所有样本的特征进行聚类,得到针对训练样本集的无标签样本的第二分类标签;根据训练样本集的每个样本的分类损失和对比损失之和来调整训练后的文本分类模型的参数,其中,训练集中的有标签样本的分类损失基于第一分类标签被确定,训练集中的无标签样本的分类损失基于第二分类标签被确定,训练集中的每个样本的对比损失基于对比学习被确定。
[0004]在本申请实施例中,对有标签训练样本训练文本分类模型之后提取所有样本的特征并进行聚类获得标签采用的是半监督学习,在计算损失函数时不仅包括了基于半监督学习的标签的分类损失,还引入了对比学习来计算样本的对比损失。通过同时使用提升特征表示能力的对比学习与能融入标签信息的半监督学习并构建基于对比损失和分类损失的损失函数,可以兼顾半监督学习和对比学习的优点,即,不仅可通过半监督学习增强簇内样本的相似度,还可利用对比学习来增强簇之间的区分度。
[0005]根据本公开的第二方面,提供了一种文本分类方法,包括:获取待分类的文本;基于训练好的文本分类模型提取所述文本的特征以获得所述文本的句子表示;对所述文本的句子表示进行聚类以获取针对所述文本的句子表示的聚类簇;确定聚类簇的簇标签作为所述文本的分类标签,其中,所述文本分类模型是使用如上所述的训练方法训练得到的。
[0006]如上所述,使用根据本公开的方法训练得到的文本分类模型由于在训练过程中同
时使用提升特征表示能力的对比学习与能融入标签信息的半监督学习并构建基于对比损失和分类损失的损失函数来进行训练,因此训练得到的文本分类模型在进行文本分类时,可增强文本分类模型得到的簇内样本的相似度并且增强簇之间的区分度,因此可针对待分类的文本获得具有较好的显著性和区分度的标签。
[0007]根据本公开的第三方面,提供了一种文本分类模型的训练装置,包括:第一训练单元,被配置为使用训练样本集中的带有第一分类标签的有标签样本训练所述文本分类模型;特征提取单元,被配置为基于所述文本分类模型提取训练样本集的所有样本的特征;聚类单元,被配置为对训练样本集的无标签样本的特征进行聚类以获取针对训练样本集的无标签样本的第二分类标签;第二训练单元,被配置为确定训练样本集中的所有样本的基于第一分类标签和第二分类标签的分类损失和基于对比学习的对比损失,并根据所述分类损失和所述对比损失之和来调整所述文本分类模型。
[0008]根据本公开的第四方面,提供了一种文本分类装置,包括:文本获取单元,被配置为获取待分类的文本;特征提取单元,被配置为基于训练好的文本分类模型提取所述文本的特征以获得所述文本的句子样本表示;聚类单元,被配置为对所述文本的句子表示进行聚类以获取针对所述文本的句子表示的聚类簇;标签确定单元,被配置为确定聚类簇的簇标签作为所述文本的分类标签,其中,所述文本分类模型是使用如上所述的训练方法训练得到的。
[0009]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上第一方面或第二方面所述的方法。
[0010]根据本公开的第六方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由至少一个处理器执行时,使得所述至少一个处理器能够执行如上第一方面或第二方面所述的方法。
[0011]根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品中的指令被至少一个处理器运行以执行如上第一方面或第二方面所述的方法。
[0012]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0013]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
[0014]图1是示出应用根据本公开的示例性实施例的文本分类模型及其训练方法的场景的示意图。
[0015]图2是示出根据本公开的示例性实施例的文本分类模型的训练方法的流程图。
[0016]图3是示出根据本公开的示例性实施例的文本分类模型的整体架构和训练示意图。
[0017]图4是示出根据本公开的示例性实施例的文本分类模型的训练方法中的损失计算的示意图。
[0018]图5是示出根据本公开的示例性实施例的文本分类模型的训练装置的框图。
[0019]图6是示出根据本公开的示例性实施例的文本分类方法的流程图。
[0020]图7是示出根据本公开的示例性实施例的文本分类装置的框图。
[0021]图8是示出根据本公开的示例性实施例的用于文本分类的电子设备的示意图。
具体实施方式
[0022]为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
[0023]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0024]在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,包括:使用训练样本集中的带有第一分类标签的有标签样本训练文本分类模型,其中,所述训练样本集还包括不具有标签的无标签样本;基于训练后的文本分类模型提取所述训练样本集中的所有样本的特征;对所述训练样本集的无标签样本的特征进行聚类,得到针对所述训练样本集的无标签样本的第二分类标签;根据所述训练样本集的每个样本的分类损失和对比损失之和来调整训练后的文本分类模型的参数;其中,所述训练样本集中的有标签样本的分类损失是基于针对有标签样本的特征的分类结果和第一分类标签确定的,所述训练样本集中的无标签样本的分类损失是基于针对无标签样本的特征的分类结果和第二分类标签确定的,所述训练样本集中的每个样本的对比损失基于针对每个样本的对比学习被确定。2.如权利要求1所述的方法,其特征在于,所述对比损失对应于第一权重,所述分类损失对应于第二权重,所述第一权重和所述第二权重是基于训练样本集中的样本和所述样本的增强样本之间的相似度确定的,所述样本的增强样本是通过对所述样本进行数据增强而得到的。3.如权利要求2所述的方法,其特征在于,所述第一权重与所述样本和所述样本被数据增强后的增强样本之间的相似度成反比,所述第二权重与所述样本和所述样本被数据增强后的增强样本之间的相似度成正比。4.一种文本分类方法,其特征在于,包括:获取待分类文本;将所述待分类文本输入文本分类模型进行特征提取,得到所述待分类文本的句子表示;对所述待分类文本的句子表示进行聚类,得到针对所述待分类文本的句子表示的聚类簇;确定所述聚类簇的簇标签,并将所述簇标签作为所述待分类文本的分类标签;其中,所述文本分类模型是基于如权利要求1
‑
3中的任意一个所述的训练方法训练得到的。5.如权利要求4所述的方法,其特征在于,所述确定所述聚类簇的簇标签,包括:确定所述聚类簇中的代表性句子表示,以及基于所述代表性句子表示确定聚类簇的簇标签。6.如权利要求5所述的方法,其特征在于,通过K均值聚类算法对所述待分类文本的句子表示进行聚类;其中,所述确定所述聚类簇中的代表性句子表示包括:计...
【专利技术属性】
技术研发人员:杨森,蒋宁,肖冰,李宽,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。