文本分类模型的训练方法、文本分类方法及装置制造方法及图纸

技术编号:39058721 阅读:20 留言:0更新日期:2023-10-12 19:51
本公开提供了一种文本分类模型的训练方法、文本分类方法及装置,涉及人工智能技术领域,尤其涉及自然语言处理、机器学习等技术领域。实现方案为:获取样本集;基于样本集对第一文本分类模型的参数进行至少一次调整,以得到经训练的第二文本分类模型,每一次调整包括:利用当前样本集的第一子集调整当前第一文本分类模型的参数,得到调整后的文本分类模型;利用当前样本集的第二子集确定调整后的文本分类模型的各第一输出类别的第一评价值;响应于任一第一输出类别的第一评价值小于阈值,从当前样本集中删除类别标签为该第一输出类别的样本;响应于各第一输出类别的第一评价值均大于或等于阈值,将调整后的文本分类模型确定为第二文本分类模型。为第二文本分类模型。为第二文本分类模型。

【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法及装置


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、机器学习等
,具体涉及一种文本分类模型的训练方法及装置、文本分类方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]文本分类是一种常见的自然语言处理任务。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种文本分类模型的训练方法及装置、文本分类方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种文本分类模型的训练方法,包括:获取样本集,其中,所述样本集包括多个样本,所述多个样本中的每个样本包括样本文本和所述样本文本的类别标签;以及基于所述样本集,对第一文本分类模型的参数进行至少一次调整,以得到经训练的第二文本分类模型,其中,所述至少一次调整中的每一次调整包括:利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一文本分类模型;利用所述当前样本集的第二子集确定所述调整后的第一文本分类模型的多个第一输出类别各自的第一评价值,其中,所述第二子集与所述第一子集不相交,所述第一评价值指示所述调整后的第一文本分类模型对相应第一输出类别的分类效果;响应于所述多个第一输出类别中的任一第一输出类别的第一评价值小于阈值,从所述当前样本集中删除类别标签为所述第一输出类别的样本;或者响应于所述多个第一输出类别各自的第一评价值均大于或等于所述阈值,将所述调整后的第一文本分类模型确定为所述第二文本分类模型。
[0007]根据本公开的一方面,提供了一种文本分类方法,包括:获取待分类的文本;采用多种分词粒度对所述文本进行分词,以得到所述文本的词集合;以及对于所述词集合中的每一个词,利用文本分类模型确定所述词所属的类别,其中,所述文本分类模型是根据上述文本分类模型的训练方法训练得到的。
[0008]根据本公开的一方面,提供了一种文本分类模型的训练装置,包括:第一获取模块,被配置为获取样本集,其中,所述样本集包括多个样本,所述多个样本中的每个样本包
括样本文本和所述样本文本的类别标签;以及第一调整模块,被配置为基于所述样本集,对第一文本分类模型的参数进行至少一次调整,以得到经训练的第二文本分类模型,其中,所述第一调整模块包括:调整单元,被配置为利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一文本分类模型;第一评价单元,被配置为利用所述当前样本集的第二子集确定所述调整后的第一文本分类模型的多个第一输出类别各自的第一评价值,其中,所述第二子集与所述第一子集不相交,所述第一评价值指示所述调整后的第一文本分类模型对相应第一输出类别的分类效果;删除单元,被配置为响应于所述多个第一输出类别中的任一第一输出类别的第一评价值小于阈值,从所述当前样本集中删除类别标签为所述第一输出类别的样本;或者第一确定单元,被配置为响应于所述多个第一输出类别各自的第一评价值均大于或等于所述阈值,将所述调整后的第一文本分类模型确定为所述第二文本分类模型。
[0009]根据本公开的一方面,提供了一种文本分类装置,包括:获取模块,被配置为获取待分类的文本;分词模块,被配置为采用多种分词粒度对所述文本进行分词,以得到所述文本的词集合;以及分类模块,被配置为对于所述词集合中的每一个词,利用文本分类模型确定所述词所属的类别,其中,所述文本分类模型是根据上述文本分类模型的训练装置训练得到的。
[0010]根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方面的方法。
[0011]根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行上述任一方面的方法。
[0012]根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器执行时实现上述任一方面的方法。
[0013]根据本公开的一个或多个实施例,能够提高文本分类的准确性。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0016]图1示出了根据本公开实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0017]图2示出了根据本公开实施例的文本分类模型的训练方法的流程图;
[0018]图3示出了根据本公开实施例的文本分类方法的流程图;
[0019]图4示出了根据本公开实施例的文本分类模型的训练装置的结构框图;
[0020]图5示出了根据本公开实施例的文本分类装置的结构框图;以及
[0021]图6示出了能够用于实现本公开实施例的示例性电子设备的结构框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0024]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,包括:获取样本集,其中,所述样本集包括多个样本,所述多个样本中的每个样本包括样本文本和所述样本文本的类别标签;以及基于所述样本集,对第一文本分类模型的参数进行至少一次调整,以得到经训练的第二文本分类模型,其中,所述至少一次调整中的每一次调整包括:利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一文本分类模型;利用所述当前样本集的第二子集确定所述调整后的第一文本分类模型的多个第一输出类别各自的第一评价值,其中,所述第二子集与所述第一子集不相交,所述第一评价值指示所述调整后的第一文本分类模型对相应第一输出类别的分类效果;响应于所述多个第一输出类别中的任一第一输出类别的第一评价值小于阈值,从所述当前样本集中删除类别标签为所述第一输出类别的样本;或者响应于所述多个第一输出类别各自的第一评价值均大于或等于所述阈值,将所述调整后的第一文本分类模型确定为所述第二文本分类模型。2.根据权利要求1所述的方法,其中,所述类别标签为数据库中的字段的标识,具有所述类别标签的样本文本为所述字段下的示例性数据项。3.根据权利要求1或2所述的方法,还包括:利用所述第二文本分类模型对待分类文本进行分类,以得到所述待分类文本的预测类别;获取所述待分类文本的类别标注结果;以及响应于所述预测类别与所述类别标注结果不同,基于所述待分类文本和所述类别标注结果调整所述第二文本分类模型的参数,以得到经训练的第三文本分类模型。4.根据权利要求1

3中任一项所述的方法,还包括:确定所述第二文本分类模型的多个第二输出类别各自的预测阈值,其中,所述预测阈值用于响应于所述第二文本分类模型输出的待分类文本属于相应第二输出类别的概率大于所述预测阈值,确定所述待分类文本的预测类别为所述第二输出类别。5.根据权利要求4所述的方法,其中,所述确定所述第二文本分类模型的多个第二输出类别各自的预测阈值包括:对于多个候选预测阈值中的任一候选预测阈值:基于所述候选预测阈值,利用所述第二文本分类模型确定所述当前样本集的第二子集中的每个样本文本的预测类别;以及基于所述当前样本集的第二子集中的每个样本文本的预测类别和类别标签,确定所述多个第二输出类别各自的第二评价值,其中,所述第二评价值指示所述第二文本分类模型对相应第二输出类别的分类效果;以及对于所述多个第二输出类别中的任一第二输出类别,将所述多个候选预测阈值中的使所述第二输出类别的第二评价值最大的候选预测阈值确定为所述第二输出类别的预测阈值。
6.根据权利要求1

5中任一项所述的方法,其中,所述利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一文本分类模型包括:获取用于提取文本特征的关键词表;对于所述第一子集中的任一样本文本:基于所述关键词表,提取所述样本文本的文本特征;以及将所述文本特征输入所述当前第一文本分类模型,以得到所述当前第一文本分类模型输出的所述样本文本的预测类别;基于所述第一子集中的各样本文本的预测类别和类别标签,确定所述当前第一文本分类模型的损失值;以及基于所述损失值,调整所述当前第一文本分类模型的参数。7.根据权利要求6所述的方法,其中,所述关键词表是通过对所述样本集中的样本文本进行统计分析确定的。8.一种文本分类方法,包括:获取待分类的文本;采用多种分词粒度对所述文本进行分词,以得到所述文本的词集合;以及对于所述词集合中的每一个词,利用文本分类模型确定所述词所属的类别,其中,所述文本分类模型是根据权利要求1

7中任一项所述的方法训练得到的。9.根据权利要求8所述的方法,其中,所述文本为接口数据或网页数据中的值数据。10.一种文本分类模型的训练装置,包括:第一获取模块,被配置为获取样本集,其中,所述样本集包括多个样本,所述多个样本中的每个样本包括样本文本和所述样本文本的类别标签;以及第一调整模块,被配置为基于所述样本集,对第一文本分类模型的参数进行至少一次调整,以得到经训练的第二文本分类模型,其中,所述第一调整模块包括:调整单元,被配置为利用当前样本集的第一子集调整当前第一文本分类模型的参数,以得到调整后的第一...

【专利技术属性】
技术研发人员:张丽杜悦艺孙亚生
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1