文本分类模型的训练及文本分类方法、装置、设备和介质制造方法及图纸

技术编号：34145773 阅读：10 留言：0更新日期：2022-07-14 18:54

本公开提供了一种文本分类模型的训练及文本分类方法、装置、设备和介质，涉及深度学习和自然语言处理等领域。具体实现方案为：对获取的多个样本文本进行聚类，得到至少一个目标聚簇；根据各样本文本所属的目标聚簇，生成各样本文本对应的簇标签；采用文本分类模型对各样本文本进行第一类别预测，得到各样本文本的预测标签；根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。由于聚类可捕捉到样本文本中显著的语义特征，通过对多个样本文本进行聚类的方式，来生成各样本文本对应的簇标签，并基于簇标签对文本分类模型进行预训练，可以使得文本分类模型在真实训练之前，有效学习到样本文本中显著的语义信息，提升模型表现和性能。升模型表现和性能。升模型表现和性能。

Training of text classification model and text classification methods, devices, equipment and media

全部详细技术资料下载

【技术实现步骤摘要】
文本分类模型的训练及文本分类方法、装置、设备和介质

[0001]本公开涉及人工智能领域，具体涉及深度学习和自然语言处理等
，尤其涉及文本分类模型的训练及文本分类方法、装置、设备和介质。

技术介绍

[0002]自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。其中，文本分类是自然语言处理工作的一项基础性工作，文本分类利用文字这个信息载体将文本进行整理和归类，被广泛应用在不同领域，比如数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域。
[0003]为了实现文本的自动分类，在已有的样本文本上构建文本分类模型(又可以称为文本分类器)时，需要对文本分类模型进行训练，从而基于训练好的文本分类模型对待分类文本进行分类。
[0004]为了提升模型的预测效果，如何对文本分类模型进行训练是非常重要的。

技术实现思路

[0005]本公开提供了一种文本分类模型的训练及文本分类方法、装置、设备和介质。
[0006]根据本公开的一方面，提供了一种文本分类模型的训练方法，包括：
[0007]获取多个样本文本，并对所述多个样本文本进行聚类，以得到至少一个目标聚簇；
[0008]根据各所述样本文本所属的目标聚簇，生成各所述样本文本对应的簇标签，其中，所述簇标签用于指示所述样本文本所属的聚簇类别；
[0009]采用文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签；
[00...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法，所述方法包括：获取多个样本文本，并对所述多个样本文本进行聚类，以得到至少一个目标聚簇；根据各所述样本文本所属的目标聚簇，生成各所述样本文本对应的簇标签，其中，所述簇标签用于指示所述样本文本所属的聚簇类别；采用文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签；根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。2.根据权利要求1所述的方法，其中，所述对所述多个样本文本进行聚类，以得到至少一个目标聚簇，包括：获取所述多个样本文本之间的相似度；根据所述多个样本文本之间的相似度，对所述多个样本文本进行聚类，以得到至少一个目标聚簇。3.根据权利要求2所述的方法，其中，所述根据所述多个样本文本之间的相似度，对所述多个样本文本进行聚类，以得到至少一个目标聚簇，包括：根据设定的第一聚簇个数，采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到所述第一聚簇个数的初始聚簇；确定各所述初始聚簇之间的距离；在各所述初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下，根据所述聚簇间距离阈值，采用第二聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到至少一个目标聚簇。4.根据权利要求2所述的方法，其中，所述根据所述多个样本文本之间的相似度，对所述多个样本文本进行聚类，以得到至少一个目标聚簇，包括：根据设定的第一聚簇个数，采用第一聚类算法根据所述多个样本文本之间的相似度对所述多个样本文本进行聚类，以得到所述第一聚簇个数的初始聚簇；确定各所述初始聚簇之间的距离；在各所述初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下，对所述第一聚簇个数进行调整；根据调整后的所述第一聚簇个数和所述聚簇间距离阈值，采用所述第一聚类算法再次对所述多个样本文本进行聚类，以得到所述调整后的第一聚簇个数的目标聚簇。5.根据权利要求1所述的方法，其中，所述方法还包括：采用经过第一训练后的文本分类模型对各所述样本文本进行第二类别预测，得到分类标签；根据各所述样本文本对应的分类标签和标注的真实标签之间的差异，对经过第一训练后的文本分类模型进行第二训练。6.根据权利要求1所述的方法，其中，在所述获取多个样本文本之后，所述方法还包括：针对所述多个样本文本中的任一样本文本，对所述任一样本文本中的至少一个样本字符进行掩码，以得到掩码后的样本文本；采用所述文本分类模型对所述掩码后的样本文本进行字符预测，以得到预测文本；根据任一样本文本和对应的所述预测文本之间的差异，对所述文本分类模型进行第三
训练。7.根据权利要求1所述的方法，其中，在所述获取多个样本文本之后，所述方法还包括：针对所述多个样本文本中的任一样本文本，对所述任一样本文本中的至少一个样本字符进行掩码，以得到掩码后的样本文本；采用所述文本分类模型对所述掩码后的样本文本中的掩码字符进行预测，以得到至少一个预测字符；根据所述至少一个样本字符和所述至少一个预测字符之间的差异，对所述文本分类模型进行第三训练。8.根据权利要求6或7所述的方法，其中，所述采用文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签，包括：采用经过第三训练的文本分类模型对各所述样本文本进行第一类别预测，得到各所述样本文本对应的预测标签。9.一种文本分类方法，所述方法包括：获取待分类文本；采用经过如权利要求1
‑
8中任一项所述的方法所训练的文本分类模型对所述待分类文本进行分类，得到所述待分类文本的分类标签。10.一种文本分类模型的训练装置，所述装置包括：获取模块，用于获取多个样本文本；聚类模块，用于对所述多个样本文本进行聚类，以得到至少一个目标聚簇；生成模块，用于根据各所述样本文本所属的目标聚簇，生成各所述样本文本对应的簇标签，其中，所述簇标签用于指示所述样本文本所属的聚簇类别；第一预测模块，用于采用文本分类模型对各所述样本文本进行第一类别预测，得到...

【专利技术属性】
技术研发人员：苑浩，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人