一种用于文本分类的半监督学习方法和系统技术方案

技术编号：27742195 阅读：10 留言：0更新日期：2021-03-19 13:35

本发明专利技术实施例提供的一种用于文本分类的半监督学习方法和系统，包括：获取用于相关任务的样本集，所述样本集包括标注样本集和未标记样本集；对所述样本集进行预处理；对预处理后的未标记样本集进行预测和分类标注，对所述样本集进行扩充；采用扩充后的样本集，对深度学习模型进行训练。该方法该方法能够监督学习中缺少标签数据的问题，以及利用未标注的数据和标注的样本集来学习任务，并且使用无监督方法中的聚类方法解决缺少类别标签的情况。在本文提出的方法中，少量标注数量的情况下，极大的提高文本分类的效率，降低人工成本，以及提高无监督分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于文本分类的半监督学习方法和系统
本专利技术涉及机器学习
，具体涉及一种用于文本分类的半监督学习方法和系统。
技术介绍
目前自然语言处理中的任务，通常包括文本分类、实体识别、情绪识别等子任务，文本分类任务是指将文本分到特定的标签，当前通常利用深度学习、机器学习等有监督的方法以及无监督的方法训练模型，进而基于训练的模型进行分类。在文本分类的许多应用场景中，收集大的有标签的数据通常需要大量的人力进行预料标注，然而人工标注的效率低下且昂贵或者不可行。在样本量较少时，通常使用监督学习的方式训练，然而典型的监督学习算法在标记数据集较小的情况下，容易出现过拟合，不能有效的表征数据特征。在有大量的样本数据，但是没有特定的期望结果或者标签时，无监督学习通常是常用的方法，在样本差异性不是特别明显的场景中无监督学习无法提供可靠的类别信息，不能够满足精确的分类需求。在文本分类任务中，由于有少量标注的样本数据，且类别不够全面，另外有大量无标注的样本数据，且包含全部类别，在此场景中单独使用监督学习与无监督学习均不能有效的处理此场景。
技术实现思路
因此，为了能够解决上述技术问题，本专利技术实施例提供一种用于文本分类的半监督学习方法和系统，该方法能够监督学习中缺少标签数据的问题，以及利用未标注的数据和标注的样本集来学习任务，并且使用无监督方法中的聚类方法解决缺少类别标签的情况。在本文提出的方法中，少量标注数量的情况下，极大的提高文本分类的效率，降低人工成本，以及提高无监督分类的准确率。其具体技术方...

【技术保护点】
1.一种用于文本分类的半监督学习方法，其特征在于，包括步骤：/n获取用于相关任务的样本集，所述样本集包括标注样本集和未标记样本集；/n对所述样本集进行预处理；/n对预处理后的未标记样本集进行预测和分类标注，对所述样本集进行扩充；/n采用扩充后的样本集，对深度学习模型进行训练；/n所述对预处理后的未标记样本集进行预测和分类标注，对所述样本集进行扩充，具体包括步骤：/n采用所述标注样本集对所述深度学习模型进行预训练，得到预训练模型；/n采用所述预训练模型对第一部分未标记样本进行预测，并设置置信阈度；/n将所述第一部分未标记样本的预测结果与所述置信阈度进行对比，高于所述置信阈度的所述未标记样本添加到标注样本集，完成扩充；/n还包括：对第二部分未标记样本采用无监督聚类算法对样本进行聚类，将样本划分为多个簇，使用簇中心对应的类别作为所述样本的类别标记，并用做模型训练样本。/n

【技术特征摘要】
1.一种用于文本分类的半监督学习方法，其特征在于，包括步骤：
获取用于相关任务的样本集，所述样本集包括标注样本集和未标记样本集；
对所述样本集进行预处理；
对预处理后的未标记样本集进行预测和分类标注，对所述样本集进行扩充；
采用扩充后的样本集，对深度学习模型进行训练；
所述对预处理后的未标记样本集进行预测和分类标注，对所述样本集进行扩充，具体包括步骤：
采用所述标注样本集对所述深度学习模型进行预训练，得到预训练模型；
采用所述预训练模型对第一部分未标记样本进行预测，并设置置信阈度；
将所述第一部分未标记样本的预测结果与所述置信阈度进行对比，高于所述置信阈度的所述未标记样本添加到标注样本集，完成扩充；
还包括：对第二部分未标记样本采用无监督聚类算法对样本进行聚类，将样本划分为多个簇，使用簇中心对应的类别作为所述样本的类别标记，并用做模型训练样本。

2.根据权利要求1所述的用于文本分类的半监督学习方法，其特征在于，所述深度学习模型采用bert模型。

3.根据权利要求1所述的用于文本分类的半监督学习方法，其特征在于，所述无监督聚类算法采用KNN算法。

4.一种用于文本分类的半监督学习系统，其特征在于，包括：
获取模块，用于获取用于相关任务的样本集，所述...

【专利技术属性】
技术研发人员：李越超，
申请(专利权)人：中关村科学城城市大脑股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人