一种用于文本分类的半监督学习方法和系统技术方案

技术编号:27742195 阅读:10 留言:0更新日期:2021-03-19 13:35
本发明专利技术实施例提供的一种用于文本分类的半监督学习方法和系统,包括:获取用于相关任务的样本集,所述样本集包括标注样本集和未标记样本集;对所述样本集进行预处理;对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充;采用扩充后的样本集,对深度学习模型进行训练。该方法该方法能够监督学习中缺少标签数据的问题,以及利用未标注的数据和标注的样本集来学习任务,并且使用无监督方法中的聚类方法解决缺少类别标签的情况。在本文提出的方法中,少量标注数量的情况下,极大的提高文本分类的效率,降低人工成本,以及提高无监督分类的准确率。

【技术实现步骤摘要】
一种用于文本分类的半监督学习方法和系统
本专利技术涉及机器学习
,具体涉及一种用于文本分类的半监督学习方法和系统。
技术介绍
目前自然语言处理中的任务,通常包括文本分类、实体识别、情绪识别等子任务,文本分类任务是指将文本分到特定的标签,当前通常利用深度学习、机器学习等有监督的方法以及无监督的方法训练模型,进而基于训练的模型进行分类。在文本分类的许多应用场景中,收集大的有标签的数据通常需要大量的人力进行预料标注,然而人工标注的效率低下且昂贵或者不可行。在样本量较少时,通常使用监督学习的方式训练,然而典型的监督学习算法在标记数据集较小的情况下,容易出现过拟合,不能有效的表征数据特征。在有大量的样本数据,但是没有特定的期望结果或者标签时,无监督学习通常是常用的方法,在样本差异性不是特别明显的场景中无监督学习无法提供可靠的类别信息,不能够满足精确的分类需求。在文本分类任务中,由于有少量标注的样本数据,且类别不够全面,另外有大量无标注的样本数据,且包含全部类别,在此场景中单独使用监督学习与无监督学习均不能有效的处理此场景。
技术实现思路
因此,为了能够解决上述技术问题,本专利技术实施例提供一种用于文本分类的半监督学习方法和系统,该方法能够监督学习中缺少标签数据的问题,以及利用未标注的数据和标注的样本集来学习任务,并且使用无监督方法中的聚类方法解决缺少类别标签的情况。在本文提出的方法中,少量标注数量的情况下,极大的提高文本分类的效率,降低人工成本,以及提高无监督分类的准确率。其具体技术方案如下:为实现上述目的,本专利技术实施例提供一种用于文本分类的半监督学习方法,包括步骤:获取用于相关任务的样本集,所述样本集包括标注样本集和未标记样本集;对所述样本集进行预处理;对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充;采用扩充后的样本集,对深度学习模型进行训练。进一步的,所述对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充,具体包括步骤:采用所述标注样本集对所述深度学习模型进行预训练,得到预训练模型;采用所述预训练模型对第一部分未标记样本进行预测,并设置置信阈度;将所述第一部分未标记样本的预测结果与所述置信阈度进行对比,高于所述置信阈度的所述未标记样本添加到标注样本集,完成扩充。进一步的,还包括:对第二部分未标记样本采用无监督聚类算法对样本进行聚类,将样本划分为多个簇,使用簇中心对应的类别作为所述样本的类别标记,并用做模型训练样本。进一步的,所述深度学习模型采用bert模型。进一步的,所述无监督聚类算法采用KNN算法。本专利技术实施例的第二方面提供一种用于文本分类的半监督学习系统,包括:获取模块,用于获取用于相关任务的样本集,所述样本集包括标注样本集和未标记样本集;预处理模块,用于对所述样本集进行预处理;扩充模块,用于对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充;训练模块,用于采用扩充后的样本集,对深度学习模型进行训练。进一步的,所述扩充模块包括:预训练模块,用于采用所述标注样本集对所述深度学习模型进行预训练,得到预训练模型;预测模块,用于采用所述预训练模型对第一部分未标记样本进行预测,并设置置信阈度;扩充模块,用于将所述第一部分未标记样本的预测结果与所述置信阈度进行对比,高于所述置信阈度的所述未标记样本添加到标注样本集,完成扩充。进一步的,还包括聚类模块,用于对第二部分未标记样本采用无监督聚类算法对样本进行聚类,将样本划分为多个簇,使用簇中心对应的类别作为所述样本的类别标记,并用做模型训练样本。本专利技术实施例的第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述所述的用于文本分类的半监督学习方法的步骤。本专利技术的第四方面提供一种电子设备,该电子设备包括:处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述所述用于文本分类的半监督学习的方法。本专利技术实施例提供的一种用于文本分类的半监督学习方法,包括:获取用于相关任务的样本集,所述样本集包括标注样本集和未标记样本集;对所述样本集进行预处理;对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充;采用扩充后的样本集,对深度学习模型进行训练。该方法该方法能够监督学习中缺少标签数据的问题,以及利用未标注的数据和标注的样本集来学习任务,并且使用无监督方法中的聚类方法解决缺少类别标签的情况。在本文提出的方法中,少量标注数量的情况下,极大的提高文本分类的效率,降低人工成本,以及提高无监督分类的准确率。附图说明图1为本专利技术实施例1提供的一种用于文本分类的半监督学习方法的流程图;图2为本专利技术实施例2提供的用于文本分类的半监督学习系统的结构示意框图;图3为本专利技术实施例3的电子设备的结构示意图;图4为本专利技术实施例4的计算机可读存储介质的结构示意图;图中:31-处理器;32-存储器;33-存储空间;34-程序代码;41-程序代码。具体实施方式为了使得本专利技术技术方案能够清楚、详尽的展现出来,以下结合附图对本专利技术进行说明,但不用来限制本专利技术的范围。参见图1为本专利技术实施例1提供的一种用于文本分类的半监督学习方法的流程图,包括步骤:获取用于相关任务的样本集;对所述样本集进行预处理;对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充;采用扩充后的样本集,对深度学习模型进行训练。上述样本集包括标注样本集和未标记样本集,上述预处理包括对各标注样本和非标注样本进行数据清洗。例如,假设需要训练针对某一种语言(如中文)的文本分类模型,则删除样本中非该语言的字词。此外,还可以进行停用词过滤等清洗处理,停用词过滤处理是指将“的、了、过”之类的无意义的字词汇总在预设的停用表中当样本中出现上述字词,则删除该样本中的上述字词。需要说明的是,本实施例不对数据清洗的具体实施方式做任何限定。在本专利技术实施例的可选实施方式中,为了便于后期对非标记样本集的应用,将非标记样本集分成两部分,分别为第一部分和第二部分。由于在智慧城市建设中,涉及很多需要处理的文本数据,将这些文本应用于后续任务,存在例如分类任务等时会出现标注数据量少,标注类别不全面的问题,因此,需要对样本集进行扩充,包括方法为:对各所述未标注样本进行反译处理,并将反译处理结果作为对应的数据扩充样本;或者,利用TF-IDF算法获取各所述未标注样本中的关键词和非关键词;对各所述未标注样本中的非关键词进行词替换处理,并将词替换处理结果作为对应的数据扩充样本。在本专利技术实施例中,所述对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充,具体包括本文档来自技高网...

【技术保护点】
1.一种用于文本分类的半监督学习方法,其特征在于,包括步骤:/n获取用于相关任务的样本集,所述样本集包括标注样本集和未标记样本集;/n对所述样本集进行预处理;/n对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充;/n采用扩充后的样本集,对深度学习模型进行训练;/n所述对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充,具体包括步骤:/n采用所述标注样本集对所述深度学习模型进行预训练,得到预训练模型;/n采用所述预训练模型对第一部分未标记样本进行预测,并设置置信阈度;/n将所述第一部分未标记样本的预测结果与所述置信阈度进行对比,高于所述置信阈度的所述未标记样本添加到标注样本集,完成扩充;/n还包括:对第二部分未标记样本采用无监督聚类算法对样本进行聚类,将样本划分为多个簇,使用簇中心对应的类别作为所述样本的类别标记,并用做模型训练样本。/n

【技术特征摘要】
1.一种用于文本分类的半监督学习方法,其特征在于,包括步骤:
获取用于相关任务的样本集,所述样本集包括标注样本集和未标记样本集;
对所述样本集进行预处理;
对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充;
采用扩充后的样本集,对深度学习模型进行训练;
所述对预处理后的未标记样本集进行预测和分类标注,对所述样本集进行扩充,具体包括步骤:
采用所述标注样本集对所述深度学习模型进行预训练,得到预训练模型;
采用所述预训练模型对第一部分未标记样本进行预测,并设置置信阈度;
将所述第一部分未标记样本的预测结果与所述置信阈度进行对比,高于所述置信阈度的所述未标记样本添加到标注样本集,完成扩充;
还包括:对第二部分未标记样本采用无监督聚类算法对样本进行聚类,将样本划分为多个簇,使用簇中心对应的类别作为所述样本的类别标记,并用做模型训练样本。


2.根据权利要求1所述的用于文本分类的半监督学习方法,其特征在于,所述深度学习模型采用bert模型。


3.根据权利要求1所述的用于文本分类的半监督学习方法,其特征在于,所述无监督聚类算法采用KNN算法。


4.一种用于文本分类的半监督学习系统,其特征在于,包括:
获取模块,用于获取用于相关任务的样本集,所述...

【专利技术属性】
技术研发人员:李越超
申请(专利权)人:中关村科学城城市大脑股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1