一种多标签文本分类方法技术

技术编号:33455304 阅读:13 留言:0更新日期:2022-05-19 00:38
本发明专利技术是关于一种多标签文本分类方法。该方法包括:获取文本数据;对获取的文本数据进行处理;获取经过处理的文本数据的特征向量;利用所述特征向量对多分类模型进行监督训练,得到分类器。本发明专利技术提供的技术方案,一方面在文本多分类上进行了改进,所以相较于多标签文本分类,在模型训练时间上会更快速;另一方面,因为在训练前对具有尾部标签的样本进行了数据增强,一定程度上解决了多标签文本分类长尾分布问题,同时也提升了模型预测的准确率。同时也提升了模型预测的准确率。同时也提升了模型预测的准确率。

【技术实现步骤摘要】
一种多标签文本分类方法


[0001]本专利技术属于自然语言处理(Natural Language Processing,NLP)
,尤其涉及一种多标签文本分类方法。

技术介绍

[0002]文本分类问题是自然语言处理领域的一个重要研究方向,随着信息技术的迅速发展,互联网信息平台中数据与日俱增,这其中存在大量有价值的信息,如何快速识别海量信息对应的主题标签对于信息检索、信息推荐领域均有相关应用。多标签文本分类方法是解决文本分类的一种重要方法,近年来,在学术研究和实际应用中备受关注。
[0003]目前,在多标签文本分类方法中,常用的方法是:假设标签之间是相互独立,然后将其转化为二分类问题,基于机器学习训练多个二分类器进行多标签文本分类。
[0004]假设标签相互独立、转为二分类问题的多标签文本分类方法,在项目落地使用中仍是一个巨大的挑战。最困难的在于文本类别分布不均衡,多数情况下会呈长尾(long

tailed)分布。重采样与加权是解决类别不平衡时常采用的方法,但在这里并不适用。多标签文本分类除存在类别不平衡外,还存在标签依赖,这就导致在使用重采样时会造成一些普通标签的过采样。因此常规的多标签文本分类方法训练的分类器其精度往往达不到预期。

技术实现思路

[0005]本专利技术提供一种多标签文本分类方法,以解决现有多标签文本分类方法不能有效解决长尾分布,导致文本分类准确度低的问题。
[0006]为实现上述目的,本专利技术提供一种多标签文本分类方法,包括:/>[0007]获取文本数据;
[0008]对获取的文本数据进行处理;
[0009]获取经过处理的文本数据的特征向量;
[0010]利用所述特征向量对多分类模型进行监督训练,得到分类器。
[0011]进一步,所述对获取的文本数据进行处理,具体包括:
[0012]对文本数据依次进行预清洗、预处理、数据增强和数据集划分。
[0013]进一步,对文本数据进行预清洗,具体包括:处理文本数据中的无效值和缺失值,以及删除重复信息。
[0014]进一步,对文本数据进行预处理,具体包括:大写转小写、分词、去除停用词、词性还原、以及去除特殊字符。
[0015]进一步,对文本数据进行数据增强,具体包括:
[0016]统计文本数据的尾部标签,对所述尾部标签对应样本进行数据增强,所述尾部标签,是指标签频率小于标签频率中位数的标签。
[0017]进一步,所述对所述尾部标签对应样本进行数据增强,具体包括:
[0018]抽取所有包含同一尾部标签的样本,按标点符号分割成句子,组成一个句库;随机抽取所述句库中的N个句子形成一个新的标签为该尾部标签的样本,其中,N为所有组成训练数据样本的平均句子数,从而,增强个数为:标签频率中位数

该尾部标签频率;
[0019]对所有样本进行标签预处理。
[0020]进一步,所述对所有样本进行标签预处理,具体包括:
[0021]将形成的新样本的标签处理为零一矩阵。
[0022]进一步,所述将所有样本的标签处理为零一矩阵,具体包括:
[0023]在标签对应位置,以1除以当前样本标签个数,以此作为样本的真实标签值。
[0024]进一步,所述获取经过处理的文本数据的特征向量,具体包括:
[0025]使用预训练语言模型SciBert获取样本的特征向量。
[0026]进一步,该方法还包括:
[0027]将所述分类器预测得到的标签与人工标注的标签进行差异比较,按照crossentropy方法进行反向参数调优;
[0028]上述方法迭代直到模型收敛,进行结果评估。
[0029]利用本专利技术提供的方法在对于多标签文本分类,具有以下优点:
[0030]1、本专利技术实质是在文本多分类上进行了改进,所以相较于多标签文本分类,在模型训练时间上会更快速;
[0031]2、因为在训练前对具有尾部标签的样本进行了数据增强,一定程度上解决了多标签文本分类长尾分布问题,同时也提升了模型预测的准确率。
[0032]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0033]通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施方式中,相同的参考标号通常代表相同部件。
[0034]图1是根据本专利技术一示例性实施例示出的一种多标签文本分类方法的原理框图;
[0035]图2是根据本专利技术一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式
[0036]下面将参照附图更详细地描述本专利技术的优选实施方式。虽然附图中显示了本专利技术的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。
[0037]在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0038]应当理解,尽管在本专利技术可能采用术语“第一”、“第二”、“第三”等来描述各种信
息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0039]如图1所示,本专利技术提供一种多标签文本分类方法,下文以样本数据中总共出现10种标签(以A~J大写字母为例),具体步骤如下:
[0040]获取文本数据:本专利技术可根据具体应用场景选取文本数据,如对于学术文章,训练数据可选取文本标题与摘要,将其合并处理作为模型输入;
[0041]数据处理,包括数据清洗、数据预处理、数据增强和数据集划分。
[0042]数据清洗:数据预处理包括处理无效值和缺失值,删除重复信息;
[0043]数据预处理:大写转小写、分词、去除停用词、词性还原、去除特殊字符;
[0044]数据增强:统计尾部标签(标签频率<标签频率中位数),对这些尾部标签对应样本进行数据增强。假设{

A

,

B

}标签属于尾部标签,抽取所有包含尾部标签A的样本,按标点符号分割成句子,组成一个句库。随机抽取其中的N(统计组成训练数据样本的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多标签文本分类方法,其特征在于,包括:获取文本数据;对获取的文本数据进行处理;获取经过处理的文本数据的特征向量;利用所述特征向量对多分类模型进行监督训练,得到分类器。2.根据权利要求1所述的方法,其特征在于,所述对获取的文本数据进行处理,具体包括:对文本数据依次进行预清洗、预处理、数据增强、标签预处理和数据集划分。3.根据权利要求2所述的方法,其特征在于,对文本数据进行预清洗,具体包括:处理文本数据中的无效值和缺失值,以及删除重复信息。4.根据权利要求2所述的方法,其特征在于,对文本数据进行预处理,具体包括:大写转小写、分词、去除停用词、词性还原、以及去除特殊字符。5.根据权利要求2所述的方法,其特征在于,对文本数据进行数据增强,具体包括:统计文本数据的尾部标签,对所述尾部标签对应样本进行数据增强,所述尾部标签,是指标签频率小于标签频率中位数的标签。6.根据权利要求5所述的方法,其特征在于,所述对所述尾部标签对应样本进行数据增强,具体包括:抽取所有包含同一尾部标签的样本...

【专利技术属性】
技术研发人员:田阳杰刘铭张鹤李沄沨许若华李宁
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1