一种文本分类方法和装置制造方法及图纸

技术编号：31227660 阅读：15 留言：0更新日期：2021-12-08 09:36

本发明专利技术公开了一种文本分类方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据第一系统的第一训练文本及所述第一训练文本的类别标签训练预设的初始分类模型，得到文本分类模型；根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所述文本分类模型，得到预测模型；将所述第二系统的预测样本输入所述预测模型，得到所述预测样本的类别标签。该实施方式能够降低文本分类的成本，缩短文本分类的时间。缩短文本分类的时间。缩短文本分类的时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种文本分类方法和装置。

技术介绍

[0002]在实际应用场景中，常常需要对用户反馈的文本进行分类，以确定用户反馈的问题所属的类别。目前，一般通过用户反馈的文本及其类别标签训练分类模型，利用训练后的分类模型预测文本所属的类别。
[0003]在系统升级的过程中，数据的风格会产生变化。对于同一类别的问题，在不同系统中可能存在不同的表述，例如，文本的长短和文本的用词发生变化。以第一系统升级至第二系统为例，为了适应系统的变化，现有技术对从第二系统中获取的文本进行标注，重新训练分类模型。
[0004]但是，由于需要标注大量的文本，现有技术对文本进行分类的成本较高，而且，需要花费较长的时间。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种文本分类方法和装置，能够降低文本分类的成本，缩短文本分类的时间。
[0006]第一方面，本专利技术实施例提供了一种文本分类方法，包括：
[0007]根据第一系统的第一训练文本及所述第一训练文本的类别标签训练预设的初始分类模型，得到文本分类模型；
[0008]根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所述文本分类模型，得到预测模型；
[0009]将所述第二系统的预测样本输入所述预测模型，得到所述预测样本的类别标签。
[0010]可选地，
[0011]所述根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：根据第一系统的第一训练文本及所述第一训练文本的类别标签训练预设的初始分类模型，得到文本分类模型；根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所述文本分类模型，得到预测模型；将所述第二系统的预测样本输入所述预测模型，得到所述预测样本的类别标签。2.如权利要求1所述的方法，其特征在于，所述根据所述第一训练文本及其类别标签、第二系统的第二训练文本训练所述文本分类模型，得到预测模型，包括：根据经过k-1次训练的文本分类模型，确定所述第二训练文本第k次分类的类别标签；根据所述第一训练文本及其类别标签、所述第二训练文本及第二训练文本第k次分类的类别标签训练经过k-1次训练的文本分类模型；根据经过k次训练的文本分类模型，确定所述第二训练文本第k+1次分类的类别标签；确定第二训练文本第k次和第k+1次分类的类别标签是否满足预设的相似条件，如果是，确定经过k次训练的文本分类模型为所述预测模型，否则，将k更新为k+1后执行所述根据经过k-1次训练的文本分类模型，确定所述第二训练文本第k次分类的类别标签；其中，k为大于0的整数。3.如权利要求2所述的方法，其特征在于，所述相似条件，包括：第二训练文本第k次和第k+1次分类的类别标签的重合率大于相似阈值。4.如权利要求1所述的方法，其特征在于，所述初始分类模型，包括：基于Transformer的双向编码器表征BERT模型和全连接层。5.如权利要求1所述的方法，其特征在于，进一步包括：确定超参数；其中，所述超参数用于控制所述第一训练文本和所述第二训练文本对损失值的影响程度；根据所述超参数，确定所述损失函数；所述根据所述第一训练文本及其类别标签、所述第二训练文本及第二训练文本第k次分类的类别标签训练经过k-1次训练的文本分类模型，包括：根据所述损失函数...

【专利技术属性】
技术研发人员：陈生泰，刘洋，
申请(专利权)人：北京京东振世信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人