文本分类模型训练方法及装置、文本分类方法及装置制造方法及图纸

技术编号:34001876 阅读:20 留言:0更新日期:2022-07-02 12:21
本申请提供文本分类模型训练方法及装置、文本分类方法及装置,其中所述文本分类模型训练方法包括:基于初始关键词和初始语料构建训练样本集;从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m<x;利用所述第一训练样本训练获得类别识别模型;利用所述第二训练样本对所述类别识别模型进行验证,并重复执行上述步骤直至确定所述类别识别模型满足验证条件。本申请提供的文本分类模型训练方法,只需少量准确的标注数据即可训练文本分类模型。文本分类模型。文本分类模型。

【技术实现步骤摘要】
文本分类模型训练方法及装置、文本分类方法及装置


[0001]本申请涉及文本分类
,特别涉及一种文本分类模型训练方法及装置、一种文本分类方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]自动文本分类,简称文本分类,是指用电脑对文本集按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断,确定每个文档的类别。
[0003]现有技术中,主要的分类模型都是使用含有大量人工准确标注的数据得到训练文档合集进行模型的训练,得到可以对文本进行分类的模型。
[0004]然而,现有技术中,大量人工准确标注的数据,训练成本较高,训练效率不高;并且分类文本的标签也在不断更新,模型如果需要根据新标签来进行分类,就又需要大量人工标注的根据新标签分类的数据,训练新的文本分类模型。如此,训练成本增加,缺少大量准确的标注数据,也影响训练效率。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种文本分类模型训练方法及装置、一种文本分类方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面,提供了一种文本分类模型训练方法,包括:
[0007]S1、基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;
[0008]S2、从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m<x;
[0009]S3、利用所述第一训练样本训练获得类别识别模型;
[0010]S4、利用所述第二训练样本对所述类别识别模型进行验证,并重复执行步骤S2至步骤S4直至确定所述类别识别模型满足验证条件。
[0011]可选地,所述文本分类模型训练方法还包括:
[0012]接收待识别新类别的新标签,获取所述新标签的标注语料并将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练。
[0013]可选地,利用所述第一训练样本集训练获得类别识别模型的过程包括:
[0014]将所述第一训练样本集中的初始语料输入所述类别识别模型的编码层,得到第一训练样本向量;
[0015]将所述第一训练样本向量输入所述类别识别模型的分类层,得到第一分类向量;
[0016]将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向
量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
[0017]可选地,所述第二训练样本对所述类别识别模型进行验证,包括:
[0018]将所述第二训练样本输入所述第一训练样本训练获得的类别识别模型中,计算由所述类别识别模型得到的标签与样本标签的相似度数据,若相似度数据达到规定阈值,得到训练完成的类别识别模型。
[0019]可选地,获取所述新标签的标注语料的步骤包括:
[0020]设定新标签的第一关键词;
[0021]使用预训练词向量对所述新标签的第一关键词进行扩充,得到新标签的第二关键词;
[0022]使用新标签的第二关键词获取新语料,并提取处新语料的关键词;
[0023]将新标签的第二关键词与新语料的关键词进行相似度计算,得到所述新标签的标注语料。
[0024]可选地,所述基于初始关键词和初始语料构建训练样本集的步骤包括:
[0025]设定初始预测类别标签及对应初始预测类别标签的初始关键词;
[0026]使用预训练词向量对初始关键词进行扩充;
[0027]将所有初始关键词和初始语料向量化表示;
[0028]对初始关键词向量进行处理,基于所述对初始关键词向量的处理,对初始语料进行处理,得到所述初始语料对应的所述初始预测类别标签;
[0029]将带有所述初始预测类别标签的初始语料构成所述训练样本集。
[0030]可选地,所述将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练的过程包括:
[0031]将所述新标签的标注语料中的初始语料输入所述类别识别模型的编码层,得到新标签样本向量;
[0032]将所述新标签样本向量输入所述类别识别模型的分类层,得到新标签分类向量;
[0033]将所述新标签分类向量输入所述类别识别模型的关系构建层,获取所述新标签分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。
[0034]可选地,所述根据预训练词向量扩充所述新标签的第一关键词的过程中,检测到扩充的新标签的第一关键词多于一个类别对应的情况下,将所述扩充的新标签的第一关键词在对应的类别中均删除。
[0035]可选地,所述根据预训练词向量扩充初始关键词的过程中,检测到扩充的初始关键词多于一个类别对应的情况下,将所述扩充的初始关键词在对应的类别中均删除。
[0036]根据本申请实施例的第二方面,提供了一种文本分类模型训练装置,包括:
[0037]构建模块,被配置为基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;
[0038]抽取模块,被配置为从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m<x;
[0039]训练模块,被配置为利用所述第一训练样本训练获得类别识别模型;
[0040]验证模块,被配置为利用所述第二训练样本对所述类别识别模型进行验证,并重复执行抽取模块、训练模块、验证模块直至确定所述类别识别模型满足验证条件。
[0041]根据本申请实施例的第三方面,提供了一种文本分类模型训练方法,包括:
[0042]接收待分类文本并进行分词处理得到第一分词集合;
[0043]将所述第一分词集合输入文本分类模型获得待分类文本的预测类别,其中,所述文本分类模型根据图2训练文本分类模型所述的方法训练得到。
[0044]可选地,将所述第一分词集合输入文本分类模型获得对应的文本类型包括:
[0045]将所述第一分词集合输入所述类别识别模型的编码层,得到第一文本向量;
[0046]将所述第一文本向量输入所述类别识别模型的分类层,得到第一分类向量;
[0047]将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别。...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型训练方法,其特征在于,包括:S1、基于初始关键词和初始语料构建训练样本集,其中,所述训练样本集中包括x种类别的初始语料,每个初始语料均对应有初始预测类别标签;S2、从所述训练样本集中抽取第一训练样本集和第二训练样本集,其中第一训练样本集包括所述x种类别中的m种类别的第一样本数据集,所述第二训练样本集中包括所述m种类别不同的所述第一样本数据集的第二样本数据集,m<x;S3、利用所述第一训练样本训练获得类别识别模型;S4、利用所述第二训练样本对所述类别识别模型进行验证,并重复执行步骤S2至步骤S4直至确定所述类别识别模型满足验证条件。2.根据权利要求1所述的方法,其特征在于,还包括:接收待识别新类别的新标签,获取所述新标签的标注语料并将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练。3.根据权利要求1所述的方法,其特征在于,利用所述第一训练样本集训练获得类别识别模型的过程包括:将所述第一训练样本集中的初始语料输入所述类别识别模型的编码层,得到第一训练样本向量;将所述第一训练样本向量输入所述类别识别模型的分类层,得到第一分类向量;将所述第一分类向量输入所述类别识别模型的关系构建层,获取所述第一分类向量的预测类别,将所述预测类别与初始预测类别标签比较获得误差,并基于所述误差对所述类别识别模型进行迭代训练,直至达到训练停止条件。4.根据权利要求1所述的方法,其特征在于,所述第二训练样本对所述类别识别模型进行验证,包括:将所述第二训练样本输入所述第一训练样本训练获得的类别识别模型中,计算由所述类别识别模型得到的标签与样本标签的相似度数据,若相似度数据达到规定阈值,得到训练完成的类别识别模型。5.根据权利要求2所述的方法,其特征在于,获取所述新标签的标注语料的步骤包括:设定新标签的第一关键词;使用预训练词向量对所述新标签的第一关键词进行扩充,得到新标签的第二关键词;使用新标签的第二关键词获取新语料,并提取出新语料的关键词;将新标签的第二关键词与新语料的关键词进行相似度计算,得到所述新标签的标注语料。6.根据权利要求1所述的方法,其特征在于,所述基于初始关键词和初始语料构建训练样本集的步骤包括:设定初始预测类别标签及对应初始预测类别标签的初始关键词;使用预训练词向量对初始关键词进行扩充;将所有初始关键词和初始语料向量化表示;对初始关键词向量进行处理,基于所述对初始关键词向量的处理,对初始语料进行处理,得到所述初始语料对应的所述初始预测类别标签;将带有所述初始预测类别标签的初始语料构成所述训练样本集。
7.根据权利要求2所述的方法,其特征在于,所述将新标签的标注语料输入所述类别识别模型对所述识别模型进行训练的过程包括:将所述新标签的标注语料中的初始语料输入所述类别识别模型的编码层,得到新标签样本向量;将所述新标签样本向量输入所述类别识别模型的分类层,得到新标签分类向量;将所述新标签分类向量...

【专利技术属性】
技术研发人员:刘畅李长亮郭馨泽
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1