一种给定关键词的文本分类方法、装置、电子设备及介质制造方法及图纸

技术编号:37782958 阅读:16 留言:0更新日期:2023-06-09 09:13
本发明专利技术涉及一种给定关键词的文本分类方法、装置、电子设备及介质,该方法包括:获取包含给定关键词的待分类文本;将所述待分类文本输入至预训练的文本分类模型,得到所述待分类文本的分类结果,其中,文本分类模型是基于包含给定关键词的文本得到的训练数据训练得到,且模型训练过程中的总损失值不但考虑到了该文本的训练结果和分类标签之间的损失值,还考虑到了该文本与相同分类结果对应的采样文本之间的损失值,使得训练得到的文本分类模型的精度更高,这样在基于本申请方案训练得到的文本分类模型进行分类时,可提高分类准确性,减少误杀。少误杀。少误杀。

【技术实现步骤摘要】
一种给定关键词的文本分类方法、装置、电子设备及介质


[0001]本专利技术涉及人工智能、自然语言处理、文本分类、深度学习
,具体而言,本专利技术涉及一种给定关键词的文本分类方法、装置、电子设备及介质。

技术介绍

[0002]语句分类是自然语言处理中的一个经典问题,而该问题的解决效果往往与数据质量有着密不可分的关系。而对于该问题,往往会出现一个不容忽视的现象,即部分关键词在特定场景下存在着特殊含义,但这部分特定场景对应的语句往往不具备特殊性。比如“伞兵”一次在特定情况下具有骂人的含义,然而单独的“你是伞兵么”一句话,人们难以分别其真实含义。而对于深度学习模型来说,这种样本往往会导致模型碰到包含这种关键词的语句便会认为是黑标签,从而导致误杀。
[0003]因此,现有技术中的文本分类模型不能够对包含给定关键词的文本进行准确的分类,容易出现误杀的现象。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供了一种给定关键词的文本分类方法、装置、电子设备及介质,旨在解决上述至少一个技术问题。
[0005]第一方面,本专利技术解决上述技术问题的技术方案如下:一种给定关键词的文本分类方法,该方法包括:
[0006]获取包含给定关键词的待分类文本;
[0007]将所述待分类文本输入至预训练的文本分类模型,得到所述待分类文本的分类结果,其中,所述文本分类模型是通过以下方式训练得到的:
[0008]获取包含多个给定关键词的关键词集合和包含多个文本的训练集合,对于所述训练集合中的每个文本,每个所述文本对应一个分类标签;
[0009]对于所述训练集合中的每个文本,根据所述文本对初始模型进行训练,得到所述文本对应的分类结果;
[0010]根据所述训练集合中每个所述文本的分类结果和分类标签,确定第一分类损失值;
[0011]将所述训练集合中包含所述关键词集合中的给定关键词的文本作为训练样本,对于所述训练集合中的每个文本,根据所述文本的分类标签,确定所述文本是否属于所述训练样本;
[0012]若所述文本属于所述训练样本,则从所述训练样本中选取一个文本作为所述文本对应的采样文本,并根据所述文本、所述文本的分类标签、所述文本对应的采样文本和所述采样文本的分类标签,确定所述文本对应的损失值,所述采样文本的分类标签与所述文本的分类标签均属于相同的分类结果;
[0013]根据所述第一分类损失值和所述训练集合中属于所述训练样本的每个所述文本
对应的损失值,确定所述初始模型的总损失值;
[0014]若所述训练集合中的每个文本均不属于所述训练样本,将所述第一分类损失值作为所述总损失值;
[0015]若所述总损失值满足预设的训练结束条件,则将满足所述训练结束条件的初始模型作为所述文本分类模型,若所述总损失值不满足所述训练结束条件,则调整所述初始模型的模型参数,并根据调整后的模型参数重新训练所述初始模型,直到所述总损失值满足所述训练结束条件。
[0016]本专利技术的有益效果是:在本申请方案中,通过包含给定关键词的关键词集合确定用于对初始模型进行训练的训练数据,该训练数据中有包含给定关键词的训练样本,还有不包含给定关键词的文本,这样可以基于丰富的训练数据使得训练好的文本分类模型对于包含给定关键词的文本进行准确的分类,另外,对于训练样本中的每个文本,不但考虑到了该文本的训练结果和分类标签之间的损失值,还考虑到了该文本与相同分类结果对应的采样文本之间的损失值,使得训练得到的文本分类模型的精度更高,这样在基于本申请方案训练得到的文本分类模型进行分类时,可提高分类准确性,减少误杀。
[0017]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0018]进一步,该方法还包括:
[0019]将所述训练样本划分为白样本和黑样本,所述白样本中的每个文本对应的分类结果不属于设定分类结果,所述黑样本中的每个文本对应的分类结果属于所述设定分类结果;
[0020]对于所述训练集合中的每个文本,所述从所述训练样本中选取一个文本作为所述文本对应的采样文本,包括:
[0021]根据所述文本的分类标签,确定所述文本是否属于所述白样本;
[0022]若所述文本属于所述白样本,则从所述白样本中选取一个文本作为所述文本对应的采样文本;
[0023]若所述文本属于所述黑样本,则从所述黑样本中选取一个文本作为所述文本对应的采样文本。
[0024]采用上述进一步方案的有益效果是,将训练样本划分为白样本和黑样本,可以进一步将训练样本进行细分,这样可使得确定的采样文本与对应的文本之间的分类结果更相近,进而使得模型训练精度更高。
[0025]进一步,对于所述训练集合中的每个文本,上述根据所述文本、所述文本的分类标签、所述文本对应的采样文本和所述采样文本的分类标签,确定所述文本对应的损失值,包括:
[0026]根据所述文本和所述文本对应的采样本文,确定混合文本向量;
[0027]根据所述文本的分类标签和所述采样文本的分类标签,确定混合标签向量;
[0028]对所述混合文本向量和所述混合标签向量进行交叉熵计算,得到所述文本对应的损失值。
[0029]采用上述进一步方案的有益效果是,将文本与采样文本之间进行混合,再将文本的分类标签和所述采样文本的分类标签之间进行混合,可以从不同的角度反映文本与对应的采样文本之间的差异。
[0030]进一步,上述根据所述文本和所述文本对应的采样本文,确定混合文本向量,包括:
[0031]将所述文本转换为第一词向量,根据所述第一词向量,通过所述初始模型,确定所述文本的第一隐向量;
[0032]将所述采样文本转换为第二词向量,根据所述第二词向量,通过所述初始模型,确定所述采样文本的第二隐向量;
[0033]根据所述第一隐向量和所述第二隐向量,确定所述混合文本向量。
[0034]采用上述进一步方案的有益效果是,通过先将文本转换为词向量,再通过初始模型确定的隐向量表达文本的形式,可以更准确的表达文本。
[0035]进一步,上述初始模型为M
init

[0036]采用上述进一步方案的有益效果是,通过M
init
可准确快速的训练得到文本分类模型。
[0037]第二方面,本专利技术为了解决上述技术问题还提供了一种给定关键词的文本分类装置,该装置包括:
[0038]文本获取模块,用于获取包含给定关键词的待分类文本;
[0039]文本分类模块,用于将所述待分类文本输入至预训练的文本分类模型,得到所述待分类文本的分类结果,其中,所述文本分类模型是通过以下方式训练得到的:
[0040]获取包含给定关键词的待分类文本;
[0041]将所述待分类文本输入至预训练的文本分类模型,得到所述待分类文本的分类结果,其中,所述文本分类模型是通过以下方式训练得到的:
[0042]获取包含多个给定关键本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种给定关键词的文本分类方法,其特征在于,包括以下步骤:获取包含给定关键词的待分类文本;将所述待分类文本输入至预训练的文本分类模型,得到所述待分类文本的分类结果,其中,所述文本分类模型是通过以下方式训练得到的:获取包含多个给定关键词的关键词集合和包含多个文本的训练集合,对于所述训练集合中的每个文本,每个所述文本对应一个分类标签;对于所述训练集合中的每个文本,根据所述文本对初始模型进行训练,得到所述文本对应的分类结果;根据所述训练集合中每个所述文本的分类结果和分类标签,确定第一分类损失值;将所述训练集合中包含所述关键词集合中的给定关键词的文本作为训练样本,对于所述训练集合中的每个文本,根据所述文本的分类标签,确定所述文本是否属于所述训练样本;若所述文本属于所述训练样本,则从所述训练样本中选取一个文本作为所述文本对应的采样文本,并根据所述文本、所述文本的分类标签、所述文本对应的采样文本和所述采样文本的分类标签,确定所述文本对应的损失值,所述采样文本的分类标签与所述文本的分类标签均属于相同的分类结果;根据所述第一分类损失值和所述训练集合中属于所述训练样本的每个所述文本对应的损失值,确定所述初始模型的总损失值;若所述训练集合中的每个文本均不属于所述训练样本,将所述第一分类损失值作为所述总损失值;若所述总损失值满足预设的训练结束条件,则将满足所述训练结束条件的初始模型作为所述文本分类模型,若所述总损失值不满足所述训练结束条件,则调整所述初始模型的模型参数,并根据调整后的模型参数重新训练所述初始模型,直到所述总损失值满足所述训练结束条件。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述训练样本划分为白样本和黑样本,所述白样本中的每个文本对应的分类结果不属于设定分类结果,所述黑样本中的每个文本对应的分类结果属于所述设定分类结果;对于所述训练集合中的每个文本,所述从所述训练样本中选取一个文本作为所述文本对应的采样文本,包括:根据所述文本的分类标签,确定所述文本是否属于所述白样本;若所述文本属于所述白样本,则从所述白样本中选取一个文本作为所述文本对应的采样文本;若所述文本属于所述黑样本,则从所述黑样本中选取一个文本作为所述文本对应的采样文本。3.根据权利要求1所述的方法,其特征在于,对于所述训练集合中的每个文本,所述根据所述文本、所述文本的分类标签、所述文本对应的采样文本和所述采样文本的分类标签,确定所述文本对应的损失值,包括:根据所述文本和所述文本对应的采样本文,确定混合文本向量;根据所述文本的分类标签和所述采样文本的分类标签,确定混合标签向量;
对所述混合文本向量和所述混合标签向量进行交叉熵计算,得到所述文本对应的损失值。4.根据权利要求3所述的方法,其特征在于,所述根据所述文本...

【专利技术属性】
技术研发人员:孙宇健
申请(专利权)人:数美天下北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1